Cada vez más, los sistemas de inteligencia artificial conocidos como redes neuronales de aprendizaje profundo se utilizan para informar decisiones vitales para la salud y la seguridad humanas, como la conducción autónoma o el diagnóstico médico. Estas redes son buenas para reconocer patrones en conjuntos de datos grandes y complejos para ayudar en la toma de decisionesPero, ¿cómo sabemos que son correctos? Alexander Amini y sus colegas del MIT y la Universidad de Harvard querían averiguarlo.
Han desarrollado una forma rápida para que una red neuronal procese datos y genere no solo una predicción, sino también el nivel de confianza del modelo en función de la calidad de los datos disponibles. El avance podría salvar vidas, ya que el aprendizaje profundo ya se está desarrollando.implementado en el mundo real hoy. El nivel de certeza de una red puede ser la diferencia entre un vehículo autónomo que determina que "está todo claro para avanzar a través de la intersección" y "probablemente está claro, así que deténgase por si acaso".
Los métodos actuales de estimación de la incertidumbre para las redes neuronales tienden a ser computacionalmente costosos y relativamente lentos para las decisiones en una fracción de segundo. Pero el enfoque de Amini, denominado "regresión evidencial profunda", acelera el proceso y podría conducir a resultados más seguros ". Necesitamos la capacidadno solo para tener modelos de alto rendimiento, sino también para entender cuándo no podemos confiar en esos modelos ", dice Amini, estudiante de doctorado en el grupo de la profesora Daniela Rus en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT CSAIL.
"Esta idea es importante y aplicable en general. Se puede utilizar para evaluar productos que se basan en modelos aprendidos. Al estimar la incertidumbre de un modelo aprendido, también aprendemos cuánto error esperar del modelo y qué datos faltantes podríanmejorar el modelo ", dice Rus.
Amini presentará la investigación en la conferencia NeurIPS del próximo mes, junto con Rus, quien es el profesor Andrew y Erna Viterbi de Ingeniería Eléctrica y Ciencias de la Computación, director de CSAIL y vicedecano de investigación del MIT Stephen A. Schwarzman College ofComputación; y los estudiantes graduados Wilko Schwarting del MIT y Ava Soleimany del MIT y Harvard.
incertidumbre eficiente
Después de un historial de altibajos, el aprendizaje profundo ha demostrado un rendimiento notable en una variedad de tareas, en algunos casos incluso superando la precisión humana. Y hoy en día, el aprendizaje profundo parece ir dondequiera que vayan las computadoras. Impulsa los resultados de los motores de búsqueda, redes socialesmedios de comunicación y reconocimiento facial. "Hemos tenido un gran éxito con el aprendizaje profundo", dice Amini. "Las redes neuronales son realmente buenas para saber la respuesta correcta el 99 por ciento de las veces". Pero el 99 por ciento no lo logrará cuando hayaestán en la línea.
"Una cosa que ha eludido a los investigadores es la capacidad de estos modelos para saber y decirnos cuándo podrían estar equivocados", dice Amini. "Realmente nos importa ese 1% de las veces y cómo podemos detectar esas situaciones de manera confiabley eficientemente ".
Las redes neuronales pueden ser masivas, a veces rebosantes de miles de millones de parámetros. Por lo tanto, puede ser un gran esfuerzo computacional solo para obtener una respuesta, y mucho menos un nivel de confianza. El análisis de incertidumbre en las redes neuronales no es nuevo. Pero los enfoques anteriores, derivadosdel aprendizaje profundo bayesiano, se han basado en ejecutar, o muestrear, una red neuronal muchas veces para comprender su confianza. Ese proceso requiere tiempo y memoria, un lujo que podría no existir en el tráfico de alta velocidad.
Los investigadores idearon una manera de estimar la incertidumbre a partir de una sola ejecución de la red neuronal. Diseñaron la red con una salida aumentada, produciendo no solo una decisión, sino también una nueva distribución probabilística que captura la evidencia en apoyo de esa decisión.Las distribuciones, denominadas distribuciones probatorias, capturan directamente la confianza del modelo en su predicción. Esto incluye cualquier incertidumbre presente en los datos de entrada subyacentes, así como en la decisión final del modelo. Esta distinción puede indicar si la incertidumbre se puede reducir modificando la red neuronal misma, o si los datos de entrada son simplemente ruidosos.
verificación de confianza
Para poner su enfoque a prueba, los investigadores comenzaron con una desafiante tarea de visión por computadora. Entrenaron su red neuronal para analizar una imagen en color monocular y estimar un valor de profundidad es decir, la distancia desde la lente de la cámara para cada píxel.El vehículo podría usar cálculos similares para estimar su proximidad a un peatón oa otro vehículo, lo cual no es una tarea sencilla.
El rendimiento de su red estaba a la par con los modelos anteriores de vanguardia, pero también ganó la capacidad de estimar su propia incertidumbre. Como esperaban los investigadores, la red proyectaba una alta incertidumbre para los píxeles en los que predijo la profundidad incorrecta. "Estaba muy calibrado para los errores que comete la red, que creemos que fue una de las cosas más importantes para juzgar la calidad de un nuevo estimador de incertidumbre", dice Amini.
Para probar su calibración, el equipo también mostró que la red proyectaba una mayor incertidumbre para los datos "fuera de distribución": tipos de imágenes completamente nuevos que nunca se encontraron durante el entrenamiento. Después de entrenar la red en escenas domésticas interiores,lo alimentaron con una serie de escenas de conducción al aire libre. La red advirtió constantemente que sus respuestas a las nuevas escenas al aire libre eran inciertas. La prueba destacó la capacidad de la red para señalar cuándo los usuarios no deben confiar plenamente en sus decisiones. En estos casos, "siesta es una aplicación para el cuidado de la salud, tal vez no confiamos en el diagnóstico que está dando el modelo, y en su lugar buscamos una segunda opinión ", dice Amini.
La red incluso sabía cuándo se habían manipulado las fotos, lo que podría protegerse contra los ataques de manipulación de datos. En otro ensayo, los investigadores aumentaron los niveles de ruido del adversario en un lote de imágenes que enviaron a la red. El efecto fue sutil, apenas perceptible parael ojo humano, pero la red olfateó esas imágenes, etiquetando su salida con altos niveles de incertidumbre. Esta capacidad de hacer sonar la alarma sobre datos falsificados podría ayudar a detectar y disuadir ataques de adversarios, una preocupación creciente en la era de las falsificaciones.
La regresión evidencial profunda es "un enfoque simple y elegante que avanza en el campo de la estimación de la incertidumbre, que es importante para la robótica y otros sistemas de control del mundo real", dice Raia Hadsell, investigadora de inteligencia artificial en DeepMind que no participó en el"Esto se hace de una manera novedosa que evita algunos de los aspectos desordenados de otros enfoques, por ejemplo, muestreo o conjuntos, lo que lo hace no solo elegante sino también computacionalmente más eficiente, una combinación ganadora".
La regresión evidencial profunda podría mejorar la seguridad en la toma de decisiones asistida por IA. "Estamos comenzando a ver muchos más de estos modelos [de redes neuronales] salir del laboratorio de investigación y entrar en el mundo real, en situaciones que afectan a los humanos.con consecuencias potencialmente mortales ", dice Amini." Cualquier usuario del método, ya sea un médico o una persona en el asiento del pasajero de un vehículo, debe ser consciente de cualquier riesgo o incertidumbre asociados con esa decisión ". Él prevéel sistema no solo señala rápidamente la incertidumbre, sino que también lo usa para tomar decisiones más conservadoras en escenarios de riesgo, como un vehículo autónomo que se acerca a una intersección.
"Cualquier campo que vaya a tener aprendizaje automático implementable, en última instancia, debe tener un conocimiento confiable de la incertidumbre", dice.
Este trabajo fue apoyado, en parte, por la National Science Foundation y el Toyota Research Institute a través del Toyota-CSAIL Joint Research Center.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Daniel Ackerman. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :