Cuando abrimos los ojos, inmediatamente vemos nuestro entorno con gran detalle. La forma en que el cerebro puede formar estas representaciones ricamente detalladas del mundo tan rápidamente es uno de los mayores enigmas sin resolver en el estudio de la visión.
Los científicos que estudian el cerebro han intentado replicar este fenómeno utilizando modelos de visión por computadora, pero hasta ahora, los modelos líderes solo realizan tareas mucho más simples, como seleccionar un objeto o una cara contra un fondo abarrotado. Ahora, un equipo dirigido porLos científicos cognitivos del MIT han producido un modelo de computadora que captura la capacidad del sistema visual humano para generar rápidamente una descripción detallada de la escena a partir de una imagen, y ofrece una idea de cómo el cerebro logra esto.
"Lo que estábamos tratando de hacer en este trabajo es explicar cómo la percepción puede ser mucho más rica que simplemente pegar etiquetas semánticas en partes de una imagen, y explorar la cuestión de cómo vemos todo el mundo físico".dice Josh Tenenbaum, profesor de ciencias cognitivas computacionales y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT y el Centro de Cerebros, Mentes y Máquinas CBMM.
El nuevo modelo plantea que cuando el cerebro recibe información visual, realiza rápidamente una serie de cálculos que invierten los pasos que un programa de gráficos por computadora usaría para generar una representación 2D de una cara u otro objeto. Este tipo de modelo, conocidocomo gráficos inversos eficientes EIG, también se correlaciona bien con grabaciones eléctricas de regiones selectivas de la cara en los cerebros de primates no humanos, lo que sugiere que el sistema visual de primates puede organizarse de manera muy similar al modelo de computadora, dicen los investigadores.
Ilker Yildirim, un ex postdoc del MIT que ahora es profesor asistente de psicología en la Universidad de Yale, es el autor principal del artículo, que aparece hoy en Avances científicos . Tenenbaum y Winrich Freiwald, profesor de neurociencias y comportamiento en la Universidad Rockefeller, son los autores principales del estudio. Mario Belledonne, un estudiante graduado en Yale, también es autor.
gráficos inversos
Décadas de investigación sobre el sistema visual del cerebro han estudiado, en gran detalle, cómo la entrada de luz en la retina se transforma en escenas cohesivas. Esta comprensión ha ayudado a los investigadores de inteligencia artificial a desarrollar modelos informáticos que pueden replicar aspectos de este sistema, como reconocercaras u otros objetos.
"La visión es el aspecto funcional del cerebro que entendemos mejor, en humanos y otros animales", dice Tenenbaum. "Y la visión por computadora es una de las áreas más exitosas de IA en este momento. Damos por sentado que las máquinasahora puede mirar imágenes y reconocer rostros muy bien, y detectar otros tipos de objetos "
Sin embargo, incluso estos sofisticados sistemas de inteligencia artificial no se acercan a lo que puede hacer el sistema visual humano, dice Yildirim.
"Nuestros cerebros no solo detectan que hay un objeto allí, o reconocen y ponen una etiqueta en algo", dice. "Vemos todas las formas, la geometría, las superficies, las texturas. Vemos unmundo muy rico "
Hace más de un siglo, el médico, físico y filósofo Hermann von Helmholtz teorizó que el cerebro crea estas ricas representaciones al invertir el proceso de formación de imágenes. Supuso que el sistema visual incluye un generador de imágenes que se utilizaría, porPor ejemplo, para producir las caras que vemos durante los sueños. Hacer funcionar este generador en reversa permitiría que el cerebro trabaje hacia atrás desde la imagen e infiera qué tipo de cara u otro objeto produciría esa imagen, dicen los investigadores.
Sin embargo, la pregunta seguía siendo: ¿cómo podría el cerebro realizar este proceso, conocido como gráficos inversos, tan rápidamente? Los informáticos han intentado crear algoritmos que podrían realizar esta hazaña, pero los mejores sistemas anteriores requieren muchos ciclos de procesamiento iterativo, tomandoMucho más de los 100 a 200 milisegundos que requiere el cerebro para crear una representación visual detallada de lo que está viendo. Los neurocientíficos creen que la percepción en el cerebro puede proceder tan rápido porque se implementa en un paso mayormente alimentado a través de varias capas neuronales organizadas jerárquicamenteProcesando.
El equipo liderado por el MIT se propuso construir un tipo especial de modelo de red neuronal profunda para mostrar cómo una jerarquía neuronal puede inferir rápidamente las características subyacentes de una escena, en este caso, una cara específica. En contraste con el estándar profundoLas redes neuronales utilizadas en la visión por computadora, que se entrenan a partir de datos etiquetados que indican la clase de un objeto en la imagen, la red de investigadores se entrena a partir de un modelo que refleja las representaciones internas del cerebro de cómo pueden verse las escenas con caras.
Su modelo aprende a invertir los pasos realizados por un programa de gráficos por computadora para generar caras. Estos programas gráficos comienzan con una representación tridimensional de una cara individual y luego la convierten en una imagen bidimensional, como se ve desde una imagen particularpunto de vista. Estas imágenes se pueden colocar en una imagen de fondo arbitraria. Los investigadores teorizan que el sistema visual del cerebro puede hacer algo similar cuando sueña o evoca una imagen mental de la cara de alguien.
Los investigadores entrenaron a su red neuronal profunda para realizar estos pasos a la inversa, es decir, comienza con la imagen 2D y luego agrega características como textura, curvatura e iluminación, para crear lo que los investigadores llaman "2.5D"representación. Estas imágenes 2.5D especifican la forma y el color de la cara desde un punto de vista particular. Luego se convierten en representaciones 3D, que no dependen del punto de vista.
"El modelo da una cuenta a nivel de sistemas del procesamiento de caras en el cerebro, lo que le permite ver una imagen y finalmente llegar a un objeto 3D, que incluye representaciones de forma y textura, a través de esta importante etapa intermedia de 2.5D imagen ", dice Yildirim.
rendimiento del modelo
Los investigadores encontraron que su modelo es consistente con los datos obtenidos al estudiar ciertas regiones en los cerebros de los monos macacos. En un estudio publicado en 2010, Freiwald y Doris Tsao de Caltech registraron la actividad de las neuronas en esas regiones y analizaron cómo respondierona 25 caras diferentes, vistas desde siete puntos de vista diferentes. Ese estudio reveló tres etapas de procesamiento de caras de nivel superior, que el equipo del MIT ahora hipotetiza corresponden a tres etapas de su modelo gráfico inverso: aproximadamente, una etapa 2.5D dependiente del punto de vista;etapa que une de 2.5 a 3D; y una etapa 3D de representación de caras invariante en el punto de vista.
"Lo que mostramos es que tanto las propiedades de respuesta cuantitativa como cualitativa de esos tres niveles del cerebro parecen encajar notablemente bien con los tres niveles superiores de la red que hemos construido", dice Tenenbaum.
Los investigadores también compararon el rendimiento del modelo con el de los humanos en una tarea que implica reconocer caras desde diferentes puntos de vista. Esta tarea se vuelve más difícil cuando los investigadores alteran las caras al eliminar la textura de la cara mientras se preserva su forma, o distorsionar la forma mientras se preserva la relativaEl rendimiento del nuevo modelo fue mucho más similar al de los humanos que los modelos de computadora utilizados en el software de reconocimiento facial más avanzado, evidencia adicional de que este modelo puede estar más cerca de imitar lo que sucede en el sistema visual humano.
Los investigadores ahora planean continuar probando el enfoque de modelado en imágenes adicionales, incluidos los objetos que no son caras, para investigar si los gráficos inversos también podrían explicar cómo el cerebro percibe otros tipos de escenas. Además, creen que adaptar este enfoquea la visión por computadora podría conducir a mejores sistemas de IA.
"Si podemos mostrar evidencia de que estos modelos podrían corresponder a la forma en que funciona el cerebro, este trabajo podría llevar a los investigadores de visión por computadora a tomarse más en serio e invertir más recursos de ingeniería en este enfoque de percepción de gráficos inversos", dice Tenenbaum. "El cerebrosigue siendo el estándar de oro para cualquier tipo de máquina que vea el mundo de manera rica y rápida "
La investigación fue financiada por el Centro de Cerebros, Mentes y Máquinas del MIT, la National Science Foundation, el National Eye Institute, la Office of Naval Research, la New York Stem Cell Foundation, el Toyota Research Institute y Mitsubishi Electric.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Anne Trafton. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :