Utilizando un sistema de aprendizaje automático conocido como una red neuronal profunda, los investigadores del MIT han creado el primer modelo que puede replicar el rendimiento humano en tareas auditivas como la identificación de un género musical.
Este modelo, que consta de muchas capas de unidades de procesamiento de información que pueden ser entrenadas en grandes volúmenes de datos para realizar tareas específicas, fue utilizado por los investigadores para arrojar luz sobre cómo el cerebro humano puede estar realizando las mismas tareas.
"Lo que nos dan estos modelos, por primera vez, son sistemas de máquinas que pueden realizar tareas sensoriales que son importantes para los humanos y que lo hacen a niveles humanos", dice Josh McDermott, Frederick A. y Carole J. Middleton Profesor Asistentede Neurociencia en el Departamento de Ciencias Cerebrales y Cognitivas del MIT y el autor principal del estudio. "Históricamente, este tipo de procesamiento sensorial ha sido difícil de entender, en parte porque realmente no hemos tenido una base teórica muy clara y unbuena manera de desarrollar modelos de lo que podría estar pasando "
El estudio, que aparece en la edición del 19 de abril de neurona , también ofrece evidencia de que la corteza auditiva humana está organizada en una organización jerárquica, muy similar a la corteza visual. En este tipo de disposición, la información sensorial pasa por etapas sucesivas de procesamiento, con información básica procesada antes y características más avanzadas comosignificado de la palabra extraído en etapas posteriores.
El estudiante graduado del MIT Alexander Kell y el profesor asistente de la Universidad de Stanford Daniel Yamins son los autores principales del artículo. Otros autores son la ex estudiante visitante del MIT Erica Shook y el ex postdoctorado del MIT Sam Norman-Haignere.
Modelando el cerebro
Cuando las redes neuronales profundas se desarrollaron por primera vez en la década de 1980, los neurocientíficos esperaban que tales sistemas pudieran usarse para modelar el cerebro humano. Sin embargo, las computadoras de esa época no eran lo suficientemente potentes como para construir modelos lo suficientemente grandes como para realizar tareas del mundo real comoreconocimiento de objetos o reconocimiento de voz.
En los últimos cinco años, los avances en potencia informática y tecnología de redes neuronales han permitido utilizar redes neuronales para realizar tareas difíciles del mundo real, y se han convertido en el enfoque estándar en muchas aplicaciones de ingeniería. En paralelo, algunos neurocientíficos hanrevisó la posibilidad de que estos sistemas puedan usarse para modelar el cerebro humano.
"Esa ha sido una oportunidad emocionante para la neurociencia, ya que en realidad podemos crear sistemas que pueden hacer algunas de las cosas que las personas pueden hacer, y luego podemos interrogar a los modelos y compararlos con el cerebro", dice Kell.
Los investigadores del MIT entrenaron su red neuronal para realizar dos tareas auditivas, una que involucra el habla y la otra que involucra la música. Para la tarea del habla, los investigadores le dieron al modelo miles de grabaciones de dos segundos de una persona hablando. La tarea era identificarla palabra en el medio del clip. Para la tarea de música, se le pidió al modelo que identificara el género de un clip de música de dos segundos. Cada clip también incluía ruido de fondo para hacer la tarea más realista y más difícil.
Después de muchos miles de ejemplos, el modelo aprendió a realizar la tarea con la misma precisión que un oyente humano.
"La idea es que con el tiempo el modelo mejora y mejora en la tarea", dice Kell. "La esperanza es que esté aprendiendo algo general, así que si presenta un nuevo sonido que el modelo nunca ha escuchado antes, lo harábueno, y en la práctica ese suele ser el caso "
El modelo también tiende a cometer errores en los mismos clips en los que los humanos cometieron más errores.
Las unidades de procesamiento que conforman una red neuronal se pueden combinar de varias maneras, formando diferentes arquitecturas que afectan el rendimiento del modelo.
El equipo del MIT descubrió que el mejor modelo para estas dos tareas era uno que dividía el procesamiento en dos conjuntos de etapas. El primer conjunto de etapas se compartió entre las tareas, pero después de eso, se dividió en dos ramas para su posterior análisis:una rama para la tarea de habla y otra para la tarea de género musical.
Evidencia de jerarquía
Luego, los investigadores utilizaron su modelo para explorar una larga pregunta sobre la estructura de la corteza auditiva: si está organizada jerárquicamente.
En un sistema jerárquico, una serie de regiones cerebrales realiza diferentes tipos de cómputo de la información sensorial a medida que fluye a través del sistema. Está bien documentado que la corteza visual tiene este tipo de organización. Regiones anteriores, conocidas como la visual primariaCortex, responda a características simples como el color o la orientación. Las etapas posteriores permiten tareas más complejas como el reconocimiento de objetos.
Sin embargo, ha sido difícil probar si este tipo de organización también existe en la corteza auditiva, en parte porque no ha habido buenos modelos que puedan replicar el comportamiento auditivo humano.
"Pensamos que si pudiéramos construir un modelo que pudiera hacer algunas de las mismas cosas que las personas, podríamos comparar diferentes etapas del modelo con diferentes partes del cerebro y obtener alguna evidencia de si esas partesdel cerebro podría estar jerárquicamente organizado ", dice McDermott.
Los investigadores descubrieron que en su modelo, las características básicas del sonido, como la frecuencia, son más fáciles de extraer en las primeras etapas. A medida que la información se procesa y avanza a lo largo de la red, se hace más difícil extraer la frecuencia pero es más fácil extraer el nivel superiorinformación como palabras.
Para ver si las etapas del modelo podrían replicar cómo la corteza auditiva humana procesa la información del sonido, los investigadores utilizaron imágenes de resonancia magnética funcional fMRI para medir diferentes regiones de la corteza auditiva a medida que el cerebro procesa sonidos del mundo real. Luego compararon el cerebrorespuestas a las respuestas en el modelo cuando procesó los mismos sonidos.
Descubrieron que las etapas intermedias del modelo correspondían mejor a la actividad en la corteza auditiva primaria, y las etapas posteriores correspondían mejor a la actividad fuera de la corteza primaria. Esto proporciona evidencia de que la corteza auditiva podría estar organizada de manera jerárquica, similara la corteza visual, dicen los investigadores.
"Lo que vemos muy claramente es una distinción entre la corteza auditiva primaria y todo lo demás", dice McDermott.
Los autores ahora planean desarrollar modelos que puedan realizar otros tipos de tareas auditivas, como determinar la ubicación de donde proviene un sonido en particular, para explorar si estas tareas pueden realizarse por las vías identificadas en este modelo o si requierenvías, que luego podrían investigarse en el cerebro.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :