Noticias de ciencia

de organizaciones de investigación

El sistema de aprendizaje automático procesa los sonidos como lo hacen los humanos

Los neurocientíficos entrenan una red neuronal profunda para analizar el habla y la música

Fecha :: 19 de abril de 2018
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Utilizando un sistema de aprendizaje automático conocido como una red neuronal profunda, los investigadores han creado el primer modelo que puede replicar el desempeño humano en tareas auditivas como identificar un género musical. Este tipo de modelo puede arrojar luz sobre cómo puede ser el cerebro humanorealizando las mismas tareas.
Compartir :

HISTORIA COMPLETA

Utilizando un sistema de aprendizaje automático conocido como una red neuronal profunda, los investigadores del MIT han creado el primer modelo que puede replicar el rendimiento humano en tareas auditivas como la identificación de un género musical.

anuncio

Este modelo, que consta de muchas capas de unidades de procesamiento de información que pueden ser entrenadas en grandes volúmenes de datos para realizar tareas específicas, fue utilizado por los investigadores para arrojar luz sobre cómo el cerebro humano puede estar realizando las mismas tareas.

"Lo que nos dan estos modelos, por primera vez, son sistemas de máquinas que pueden realizar tareas sensoriales que son importantes para los humanos y que lo hacen a niveles humanos", dice Josh McDermott, Frederick A. y Carole J. Middleton Profesor Asistentede Neurociencia en el Departamento de Ciencias Cerebrales y Cognitivas del MIT y el autor principal del estudio. "Históricamente, este tipo de procesamiento sensorial ha sido difícil de entender, en parte porque realmente no hemos tenido una base teórica muy clara y unbuena manera de desarrollar modelos de lo que podría estar pasando "

El estudio, que aparece en la edición del 19 de abril de neurona , también ofrece evidencia de que la corteza auditiva humana está organizada en una organización jerárquica, muy similar a la corteza visual. En este tipo de disposición, la información sensorial pasa por etapas sucesivas de procesamiento, con información básica procesada antes y características más avanzadas comosignificado de la palabra extraído en etapas posteriores.

El estudiante graduado del MIT Alexander Kell y el profesor asistente de la Universidad de Stanford Daniel Yamins son los autores principales del artículo. Otros autores son la ex estudiante visitante del MIT Erica Shook y el ex postdoctorado del MIT Sam Norman-Haignere.

Modelando el cerebro

Cuando las redes neuronales profundas se desarrollaron por primera vez en la década de 1980, los neurocientíficos esperaban que tales sistemas pudieran usarse para modelar el cerebro humano. Sin embargo, las computadoras de esa época no eran lo suficientemente potentes como para construir modelos lo suficientemente grandes como para realizar tareas del mundo real comoreconocimiento de objetos o reconocimiento de voz.

anuncio

En los últimos cinco años, los avances en potencia informática y tecnología de redes neuronales han permitido utilizar redes neuronales para realizar tareas difíciles del mundo real, y se han convertido en el enfoque estándar en muchas aplicaciones de ingeniería. En paralelo, algunos neurocientíficos hanrevisó la posibilidad de que estos sistemas puedan usarse para modelar el cerebro humano.

"Esa ha sido una oportunidad emocionante para la neurociencia, ya que en realidad podemos crear sistemas que pueden hacer algunas de las cosas que las personas pueden hacer, y luego podemos interrogar a los modelos y compararlos con el cerebro", dice Kell.

Los investigadores del MIT entrenaron su red neuronal para realizar dos tareas auditivas, una que involucra el habla y la otra que involucra la música. Para la tarea del habla, los investigadores le dieron al modelo miles de grabaciones de dos segundos de una persona hablando. La tarea era identificarla palabra en el medio del clip. Para la tarea de música, se le pidió al modelo que identificara el género de un clip de música de dos segundos. Cada clip también incluía ruido de fondo para hacer la tarea más realista y más difícil.

Después de muchos miles de ejemplos, el modelo aprendió a realizar la tarea con la misma precisión que un oyente humano.

"La idea es que con el tiempo el modelo mejora y mejora en la tarea", dice Kell. "La esperanza es que esté aprendiendo algo general, así que si presenta un nuevo sonido que el modelo nunca ha escuchado antes, lo harábueno, y en la práctica ese suele ser el caso "

El modelo también tiende a cometer errores en los mismos clips en los que los humanos cometieron más errores.

anuncio

Las unidades de procesamiento que conforman una red neuronal se pueden combinar de varias maneras, formando diferentes arquitecturas que afectan el rendimiento del modelo.

El equipo del MIT descubrió que el mejor modelo para estas dos tareas era uno que dividía el procesamiento en dos conjuntos de etapas. El primer conjunto de etapas se compartió entre las tareas, pero después de eso, se dividió en dos ramas para su posterior análisis:una rama para la tarea de habla y otra para la tarea de género musical.

Evidencia de jerarquía

Luego, los investigadores utilizaron su modelo para explorar una larga pregunta sobre la estructura de la corteza auditiva: si está organizada jerárquicamente.

En un sistema jerárquico, una serie de regiones cerebrales realiza diferentes tipos de cómputo de la información sensorial a medida que fluye a través del sistema. Está bien documentado que la corteza visual tiene este tipo de organización. Regiones anteriores, conocidas como la visual primariaCortex, responda a características simples como el color o la orientación. Las etapas posteriores permiten tareas más complejas como el reconocimiento de objetos.

Sin embargo, ha sido difícil probar si este tipo de organización también existe en la corteza auditiva, en parte porque no ha habido buenos modelos que puedan replicar el comportamiento auditivo humano.

"Pensamos que si pudiéramos construir un modelo que pudiera hacer algunas de las mismas cosas que las personas, podríamos comparar diferentes etapas del modelo con diferentes partes del cerebro y obtener alguna evidencia de si esas partesdel cerebro podría estar jerárquicamente organizado ", dice McDermott.

Los investigadores descubrieron que en su modelo, las características básicas del sonido, como la frecuencia, son más fáciles de extraer en las primeras etapas. A medida que la información se procesa y avanza a lo largo de la red, se hace más difícil extraer la frecuencia pero es más fácil extraer el nivel superiorinformación como palabras.

Para ver si las etapas del modelo podrían replicar cómo la corteza auditiva humana procesa la información del sonido, los investigadores utilizaron imágenes de resonancia magnética funcional fMRI para medir diferentes regiones de la corteza auditiva a medida que el cerebro procesa sonidos del mundo real. Luego compararon el cerebrorespuestas a las respuestas en el modelo cuando procesó los mismos sonidos.

Descubrieron que las etapas intermedias del modelo correspondían mejor a la actividad en la corteza auditiva primaria, y las etapas posteriores correspondían mejor a la actividad fuera de la corteza primaria. Esto proporciona evidencia de que la corteza auditiva podría estar organizada de manera jerárquica, similara la corteza visual, dicen los investigadores.

"Lo que vemos muy claramente es una distinción entre la corteza auditiva primaria y todo lo demás", dice McDermott.

Los autores ahora planean desarrollar modelos que puedan realizar otros tipos de tareas auditivas, como determinar la ubicación de donde proviene un sonido en particular, para explorar si estas tareas pueden realizarse por las vías identificadas en este modelo o si requierenvías, que luego podrían investigarse en el cerebro.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Alexander JE Kell, Daniel LK Yamins, Erica N. Shook, Sam V. Norman-Haignere, Josh H. McDermott. Una red neuronal optimizada para tareas replica el comportamiento auditivo humano, predice las respuestas cerebrales y revela una jerarquía de procesamiento cortical . neurona , 2018; DOI: 10.1016 / j.neuron.2018.03.044

Cita esta página :

Instituto de Tecnología de Massachusetts. "El sistema de aprendizaje automático procesa los sonidos como lo hacen los humanos: los neurocientíficos entrenan una red neuronal profunda para analizar el habla y la música". ScienceDaily. ScienceDaily, 19 de abril de 2018. .

Massachusetts Institute of Technology. 2018, 19 de abril. El sistema de aprendizaje automático procesa los sonidos como lo hacen los humanos: los neurocientíficos entrenan una red neuronal profunda para analizar el habla y la música. ScienceDaily . Recuperado el 24 de julio de 2020 de www.science-things.com/releases/2018/04/180419131106.htm

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

El sistema de aprendizaje automático procesa los sonidos como lo hacen los humanos

Los neurocientíficos entrenan una red neuronal profunda para analizar el habla y la música

1

2

3

4

5

1

2

3

4

5

Los niños rara vez transmiten COVID-19, los médicos escriben en nuevos comentarios

Resultados de la prueba de falso negativo COVID-19 si se usa demasiado temprano

Pérdida de olor y sabor validado como síntomas de COVID-19 en pacientes con alta tasa de recuperación

Las imágenes de resonancia magnética de los cerebros de 130 mamíferos, incluidos los humanos, indican una conectividad igual

Mejora de la vista mejorada al observar la luz roja profunda

Los neurocientíficos explican cómo funciona la sensación de congelación cerebral

Mascarillas críticas para prevenir la propagación de COVID-19

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

La razón que pone los pelos de punta para poner la piel de gallina

El bloqueo de COVID-19 causó una reducción global del 50 por ciento en las vibraciones de la tierra ligadas a los humanos

Los neandertales pueden haber tenido un umbral más bajo para el dolor

Los antibióticos interrumpen el desarrollo del 'cerebro social' en ratones

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

¡Muévete, Siri! Los investigadores desarrollan Chatbot basado en la mejora

Creado 'neurotransistor artificial'

Dando a los robots una percepción humana de sus entornos físicos

Paso de tiempo distorsionado durante el bloqueo de COVID-19

Nuestra herencia animal: los humanos también levantan las orejas cuando escuchan sonidos interesantes