Noticias de ciencia

de organizaciones de investigación

La computadora aprende a reconocer los sonidos viendo videos

El sistema de aprendizaje automático no requiere datos anotados a mano costosos

Fecha :: 1 de diciembre de 2016
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: En los últimos años, las computadoras se han vuelto notablemente buenas para reconocer el habla y las imágenes: piense en el software de dictado en la mayoría de los teléfonos celulares o en los algoritmos que identifican automáticamente a las personas en las fotos publicadas en Facebook. Pero el reconocimiento de los sonidos naturales se ha quedado atrás.La mayoría de los sistemas de reconocimiento automatizados, ya sea que procesen información de audio o visual, son el resultado del aprendizaje automático, en el que las computadoras buscan patrones en grandes compendios de datos de entrenamiento, dicen los investigadores.
Compartir :

HISTORIA COMPLETA

En los últimos años, las computadoras se han vuelto notablemente buenas para reconocer el habla y las imágenes: piense en el software de dictado en la mayoría de los teléfonos celulares o en los algoritmos que identifican automáticamente a las personas en las fotos publicadas en Facebook.

anuncio

Pero el reconocimiento de los sonidos naturales, como las multitudes que aplauden o las olas chocan, se ha quedado atrás. Esto se debe a que la mayoría de los sistemas de reconocimiento automatizados, ya sea que procesen información de audio o visual, son el resultado del aprendizaje automático, en el que las computadoras buscan patronesen grandes compendios de datos de entrenamiento. Por lo general, los datos de entrenamiento tienen que ser anotados primero a mano, lo cual es prohibitivamente costoso para todas las aplicaciones excepto las de mayor demanda.

Sin embargo, el reconocimiento de sonido puede ponerse al día, gracias a los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT. En la conferencia de Sistemas de Procesamiento de Información Neural la próxima semana, presentarán un sistema de reconocimiento de sonido que supera a sus predecesores, pero noNo requiere datos anotados a mano durante el entrenamiento.

En cambio, los investigadores entrenaron el sistema en video. Primero, los sistemas de visión por computadora existentes que reconocen escenas y objetos categorizan las imágenes en el video. El nuevo sistema luego encontró correlaciones entre esas categorías visuales y los sonidos naturales.

"La visión por computadora se ha vuelto tan buena que podemos transferirla a otros dominios", dice Carl Vondrick, un estudiante graduado del MIT en ingeniería eléctrica y ciencias de la computación y uno de los dos primeros autores del artículo. "Estamos aprovechando lo naturalsincronización entre visión y sonido. Escalamos con toneladas de video sin etiquetar para aprender a entender el sonido "

Los investigadores probaron su sistema en dos bases de datos estándar de grabaciones de sonido anotadas, y fue entre un 13 y un 15 por ciento más preciso que el sistema anterior de mejor rendimiento. En un conjunto de datos con 10 categorías de sonido diferentes, podría clasificar los sonidos con 92precisión porcentual, y en un conjunto de datos con 50 categorías, se realizó con una precisión del 74 por ciento. En esos mismos conjuntos de datos, los humanos tienen una precisión del 96 por ciento y 81 por ciento, respectivamente.

anuncio

"Incluso los humanos son ambiguos", dice Yusuf Aytar, el otro primer autor del artículo y un postdoc en el laboratorio del profesor de ingeniería eléctrica y ciencias de la computación del MIT, Antonio Torralba. Torralba es el coautor final del artículo.

"Hicimos un experimento con Carl", dice Aytar. "Carl estaba mirando el monitor de la computadora y no pude verlo. Reproducía una grabación y yo intentaba adivinar qué era. Resulta que estoes muy, muy difícil. Podría distinguir las suposiciones básicas de las exteriores, pero cuando se trata de los detalles: "¿Es un restaurante?", faltan esos detalles. Incluso para fines de anotación, la tarea es realmente difícil."

modalidades complementarias

Debido a que se necesita mucho menos poder para recopilar y procesar datos de audio que para recopilar y procesar datos visuales, los investigadores prevén que se podría usar un sistema de reconocimiento de sonido para mejorar la sensibilidad al contexto de los dispositivos móviles.

Cuando se combina con datos de GPS, por ejemplo, un sistema de reconocimiento de sonido podría determinar que un usuario de un teléfono celular está en una sala de cine y que la película ha comenzado, y el teléfono podría enrutar automáticamente las llamadas a un mensaje saliente pregrabado. Del mismo modo, el sonidoel reconocimiento podría mejorar la conciencia situacional de los robots autónomos.

anuncio

"Por ejemplo, piense en un auto sin conductor", dice Aytar. "Se acerca una ambulancia y el auto no lo ve. Si lo oye, puede hacer predicciones futuras para la ambulancia, qué caminotomará, simplemente basado en el sonido "

lenguaje visual

El sistema de aprendizaje automático de los investigadores es una red neuronal, llamada así porque su arquitectura se asemeja a la del cerebro humano. Una red neuronal consiste en nodos de procesamiento que, como las neuronas individuales, solo pueden realizar cálculos rudimentarios pero están densamente interconectados.La información, por ejemplo, los valores de píxel de una imagen digital, se alimenta a la capa inferior de nodos, que la procesa y la alimenta a la siguiente capa, que la procesa y la alimenta a la siguiente capa, y así sucesivamente.el proceso de capacitación modifica continuamente la configuración de los nodos individuales, hasta que la salida de la capa final realiza de manera confiable alguna clasificación de los datos, por ejemplo, identificando los objetos en la imagen.

Vondrick, Aytar y Torralba primero entrenaron una red neuronal en dos grandes conjuntos de imágenes anotadas: uno, el conjunto de datos ImageNet, contiene ejemplos etiquetados de imágenes de 1,000 objetos diferentes; el otro, el conjunto de datos de Lugares creado por el grupo de Torralba, contiene imágenes etiquetadas de 401 tipos de escenas diferentes, como un patio de recreo, dormitorio o sala de conferencias.

Una vez que se capacitó a la red, los investigadores le enviaron el video de 26 terabytes de datos de video descargados del sitio para compartir fotos Flickr. "Se trata de 2 millones de videos únicos", dice Vondrick. "Si los viera todos"de forma consecutiva, le tomaría unos dos años ". Luego entrenaron una segunda red neuronal en el audio de los mismos videos. El objetivo de la segunda red era predecir correctamente las etiquetas de objeto y escena producidas por la primera red.

El resultado fue una red que podía interpretar los sonidos naturales en términos de categorías de imágenes. Por ejemplo, podría determinar que el sonido del canto de los pájaros tiende a asociarse con escenas de bosque e imágenes de árboles, pájaros, casas de pájaros y comederos de pájaros.

Benchmarking

Sin embargo, para comparar el rendimiento de la red de reconocimiento de sonido con el de sus predecesores, los investigadores necesitaban una forma de traducir su lenguaje de imágenes al lenguaje familiar de los nombres de sonido. Así que formaron un sistema simple de aprendizaje automático para asociar las salidasde la red de reconocimiento de sonido con un conjunto de etiquetas de sonido estándar.

Para eso, los investigadores utilizaron una base de datos de audio anotado, una con 50 categorías de sonido y alrededor de 2,000 ejemplos. Esas anotaciones habían sido proporcionadas por humanos. Pero es mucho más fácil etiquetar 2,000 ejemplos que etiquetar 2 millones. Yla red de investigadores del MIT, capacitada primero en video sin etiquetar, superó significativamente a todas las redes anteriores capacitadas únicamente en los 2,000 ejemplos etiquetados.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionados por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

Instituto de Tecnología de Massachusetts. "La computadora aprende a reconocer los sonidos viendo videos: el sistema de aprendizaje automático no requiere datos costosos con anotaciones manuales". ScienceDaily. ScienceDaily, 1 de diciembre de 2016. .

Instituto de Tecnología de Massachusetts. 2016, 1 de diciembre. La computadora aprende a reconocer los sonidos viendo videos: el sistema de aprendizaje automático no requiere costosos datos anotados a mano. ScienceDaily . Recuperado el 8 de julio de 2020 de www.science-things.com/releases/2016/12/161201121026.htm

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

La computadora aprende a reconocer los sonidos viendo videos

El sistema de aprendizaje automático no requiere datos anotados a mano costosos

1

2

3

4

5

1

2

3

4

5

Un misterio cósmico: el telescopio de ESO captura la desaparición de una estrella masiva

Mayor concentración de metal en los cráteres de la luna proporciona nuevas ideas sobre su origen

Para encontrar agujeros negros gigantes, comience con Júpiter

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

matar el coronavirus con un dispositivo portátil de luz ultravioleta puede ser factible

¿Por qué las plantas son verdes?

Sin claves para el reino: el nuevo algoritmo de inicio de sesión único proporciona una privacidad superior

¿Cómo corre el riesgo de contraer un virus en un avión?

Hacia un láser lo suficientemente potente como para investigar un nuevo tipo de física

El poder colectivo de los cuerpos oscuros e helados del sistema solar

El viaje cósmico hacia la formación de estrellas y planetas

Nueva colección de estrellas, no nacidas en nuestra galaxia, descubiertas en la Vía Láctea

Ciencia detrás de la técnica tradicional de fabricación de mezcal

Los científicos crean un nuevo dispositivo para iluminar el camino para las tecnologías cuánticas

¿Qué hace que los barcos disminuyan o se detengan misteriosamente, aunque los motores estén funcionando?

Nueva evidencia ayuda a formar la reconstrucción digital del santuario medieval más importante

Hacer el plástico más transparente al tiempo que agrega conductividad eléctrica

La investigación refleja cómo la IA ve a través del espejo