En los últimos años, las computadoras se han vuelto notablemente buenas para reconocer el habla y las imágenes: piense en el software de dictado en la mayoría de los teléfonos celulares o en los algoritmos que identifican automáticamente a las personas en las fotos publicadas en Facebook.
Pero el reconocimiento de los sonidos naturales, como las multitudes que aplauden o las olas chocan, se ha quedado atrás. Esto se debe a que la mayoría de los sistemas de reconocimiento automatizados, ya sea que procesen información de audio o visual, son el resultado del aprendizaje automático, en el que las computadoras buscan patronesen grandes compendios de datos de entrenamiento. Por lo general, los datos de entrenamiento tienen que ser anotados primero a mano, lo cual es prohibitivamente costoso para todas las aplicaciones excepto las de mayor demanda.
Sin embargo, el reconocimiento de sonido puede ponerse al día, gracias a los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT. En la conferencia de Sistemas de Procesamiento de Información Neural la próxima semana, presentarán un sistema de reconocimiento de sonido que supera a sus predecesores, pero noNo requiere datos anotados a mano durante el entrenamiento.
En cambio, los investigadores entrenaron el sistema en video. Primero, los sistemas de visión por computadora existentes que reconocen escenas y objetos categorizan las imágenes en el video. El nuevo sistema luego encontró correlaciones entre esas categorías visuales y los sonidos naturales.
"La visión por computadora se ha vuelto tan buena que podemos transferirla a otros dominios", dice Carl Vondrick, un estudiante graduado del MIT en ingeniería eléctrica y ciencias de la computación y uno de los dos primeros autores del artículo. "Estamos aprovechando lo naturalsincronización entre visión y sonido. Escalamos con toneladas de video sin etiquetar para aprender a entender el sonido "
Los investigadores probaron su sistema en dos bases de datos estándar de grabaciones de sonido anotadas, y fue entre un 13 y un 15 por ciento más preciso que el sistema anterior de mejor rendimiento. En un conjunto de datos con 10 categorías de sonido diferentes, podría clasificar los sonidos con 92precisión porcentual, y en un conjunto de datos con 50 categorías, se realizó con una precisión del 74 por ciento. En esos mismos conjuntos de datos, los humanos tienen una precisión del 96 por ciento y 81 por ciento, respectivamente.
"Incluso los humanos son ambiguos", dice Yusuf Aytar, el otro primer autor del artículo y un postdoc en el laboratorio del profesor de ingeniería eléctrica y ciencias de la computación del MIT, Antonio Torralba. Torralba es el coautor final del artículo.
"Hicimos un experimento con Carl", dice Aytar. "Carl estaba mirando el monitor de la computadora y no pude verlo. Reproducía una grabación y yo intentaba adivinar qué era. Resulta que estoes muy, muy difícil. Podría distinguir las suposiciones básicas de las exteriores, pero cuando se trata de los detalles: "¿Es un restaurante?", faltan esos detalles. Incluso para fines de anotación, la tarea es realmente difícil."
modalidades complementarias
Debido a que se necesita mucho menos poder para recopilar y procesar datos de audio que para recopilar y procesar datos visuales, los investigadores prevén que se podría usar un sistema de reconocimiento de sonido para mejorar la sensibilidad al contexto de los dispositivos móviles.
Cuando se combina con datos de GPS, por ejemplo, un sistema de reconocimiento de sonido podría determinar que un usuario de un teléfono celular está en una sala de cine y que la película ha comenzado, y el teléfono podría enrutar automáticamente las llamadas a un mensaje saliente pregrabado. Del mismo modo, el sonidoel reconocimiento podría mejorar la conciencia situacional de los robots autónomos.
"Por ejemplo, piense en un auto sin conductor", dice Aytar. "Se acerca una ambulancia y el auto no lo ve. Si lo oye, puede hacer predicciones futuras para la ambulancia, qué caminotomará, simplemente basado en el sonido "
lenguaje visual
El sistema de aprendizaje automático de los investigadores es una red neuronal, llamada así porque su arquitectura se asemeja a la del cerebro humano. Una red neuronal consiste en nodos de procesamiento que, como las neuronas individuales, solo pueden realizar cálculos rudimentarios pero están densamente interconectados.La información, por ejemplo, los valores de píxel de una imagen digital, se alimenta a la capa inferior de nodos, que la procesa y la alimenta a la siguiente capa, que la procesa y la alimenta a la siguiente capa, y así sucesivamente.el proceso de capacitación modifica continuamente la configuración de los nodos individuales, hasta que la salida de la capa final realiza de manera confiable alguna clasificación de los datos, por ejemplo, identificando los objetos en la imagen.
Vondrick, Aytar y Torralba primero entrenaron una red neuronal en dos grandes conjuntos de imágenes anotadas: uno, el conjunto de datos ImageNet, contiene ejemplos etiquetados de imágenes de 1,000 objetos diferentes; el otro, el conjunto de datos de Lugares creado por el grupo de Torralba, contiene imágenes etiquetadas de 401 tipos de escenas diferentes, como un patio de recreo, dormitorio o sala de conferencias.
Una vez que se capacitó a la red, los investigadores le enviaron el video de 26 terabytes de datos de video descargados del sitio para compartir fotos Flickr. "Se trata de 2 millones de videos únicos", dice Vondrick. "Si los viera todos"de forma consecutiva, le tomaría unos dos años ". Luego entrenaron una segunda red neuronal en el audio de los mismos videos. El objetivo de la segunda red era predecir correctamente las etiquetas de objeto y escena producidas por la primera red.
El resultado fue una red que podía interpretar los sonidos naturales en términos de categorías de imágenes. Por ejemplo, podría determinar que el sonido del canto de los pájaros tiende a asociarse con escenas de bosque e imágenes de árboles, pájaros, casas de pájaros y comederos de pájaros.
Benchmarking
Sin embargo, para comparar el rendimiento de la red de reconocimiento de sonido con el de sus predecesores, los investigadores necesitaban una forma de traducir su lenguaje de imágenes al lenguaje familiar de los nombres de sonido. Así que formaron un sistema simple de aprendizaje automático para asociar las salidasde la red de reconocimiento de sonido con un conjunto de etiquetas de sonido estándar.
Para eso, los investigadores utilizaron una base de datos de audio anotado, una con 50 categorías de sonido y alrededor de 2,000 ejemplos. Esas anotaciones habían sido proporcionadas por humanos. Pero es mucho más fácil etiquetar 2,000 ejemplos que etiquetar 2 millones. Yla red de investigadores del MIT, capacitada primero en video sin etiquetar, superó significativamente a todas las redes anteriores capacitadas únicamente en los 2,000 ejemplos etiquetados.
Fuente de la historia :
Materiales proporcionados por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :