Noticias de ciencia

de organizaciones de investigación

Un nuevo enfoque puede abrir el reconocimiento de voz a más idiomas

El sistema correlaciona el habla grabada con las imágenes, podría conducir a un reconocimiento de voz totalmente automatizado

Fecha :: 7 de diciembre de 2016
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Los investigadores han desarrollado un nuevo enfoque para entrenar sistemas de reconocimiento de voz que no depende de la transcripción. En cambio, su sistema analiza las correspondencias entre las imágenes y las descripciones habladas de esas imágenes, como se captura en una gran colección de grabaciones de audio. El sistema luegoaprende qué características acústicas de las grabaciones se correlacionan con qué características de imagen.
Compartir :

HISTORIA COMPLETA

Los sistemas de reconocimiento de voz, como los que convierten la voz en texto en los teléfonos celulares, generalmente son el resultado del aprendizaje automático. Una computadora explora miles o incluso millones de archivos de audio y sus transcripciones, y aprende qué características acústicas corresponden a las palabras escritas.

anuncio

Pero la transcripción de grabaciones es un trabajo costoso y lento, que tiene un reconocimiento de voz limitado a un pequeño subconjunto de idiomas que se hablan en países ricos.

En la conferencia de Sistemas de Procesamiento de Información Neural de esta semana, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT presentan un nuevo enfoque para entrenar sistemas de reconocimiento de voz que no depende de la transcripción. En cambio, su sistema analiza las correspondencias entreimágenes y descripciones habladas de esas imágenes, capturadas en una gran colección de grabaciones de audio. El sistema luego aprende qué características acústicas de las grabaciones se correlacionan con qué características de imagen.

"El objetivo de este trabajo es tratar de hacer que la máquina aprenda el lenguaje más como lo hacen los humanos", dice Jim Glass, científico investigador senior de CSAIL y coautor del artículo que describe el nuevo sistema ".Los métodos actuales que las personas usan para entrenar a los reconocedores de voz son muy supervisados. Obtiene un enunciado y le dicen lo que se dice. Y lo hace para un gran conjunto de datos.

"Se han hecho grandes avances, Siri, Google, pero es costoso obtener esas anotaciones, y la gente se ha centrado en los principales idiomas del mundo. Hay 7,000 idiomas, y creo que menos de 2el porcentaje tiene la capacidad ASR [reconocimiento automático de voz], y probablemente no se hará nada para abordar a los demás. Entonces, si está tratando de pensar en cómo la tecnología puede ser beneficiosa para la sociedad en general, es interesante pensar en lo que necesitamoshacer para cambiar la situación actual. Y el enfoque que hemos estado tomando a través de los años es mirar lo que podemos aprender con menos supervisión ".

Uniéndose a Glass en el papel están el primer autor David Harwath, un estudiante graduado en ingeniería eléctrica y ciencias de la computación EECS en el MIT; y Antonio Torralba, profesor de EECS.

anuncio

semántica visual

La versión del sistema informada en el nuevo documento no correlaciona el discurso grabado con el texto escrito; en cambio, correlaciona el discurso con grupos de imágenes temáticamente relacionadas. Pero esa correlación podría servir de base para otros.

Si, por ejemplo, un enunciado está asociado con una clase particular de imágenes, y las imágenes tienen términos de texto asociados con ellas, debería ser posible encontrar una transcripción probable del enunciado, todo sin intervención humana. Del mismo modo, una clasede imágenes con términos de texto asociados en diferentes idiomas podría proporcionar una forma de hacer una traducción automática.

Por el contrario, los términos de texto asociados con grupos similares de imágenes, como, por ejemplo, "tormenta" y "nubes", pueden inferirse que tienen significados relacionados. Debido a que el sistema en cierto sentido aprende el significado de las palabras, las imágenes asociadas conellos, y no solo sus sonidos, tiene una gama más amplia de aplicaciones potenciales que un sistema de reconocimiento de voz estándar.

Para probar su sistema, los investigadores utilizaron una base de datos de 1,000 imágenes, cada una de las cuales tenía una grabación de una descripción verbal de forma libre asociada. Alimentaron a su sistema con una de las grabaciones y le pidieron que recupere las 10 imágenesque mejor combinaba. Ese conjunto de 10 imágenes contendría la correcta el 31 por ciento de las veces.

anuncio

"Siempre enfatizo que solo estamos dando pequeños pasos aquí y tenemos un largo camino por recorrer", dice Glass. "Pero es un comienzo alentador".

Los investigadores entrenaron a su sistema en imágenes de una gran base de datos construida por Torralba; Aude Oliva, investigadora principal de CSAIL; y sus estudiantes. A través del sitio de crowdsourcing Mechanical Turk de Amazon, contrataron personas para describir las imágenes verbalmente, usando cualquier fraseovino a mi mente, durante unos 10 a 20 segundos

Para una demostración inicial del enfoque de los investigadores, ese tipo de datos personalizados era necesario para garantizar buenos resultados. Pero el objetivo final es entrenar el sistema usando video digital, con una participación humana mínima ". Creo que esto se extrapolará naturalmente avideo ", dice Glass.

modalidades de fusión

Para construir su sistema, los investigadores utilizaron redes neuronales, sistemas de aprendizaje automático que imitan aproximadamente la estructura del cerebro. Las redes neuronales están compuestas por nodos de procesamiento que, como las neuronas individuales, son capaces de realizar cálculos muy simples pero están conectados aentre sí en redes densas. Los datos se alimentan a los nodos de entrada de una red, que la modifican y la alimentan a otros nodos, que la modifican y la alimentan a otros nodos, y así sucesivamente. Cuando una red neuronal se está entrenando, constantementemodifica las operaciones ejecutadas por sus nodos para mejorar su rendimiento en una tarea específica.

La red de investigadores es, en efecto, dos redes separadas: una que toma imágenes como entrada y otra que toma espectrogramas, que representan señales de audio como cambios de amplitud, con el tiempo, en las frecuencias de sus componentes. La salida de la capa superiorde cada red es un vector de 1.024 dimensiones, una secuencia de 1.024 números.

El nodo final en la red toma el producto escalar de los dos vectores. Es decir, multiplica los términos correspondientes en los vectores y los suma a todos para producir un solo número. Durante el entrenamiento, las redes tuvieron que intentar maximizarel producto de puntos cuando la señal de audio correspondía a una imagen y la minimiza cuando no lo hacía.

Para cada espectrograma que analiza el sistema de los investigadores, puede identificar los puntos en los que los picos del producto de puntos. En los experimentos, esos picos seleccionaron de manera confiable palabras que proporcionaron etiquetas de imagen precisas - "béisbol", por ejemplo, en unfoto de un lanzador de béisbol en acción, o "cubierto de hierba" y "campo" para obtener una imagen de un campo cubierto de hierba.

En el trabajo en curso, los investigadores han refinado el sistema para que pueda seleccionar espectrogramas de palabras individuales e identificar solo aquellas regiones de una imagen que les corresponden.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.

Cita esta página :

Instituto de Tecnología de Massachusetts. "Un nuevo enfoque puede abrir el reconocimiento de voz a más idiomas: el sistema correlaciona el habla grabada con imágenes, podría conducir a un reconocimiento de voz totalmente automatizado". ScienceDaily. ScienceDaily, 7 de diciembre de 2016. .

Instituto de Tecnología de Massachusetts. 2016, 7 de diciembre. Un nuevo enfoque puede abrir el reconocimiento de voz a más idiomas: el sistema correlaciona el habla grabada con imágenes, podría conducir a un reconocimiento de voz totalmente automatizado. ScienceDaily . Recuperado el 8 de julio de 2020 de www.science-things.com/releases/2016/12/161207140728.htm

Instituto de Tecnología de Massachusetts. "Un nuevo enfoque puede abrir el reconocimiento de voz a más idiomas: el sistema correlaciona el discurso grabado con imágenes, podría conducir a un reconocimiento de voz totalmente automatizado". ScienceDaily. Www.science-things.com/releases/2016/12/161207140728.htm consultado el 8 de julio de 2020.

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Un nuevo enfoque puede abrir el reconocimiento de voz a más idiomas

El sistema correlaciona el habla grabada con las imágenes, podría conducir a un reconocimiento de voz totalmente automatizado

1

2

3

4

5

1

2

3

4

5

Un misterio cósmico: el telescopio de ESO captura la desaparición de una estrella masiva

Mayor concentración de metal en los cráteres de la luna proporciona nuevas ideas sobre su origen

Para encontrar agujeros negros gigantes, comience con Júpiter

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

matar el coronavirus con un dispositivo portátil de luz ultravioleta puede ser factible

¿Por qué las plantas son verdes?

Sin claves para el reino: el nuevo algoritmo de inicio de sesión único proporciona una privacidad superior

¿Cómo corre el riesgo de contraer un virus en un avión?

Hacia un láser lo suficientemente potente como para investigar un nuevo tipo de física

El poder colectivo de los cuerpos oscuros e helados del sistema solar

El viaje cósmico hacia la formación de estrellas y planetas

Nueva colección de estrellas, no nacidas en nuestra galaxia, descubiertas en la Vía Láctea

Ciencia detrás de la técnica tradicional de fabricación de mezcal

Los científicos crean un nuevo dispositivo para iluminar el camino para las tecnologías cuánticas

¿Qué hace que los barcos disminuyan o se detengan misteriosamente, aunque los motores estén funcionando?

Nueva evidencia ayuda a formar la reconstrucción digital del santuario medieval más importante

Hacer el plástico más transparente al tiempo que agrega conductividad eléctrica

La investigación refleja cómo la IA ve a través del espejo