Los sistemas de reconocimiento de voz, como los que convierten la voz en texto en los teléfonos celulares, generalmente son el resultado del aprendizaje automático. Una computadora explora miles o incluso millones de archivos de audio y sus transcripciones, y aprende qué características acústicas corresponden a las palabras escritas.
Pero la transcripción de grabaciones es un trabajo costoso y lento, que tiene un reconocimiento de voz limitado a un pequeño subconjunto de idiomas que se hablan en países ricos.
En la conferencia de Sistemas de Procesamiento de Información Neural de esta semana, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT presentan un nuevo enfoque para entrenar sistemas de reconocimiento de voz que no depende de la transcripción. En cambio, su sistema analiza las correspondencias entreimágenes y descripciones habladas de esas imágenes, capturadas en una gran colección de grabaciones de audio. El sistema luego aprende qué características acústicas de las grabaciones se correlacionan con qué características de imagen.
"El objetivo de este trabajo es tratar de hacer que la máquina aprenda el lenguaje más como lo hacen los humanos", dice Jim Glass, científico investigador senior de CSAIL y coautor del artículo que describe el nuevo sistema ".Los métodos actuales que las personas usan para entrenar a los reconocedores de voz son muy supervisados. Obtiene un enunciado y le dicen lo que se dice. Y lo hace para un gran conjunto de datos.
"Se han hecho grandes avances, Siri, Google, pero es costoso obtener esas anotaciones, y la gente se ha centrado en los principales idiomas del mundo. Hay 7,000 idiomas, y creo que menos de 2el porcentaje tiene la capacidad ASR [reconocimiento automático de voz], y probablemente no se hará nada para abordar a los demás. Entonces, si está tratando de pensar en cómo la tecnología puede ser beneficiosa para la sociedad en general, es interesante pensar en lo que necesitamoshacer para cambiar la situación actual. Y el enfoque que hemos estado tomando a través de los años es mirar lo que podemos aprender con menos supervisión ".
Uniéndose a Glass en el papel están el primer autor David Harwath, un estudiante graduado en ingeniería eléctrica y ciencias de la computación EECS en el MIT; y Antonio Torralba, profesor de EECS.
semántica visual
La versión del sistema informada en el nuevo documento no correlaciona el discurso grabado con el texto escrito; en cambio, correlaciona el discurso con grupos de imágenes temáticamente relacionadas. Pero esa correlación podría servir de base para otros.
Si, por ejemplo, un enunciado está asociado con una clase particular de imágenes, y las imágenes tienen términos de texto asociados con ellas, debería ser posible encontrar una transcripción probable del enunciado, todo sin intervención humana. Del mismo modo, una clasede imágenes con términos de texto asociados en diferentes idiomas podría proporcionar una forma de hacer una traducción automática.
Por el contrario, los términos de texto asociados con grupos similares de imágenes, como, por ejemplo, "tormenta" y "nubes", pueden inferirse que tienen significados relacionados. Debido a que el sistema en cierto sentido aprende el significado de las palabras, las imágenes asociadas conellos, y no solo sus sonidos, tiene una gama más amplia de aplicaciones potenciales que un sistema de reconocimiento de voz estándar.
Para probar su sistema, los investigadores utilizaron una base de datos de 1,000 imágenes, cada una de las cuales tenía una grabación de una descripción verbal de forma libre asociada. Alimentaron a su sistema con una de las grabaciones y le pidieron que recupere las 10 imágenesque mejor combinaba. Ese conjunto de 10 imágenes contendría la correcta el 31 por ciento de las veces.
"Siempre enfatizo que solo estamos dando pequeños pasos aquí y tenemos un largo camino por recorrer", dice Glass. "Pero es un comienzo alentador".
Los investigadores entrenaron a su sistema en imágenes de una gran base de datos construida por Torralba; Aude Oliva, investigadora principal de CSAIL; y sus estudiantes. A través del sitio de crowdsourcing Mechanical Turk de Amazon, contrataron personas para describir las imágenes verbalmente, usando cualquier fraseovino a mi mente, durante unos 10 a 20 segundos
Para una demostración inicial del enfoque de los investigadores, ese tipo de datos personalizados era necesario para garantizar buenos resultados. Pero el objetivo final es entrenar el sistema usando video digital, con una participación humana mínima ". Creo que esto se extrapolará naturalmente avideo ", dice Glass.
modalidades de fusión
Para construir su sistema, los investigadores utilizaron redes neuronales, sistemas de aprendizaje automático que imitan aproximadamente la estructura del cerebro. Las redes neuronales están compuestas por nodos de procesamiento que, como las neuronas individuales, son capaces de realizar cálculos muy simples pero están conectados aentre sí en redes densas. Los datos se alimentan a los nodos de entrada de una red, que la modifican y la alimentan a otros nodos, que la modifican y la alimentan a otros nodos, y así sucesivamente. Cuando una red neuronal se está entrenando, constantementemodifica las operaciones ejecutadas por sus nodos para mejorar su rendimiento en una tarea específica.
La red de investigadores es, en efecto, dos redes separadas: una que toma imágenes como entrada y otra que toma espectrogramas, que representan señales de audio como cambios de amplitud, con el tiempo, en las frecuencias de sus componentes. La salida de la capa superiorde cada red es un vector de 1.024 dimensiones, una secuencia de 1.024 números.
El nodo final en la red toma el producto escalar de los dos vectores. Es decir, multiplica los términos correspondientes en los vectores y los suma a todos para producir un solo número. Durante el entrenamiento, las redes tuvieron que intentar maximizarel producto de puntos cuando la señal de audio correspondía a una imagen y la minimiza cuando no lo hacía.
Para cada espectrograma que analiza el sistema de los investigadores, puede identificar los puntos en los que los picos del producto de puntos. En los experimentos, esos picos seleccionaron de manera confiable palabras que proporcionaron etiquetas de imagen precisas - "béisbol", por ejemplo, en unfoto de un lanzador de béisbol en acción, o "cubierto de hierba" y "campo" para obtener una imagen de un campo cubierto de hierba.
En el trabajo en curso, los investigadores han refinado el sistema para que pueda seleccionar espectrogramas de palabras individuales e identificar solo aquellas regiones de una imagen que les corresponden.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :