Los informáticos del MIT han desarrollado un sistema que aprende a identificar objetos dentro de una imagen, basándose en una descripción hablada de la imagen. Dada una imagen y una leyenda de audio, el modelo resaltará en tiempo real las regiones relevantes de la imagendescrito.
A diferencia de las tecnologías actuales de reconocimiento de voz, el modelo no requiere transcripciones manuales y anotaciones de los ejemplos en los que está entrenado. En cambio, aprende palabras directamente de clips de voz y objetos grabados en imágenes en bruto, y los asocia entre sí.
El modelo actualmente puede reconocer solo varios cientos de palabras y tipos de objetos diferentes. Pero los investigadores esperan que algún día su técnica combinada de reconocimiento de objetos del habla pueda ahorrar innumerables horas de trabajo manual y abrir nuevas puertas en el reconocimiento de voz e imagen.
Los sistemas de reconocimiento de voz como Siri y Google Voice, por ejemplo, requieren transcripciones de miles de horas de grabaciones de voz. Utilizando estos datos, los sistemas aprenden a mapear señales de voz con palabras específicas. Tal enfoque se vuelve especialmente problemático cuando,digamos, nuevos términos entran en nuestro léxico, y los sistemas deben ser reentrenados.
"Queríamos hacer el reconocimiento de voz de una manera más natural, aprovechando señales e información adicionales que los humanos tienen la ventaja de usar, pero que los algoritmos de aprendizaje automático no suelen tener acceso. Tenemos la idea de entrenar un modelode manera similar a pasear a un niño por el mundo y narrar lo que estás viendo ", dice David Harwath, investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL y el Grupo de Sistemas de Lenguaje Hablado. Harwath fue coautor de un artículoque describe el modelo que se presentó en la reciente Conferencia Europea sobre Visión por Computadora.
En el documento, los investigadores demuestran su modelo en una imagen de una niña con cabello rubio y ojos azules, con un vestido azul, con un faro blanco con un techo rojo en el fondo. El modelo aprendió a asociar qué píxeles enla imagen correspondía con las palabras "niña", "cabello rubio", "ojos azules", "vestido azul", "casa de luz blanca" y "techo rojo". Cuando se narraba un subtítulo de audio, la modelo resaltaba cada uno de ellosesos objetos en la imagen como fueron descritos.
Una aplicación prometedora es aprender traducciones entre diferentes idiomas, sin necesidad de un anotador bilingüe. De los aproximadamente 7,000 idiomas que se hablan en todo el mundo, solo 100 más o menos tienen suficientes datos de transcripción para el reconocimiento de voz. Considere, sin embargo, una situación en la que dos idiomas diferenteslos hablantes describen la misma imagen. Si el modelo aprende señales del habla del lenguaje A que corresponden a objetos en la imagen, y aprende las señales en el lenguaje B que corresponden a esos mismos objetos, podría asumir esas dos señales - y palabras coincidentes -son traducciones el uno del otro.
"Hay potencial para un mecanismo tipo Babel Fish", dice Harwath, refiriéndose al auricular ficticio vivo en las novelas de "Guía del autoestopista galáctico" que traduce diferentes idiomas al usuario.
Los coautores de CSAIL son: estudiante graduado Adria Recasens; estudiante visitante Didac Suris; ex investigador Galen Chuang; Antonio Torralba, profesor de ingeniería eléctrica y ciencias de la computación que también dirige el laboratorio de inteligencia artificial Watson MIT-IBM; y científico investigador séniorJames Glass, quien dirige el Grupo de Sistemas de Lenguaje Hablado en CSAIL.
asociaciones audiovisuales
Este trabajo se expande en un modelo anterior desarrollado por Harwath, Glass y Torralba que correlaciona el discurso con grupos de imágenes temáticamente relacionadas. En la investigación anterior, colocaron imágenes de escenas de una base de datos de clasificación en la plataforma Mechanical Turk de crowdsourcing. Luegolas personas describieron las imágenes como si estuvieran narrando a un niño, durante unos 10 segundos. Recopilaron más de 200,000 pares de imágenes y subtítulos de audio, en cientos de categorías diferentes, como playas, centros comerciales, calles de la ciudad y dormitorios.
Luego diseñaron un modelo que consta de dos redes neuronales convolucionales CNN separadas. Una procesa imágenes y la otra procesa espectrogramas, una representación visual de señales de audio a medida que varían con el tiempo. La capa más alta del modelo calcula las salidas de los dosRedes y mapas de los patrones de voz con datos de imagen.
Los investigadores, por ejemplo, alimentarían el título del modelo A y la imagen A, lo cual es correcto. Luego, lo alimentarían con un título aleatorio B con la imagen A, que es un emparejamiento incorrecto. Después de comparar miles de subtítulos incorrectos con la imagenA, el modelo aprende las señales de voz correspondientes a la imagen A y asocia esas señales con las palabras en los subtítulos. Como se describió en un estudio de 2016, el modelo aprendió, por ejemplo, a seleccionar la señal correspondiente a la palabra "agua".y para recuperar imágenes con cuerpos de agua.
"Pero no proporcionó una manera de decir, 'Este es el momento exacto en el que alguien dijo una palabra específica que se refiere a ese parche específico de píxeles'", dice Harwath.
Hacer un mapa de coincidencias
En el nuevo artículo, los investigadores modificaron el modelo para asociar palabras específicas con parches específicos de píxeles. Los investigadores entrenaron el modelo en la misma base de datos, pero con un nuevo total de 400,000 pares de subtítulos de imágenes. Ofrecieron 1,000 pares aleatoriospara las pruebas.
En el entrenamiento, el modelo recibe imágenes y subtítulos correctos e incorrectos. Pero esta vez, el CNN que analiza la imagen divide la imagen en una cuadrícula de celdas que consisten en parches de píxeles. El CNN que analiza el audio divide el espectrograma en segmentosde, digamos, un segundo para capturar una palabra o dos.
Con la imagen correcta y el par de subtítulos, el modelo hace coincidir la primera celda de la cuadrícula con el primer segmento de audio, luego hace coincidir esa misma celda con el segundo segmento de audio, y así sucesivamente, a través de cada celda de la cuadrícula yen todos los segmentos de tiempo. Para cada celda y segmento de audio, proporciona una puntuación de similitud, dependiendo de qué tan cerca corresponda la señal al objeto.
El desafío es que, durante el entrenamiento, el modelo no tiene acceso a ninguna información de alineación verdadera entre el discurso y la imagen. "La mayor contribución del trabajo", dice Harwath, "es demostrar que estos modos cruzados [las alineaciones de audio y visuales se pueden inferir automáticamente simplemente enseñando a la red qué imágenes y subtítulos pertenecen y qué pares no ".
Los autores llaman a esta asociación de aprendizaje automático entre la forma de onda de un subtítulo hablado con los píxeles de la imagen un "mapa de coincidencias". Después de entrenar en miles de pares de subtítulos de imágenes, la red reduce esas alineaciones a palabras específicas que representan objetos específicos en ese mapa de coincidencias.
"Es algo así como el Big Bang, donde la materia se dispersó realmente, pero luego se unió en planetas y estrellas", dice Harwath. "Las predicciones comienzan a dispersarse en todas partes pero, a medida que avanzas en el entrenamiento, convergen en una alineación que representa un significadobases semánticas entre palabras habladas y objetos visuales "
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :