Investigadores de la Universidad de Washington han desarrollado nuevos algoritmos que resuelven un desafío espinoso en el campo de la visión por computadora: convertir clips de audio en un video realista y sincronizado con los labios de la persona que pronuncia esas palabras.
Como se detalla en un documento que se presentará el 2 de agosto en SIGGRAPH 2017, el equipo generó con éxito un video altamente realista del ex presidente Barack Obama hablando sobre terrorismo, paternidad, creación de empleo y otros temas utilizando clips de audio de esos discursos y semanalmente existentes.direcciones de video que originalmente trataban de un tema diferente.
"Este tipo de resultados nunca se había mostrado antes", dijo Ira Kemelmacher-Shlizerman, profesor asistente de la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen de la Universidad de Washington. "La conversión realista de audio a video tiene aplicaciones prácticas como mejorarvideoconferencias para reuniones, así como las futuristas, como poder mantener una conversación con una figura histórica en la realidad virtual mediante la creación de imágenes solo a partir de audio. Este es el tipo de avance que ayudará a habilitar los próximos pasos ".
En una forma visual de sincronización de labios, el sistema convierte archivos de audio del habla de un individuo en formas de boca realistas, que luego se injertan y se mezclan con la cabeza de esa persona de otro video existente.
El equipo eligió a Obama porque la técnica de aprendizaje automático necesita un video disponible de la persona de quien aprender, y hubo horas de videos presidenciales en el dominio público ". En el futuro, las herramientas de chat como Skype o Messenger permitirán que cualquiera recopilevideos que podrían usarse para entrenar modelos de computadora ", dijo Kemelmacher-Shlizerman.
Debido a que la transmisión de audio a través de Internet ocupa mucho menos ancho de banda que el video, el nuevo sistema tiene el potencial de finalizar los chats de video que se agotan constantemente debido a conexiones deficientes.
"Cuando miras Skype o Google Hangouts, a menudo la conexión es entrecortada, de baja resolución y realmente desagradable, pero a menudo el audio es bastante bueno", dijo el coautor y profesor de Allen School, Steve Seitz. "Entonces, si podrías usarel audio para producir un video de mucha más calidad, sería fantástico ".
Al invertir el proceso, alimentando video a la red en lugar de solo audio, el equipo también podría desarrollar algoritmos que podrían detectar si un video es real o fabricado.
La nueva herramienta de aprendizaje automático logra un progreso significativo en la superación de lo que se conoce como el problema del "valle inquietante", que se ha esforzado por crear videos realistas a partir de audio. Cuando las semejanzas humanas sintetizadas parecen ser casi reales, pero aún así logran pasar por altola marca: la gente los encuentra espeluznantes o desagradables.
"Las personas son particularmente sensibles a las áreas de su boca que no parecen realistas", dijo el autor principal Supasorn Suwajanakorn, un recién graduado de doctorado en la Escuela Allen. "Si no rinde bien los dientes o el mentón se mueve haciaen el momento equivocado, la gente puede detectarlo de inmediato y se verá falso. Por lo tanto, debe renderizar la región de la boca perfectamente para ir más allá del valle inquietante ".
Anteriormente, los procesos de conversión de audio a video implicaban filmar a varias personas en un estudio diciendo las mismas oraciones una y otra vez para intentar capturar cómo un sonido en particular se correlaciona con diferentes formas de boca, lo cual es costoso, tedioso y requiere mucho tiempo.Por el contrario, Suwajanakorn desarrolló algoritmos que pueden aprender de videos que existen "en la naturaleza" en Internet o en otros lugares.
"Hay millones de horas de video que ya existen a partir de entrevistas, videoconferencias, películas, programas de televisión y otras fuentes. Y estos algoritmos de aprendizaje profundo requieren mucha información, por lo que es una buena combinación hacerlo de esta manera", Suwajanakorndijo.
En lugar de sintetizar el video final directamente del audio, el equipo abordó el problema en dos pasos. El primero implicó entrenar una red neuronal para ver videos de una persona y traducir diferentes sonidos de audio en formas básicas de boca.
Al combinar investigaciones previas del equipo del Laboratorio de Imágenes y Gráficos de la UW con una nueva técnica de síntesis de la boca, pudieron superponer y combinar de manera realista esas formas y texturas de la boca en un video de referencia existente de esa persona. Otra idea clave fue permitirun pequeño cambio de tiempo para permitir que la red neuronal anticipe lo que el hablante dirá a continuación.
El nuevo proceso de sincronización de labios permitió a los investigadores crear videos realistas de Obama hablando en la Casa Blanca, usando palabras que pronunció en un programa de televisión o durante una entrevista hace décadas.
Actualmente, la red neuronal está diseñada para aprender de un individuo a la vez, lo que significa que la voz de Obama, las palabras que pronunció en realidad, es la única información que se utiliza para "impulsar" el video sintetizado. Sin embargo, los pasos futuros incluyenayudando a los algoritmos a generalizar en situaciones para reconocer la voz y los patrones de habla de una persona con menos datos, con solo una hora de video para aprender, por ejemplo, en lugar de 14 horas.
"No se puede simplemente tomar la voz de cualquiera y convertirla en un video de Obama", dijo Seitz. "Decidimos muy conscientemente no seguir el camino de poner las palabras de otras personas en la boca de alguien. Simplemente estamos tomando palabras reales quealguien habló y los convirtió en un video realista de esa persona ".
Fuente de la historia :
Materiales proporcionado por Universidad de Washington . Nota: el contenido se puede editar por estilo y longitud.
cite esta página :