Noticias científicas

de organizaciones de investigación

1

2

Las nuevas herramientas convierten los clips de audio en videos realistas

Fecha :: 11 de julio de 2017
Fuente :: Universidad de Washington
Resumen :: Una nueva herramienta de inteligencia artificial puede crear videos realistas solo a partir de archivos de audio, incluidos los discursos del presidente Obama.
Compartir :

HISTORIA COMPLETA

Investigadores de la Universidad de Washington han desarrollado nuevos algoritmos que resuelven un desafío espinoso en el campo de la visión por computadora: convertir clips de audio en un video realista y sincronizado con los labios de la persona que pronuncia esas palabras.

Como se detalla en un documento que se presentará el 2 de agosto en SIGGRAPH 2017, el equipo generó con éxito un video altamente realista del ex presidente Barack Obama hablando sobre terrorismo, paternidad, creación de empleo y otros temas utilizando clips de audio de esos discursos y semanalmente existentes.direcciones de video que originalmente trataban de un tema diferente.

"Este tipo de resultados nunca se había mostrado antes", dijo Ira Kemelmacher-Shlizerman, profesor asistente de la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen de la Universidad de Washington. "La conversión realista de audio a video tiene aplicaciones prácticas como mejorarvideoconferencias para reuniones, así como las futuristas, como poder mantener una conversación con una figura histórica en la realidad virtual mediante la creación de imágenes solo a partir de audio. Este es el tipo de avance que ayudará a habilitar los próximos pasos ".

En una forma visual de sincronización de labios, el sistema convierte archivos de audio del habla de un individuo en formas de boca realistas, que luego se injertan y se mezclan con la cabeza de esa persona de otro video existente.

El equipo eligió a Obama porque la técnica de aprendizaje automático necesita un video disponible de la persona de quien aprender, y hubo horas de videos presidenciales en el dominio público ". En el futuro, las herramientas de chat como Skype o Messenger permitirán que cualquiera recopilevideos que podrían usarse para entrenar modelos de computadora ", dijo Kemelmacher-Shlizerman.

Debido a que la transmisión de audio a través de Internet ocupa mucho menos ancho de banda que el video, el nuevo sistema tiene el potencial de finalizar los chats de video que se agotan constantemente debido a conexiones deficientes.

"Cuando miras Skype o Google Hangouts, a menudo la conexión es entrecortada, de baja resolución y realmente desagradable, pero a menudo el audio es bastante bueno", dijo el coautor y profesor de Allen School, Steve Seitz. "Entonces, si podrías usarel audio para producir un video de mucha más calidad, sería fantástico ".

Al invertir el proceso, alimentando video a la red en lugar de solo audio, el equipo también podría desarrollar algoritmos que podrían detectar si un video es real o fabricado.

La nueva herramienta de aprendizaje automático logra un progreso significativo en la superación de lo que se conoce como el problema del "valle inquietante", que se ha esforzado por crear videos realistas a partir de audio. Cuando las semejanzas humanas sintetizadas parecen ser casi reales, pero aún así logran pasar por altola marca: la gente los encuentra espeluznantes o desagradables.

"Las personas son particularmente sensibles a las áreas de su boca que no parecen realistas", dijo el autor principal Supasorn Suwajanakorn, un recién graduado de doctorado en la Escuela Allen. "Si no rinde bien los dientes o el mentón se mueve haciaen el momento equivocado, la gente puede detectarlo de inmediato y se verá falso. Por lo tanto, debe renderizar la región de la boca perfectamente para ir más allá del valle inquietante ".

Anteriormente, los procesos de conversión de audio a video implicaban filmar a varias personas en un estudio diciendo las mismas oraciones una y otra vez para intentar capturar cómo un sonido en particular se correlaciona con diferentes formas de boca, lo cual es costoso, tedioso y requiere mucho tiempo.Por el contrario, Suwajanakorn desarrolló algoritmos que pueden aprender de videos que existen "en la naturaleza" en Internet o en otros lugares.

"Hay millones de horas de video que ya existen a partir de entrevistas, videoconferencias, películas, programas de televisión y otras fuentes. Y estos algoritmos de aprendizaje profundo requieren mucha información, por lo que es una buena combinación hacerlo de esta manera", Suwajanakorndijo.

En lugar de sintetizar el video final directamente del audio, el equipo abordó el problema en dos pasos. El primero implicó entrenar una red neuronal para ver videos de una persona y traducir diferentes sonidos de audio en formas básicas de boca.

Al combinar investigaciones previas del equipo del Laboratorio de Imágenes y Gráficos de la UW con una nueva técnica de síntesis de la boca, pudieron superponer y combinar de manera realista esas formas y texturas de la boca en un video de referencia existente de esa persona. Otra idea clave fue permitirun pequeño cambio de tiempo para permitir que la red neuronal anticipe lo que el hablante dirá a continuación.

El nuevo proceso de sincronización de labios permitió a los investigadores crear videos realistas de Obama hablando en la Casa Blanca, usando palabras que pronunció en un programa de televisión o durante una entrevista hace décadas.

Actualmente, la red neuronal está diseñada para aprender de un individuo a la vez, lo que significa que la voz de Obama, las palabras que pronunció en realidad, es la única información que se utiliza para "impulsar" el video sintetizado. Sin embargo, los pasos futuros incluyenayudando a los algoritmos a generalizar en situaciones para reconocer la voz y los patrones de habla de una persona con menos datos, con solo una hora de video para aprender, por ejemplo, en lugar de 14 horas.

"No se puede simplemente tomar la voz de cualquiera y convertirla en un video de Obama", dijo Seitz. "Decidimos muy conscientemente no seguir el camino de poner las palabras de otras personas en la boca de alguien. Simplemente estamos tomando palabras reales quealguien habló y los convirtió en un video realista de esa persona ".

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Universidad de Washington . Nota: el contenido se puede editar por estilo y longitud.

cite esta página :

Universidad de Washington. "Nuevas herramientas convierten clips de audio en videos realistas". ScienceDaily. ScienceDaily, 11 de julio de 2017. .

Universidad de Washington. 2017, 11 de julio. Las nuevas herramientas convierten los clips de audio en videos realistas. ScienceDaily . Obtenido el 1 de octubre de 2020 de www.science-things.com/releases/2017/07/170711141408.htm

Universidad de Washington. "Nuevas herramientas convierten clips de audio en videos realistas". ScienceDaily. Www.science-things.com/releases/2017/07/170711141408.htm consultado el 1 de octubre de 2020.

TEMAS RELACIONADOS
- Computadoras y matemáticas

TÉRMINOS RELACIONADOS

1

2

3

4

5

HISTORIAS RELACIONADAS

DESDE LA WEB

A continuación se muestran artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en red TrendMD y obtiene ingresos de anunciantes externos, cuando se indique.

1

2

Las nuevas herramientas convierten los clips de audio en videos realistas

1

2

3

4

5

1

2

3

4

5

Posible marcador de vida visto en Venus

Se descubre que el cometa tiene su propia aurora boreal

Los nuevos datos del Hubble sugieren que falta un ingrediente en las teorías actuales de la materia oscura

Enfoque del 'caballo de Troya' para matar células cancerosas sin usar medicamentos

Los mejores y peores materiales para máscaras

Comparación de revestimientos faciales en el control de partículas caducadas

Meditación para el control mental

Una computadora predice sus pensamientos, creando imágenes basadas en ellos

Los videojuegos pueden cambiar tu cerebro

Explosión estelar en la proximidad de la Tierra, hace eones

Venus podría ser habitable hoy, si no fuera por Júpiter

Segundo plano de alineación del sistema solar descubierto

Exotraje portátil que reduce la fatiga muscular podría rediseñar el futuro del trabajo

Autenticación biométrica 3D basada en las venas de los dedos casi imposible de engañar

El aprendizaje automático se basa en la biología sintética: los algoritmos pueden bioingeniería de células para usted

El método de limpieza por centrifugación acerca las prácticas computadoras cuánticas a la realidad

Caja de herramientas completa de cables metálicos de carbono para ordenadores basados en carbono

Nuevas posibilidades para trabajar con información cuántica