Los investigadores de la Universidad Carnegie Mellon han ideado una forma de transformar automáticamente el contenido de un video al estilo de otro, haciendo posible transferir las expresiones faciales del comediante John Oliver a las de un personaje de dibujos animados, o hacer que un narciso florezcade la misma manera que lo haría un hibisco.
Debido a que el método basado en datos no requiere intervención humana, puede transformar rápidamente grandes cantidades de video, lo que lo convierte en una bendición para la producción de películas. También se puede usar para convertir películas en blanco y negro en color y crear contenidopara experiencias de realidad virtual.
"Creo que hay muchas historias que contar", dijo Aayush Bansal, estudiante de doctorado en el Instituto de Robótica de CMU. La producción de películas fue su principal motivación para ayudar a diseñar el método, explicó, permitiendo que las películas seanproducido de manera más rápida y económica ". Es una herramienta para el artista que les da un modelo inicial que luego pueden mejorar", agregó.
La tecnología también tiene el potencial de ser utilizada para las llamadas "falsificaciones profundas", videos en los que la imagen de una persona se inserta sin permiso, haciendo que parezca que la persona ha hecho o dicho cosas que están fuera de lugar, reconoció Bansal.
"Fue una revelación para todos nosotros en el campo que tales falsificaciones se crearían y tendrían tal impacto", dijo. "Encontrar formas de detectarlas será importante para avanzar".
Bansal presentará el método hoy en ECCV 2018, la Conferencia Europea sobre Visión por Computadora, en Munich. Sus coautores incluyen a Deva Ramanan, profesora asociada de robótica de la CMU.
La transferencia de contenido de un video al estilo de otro depende de la inteligencia artificial. En particular, una clase de algoritmos llamados redes de confrontación generativa GAN ha facilitado que las computadoras comprendan cómo aplicar el estilo de una imagen a otra,particularmente cuando no han sido emparejados cuidadosamente.
En una GAN, se crean dos modelos: un discriminador que aprende a detectar lo que es consistente con el estilo de una imagen o video, y un generador que aprende a crear imágenes o videos que coinciden con un estilo determinado. Cuando los dos funcionande manera competitiva el generador intenta engañar al discriminador y el discriminador anotando la efectividad del generador el sistema finalmente aprende cómo el contenido puede transformarse en un cierto estilo.
Una variante, llamada cycle-GAN, completa el ciclo, al igual que traduce el habla inglesa al español y luego el español nuevamente al inglés y luego evalúa si el discurso traducido dos veces aún tiene sentido. Usando cycle-GAN para analizar las características espacialesde imágenes ha demostrado ser eficaz para transformar una imagen en el estilo de otra.
Ese método espacial aún deja algo que desear para el video, con artefactos no deseados e imperfecciones que surgen en el ciclo completo de traducciones. Para mitigar el problema, los investigadores desarrollaron una técnica, llamada Recycle-GAN, que incorpora no solo espacial,pero información temporal. Esta información adicional, que representa los cambios a lo largo del tiempo, limita aún más el proceso y produce mejores resultados.
Los investigadores mostraron que Recycle-GAN se puede usar para transformar el video de Oliver en lo que parece ser el comediante Stephen Colbert y volver a Oliver. O el video de la cara de John Oliver puede transformar un personaje de dibujos animados. Recycle-GAN permite no soloexpresiones faciales que se copiarán, pero también los movimientos y la cadencia de la actuación.
Los efectos no se limitan a caras o incluso cuerpos. Los investigadores demostraron que el video de una flor en flor se puede utilizar para manipular la imagen de otros tipos de flores. O las nubes que cruzan el cielo rápidamente en un día ventoso puedenser frenado para dar la apariencia de un clima más tranquilo.
Bansal dijo que tales efectos podrían ser útiles para desarrollar automóviles autónomos que puedan navegar de noche o con mal tiempo. Explicar que obtener videos de escenas nocturnas o de tormentas en las que se pueden identificar y etiquetar objetos puede ser difícil.-GAN, por otro lado, puede transformar escenas diurnas fácilmente obtenidas y etiquetadas en escenas nocturnas o tormentosas, proporcionando imágenes que se pueden usar para entrenar automóviles para operar en esas condiciones.
Fuente de la historia :
Materiales proporcionado por Universidad Carnegie Mellon . Original escrito por Byron Spice. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :