Los investigadores de la Universidad Carnegie Mellon han desarrollado un modelo de computadora que puede traducir texto que describe los movimientos físicos directamente en animaciones simples generadas por computadora, un primer paso para algún día generar películas directamente a partir de guiones.
Los científicos han dado grandes pasos para lograr que las computadoras entiendan el lenguaje natural, así como para generar una serie de poses físicas para crear animaciones realistas. Sin embargo, estas capacidades también podrían existir en mundos separados, debido a la relación entre el lenguaje natural y el físicoha faltado poses
Louis-Philippe Morency, profesor asociado en el Language Technologies Institute LTI, y Chaitanya Ahuja, un estudiante de doctorado en LTI, están trabajando para unir esos mundos usando una arquitectura neural que ellos llaman Joint Language-to-Pose,o JL2P. El modelo JL2P permite que las oraciones y los movimientos físicos se integren conjuntamente, para que pueda aprender cómo se relaciona el lenguaje con la acción, los gestos y el movimiento.
"Creo que estamos en una etapa temprana de esta investigación, pero desde una perspectiva de modelado, inteligencia artificial y teoría, es un momento muy emocionante", dijo Morency. "En este momento, estamos hablando de animar personajes virtuales.Eventualmente, este vínculo entre el lenguaje y los gestos podría aplicarse a los robots; podríamos simplemente decirle a un robot asistente personal lo que queremos que haga.
"También podríamos ir al revés, usando este enlace entre el lenguaje y la animación para que una computadora pueda describir lo que está sucediendo en un video", agregó.
Ahuja presentará JL2P el 19 de septiembre en la Conferencia Internacional sobre Visión 3D en la ciudad de Quebec, Canadá.
Para crear JL2P, Ahuja usó un enfoque de aprendizaje curricular que se enfoca en el modelo que primero aprende secuencias cortas y fáciles - "Una persona camina hacia adelante" - y luego secuencias más largas y difíciles - "Una persona da un paso adelante, luego giragira y avanza de nuevo ", o" Una persona salta un obstáculo mientras corre ".
Los verbos y adverbios describen la acción y la velocidad / aceleración de la acción, mientras que los sustantivos y adjetivos describen ubicaciones y direcciones. El objetivo final es animar secuencias complejas con múltiples acciones que sucedan simultáneamente o en secuencia, dijo Ahuja.
Por ahora, las animaciones son para figuras de palo.
Lo que es más complicado es el hecho de que muchas cosas están sucediendo al mismo tiempo, incluso en secuencias simples, explicó Morency.
"La sincronización entre las partes del cuerpo es muy importante", dijo Morency. "Cada vez que mueves las piernas, también mueves los brazos, el torso y posiblemente la cabeza. Las animaciones del cuerpo deben coordinar estos diferentes componentes, al mismo tiempotiempo para lograr acciones complejas. Llevar la narrativa del lenguaje dentro de este complejo entorno de animación es desafiante y emocionante. Este es un camino hacia una mejor comprensión del habla y los gestos ".
Fuente de la historia :
Materiales proporcionado por Universidad Carnegie Mellon . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :