Al explotar el software de renderizado de gráficos que impulsa los videojuegos deportivos, los investigadores del MIT y el Instituto de Investigación de Computación de Qatar QCRI han desarrollado un sistema que convierte automáticamente el video 2D de los juegos de fútbol en 3D.
El video convertido se puede reproducir en cualquier dispositivo 3-D: un televisor 3-D comercial, el nuevo sistema Cardboard de Google, que convierte los teléfonos inteligentes en pantallas 3-D o pantallas de propósito especial como Oculus Rift.
Los investigadores presentaron el nuevo sistema la semana pasada en la conferencia Multimedia de la Association for Computing Machinery.
"Cualquier televisor en estos días es capaz de 3-D", dice Wojciech Matusik, profesor asociado de ingeniería eléctrica y ciencias de la computación en el MIT y uno de los co-desarrolladores del sistema. "Simplemente no hay contenido. Entonces vemos que elLa producción de contenido de alta calidad es lo principal que debe suceder. Pero el deporte es muy difícil. Con las películas, tienes artistas que pintan el mapa de profundidad. Aquí, no hay lujo de contratar a 100 artistas para hacer la conversión. Esto tiene quesuceder en tiempo real "
El sistema es el resultado de una colaboración entre QCRI y el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT. Junto a Matusik en el documento de la conferencia están Kiana Calagari, investigadora asociada en QCRI y primer autor; Alexandre Kaspar, estudiante graduado del MIT en ingeniería eléctricay ciencias de la computación; Piotr Didyk, quien era un postdoc en el grupo de Matusik y ahora es investigador en el Instituto Max Planck de Informática; Mohamed Hefeeda, científico principal de QCRI; y Mohamed Elgharib, un postdoc QCRI. QCRI también ayudó a financiar el proyecto.
puesta a cero
En el pasado, los investigadores han intentado desarrollar sistemas de propósito general para convertir video 2D a 3-D, pero no han funcionado muy bien y han tendido a producir artefactos visuales extraños que restan valor a la experiencia visual.
"Nuestra ventaja es que podemos desarrollarlo para un dominio de problemas muy específico", dice Matusik. "Estamos desarrollando una tubería de conversión para un deporte específico. Nos gustaría hacerlo con calidad de transmisión, y nos gustaría hacerloen tiempo real. Lo que hemos notado es que podemos aprovechar los videojuegos ".
Los videojuegos de hoy en general almacenan mapas tridimensionales muy detallados del entorno virtual en el que el jugador está navegando. Cuando el jugador inicia un movimiento, el juego ajusta el mapa en consecuencia y, sobre la marcha, genera una proyección 2D delEscena tridimensional que corresponde a un ángulo de visión particular.
Los investigadores del MIT y QCRI esencialmente ejecutaron este proceso a la inversa. Establecieron el juego de fútbol muy realista "FIFA13" de Microsoft para jugar una y otra vez, y utilizaron la herramienta de análisis de videojuegos PIX de Microsoft para almacenar continuamente capturas de pantalla de la acción.Para cada captura de pantalla, también extrajeron el mapa tridimensional correspondiente.
Utilizando un algoritmo estándar para medir la diferencia entre dos imágenes, eliminaron la mayoría de las capturas de pantalla, manteniendo solo las que mejor capturaron el rango de ángulos de visión posibles y las configuraciones de jugador que presentó el juego; el número total de capturas de pantalla aúncorrió a decenas de miles. Luego almacenaron cada captura de pantalla y el mapa tridimensional asociado en una base de datos.
rompecabezas
Para cada cuadro de video en 2-D de un juego de fútbol real, el sistema busca las aproximadamente 10 capturas de pantalla en la base de datos que mejor le corresponden. Luego descompone todas esas imágenes, buscando los mejores partidos entre regiones más pequeñasdel video y las regiones más pequeñas de las capturas de pantalla. Una vez que encuentra esas coincidencias, superpone la información de profundidad de las capturas de pantalla en las secciones correspondientes del video. Finalmente, vuelve a unir las piezas.
El resultado es un efecto tridimensional muy convincente, sin artefactos visuales. Los investigadores realizaron un estudio de usuario en el que la mayoría de los sujetos le dieron al efecto tridimensional una calificación de 5 "excelente" en un punto de cinco puntos."mala" a "excelente" escala; el puntaje promedio fue entre 4 "bueno" y 5.
Actualmente, dicen los investigadores, el sistema tarda aproximadamente un tercio de segundo en procesar un fotograma de video. Pero los fotogramas sucesivos podrían procesarse todos en paralelo, por lo que solo es necesario incurrir en el retraso de un tercio de segundouna vez. Una demora de transmisión de uno o dos segundos probablemente proporcionaría un amortiguador adecuado para permitir la conversión sobre la marcha. Aun así, los investigadores están trabajando para reducir aún más el tiempo de conversión.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :