Convertir una silla en una mesa, o viceversa, puede sonar como un truco de magia. En este caso, la magia cero está involucrada, solo un montón de geometría compleja y aprendizaje automático.
Llamada LOGAN, la red neuronal profunda, es decir, una especie de máquina, puede aprender a transformar las formas de dos objetos diferentes, por ejemplo, una silla y una mesa, de forma natural, sin ver transformaciones emparejadas entre las formasTodo lo que la máquina había visto era un montón de mesas y un montón de sillas, y podía traducir automáticamente formas entre los dos dominios no apareados. LOGAN también puede realizar automáticamente transferencias de contenido y estilo entre dos tipos diferentes de formas sin ningún cambio en sured de arquitectura.
El equipo de investigadores detrás de LOGAN, de la Universidad Simon Fraser, la Universidad de Shenzhen y la Universidad de Tel Aviv, presentará su trabajo en ACM SIGGRAPH Asia, celebrada del 17 al 20 de noviembre en Brisbane, Australia. SIGGRAPH Asia, ahora en su 12 °.año, atrae a las personas técnicas y creativas más respetadas de todo el mundo en gráficos por computadora, animación, interactividad, juegos y tecnologías emergentes.
"La transformación de forma es uno de los problemas más fundamentales y frecuentes en gráficos por computadora y modelado geométrico", dice el coautor principal del trabajo, Hao Richard Zhang, profesor de ciencias de la computación en la Universidad Simon Fraser. "emergente es vincular este importante problema con el aprendizaje profundo: ¿puede una máquina aprender a transformar formas, particularmente en un entorno no supervisado o no emparejado? "
En este trabajo, los investigadores recurrieron a una técnica bien conocida en aprendizaje automático, la Red Adversaria Generativa GAN, para transformaciones de formas de uso general no emparejadas. Su red está capacitada en dos conjuntos de formas, por ejemplo, mesas y sillas oletras diferentes. No hay un emparejamiento entre formas en los dos dominios para guiar la traducción de formas ni una correspondencia puntual entre formas. Una vez capacitado, el método de los investigadores toma una forma de conjunto de puntos de un dominio, una mesa o una silla, y se transforma en el otro.
LOGAN supera un desafío clave en las técnicas de transformación de formas. Dados dos conjuntos de formas, sillas y mesas, es un desafío para la red aprender qué características de forma particulares se deben preservar o alterar para dar como resultado una transformación realista del objeto,de la silla a la mesa y viceversa. El método del equipo aprende las diferencias únicas en las características y puede determinar automáticamente qué características deben mantenerse o descartarse para lograr la transformación de forma deseada, y puede hacerlo sin supervisión.
Se han desarrollado otras técnicas en la visión por computadora para la traducción de imagen a imagen sin emparejar y han tenido éxito en la traducción de las características de estilo, pero la mayoría no ha logrado la traducción de formas ". En 2017, CycleGAN y DualGAN, dos trabajos muy influyentes de la visión por computadorase desarrollaron para una traducción de estilo de imagen a imagen sin emparejar. LOGAN produce específicamente traducciones de forma realistas, tanto en estilo como en contenido, por primera vez '', señala Zhang. Además, los investigadores demuestran que LOGAN puede aprender contenido "conservador de estilo"transferencias. Por ejemplo, la red puede transformar automáticamente una letra 'R' en una 'P' del mismo estilo de fuente, o con respecto a la traducción de estilo, su método puede traducir una letra en negrita 'A' en cursiva'UNA'.
Para diseñar su método, los investigadores entrenan una red neuronal que codifica los dos tipos de formas de entrada en un espacio latente común. En el aprendizaje profundo, el espacio latente está representado por la capa de cuello de botella donde la red captura las características de los datos de entradaLOGAN no solo está entrenado para convertir un código de silla en un código de mesa, sino que también está entrenado para convertir un código de mesa en el mismo código de mesa. Este último permite la "preservación de características" y ayuda a mantener ciertas características de la mesa durante la forma de silla a mesatraducciones.
En estudios de ablación, los investigadores demuestran las capacidades superiores de LOGAN en transformaciones de forma no emparejadas en una variedad de ejemplos sobre líneas de base y enfoques de vanguardia. Su estudio muestra que LOGAN puede aprender qué características de forma mantener durante las transformaciones,y los resultados se asemejan con precisión al objeto deseado.
En el trabajo futuro, el equipo tiene como objetivo ajustar LOGAN para que funcione en todos los pares de dominios para que sea realmente de uso general. La versión actual de LOGAN tampoco es lo suficientemente inteligente como para comprender el significado de las formas, y los investigadores sontrabajando para hacer que la red sea "más inteligente" para incorporar esta información.
Fuente de la historia :
Materiales proporcionados por Asociación de Maquinaria de Computación . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :