Los investigadores del MIT han desarrollado un modelo que recupera datos valiosos perdidos de imágenes y videos que se han "colapsado" en dimensiones más bajas.
El modelo podría usarse para recrear videos de imágenes borrosas por movimiento, o de nuevos tipos de cámaras que capturan el movimiento de una persona en las esquinas, pero solo como líneas unidimensionales vagas. Si bien se necesitan más pruebas, los investigadores creen que este enfoque podríaalgún día podría usarse para convertir imágenes médicas en 2D en exploraciones corporales en 3D más informativas, pero más caras, lo que podría beneficiar las imágenes médicas en los países más pobres.
"En todos estos casos, los datos visuales tienen una dimensión, en el tiempo o en el espacio, que se pierde por completo", dice Guha Balakrishnan, un postdoc en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL y primer autor en un artículo que describeel modelo, que se presentará en la Conferencia Internacional sobre Visión por Computadora de la próxima semana: "Si recuperamos esa dimensión perdida, puede tener muchas aplicaciones importantes".
Los datos visuales capturados a menudo colapsan datos de múltiples dimensiones de tiempo y espacio en una o dos dimensiones, llamadas "proyecciones". Los rayos X, por ejemplo, colapsan datos tridimensionales sobre estructuras anatómicas en una imagen plana. O, considere unfoto de larga exposición de estrellas que se mueven por el cielo: las estrellas, cuya posición cambia con el tiempo, aparecen como rayas borrosas en la foto fija.
Del mismo modo, las "cámaras de esquina", recientemente inventadas en el MIT, detectan personas en movimiento en las esquinas. Esto podría ser útil para, por ejemplo, que los bomberos encuentren personas en edificios en llamas. Pero las cámaras no son exactamente fáciles de usar. Actualmente solo producenproyecciones que se asemejan a líneas borrosas y onduladas, correspondientes a la trayectoria y velocidad de una persona.
Los investigadores inventaron un modelo de "desproyección visual" que utiliza una red neuronal para "aprender" patrones que coinciden con las proyecciones de baja dimensión con sus imágenes y videos originales de alta dimensión. Dadas las nuevas proyecciones, el modelo usa lo aprendido para recrear todolos datos originales de una proyección
En experimentos, el modelo sintetizó cuadros de video precisos que muestran a las personas caminando, extrayendo información de líneas unidimensionales y similares a las producidas por las cámaras de las esquinas. El modelo también recuperó cuadros de video de proyecciones simples de movimiento borroso de dígitos que se mueven alrededoruna pantalla, del popular conjunto de datos Moving MNIST.
Uniéndose a Balakrishnan en el papel están: Amy Zhao, una estudiante graduada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación EECS y CSAIL; los profesores de EECS John Guttag, Fredo Durand y William T. Freeman; y Adrian Dalca, una facultadmiembro de radiología en la Harvard Medical School.
Pistas en píxeles
El trabajo comenzó como un "problema de inversión genial" para recrear el movimiento que causa el desenfoque de movimiento en la fotografía de larga exposición, dice Balakrishnan. En los píxeles de una proyección existen algunas pistas sobre la fuente de alta dimensión.
Las cámaras digitales que capturan tomas de larga exposición, por ejemplo, básicamente agregarán fotones durante un período de tiempo en cada píxel. Al capturar el movimiento de un objeto con el tiempo, la cámara tomará el valor promedio de los píxeles de captura de movimiento. Luego,aplica esos valores promedio a las alturas y anchos correspondientes de una imagen fija, lo que crea las rayas borrosas de la trayectoria del objeto. Al calcular algunas variaciones en la intensidad de los píxeles, el movimiento se puede recrear teóricamente.
Como se dieron cuenta los investigadores, ese problema es relevante en muchas áreas: los rayos X, por ejemplo, capturan información de altura, ancho y profundidad de estructuras anatómicas, pero utilizan una técnica similar de promedio de píxeles para colapsar la profundidad en una imagen 2DLas cámaras de esquina, inventadas en 2017 por Freeman, Durand y otros investigadores, capturan señales de luz reflejadas alrededor de una escena oculta que transportan información bidimensional sobre la distancia de una persona desde las paredes y los objetos. La técnica de promedio de píxeles luego colapsa esos datosen un video unidimensional, básicamente, mediciones de diferentes longitudes a lo largo del tiempo en una sola línea.
Los investigadores crearon un modelo general, basado en una red neuronal convolucional CNN, un modelo de aprendizaje automático que se ha convertido en un centro neurálgico para las tareas de procesamiento de imágenes, que captura pistas sobre cualquier dimensión perdida en píxeles promediados.
Sintetizando señales
En el entrenamiento, los investigadores alimentaron a la CNN con miles de pares de proyecciones y sus fuentes de alta dimensión, llamadas "señales". La CNN aprende patrones de píxeles en las proyecciones que coinciden con las de las señales. La alimentación de la CNN es un marco llamado"autoencoder variacional", que evalúa qué tan bien las salidas CNN coinciden con sus entradas a través de alguna probabilidad estadística. A partir de eso, el modelo aprende un "espacio" de todas las señales posibles que podrían haber producido una proyección dada. Esto crea, en esencia, un tipode anteproyecto sobre cómo pasar de una proyección a todas las señales de coincidencia posibles.
Cuando se muestran proyecciones previamente no vistas, el modelo observa los patrones de píxeles y sigue los planos a todas las señales posibles que podrían haber producido esa proyección. Luego, sintetiza nuevas imágenes que combinan todos los datos de la proyección y todos los datos de la señal. Estorecrea la señal de alta dimensión.
Para un experimento, los investigadores recopilaron un conjunto de datos de 35 videos de 30 personas caminando en un área específica. Colapsaron todos los cuadros en proyecciones que usaron para entrenar y probar el modelo. De un conjunto de seis proyecciones invisibles,El modelo recreó con precisión 24 cuadros de la marcha de la persona, hasta la posición de sus piernas y el tamaño de la persona mientras caminaba hacia o desde la cámara. El modelo parece aprender, por ejemplo, que los píxeles se vuelven más oscuros y anchos con el tiempoprobablemente corresponda a una persona que se acerca a la cámara.
"Es casi como magia que podamos recuperar este detalle", dice Balakrishnan.
Los investigadores no probaron su modelo en imágenes médicas. Pero ahora están colaborando con colegas de la Universidad de Cornell para recuperar información anatómica en 3D de imágenes médicas en 2D, como rayos X, sin costos adicionales, lo que puede permitir más detallesimágenes médicas en países más pobres. Los médicos prefieren la mayoría de las imágenes en 3D, como las capturadas con tomografías computarizadas, porque contienen información médica mucho más útil. Pero las tomografías computarizadas son generalmente difíciles y costosas de obtener.
"Si podemos convertir los rayos X en tomografías computarizadas, eso cambiaría un poco el juego", dice Balakrishnan. "Podrías tomar una radiografía e introducirla en nuestro algoritmo y ver toda la información perdida".
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :