Noticias de ciencia

de organizaciones de investigación

Recuperando 'dimensiones perdidas' de imágenes y video

El modelo podría recrear video de imágenes borrosas por movimiento y 'cámaras de esquina', algún día puede recuperar datos 3D de imágenes médicas 2D

Fecha :: 16 de octubre de 2019
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Los investigadores han desarrollado un modelo que recupera datos valiosos perdidos de imágenes y videos que se han 'colapsado' en dimensiones más bajas.
Compartir :

HISTORIA COMPLETA

Los investigadores del MIT han desarrollado un modelo que recupera datos valiosos perdidos de imágenes y videos que se han "colapsado" en dimensiones más bajas.

anuncio

El modelo podría usarse para recrear videos de imágenes borrosas por movimiento, o de nuevos tipos de cámaras que capturan el movimiento de una persona en las esquinas, pero solo como líneas unidimensionales vagas. Si bien se necesitan más pruebas, los investigadores creen que este enfoque podríaalgún día podría usarse para convertir imágenes médicas en 2D en exploraciones corporales en 3D más informativas, pero más caras, lo que podría beneficiar las imágenes médicas en los países más pobres.

"En todos estos casos, los datos visuales tienen una dimensión, en el tiempo o en el espacio, que se pierde por completo", dice Guha Balakrishnan, un postdoc en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL y primer autor en un artículo que describeel modelo, que se presentará en la Conferencia Internacional sobre Visión por Computadora de la próxima semana: "Si recuperamos esa dimensión perdida, puede tener muchas aplicaciones importantes".

Los datos visuales capturados a menudo colapsan datos de múltiples dimensiones de tiempo y espacio en una o dos dimensiones, llamadas "proyecciones". Los rayos X, por ejemplo, colapsan datos tridimensionales sobre estructuras anatómicas en una imagen plana. O, considere unfoto de larga exposición de estrellas que se mueven por el cielo: las estrellas, cuya posición cambia con el tiempo, aparecen como rayas borrosas en la foto fija.

Del mismo modo, las "cámaras de esquina", recientemente inventadas en el MIT, detectan personas en movimiento en las esquinas. Esto podría ser útil para, por ejemplo, que los bomberos encuentren personas en edificios en llamas. Pero las cámaras no son exactamente fáciles de usar. Actualmente solo producenproyecciones que se asemejan a líneas borrosas y onduladas, correspondientes a la trayectoria y velocidad de una persona.

Los investigadores inventaron un modelo de "desproyección visual" que utiliza una red neuronal para "aprender" patrones que coinciden con las proyecciones de baja dimensión con sus imágenes y videos originales de alta dimensión. Dadas las nuevas proyecciones, el modelo usa lo aprendido para recrear todolos datos originales de una proyección

anuncio

En experimentos, el modelo sintetizó cuadros de video precisos que muestran a las personas caminando, extrayendo información de líneas unidimensionales y similares a las producidas por las cámaras de las esquinas. El modelo también recuperó cuadros de video de proyecciones simples de movimiento borroso de dígitos que se mueven alrededoruna pantalla, del popular conjunto de datos Moving MNIST.

Uniéndose a Balakrishnan en el papel están: Amy Zhao, una estudiante graduada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación EECS y CSAIL; los profesores de EECS John Guttag, Fredo Durand y William T. Freeman; y Adrian Dalca, una facultadmiembro de radiología en la Harvard Medical School.

Pistas en píxeles

El trabajo comenzó como un "problema de inversión genial" para recrear el movimiento que causa el desenfoque de movimiento en la fotografía de larga exposición, dice Balakrishnan. En los píxeles de una proyección existen algunas pistas sobre la fuente de alta dimensión.

Las cámaras digitales que capturan tomas de larga exposición, por ejemplo, básicamente agregarán fotones durante un período de tiempo en cada píxel. Al capturar el movimiento de un objeto con el tiempo, la cámara tomará el valor promedio de los píxeles de captura de movimiento. Luego,aplica esos valores promedio a las alturas y anchos correspondientes de una imagen fija, lo que crea las rayas borrosas de la trayectoria del objeto. Al calcular algunas variaciones en la intensidad de los píxeles, el movimiento se puede recrear teóricamente.

anuncio

Como se dieron cuenta los investigadores, ese problema es relevante en muchas áreas: los rayos X, por ejemplo, capturan información de altura, ancho y profundidad de estructuras anatómicas, pero utilizan una técnica similar de promedio de píxeles para colapsar la profundidad en una imagen 2DLas cámaras de esquina, inventadas en 2017 por Freeman, Durand y otros investigadores, capturan señales de luz reflejadas alrededor de una escena oculta que transportan información bidimensional sobre la distancia de una persona desde las paredes y los objetos. La técnica de promedio de píxeles luego colapsa esos datosen un video unidimensional, básicamente, mediciones de diferentes longitudes a lo largo del tiempo en una sola línea.

Los investigadores crearon un modelo general, basado en una red neuronal convolucional CNN, un modelo de aprendizaje automático que se ha convertido en un centro neurálgico para las tareas de procesamiento de imágenes, que captura pistas sobre cualquier dimensión perdida en píxeles promediados.

Sintetizando señales

En el entrenamiento, los investigadores alimentaron a la CNN con miles de pares de proyecciones y sus fuentes de alta dimensión, llamadas "señales". La CNN aprende patrones de píxeles en las proyecciones que coinciden con las de las señales. La alimentación de la CNN es un marco llamado"autoencoder variacional", que evalúa qué tan bien las salidas CNN coinciden con sus entradas a través de alguna probabilidad estadística. A partir de eso, el modelo aprende un "espacio" de todas las señales posibles que podrían haber producido una proyección dada. Esto crea, en esencia, un tipode anteproyecto sobre cómo pasar de una proyección a todas las señales de coincidencia posibles.

Cuando se muestran proyecciones previamente no vistas, el modelo observa los patrones de píxeles y sigue los planos a todas las señales posibles que podrían haber producido esa proyección. Luego, sintetiza nuevas imágenes que combinan todos los datos de la proyección y todos los datos de la señal. Estorecrea la señal de alta dimensión.

Para un experimento, los investigadores recopilaron un conjunto de datos de 35 videos de 30 personas caminando en un área específica. Colapsaron todos los cuadros en proyecciones que usaron para entrenar y probar el modelo. De un conjunto de seis proyecciones invisibles,El modelo recreó con precisión 24 cuadros de la marcha de la persona, hasta la posición de sus piernas y el tamaño de la persona mientras caminaba hacia o desde la cámara. El modelo parece aprender, por ejemplo, que los píxeles se vuelven más oscuros y anchos con el tiempoprobablemente corresponda a una persona que se acerca a la cámara.

"Es casi como magia que podamos recuperar este detalle", dice Balakrishnan.

Los investigadores no probaron su modelo en imágenes médicas. Pero ahora están colaborando con colegas de la Universidad de Cornell para recuperar información anatómica en 3D de imágenes médicas en 2D, como rayos X, sin costos adicionales, lo que puede permitir más detallesimágenes médicas en países más pobres. Los médicos prefieren la mayoría de las imágenes en 3D, como las capturadas con tomografías computarizadas, porque contienen información médica mucho más útil. Pero las tomografías computarizadas son generalmente difíciles y costosas de obtener.

"Si podemos convertir los rayos X en tomografías computarizadas, eso cambiaría un poco el juego", dice Balakrishnan. "Podrías tomar una radiografía e introducirla en nuestro algoritmo y ver toda la información perdida".

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Guha Balakrishnan, Adrian V. Dalca, Amy Zhao, John V. Guttag, Fredo Durand, William T. Freeman. Desproyección visual: recuperación probabilística de dimensiones contraídas . Enviado a arXiv , 2019 [ resumen ]

Cita esta página :

Instituto de Tecnología de Massachusetts. "Recuperando 'dimensiones perdidas' de imágenes y video: el modelo podría recrear video de imágenes borrosas por movimiento y 'cámaras de esquina', algún día puede recuperar datos 3D de imágenes médicas 2D". ScienceDaily. ScienceDaily, 16 de octubre2019. .

Instituto de Tecnología de Massachusetts. 2019, 16 de octubre. Recuperación de 'dimensiones perdidas' de imágenes y video: el modelo podría recrear video de imágenes borrosas por movimiento y 'cámaras de esquina', algún día puede recuperar datos 3D de imágenes médicas 2D. ScienceDaily . Recuperado el 22 de julio de 2020 de www.science-things.com/releases/2019/10/191016153654.htm

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Recuperando 'dimensiones perdidas' de imágenes y video

El modelo podría recrear video de imágenes borrosas por movimiento y 'cámaras de esquina', algún día puede recuperar datos 3D de imágenes médicas 2D

1

2

3

4

5

1

2

3

4

5

Nueva investigación de la luz más antigua confirma la edad del universo

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Platón tenía razón: la Tierra está hecha, en promedio, de cubos

Nuevo modelo conecta la física de gotitas respiratorias con la propagación de Covid-19

Creado 'neurotransistor artificial'

prediciendo su personalidad a partir de los datos de su teléfono inteligente

Primera imagen de un sistema de varios planetas alrededor de una estrella similar al Sol capturada por el telescopio ESO

Nuevas estructuras de campo magnético cósmico descubiertas en Galaxy NGC 4217

Los científicos descubren que los volcanes en Venus todavía están activos

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

El brazalete 3D con detección de manos señala el futuro de la tecnología portátil

Las poderosas manos similares a las de los humanos crean interacciones humano-robóticas más seguras

Excitación cuántica encontrada en material magnético Van Der Waals NiPS3

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles