Los datos capturados por las cámaras digitales de hoy en día a menudo se tratan como la materia prima de una imagen final. Antes de cargar imágenes en sitios de redes sociales, incluso los fotógrafos casuales de teléfonos celulares pueden pasar uno o dos minutos equilibrando el color y el contraste de ajuste, con uno de los muchospopulares programas de procesamiento de imágenes ahora disponibles.
Esta semana en Siggraph, la principal conferencia de gráficos digitales, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y Google presentan un nuevo sistema que puede retocar automáticamente las imágenes al estilo de un fotógrafo profesional. Sin embargo, es tan eficiente en términos de energía.que puede ejecutarse en un teléfono celular, y es tan rápido que puede mostrar imágenes retocadas en tiempo real, para que el fotógrafo pueda ver la versión final de la imagen mientras enmarca la toma.
El mismo sistema también puede acelerar los algoritmos de procesamiento de imágenes existentes. En las pruebas que involucran un nuevo algoritmo de Google para producir imágenes de alto rango dinámico, que capturan sutilezas de color perdido en imágenes digitales estándar, el nuevo sistema produjo resultados que fueron visualmenteindistinguible de los del algoritmo en aproximadamente una décima parte del tiempo, nuevamente, lo suficientemente rápido como para mostrarlo en tiempo real.
El sistema es un sistema de aprendizaje automático, lo que significa que aprende a realizar tareas mediante el análisis de datos de entrenamiento; en este caso, para cada nueva tarea que aprendió, fue entrenado en miles de pares de imágenes, sin procesar y retocadas.
El trabajo se basa en un proyecto anterior de los investigadores del MIT, en el que un teléfono celular enviaría una versión de baja resolución de una imagen a un servidor web. El servidor enviaría una "receta de transformación" que podría usarse para retocar elversión de alta resolución de la imagen en el teléfono, lo que reduce el consumo de ancho de banda.
"Google escuchó sobre el trabajo que había hecho en la receta de transformación", dice Michaël Gharbi, un estudiante graduado del MIT en ingeniería eléctrica y ciencias de la computación y primer autor de ambos documentos. "Ellos mismos hicieron un seguimiento de eso,así que conocimos y fusionamos los dos enfoques. La idea era hacer todo lo que estábamos haciendo antes, pero, en lugar de tener que procesar todo en la nube, aprenderlo. Y el primer objetivo de aprender era acelerarlo ".
atajos
En el nuevo trabajo, la mayor parte del procesamiento de la imagen se realiza en una imagen de baja resolución, lo que reduce drásticamente el tiempo y el consumo de energía. Pero esto presenta una nueva dificultad, porque los valores de color de los píxeles individuales en alta resoluciónla imagen debe inferirse de la salida mucho más gruesa del sistema de aprendizaje automático.
En el pasado, los investigadores han intentado utilizar el aprendizaje automático para aprender a "muestrear" una imagen de baja resolución o aumentar su resolución adivinando los valores de los píxeles omitidos. Durante el entrenamiento, la entrada al sistema es baja-res imagen, y la salida es una imagen de alta resolución. Pero esto no funciona bien en la práctica; la imagen de baja resolución simplemente deja demasiados datos.
Gharbi y sus colegas, el profesor de ingeniería eléctrica y ciencias de la computación del MIT Frédo Durand y Jiawen Chen, Jon Barron y Sam Hasinoff de Google, abordan este problema con dos trucos ingeniosos. El primero es que la salida de su máquina-el sistema de aprendizaje no es una imagen, más bien, es un conjunto de fórmulas simples para modificar los colores de los píxeles de la imagen. Durante el entrenamiento, el rendimiento del sistema se juzga según cuán bien las fórmulas de salida, cuando se aplican a la imagen original, se aproximanversión retocada
Tomando rodamientos
El segundo truco es una técnica para determinar cómo aplicar esas fórmulas a píxeles individuales en la imagen de alta resolución. La salida del sistema de los investigadores es una cuadrícula tridimensional, 16 por 16 por 8. El 16 por-16 caras de la cuadrícula corresponden a ubicaciones de píxeles en la imagen de origen; las ocho capas apiladas encima corresponden a diferentes intensidades de píxeles. Cada celda de la cuadrícula contiene fórmulas que determinan las modificaciones de los valores de color de las imágenes de origen.
Eso significa que cada celda de una de las caras de 16 por 16 de la cuadrícula tiene que representar miles de píxeles en la imagen de alta resolución. Pero supongamos que cada conjunto de fórmulas corresponde a una única ubicación en el centro de suentonces cualquier píxel de alta resolución se encuentra dentro de un cuadrado definido por cuatro conjuntos de fórmulas.
Hablando en términos generales, la modificación del valor de color de ese píxel es una combinación de las fórmulas en las esquinas del cuadrado, ponderadas según la distancia. Se produce una ponderación similar en la tercera dimensión de la cuadrícula, la correspondiente a la intensidad del píxel.
Los investigadores entrenaron su sistema en un conjunto de datos creado por el grupo de Durand y Adobe Systems, los creadores de Photoshop. El conjunto de datos incluye 5,000 imágenes, cada una retocada por cinco fotógrafos diferentes. También entrenaron su sistema en miles de pares de imágenes producidasmediante la aplicación de algoritmos particulares de procesamiento de imágenes, como el de la creación de imágenes de alto rango dinámico HDR. El software para realizar cada modificación ocupa casi tanto espacio en la memoria como una sola fotografía digital, por lo que, en principio,un teléfono celular podría estar equipado para procesar imágenes en una variedad de estilos.
Finalmente, los investigadores compararon el rendimiento de su sistema con el de un sistema de aprendizaje automático que procesaba imágenes a resolución completa en lugar de baja resolución. Durante el procesamiento, la versión de resolución completa necesitaba aproximadamente 12 gigabytes de memoria para ejecutar sus operaciones; los investigadores'la versión necesitaba alrededor de 100 megabytes, o la centésima parte. La versión de resolución completa del sistema HDR tardó aproximadamente 10 veces más en producir una imagen que el algoritmo original, o 100 veces más que el sistema de los investigadores'.
"Esta tecnología tiene el potencial de ser muy útil para la mejora de la imagen en tiempo real en plataformas móviles", dice Barron. "El uso del aprendizaje automático para la fotografía computacional es una perspectiva emocionante, pero está limitado por las severas limitaciones computacionales y de poder de los teléfonos móviles. Este documento puede proporcionarnos una forma de eludir estos problemas y producir experiencias fotográficas nuevas, convincentes y en tiempo real sin agotar la batería ni brindarle una experiencia de visor lenta ".
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :