Los algoritmos de visión por computadora han recorrido un largo camino en la última década. Se ha demostrado que son tan buenos o mejores que las personas en tareas como categorizar razas de perros o gatos, y tienen la notable capacidad de identificar caras específicas de unmar de millones.
Pero la investigación realizada por científicos de la Universidad de Brown muestra que las computadoras fallan miserablemente en una clase de tareas con las que incluso los niños pequeños no tienen ningún problema: determinar si dos objetos en una imagen son iguales o diferentes. En un documento presentado la semana pasada en la reunión anualde la Cognitive Science Society, el equipo de Brown arroja luz sobre por qué las computadoras son tan malas en este tipo de tareas y sugiere caminos hacia sistemas de visión por computadora más inteligentes.
"Hay mucha emoción sobre lo que la visión por computadora ha podido lograr, y comparto mucho de eso", dijo Thomas Serre, profesor asociado de ciencias cognitivas, lingüísticas y psicológicas en Brown y autor principal del artículo ". Perocreemos que al trabajar para comprender las limitaciones de los sistemas actuales de visión por computadora como lo hemos hecho aquí, realmente podemos avanzar hacia sistemas nuevos y mucho más avanzados en lugar de simplemente ajustar los sistemas que ya tenemos ".
Para el estudio, Serre y sus colegas utilizaron algoritmos de visión por computadora de última generación para analizar imágenes en blanco y negro simples que contienen dos o más formas generadas al azar. En algunos casos, los objetos eran idénticos; a veces eranigual pero con un objeto rotado en relación con el otro; a veces los objetos eran completamente diferentes. Se le pidió a la computadora que identificara la relación igual o diferente.
El estudio mostró que, incluso después de cientos de miles de ejemplos de entrenamiento, los algoritmos no eran mejores que la posibilidad de reconocer la relación apropiada. La pregunta, entonces, era por qué estos sistemas son tan malos en esta tarea.
Serre y sus colegas sospecharon que tiene algo que ver con la incapacidad de estos algoritmos de visión por computadora para individualizar objetos. Cuando las computadoras miran una imagen, en realidad no pueden decir dónde se detiene un objeto en la imagen y el fondo, u otro objeto, comienza. Simplemente ven una colección de píxeles que tienen patrones similares a las colecciones de píxeles que han aprendido a asociar con ciertas etiquetas. Eso funciona bien para problemas de identificación o categorización, pero se desmorona al intentar comparar dos objetos.
Para demostrar que esta es la razón por la cual los algoritmos se estaban descomponiendo, Serre y su equipo realizaron experimentos que liberaron a la computadora de tener que individualizar los objetos por sí misma. En lugar de mostrarle a la computadora dos objetos en la misma imagen, los investigadores mostraroncomputar los objetos uno por uno en imágenes separadas. Los experimentos mostraron que los algoritmos no tenían problemas para aprender una relación igual o diferente siempre que no tuvieran que ver los dos objetos en la misma imagen.
La fuente del problema en la individualización de objetos, dice Serre, es la arquitectura de los sistemas de aprendizaje automático que alimentan los algoritmos. Los algoritmos usan redes neuronales convolucionales, capas de unidades de procesamiento conectadas que imitan libremente las redes de neuronas en el cerebro.Una diferencia clave con respecto al cerebro es que las redes artificiales son exclusivamente "retroalimentadas", lo que significa que la información tiene un flujo unidireccional a través de las capas de la red. De acuerdo con Serre, el sistema visual en humanos no es así.
"Si observa la anatomía de nuestro propio sistema visual, descubre que hay muchas conexiones recurrentes, donde la información va desde un área visual más alta a un área visual más baja y viceversa", dijo Serre.
Si bien no está claro exactamente qué hacen esos comentarios, dice Serre, es probable que tengan algo que ver con nuestra capacidad de prestar atención a ciertas partes de nuestro campo visual y hacer representaciones mentales de objetos en nuestras mentes.
"Presumiblemente las personas atienden a un objeto, construyendo una representación característica que está vinculada a ese objeto en su memoria de trabajo", dijo Serre. "Luego cambian su atención a otro objeto. Cuando ambos objetos están representados en la memoria de trabajo, su visualel sistema es capaz de hacer comparaciones como igual o diferente "
Serre y sus colegas plantean la hipótesis de que la razón por la cual las computadoras no pueden hacer algo así es porque las redes neuronales de retroalimentación no permiten el tipo de procesamiento recurrente requerido para esta individualización y representación mental de objetos. Podría ser, Serredice que hacer que la visión por computadora sea más inteligente requerirá redes neuronales que se aproximen más a la naturaleza recurrente del procesamiento visual humano.
Fuente de la historia :
Materiales proporcionado por Universidad de Brown . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :