¿Qué tan inteligente es la forma de inteligencia artificial conocida como redes informáticas de aprendizaje profundo, y qué tan similares imitan estas máquinas al cerebro humano? Han mejorado mucho en los últimos años, pero todavía les queda un largo camino por recorrer, un equipo de UCLA cognitivoinformes de psicólogos en la revista PLOS Biología Computacional .
Los partidarios han expresado su entusiasmo por el uso de estas redes para realizar muchas tareas individuales, e incluso trabajos, tradicionalmente realizados por personas. Sin embargo, los resultados de los cinco experimentos en este estudio mostraron que es fácil engañar a las redes y a las redes 'El método para identificar objetos utilizando la visión por computadora difiere sustancialmente de la visión humana.
"Las máquinas tienen limitaciones severas que necesitamos entender", dijo Philip Kellman, un distinguido profesor de psicología de la UCLA y autor principal del estudio. "Estamos diciendo, 'Espera, no tan rápido'".
La visión artificial, dijo, tiene inconvenientes. En el primer experimento, los psicólogos mostraron una de las mejores redes de aprendizaje profundo, llamada VGG-19, imágenes en color de animales y objetos. Las imágenes habían sido alteradas. Por ejemplo, la superficiese mostró una pelota de golf en una tetera, se colocaron rayas de cebra en un camello y se mostró el patrón de un calcetín de argyle azul y rojo en un elefante. VGG-19 clasificó sus principales opciones y eligió el elemento correcto como su primera opciónpara solo cinco de 40 objetos.
"Podemos engañar a estos sistemas artificiales con bastante facilidad", dijo el coautor Hongjing Lu, profesor de psicología de la UCLA. "Sus mecanismos de aprendizaje son mucho menos sofisticados que la mente humana".
VGG-19 pensó que había un 0 por ciento de posibilidades de que el elefante fuera un elefante y solo un 0,41 por ciento de posibilidades de que la tetera fuera una tetera. Su primera opción para la tetera fue una pelota de golf, lo que demuestra que la red de inteligencia artificial observala textura de un objeto más que su forma, dijo el autor principal Nicholas Baker, un estudiante graduado de psicología de la UCLA.
"Es absolutamente razonable que aparezca la pelota de golf, pero es alarmante que la tetera no aparezca en ninguna parte entre las opciones", dijo Kellman. "No está tomando forma".
Los humanos identifican los objetos principalmente por su forma, dijo Kellman. Los investigadores sospecharon que las redes de computadoras estaban usando un método diferente.
En el segundo experimento, los psicólogos mostraron imágenes de figuras de vidrio a VGG-19 y a una segunda red de aprendizaje profundo, llamada AlexNet. VGG-19 se desempeñó mejor en todos los experimentos en los que se probaron ambas redes. Ambas redes fueron entrenadas parareconocer objetos usando una base de datos de imágenes llamada ImageNet.
Sin embargo, ambas redes lo hicieron mal, incapaz de identificar las figuras de vidrio. Ni VGG-19 ni AlexNet identificaron correctamente las figuras como sus primeras opciones. Una figura de elefante fue clasificada con casi un 0 por ciento de posibilidades de ser un elefante por ambas redes.La mayoría de las respuestas principales fueron desconcertantes para los investigadores, como la elección de VGG-19 de "sitio web" para "ganso" y "abrelatas" para "oso polar". En promedio, AlexNet clasificó la respuesta correcta en el 328 ° lugar entre 1,000 opciones.
"Las máquinas cometen errores muy diferentes de los humanos", dijo Lu.
En el tercer experimento, los investigadores mostraron 40 dibujos contorneados en negro, con imágenes en blanco, tanto para VGG-19 como para AlexNet. Estos primeros tres experimentos estaban destinados a descubrir si los dispositivos identificaban objetos por su forma.
Las redes nuevamente hicieron un mal trabajo al identificar elementos como una mariposa, un avión y un plátano.
El objetivo de los experimentos no era engañar a las redes, sino saber si identifican objetos de manera similar a los humanos, o de manera diferente, dijo el coautor Gennady Erlikhman, un erudito postdoctoral en psicología de la UCLA.
En el cuarto experimento, los investigadores mostraron a ambas redes 40 imágenes, esta vez en negro sólido.
Con las imágenes en negro, las redes obtuvieron mejores resultados, produciendo la etiqueta de objeto correcta entre sus cinco opciones principales para aproximadamente el 50 por ciento de los objetos. VGG-19, por ejemplo, clasificó un ábaco con una probabilidad de 99.99 por ciento de ser un ábaco yun cañón con un 61 por ciento de posibilidades de ser un cañón. En contraste, VGG-19 y AlexNet pensaron que había menos del 1 por ciento de posibilidades de que un martillo blanco delineado en negro fuera un martillo.
Los investigadores piensan que a las redes les fue mucho mejor con los objetos negros porque los elementos carecen de lo que Kellman llama "contornos internos", bordes que confunden a las máquinas.
En el experimento cinco, los investigadores revolvieron las imágenes para hacerlas más difíciles de reconocer, pero conservaron piezas de los objetos. Los investigadores seleccionaron seis imágenes que la red VGG-19 acertó originalmente y las codificaron. A los humanos les resultó difícilReconocer. VGG-19 obtuvo cinco de las seis imágenes correctas, y estuvo cerca en la sexta.
Como parte del quinto experimento, los investigadores evaluaron a los estudiantes universitarios de UCLA, además de VGG-19. A diez estudiantes se les mostraron objetos en siluetas negras, algunos codificados para ser difíciles de reconocer y otros descifrados, algunos objetos por solo un segundo, y algunos durante el tiempo que los estudiantes quisieron verlos. Los estudiantes identificaron correctamente el 92 por ciento de los objetos no codificados y el 23 por ciento de los revueltos con solo un segundo para verlos. Cuando los estudiantes pudieron ver las siluetas durante tanto tiempoquerían, identificaron correctamente el 97 por ciento de los objetos no codificados y el 37 por ciento de los objetos revueltos.
¿Qué conclusiones sacan los psicólogos?
Los humanos ven el objeto completo, mientras que las redes de inteligencia artificial identifican fragmentos del objeto.
"Este estudio muestra que estos sistemas obtienen la respuesta correcta en las imágenes en las que fueron entrenados sin considerar la forma", dijo Kellman. "Para los humanos, la forma general es primaria para el reconocimiento de objetos, y la identificación de imágenes por forma general no pareceestar en estos sistemas de aprendizaje profundo en absoluto "
Hay docenas de máquinas de aprendizaje profundo, y los investigadores creen que sus hallazgos se aplican ampliamente a estos dispositivos.
La investigación fue apoyada en parte por una subvención de la National Science Foundation.
Fuente de la historia :
Materiales proporcionado por Universidad de California - Los Ángeles . Original escrito por Stuart Wolpert. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :