Los expertos en neurociencia e inteligencia artificial de Rice University y Baylor College of Medicine se han inspirado en el cerebro humano para crear un nuevo método de "aprendizaje profundo" que permite que las computadoras aprendan sobre el mundo visual en gran medida por sí mismas, al igual que los bebés humanos.
En las pruebas, el "modelo de mezcla de renderizado profundo" del grupo aprendió en gran medida cómo distinguir los dígitos escritos a mano utilizando un conjunto de datos estándar de 10,000 dígitos escritos por empleados federales y estudiantes de secundaria. En los resultados presentados este mes en los Sistemas de Procesamiento de Información Neural NIPS en Barcelona, España, los investigadores describieron cómo entrenaron su algoritmo dándole solo 10 ejemplos correctos de cada dígito escrito a mano entre cero y nueve y luego presentándole varios miles de ejemplos más que usó para aprender más.el algoritmo fue más preciso para distinguir correctamente los dígitos escritos a mano que casi todos los algoritmos anteriores que fueron entrenados con miles de ejemplos correctos de cada dígito.
"En el lenguaje de aprendizaje profundo, nuestro sistema utiliza un método conocido como aprendizaje semisupervisado", dijo el investigador principal Ankit Patel, profesor asistente con citas conjuntas en neurociencia en Baylor e ingeniería eléctrica e informática en Rice ". Los esfuerzos más exitosos enEsta área ha utilizado una técnica diferente llamada aprendizaje supervisado, donde la máquina está entrenada con miles de ejemplos: este es uno. Este es un dos.
"Los humanos no aprenden de esa manera", dijo Patel. "Cuando los bebés aprenden a ver durante su primer año, reciben muy poca información sobre qué son las cosas. Los padres pueden etiquetar algunas cosas: 'Biberón. Silla. Mamá."Pero el bebé ni siquiera puede entender las palabras habladas en ese momento. Aprende principalmente sin supervisión a través de alguna interacción con el mundo".
Patel dijo que él y el estudiante graduado Tan Nguyen, coautor del nuevo estudio, se propusieron diseñar un sistema de aprendizaje semisupervisado para datos visuales que no requería mucho "agarre manual" en forma de ejemplos de capacitación.Por ejemplo, las redes neuronales que utilizan el aprendizaje supervisado generalmente recibirían cientos o incluso miles de ejemplos de capacitación de dígitos escritos a mano antes de ser probados en la base de datos de 10,000 dígitos escritos a mano en la base de datos del Instituto Nacional Mixto de Estándares y Tecnología MNIST.
El algoritmo semi-supervisado de Rice-Baylor es una "red neuronal convolucional", una pieza de software compuesta por capas de neuronas artificiales cuyo diseño se inspiró en neuronas biológicas. Estas neuronas artificiales, o unidades de procesamiento, están organizadas en capas, y ella primera capa escanea una imagen y realiza tareas simples como buscar bordes y cambios de color. La segunda capa examina la salida de la primera capa y busca patrones más complejos. Matemáticamente, se hace referencia a este método anidado de buscar patrones dentro de patrones dentro de patrones.como un proceso no lineal.
"Es esencialmente una corteza visual muy simple", dijo Patel sobre la red neuronal convolucional. "Le das una imagen, y cada capa procesa la imagen un poco más y la comprende de una manera más profunda, y por la última capa, tienes una comprensión muy profunda y abstracta de la imagen. En este momento, todo auto sin conductor tiene redes neuronales convolucionales porque actualmente son los mejores para la visión ".
Al igual que los cerebros humanos, las redes neuronales comienzan como pizarras en blanco y se forman completamente a medida que interactúan con el mundo. Por ejemplo, cada unidad de procesamiento en una red convolucional comienza igual y se especializa con el tiempo a medida que se exponen a estímulos visuales.
"Los bordes son muy importantes", dijo Nguyen. "Muchas de las neuronas de la capa inferior tienden a convertirse en detectores de bordes. Buscan patrones que son muy comunes y muy importantes para la interpretación visual, y cada uno se entrena para mirarpara un patrón específico, como un borde de 45 grados o una transición de rojo a azul de 30 grados.
"Cuando detectan su patrón particular, se emocionan y lo pasan a la siguiente capa hacia arriba, que busca patrones en sus patrones, y así sucesivamente", dijo. "El número de veces que realiza una transformación no lineal esesencialmente la profundidad de la red, y la profundidad gobierna el poder. Cuanto más profunda es una red, más cosas puede desenredar. En las capas más profundas, las unidades buscan cosas muy abstractas como globos oculares o patrones de rejillas verticales o un autobús escolar ".
Nguyen comenzó a trabajar con Patel en enero cuando este último comenzó su carrera académica en Rice y Baylor. Patel ya había pasado más de una década estudiando y aplicando el aprendizaje automático en trabajos que van desde la capacitación de productos de alto volumen hasta la defensa estratégica de misiles, y acababa de terminar una temporada posdoctoral de cuatro años en el laboratorio de Richard Baraniuk de Rice, otro coautor del nuevo estudio. A finales de 2015, Baraniuk, Patel y Nguyen publicaron el primer marco teórico que podría derivar elestructura exacta de las redes neuronales convolucionales y proporcionar soluciones basadas en principios para aliviar algunas de sus limitaciones.
Baraniuk dijo que una comprensión teórica sólida es vital para diseñar redes convolucionales que van más allá del estado de la técnica actual.
"Entender las imágenes de video es un gran ejemplo", dijo Baraniuk. "Si estoy mirando un video, cuadro por cuadro, y quiero entender todos los objetos y cómo se mueven, etc., eso esun gran desafío. Imagine cuánto tiempo llevaría etiquetar cada objeto en cada cuadro de un video. Nadie tiene tiempo para eso. Y para que una máquina entienda lo que está viendo en un video, tiene que entender qué objetos son, el concepto de espacio tridimensional y un montón de otras cosas realmente complicadas. Los humanos aprendemos esas cosas por nuestra cuenta y las damos por sentado, pero están totalmente ausentes en las redes neuronales artificiales de hoy ".
Patel dijo que la teoría de las redes neuronales artificiales, que fue refinada en el documento de NIPS, en última instancia podría ayudar a los neurocientíficos a comprender mejor el funcionamiento del cerebro humano.
"Parece haber algunas similitudes sobre cómo la corteza visual representa el mundo y cómo las redes convolucionales representan el mundo, pero también difieren mucho", dijo Patel. "Lo que está haciendo el cerebro puede estar relacionado, pero sigue siendo muy diferenteY lo que sabemos sobre el cerebro es que aprende principalmente sin supervisión.
"Lo que mis colegas neurocientíficos y yo estamos tratando de descubrir es, ¿cuál es el algoritmo de aprendizaje semisupervisado que están implementando los circuitos neuronales en la corteza visual? ¿Y cómo se relaciona eso con nuestra teoría del aprendizaje profundo?", Dijo."¿Podemos usar nuestra teoría para ayudar a dilucidar lo que hace el cerebro? Porque la forma en que lo hace el cerebro es muy superior a cualquier red neuronal que hayamos diseñado".
Fuente de la historia :
Materiales proporcionado por Universidad de Rice . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :