Las redes neuronales profundas, una forma de inteligencia artificial, han demostrado el dominio de tareas que alguna vez se pensó que eran exclusivamente humanas. Sus triunfos iban desde la identificación de animales en imágenes, hasta el reconocimiento del habla humana, hasta ganar juegos de estrategia complejos, entre otros éxitos.
Ahora, los investigadores están ansiosos por aplicar esta técnica computacional, comúnmente conocida como aprendizaje profundo, a algunos de los misterios más persistentes de la ciencia. Pero debido a que los datos científicos a menudo se ven muy diferentes de los datos utilizados para las fotos de animales y el habla, el desarrollo dela red neuronal artificial correcta puede parecer un juego de adivinanzas imposible para los no expertos. Para expandir los beneficios del aprendizaje profundo para la ciencia, los investigadores necesitan nuevas herramientas para construir redes neuronales de alto rendimiento que no requieran conocimiento especializado.
Usando la supercomputadora Titan, un equipo de investigación dirigido por Robert Patton del Laboratorio Nacional Oak Ridge ORNL del Departamento de Energía de los EE. UU. DOE ha desarrollado un algoritmo evolutivo capaz de generar redes neuronales personalizadas que coinciden o superan el rendimiento de la artificial artificialsistemas de inteligencia. Mejor aún, al aprovechar la potencia de cómputo de GPU del Titan Cray XK7, la máquina de clase líder administrada por Oak Ridge Leadership Computing Facility, una Oficina de Usuario de la Oficina de Ciencia del DOE en ORNL, estas redes autogeneradas puedense produzca rápidamente, en cuestión de horas en lugar de los meses necesarios utilizando métodos convencionales.
El algoritmo del equipo de investigación, llamado MENNDL Redes neuronales evolutivas multinodo para aprendizaje profundo, está diseñado para evaluar, evolucionar y optimizar redes neuronales para conjuntos de datos únicos. Escalado a través de las 18,688 GPU de Titán, MENNDL puede probar y entrenar miles de redes potenciales paraun problema científico al mismo tiempo, eliminando a los de bajo rendimiento y promediando los de alto rendimiento hasta que surja una red óptima. El proceso elimina gran parte del ajuste intensivo de tiempo y prueba y error tradicionalmente requerido por los expertos en aprendizaje automático.
"No hay un conjunto claro de instrucciones que los científicos puedan seguir para ajustar las redes para trabajar en su problema", dijo el científico investigador Steven Young, miembro del equipo de Aprendizaje Automático Inspirado en la Naturaleza de ORNL. "Con MENNDL, ya no tienen que preocuparse por diseñaruna red. En cambio, el algoritmo puede hacer eso rápidamente por ellos, mientras se enfocan en sus datos y aseguran que el problema esté bien planteado ".
fijación de parámetros
Inspiradas en la red de neuronas del cerebro, las redes neuronales profundas son un concepto relativamente antiguo en neurociencia e informática, popularizado por primera vez por dos investigadores de la Universidad de Chicago en la década de 1940. Pero debido a los límites en la potencia informática, no fue hasta hace pocolos investigadores tuvieron éxito en entrenar máquinas para interpretar los datos de forma independiente.
Las redes neuronales de hoy pueden consistir en miles o millones de unidades computacionales simples, las "neuronas", dispuestas en capas apiladas, como las filas de figuras espaciadas en una mesa de futbolín. Durante una forma común de entrenamiento, se asigna una reduna tarea por ejemplo, buscar fotos con gatos y alimentar un conjunto de datos etiquetados por ejemplo, fotos de gatos y fotos sin gatos. A medida que la red empuja los datos a través de cada capa sucesiva, hace correlaciones entre los patrones visuales y las etiquetas predefinidas, asignando valores a características específicas por ejemplo, bigotes y patas. Estos valores contribuyen a los pesos que definen los parámetros del modelo de la red. Durante el entrenamiento, los pesos se ajustan continuamente hasta que el resultado final coincida con el objetivo deseado. Una vez que la red aprende a realizara partir de los datos de entrenamiento, entonces se pueden probar contra datos no etiquetados.
Aunque muchos parámetros de una red neuronal se determinan durante el proceso de entrenamiento, las configuraciones iniciales del modelo deben establecerse manualmente. Estos puntos de partida, conocidos como hiperparámetros, incluyen variables como el orden, el tipo y el número de capas en una red.
Encontrar el conjunto óptimo de hiperparámetros puede ser la clave para aplicar eficientemente el aprendizaje profundo a un conjunto de datos inusual ". Debe ajustar experimentalmente estos parámetros porque no hay ningún libro en el que pueda mirar y decir: 'Estos son exactamente lo que deberían ser sus hiperparámetros", Dijo Young." Lo que hicimos fue usar este algoritmo evolutivo en Titán para encontrar los mejores hiperparámetros para diferentes tipos de conjuntos de datos ".
Desbloquear ese potencial, sin embargo, requirió un poco de ingeniería de software creativa por parte del equipo de Patton. MENNDL se instala en los hiperparámetros óptimos de una red neuronal asignando una red neuronal a cada nodo Titán. El equipo diseñó MENNDL para usar un marco de aprendizaje profundo llamado Caffe para llevara medida que el Titan trabaja a través de redes individuales, los nuevos datos se envían a los nodos del sistema de forma asíncrona, lo que significa que una vez que un nodo completa una tarea, se le asigna rápidamente unnueva tarea independiente del estado de los otros nodos. Esto asegura que el Titán de 27 petaflop se mantenga ocupado buscando posibles configuraciones.
"Diseñar el algoritmo para que realmente funcione a esa escala fue uno de los desafíos", dijo Young. "Para aprovechar realmente la máquina, configuramos MENNDL para generar una cola de redes individuales para enviar a los nodos para su evaluación tan pronto como sea posible".la potencia informática se hace disponible "
Para demostrar la versatilidad de MENNDL, el equipo aplicó el algoritmo a varios conjuntos de datos, entrenando redes para identificar estructuras subcelulares para investigación médica, clasificar imágenes satelitales con nubes y clasificar datos de física de alta energía. Los resultados coincidieron o excedieron el rendimiento deredes diseñadas por expertos.
Redes de neutrinos
Un dominio científico en el que MENNDL ya está demostrando su valor es la física de neutrinos. Los neutrinos, partículas fantasmales que pasan a través de su cuerpo a una velocidad de billones por segundo, podrían desempeñar un papel importante en la explicación de la formación del universo primitivo yla naturaleza de la materia, si solo los científicos supieran más sobre ellas
Los grandes detectores del Laboratorio Nacional de Aceleradores de Fermi Fermilab del DOE utilizan haces de alta intensidad para estudiar las evasivas reacciones de neutrinos con materia ordinaria. Los dispositivos capturan una gran muestra de interacciones de neutrinos que pueden transformarse en imágenes básicas a través de un proceso llamado "reconstrucción"."Al igual que una repetición en cámara lenta en un evento deportivo, estas reconstrucciones pueden ayudar a los físicos a comprender mejor el comportamiento de los neutrinos".
"Casi parecen una imagen de la interacción", dijo Gabriel Perdue, científico asociado de Fermilab.
Perdue lidera un esfuerzo por integrar redes neuronales en la clasificación y análisis de datos de detectores. El trabajo podría mejorar la eficiencia de algunas mediciones, ayudar a los físicos a comprender cuán seguros pueden estar sobre sus análisis y conducir a nuevas vías de investigación.
Al asociarse con el equipo de Patton en virtud de una aplicación discrecional del Director de 2016 en Titán, los investigadores de Fermilab produjeron una red de clasificación competitiva en apoyo de un experimento de dispersión de neutrinos llamado MINERvA Experimento de inyector principal para vA. La tarea, conocida como reconstrucción de vértices, requería unred para analizar imágenes e identificar con precisión la ubicación donde los neutrinos interactúan con el detector, un desafío para los eventos que producen muchas partículas.
En solo 24 horas, MENNDL produjo redes optimizadas que superaron a las redes artesanales, un logro que habría tomado meses para los investigadores de Fermilab. Para identificar la red de alto rendimiento, MENNDL evaluó aproximadamente 500,000 redes neuronales. Los datos de entrenamiento consistieron en 800,000 imágenesde eventos de neutrinos, procesados constantemente en 18,000 de los nodos de Titán.
"Necesitas algo como MENNDL para explorar este espacio efectivamente infinito de redes posibles, pero quieres hacerlo de manera eficiente", dijo Perdue. "Lo que hace Titan es reducir el tiempo de solución a algo práctico".
Después de haber recibido recientemente otra asignación en el marco del programa Reto de Liderazgo en Investigación de Investigación de Computación Científica Avanzada, el equipo de Perdue está construyendo su éxito de aprendizaje profundo al aplicar MENDDL a conjuntos de datos de física de alta energía adicionales para generar algoritmos optimizados. Además de mediciones físicas mejoradas,los resultados podrían proporcionar información sobre cómo y por qué las máquinas aprenden.
"Recién estamos comenzando", dijo Perdue. "Creo que aprenderemos cosas realmente interesantes sobre cómo funciona el aprendizaje profundo, y también tendremos mejores redes para hacer nuestra física. La razón por la que estamos pasandotodo este trabajo se debe a que estamos obteniendo un mejor rendimiento y hay un potencial real para obtener más ".
AI cumple con exascale
Cuando Titan debutó hace 5 años, su arquitectura acelerada por GPU aumentó el modelado y la simulación tradicionales a nuevos niveles de detalle. Desde entonces, las GPU, que sobresalen en la realización de cientos de cálculos simultáneamente, se han convertido en el procesador ideal para el aprendizaje profundoEse desarrollo fortuito convirtió a Titán en una herramienta poderosa para explorar la inteligencia artificial a escalas de supercomputadora.
Con el próximo sistema de clase de liderazgo de la OLCF, Summit, que se pondrá en línea en 2018, los investigadores de aprendizaje profundo esperan llevar esta tecnología floreciente aún más lejos. Summit se basa en la revolución de GPU iniciada por Titan y se espera que entregue más de cinco vecesel rendimiento de su predecesor. El sistema IBM contendrá más de 27,000 de las GPU Volta más nuevas de Nvidia además de más de 9,000 CPU IBM Power9. Además, debido a que el aprendizaje profundo requiere menos precisión matemática que otros tipos de computación científica, Summit podría ofrecer exascalede alto nivel para problemas de aprendizaje profundo: el equivalente a mil millones de cálculos por segundo.
"Eso significa que podremos evaluar redes más grandes mucho más rápido y evolucionar muchas más generaciones de redes en menos tiempo", dijo Young.
Además de prepararse para el nuevo hardware, el equipo de Patton continúa desarrollando MENNDL y explorando otros tipos de técnicas experimentales, incluida la informática neuromórfica, otro concepto informático inspirado biológicamente.
"Una cosa que estamos viendo en el futuro es la evolución de las redes de aprendizaje profundo desde capas apiladas hasta gráficos de capas que pueden dividirse y luego fusionarse más tarde", dijo Young. "Estas redes con ramas se destacan al analizar cosas a múltiples escalas, comocomo una fotografía de primer plano en comparación con una toma de gran angular. Cuando tiene 20,000 GPU disponibles, puede comenzar a pensar en un problema como ese ".
Fuente de la historia :
Materiales proporcionado por DOE / Laboratorio Nacional de Oak Ridge . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :