Un equipo de investigadores de la Universidad de California, Berkeley, la Universidad de California, Davis y el Centro de Computación Avanzada de Texas TACC publicaron los resultados de un esfuerzo por aprovechar el poder de las supercomputadoras para entrenar una red neuronal profunda DNNpara reconocimiento de imagen a alta velocidad.
Los investigadores utilizaron eficientemente 1024 procesadores Skylake en la supercomputadora Stampede2 en TACC para completar un entrenamiento ImageNet de 100 épocas con AlexNet en 11 minutos, el tiempo más rápido registrado hasta la fecha. Usando 1600 procesadores Skylake también superaron los resultados anteriores de Facebook al terminar unFormación ImageNet de 90 épocas con ResNet-50 en 32 minutos y, para tamaños de lote superiores a 20,000, su precisión fue mucho mayor que la de Facebook. En los últimos años, el punto de referencia ImageNet, una base de datos visual diseñada para su uso en la investigación de reconocimiento de imágenes,ha desempeñado un papel importante en la evaluación de diferentes enfoques para la capacitación de DNN.
Utilizando 512 chips Intel Xeon Phi en Stampede2, terminaron el AlexNet de 100 épocas en 24 minutos y el ResNet-50 de 90 épocas en 60 minutos.
"Estos resultados muestran el potencial de utilizar recursos informáticos avanzados, como los de TACC, junto con grandes algoritmos de habilitación de mini lotes, para entrenar redes neuronales profundas de forma interactiva y distribuida", dijo Zhao Zhang, científico investigador de TACC, un centro de supercomputación líder. "Dada nuestra gran base de usuarios y nuestra enorme capacidad, esto tendrá un gran impacto en la ciencia".
El sistema de capacitación de DNN logró una precisión de prueba "top-1" de última generación, lo que significa el porcentaje de casos en los que la respuesta del modelo la que tiene mayor probabilidad es exactamente la respuesta esperada. El uso de ResNet-50 una red neuronal convolucional desarrollada por Microsoft que ganó el concurso de reconocimiento visual ImageNet a gran escala 2015 y supera el rendimiento humano en el conjunto de datos ImageNet lograron una precisión de más del 75 por ciento, a la par con los niveles de entrenamiento por lotes de Facebook y Amazon.El tamaño de lote de los datos 32,000 en este trabajo solo perdió 0,6 por ciento de precisión top-1.
Actualmente, los investigadores de aprendizaje profundo necesitan usar prueba y error para diseñar nuevos modelos. Esto significa que necesitan ejecutar el proceso de capacitación decenas o incluso cientos de veces para construir un modelo.
La velocidad de entrenamiento relativamente lenta impacta la velocidad de la ciencia y el tipo de ciencia que los investigadores están dispuestos a explorar. Los investigadores de Google han notado que si lleva entre uno y cuatro días entrenar una red neuronal, esto es visto por los investigadorescomo tolerable. Si toma de una a cuatro semanas, el método se utilizará solo para experimentos de alto valor. Y si requiere más de un mes, los científicos ni siquiera lo intentarán. Si los investigadores pudieran terminar el proceso de capacitación durante un descanso para tomar café,mejoraría significativamente su productividad.
El avance del grupo implicó el desarrollo del algoritmo de Escalado de tasa de adaptación adaptable a la capa LARS que es capaz de distribuir datos de manera eficiente a muchos procesadores para calcularlos simultáneamente usando un tamaño de lote más grande que nunca hasta 32,000 artículos.
LARS incorpora muchos más ejemplos de entrenamiento en una pasada hacia adelante / hacia atrás y ajusta de forma adaptativa la velocidad de aprendizaje entre cada capa de la red neuronal dependiendo de una métrica obtenida de la iteración anterior.
Como consecuencia de estos cambios, pudieron aprovechar la gran cantidad de procesadores Skylake e Intel Xeon Phi disponibles en Stampede2 mientras preservaban la precisión, que no era el caso con los métodos anteriores de lotes grandes.
"Para aplicaciones de aprendizaje profundo, conjuntos de datos más grandes y modelos más grandes conducen a mejoras significativas en la precisión, pero a costa de tiempos de entrenamiento más largos", dijo James Demmel, "Profesor de Matemáticas e Informática en UC Berkeley".El algoritmo, desarrollado conjuntamente por Y. You con B. Ginsburg e I. Gitman durante una pasantía en NVIDIA, nos permitió mantener la precisión incluso con un tamaño de lote de 32 K. Este gran tamaño de lote nos permite usar sistemas distribuidos de manera eficiente y terminar ImageNetentrenamiento con AlexNet en 11 minutos en 1024 procesadores Skylake, una mejora significativa sobre los resultados anteriores "
Los resultados muestran una alternativa a la tendencia de usar hardware especializado, ya sea GPU, chips Tensor Flow, FPGA u otras arquitecturas emergentes, para el aprendizaje profundo. El equipo escribió el código basado en Caffe y utilizó Intel-Caffe, que admiteEntrenamiento de múltiples nodos.
La fase de capacitación de una red neuronal profunda suele ser la parte del aprendizaje profundo que requiere más tiempo. Hasta hace poco, el proceso realizado por el equipo dirigido por UC Berkeley hubiera llevado horas o días. Los avances en la capacitación rápida y distribuidaimpactar la velocidad de la ciencia, así como el tipo de ciencia que los investigadores pueden explorar con estos nuevos métodos.
El experimento es parte de un esfuerzo más amplio en TACC para probar la aplicabilidad del hardware de la CPU para marcos y aplicaciones de aprendizaje profundo y aprendizaje automático, incluidos Caffe, MXNet y TensorFlow.
Los expertos de TACC mostraron cómo al escalar Caffe a 1024 procesadores Skylake usando procesadores resNet-50, el marco funcionaba con un 73 por ciento de eficiencia, o casi 750 veces más rápido que en un solo procesador Skylake.
"Usar servidores HPC básicos para entrenar rápidamente algoritmos de aprendizaje profundo en conjuntos de datos masivos es una herramienta nueva y poderosa tanto para la investigación medida como para la simulada", dijo Niall Gaffney, Director de Computación Intensiva de Datos de TACC. "Al no tener que migrar grandes conjuntos de datos entre especialistassistemas de hardware, el tiempo para el descubrimiento basado en datos se reduce y la eficiencia general se puede aumentar significativamente ".
Dado que los investigadores y las disciplinas científicas utilizan cada vez más el aprendizaje automático y profundo para extraer información de conjuntos de datos experimentales y simulados a gran escala, es importante contar con sistemas que puedan manejar esta carga de trabajo.
Los resultados recientes sugieren que tales sistemas ahora están disponibles para la comunidad de ciencia abierta a través de recursos informáticos avanzados nacionales como Stampede2.
Fuente de la historia :
Materiales proporcionado por Universidad de Texas en Austin, Centro de Computación Avanzada de Texas . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :