Noticias de ciencia

de organizaciones de investigación

La supercomputación acelera el entrenamiento de aprendizaje profundo

El nuevo algoritmo permite a los investigadores utilizar eficientemente la supercomputadora Stampede2 para entrenar a ImageNet en 11 minutos, más rápido que nunca

Fecha :: 13 de noviembre de 2017
Fuente :: Universidad de Texas en Austin, Centro de Computación Avanzada de Texas
Resumen :: Los investigadores utilizaron Stampede2 para completar un entrenamiento de red neuronal profunda ImageNet de 100 épocas en 11 minutos, el tiempo más rápido registrado hasta la fecha. Utilizando procesadores 1600 Skylake también superaron los resultados anteriores de Facebook al finalizar un entrenamiento ImageNet de 90 épocas con ResNet-50en 32 minutos. Dada la gran base de usuarios de TACC y su enorme capacidad, esta capacidad tendrá un gran impacto en todos los campos de la ciencia.
Compartir :

HISTORIA COMPLETA

Un equipo de investigadores de la Universidad de California, Berkeley, la Universidad de California, Davis y el Centro de Computación Avanzada de Texas TACC publicaron los resultados de un esfuerzo por aprovechar el poder de las supercomputadoras para entrenar una red neuronal profunda DNNpara reconocimiento de imagen a alta velocidad.

anuncio

Los investigadores utilizaron eficientemente 1024 procesadores Skylake en la supercomputadora Stampede2 en TACC para completar un entrenamiento ImageNet de 100 épocas con AlexNet en 11 minutos, el tiempo más rápido registrado hasta la fecha. Usando 1600 procesadores Skylake también superaron los resultados anteriores de Facebook al terminar unFormación ImageNet de 90 épocas con ResNet-50 en 32 minutos y, para tamaños de lote superiores a 20,000, su precisión fue mucho mayor que la de Facebook. En los últimos años, el punto de referencia ImageNet, una base de datos visual diseñada para su uso en la investigación de reconocimiento de imágenes,ha desempeñado un papel importante en la evaluación de diferentes enfoques para la capacitación de DNN.

Utilizando 512 chips Intel Xeon Phi en Stampede2, terminaron el AlexNet de 100 épocas en 24 minutos y el ResNet-50 de 90 épocas en 60 minutos.

"Estos resultados muestran el potencial de utilizar recursos informáticos avanzados, como los de TACC, junto con grandes algoritmos de habilitación de mini lotes, para entrenar redes neuronales profundas de forma interactiva y distribuida", dijo Zhao Zhang, científico investigador de TACC, un centro de supercomputación líder. "Dada nuestra gran base de usuarios y nuestra enorme capacidad, esto tendrá un gran impacto en la ciencia".

El sistema de capacitación de DNN logró una precisión de prueba "top-1" de última generación, lo que significa el porcentaje de casos en los que la respuesta del modelo la que tiene mayor probabilidad es exactamente la respuesta esperada. El uso de ResNet-50 una red neuronal convolucional desarrollada por Microsoft que ganó el concurso de reconocimiento visual ImageNet a gran escala 2015 y supera el rendimiento humano en el conjunto de datos ImageNet lograron una precisión de más del 75 por ciento, a la par con los niveles de entrenamiento por lotes de Facebook y Amazon.El tamaño de lote de los datos 32,000 en este trabajo solo perdió 0,6 por ciento de precisión top-1.

Actualmente, los investigadores de aprendizaje profundo necesitan usar prueba y error para diseñar nuevos modelos. Esto significa que necesitan ejecutar el proceso de capacitación decenas o incluso cientos de veces para construir un modelo.

anuncio

La velocidad de entrenamiento relativamente lenta impacta la velocidad de la ciencia y el tipo de ciencia que los investigadores están dispuestos a explorar. Los investigadores de Google han notado que si lleva entre uno y cuatro días entrenar una red neuronal, esto es visto por los investigadorescomo tolerable. Si toma de una a cuatro semanas, el método se utilizará solo para experimentos de alto valor. Y si requiere más de un mes, los científicos ni siquiera lo intentarán. Si los investigadores pudieran terminar el proceso de capacitación durante un descanso para tomar café,mejoraría significativamente su productividad.

El avance del grupo implicó el desarrollo del algoritmo de Escalado de tasa de adaptación adaptable a la capa LARS que es capaz de distribuir datos de manera eficiente a muchos procesadores para calcularlos simultáneamente usando un tamaño de lote más grande que nunca hasta 32,000 artículos.

LARS incorpora muchos más ejemplos de entrenamiento en una pasada hacia adelante / hacia atrás y ajusta de forma adaptativa la velocidad de aprendizaje entre cada capa de la red neuronal dependiendo de una métrica obtenida de la iteración anterior.

Como consecuencia de estos cambios, pudieron aprovechar la gran cantidad de procesadores Skylake e Intel Xeon Phi disponibles en Stampede2 mientras preservaban la precisión, que no era el caso con los métodos anteriores de lotes grandes.

"Para aplicaciones de aprendizaje profundo, conjuntos de datos más grandes y modelos más grandes conducen a mejoras significativas en la precisión, pero a costa de tiempos de entrenamiento más largos", dijo James Demmel, "Profesor de Matemáticas e Informática en UC Berkeley".El algoritmo, desarrollado conjuntamente por Y. You con B. Ginsburg e I. Gitman durante una pasantía en NVIDIA, nos permitió mantener la precisión incluso con un tamaño de lote de 32 K. Este gran tamaño de lote nos permite usar sistemas distribuidos de manera eficiente y terminar ImageNetentrenamiento con AlexNet en 11 minutos en 1024 procesadores Skylake, una mejora significativa sobre los resultados anteriores "

Los resultados muestran una alternativa a la tendencia de usar hardware especializado, ya sea GPU, chips Tensor Flow, FPGA u otras arquitecturas emergentes, para el aprendizaje profundo. El equipo escribió el código basado en Caffe y utilizó Intel-Caffe, que admiteEntrenamiento de múltiples nodos.

anuncio

La fase de capacitación de una red neuronal profunda suele ser la parte del aprendizaje profundo que requiere más tiempo. Hasta hace poco, el proceso realizado por el equipo dirigido por UC Berkeley hubiera llevado horas o días. Los avances en la capacitación rápida y distribuidaimpactar la velocidad de la ciencia, así como el tipo de ciencia que los investigadores pueden explorar con estos nuevos métodos.

El experimento es parte de un esfuerzo más amplio en TACC para probar la aplicabilidad del hardware de la CPU para marcos y aplicaciones de aprendizaje profundo y aprendizaje automático, incluidos Caffe, MXNet y TensorFlow.

Los expertos de TACC mostraron cómo al escalar Caffe a 1024 procesadores Skylake usando procesadores resNet-50, el marco funcionaba con un 73 por ciento de eficiencia, o casi 750 veces más rápido que en un solo procesador Skylake.

"Usar servidores HPC básicos para entrenar rápidamente algoritmos de aprendizaje profundo en conjuntos de datos masivos es una herramienta nueva y poderosa tanto para la investigación medida como para la simulada", dijo Niall Gaffney, Director de Computación Intensiva de Datos de TACC. "Al no tener que migrar grandes conjuntos de datos entre especialistassistemas de hardware, el tiempo para el descubrimiento basado en datos se reduce y la eficiencia general se puede aumentar significativamente ".

Dado que los investigadores y las disciplinas científicas utilizan cada vez más el aprendizaje automático y profundo para extraer información de conjuntos de datos experimentales y simulados a gran escala, es importante contar con sistemas que puedan manejar esta carga de trabajo.

Los resultados recientes sugieren que tales sistemas ahora están disponibles para la comunidad de ciencia abierta a través de recursos informáticos avanzados nacionales como Stampede2.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Universidad de Texas en Austin, Centro de Computación Avanzada de Texas . Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Yang You, Zhao Zhang, Cho-Jui Hsieh, James Demmel, Kurt Keutzer. Formación de ImageNet en minutos . Enviado a arXiv , 2017 [ resumen ]

Cite esta página :

Universidad de Texas en Austin, Texas Advanced Computing Center. "La supercomputación acelera el entrenamiento de aprendizaje profundo: el nuevo algoritmo permite a los investigadores usar eficientemente la supercomputadora Stampede2 para entrenar a ImageNet en 11 minutos, más rápido que nunca". ScienceDaily. ScienceDaily, 13 de noviembre de 2017. .

Universidad de Texas en Austin, Texas Advanced Computing Center. 2017, 13 de noviembre. La supercomputación acelera el entrenamiento de aprendizaje profundo: el nuevo algoritmo permite a los investigadores usar eficientemente la supercomputadora Stampede2 para entrenar ImageNet en 11 minutos, más rápido que nunca. ScienceDaily . Recuperado el 22 de julio de 2020 de www.science-things.com/releases/2017/11/171113123641.htm

Universidad de Texas en Austin, Centro de Computación Avanzada de Texas. "La supercomputación acelera el entrenamiento de aprendizaje profundo: el nuevo algoritmo permite a los investigadores usar eficientemente la supercomputadora Stampede2 para entrenar a ImageNet en 11 minutos, más rápido que nunca". ScienceDaily. Www.science-things.com / releases / 2017/11 / 171113123641.htm consultado el 22 de julio de 2020.

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

La supercomputación acelera el entrenamiento de aprendizaje profundo

El nuevo algoritmo permite a los investigadores utilizar eficientemente la supercomputadora Stampede2 para entrenar a ImageNet en 11 minutos, más rápido que nunca

1

2

3

4

5

1

2

3

4

5

Nueva investigación de la luz más antigua confirma la edad del universo

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

matar el coronavirus con un dispositivo portátil de luz ultravioleta puede ser factible

Creado 'neurotransistor artificial'

prediciendo su personalidad a partir de los datos de su teléfono inteligente

Nuevo modelo conecta la física de gotitas respiratorias con la propagación de Covid-19

Campo magnético de una galaxia espiral

Los científicos descubren que los volcanes en Venus todavía están activos

¿Podrían las mini-Neptunas ser planetas oceánicos irradiados?

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

El brazalete 3D con detección de manos señala el futuro de la tecnología portátil

Las poderosas manos similares a las de los humanos crean interacciones humano-robóticas más seguras

excitación cuántica encontrada en material magnético Van Der Waals NiPS3

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles