Los investigadores de la Universidad de Rice han demostrado métodos para diseñar hardware de computación innovador centrado en datos y codiseñar hardware con algoritmos de aprendizaje automático que juntos pueden mejorar la eficiencia energética en hasta dos órdenes de magnitud.
Los avances en el aprendizaje automático, la forma de inteligencia artificial detrás de los automóviles sin conductor y muchas otras aplicaciones de alta tecnología, han dado paso a una nueva era de la informática, la era centrada en los datos, y están obligando a los ingenieros a repensar aspectos dearquitectura informática que no ha sido cuestionada durante 75 años.
"El problema es que para las redes neuronales profundas a gran escala, que son lo último en aprendizaje automático hoy en día, más del 90% de la electricidad necesaria para ejecutar todo el sistema se consume en el movimiento de datos entre la memoriay procesador ", dijo Yingyan Lin, profesor asistente de ingeniería eléctrica e informática.
Lin y sus colaboradores propusieron dos métodos complementarios para optimizar el procesamiento centrado en datos, los cuales se presentaron el 3 de junio en el Simposio Internacional sobre Arquitectura de Computadores ISCA, una de las principales conferencias para nuevas ideas e investigación en arquitectura de computadoras.
El impulso para la arquitectura centrada en datos está relacionado con un problema llamado cuello de botella de von Neumann, una ineficiencia que se deriva de la separación de la memoria y el procesamiento en la arquitectura informática que ha reinado desde que el matemático John von Neumann lo inventó en 1945. Porseparando la memoria de los programas y los datos, la arquitectura von Neumann permite que una sola computadora sea increíblemente versátil; dependiendo del programa almacenado que se cargue desde su memoria, se puede usar una computadora para hacer una videollamada, preparar una hoja de cálculo o simular el clima en Marte.
Pero separar la memoria del procesamiento también significa que incluso las operaciones simples, como agregar 2 más 2, requieren que el procesador de la computadora acceda a la memoria varias veces. Este cuello de botella de memoria se agrava por las operaciones masivas en redes neuronales profundas, sistemas que aprenden a hacerdecisiones similares a las de los humanos al "estudiar" un gran número de ejemplos anteriores. Cuanto más grande sea la red, más difícil será la tarea que pueda dominar, y cuantos más ejemplos se muestren, mejor se desempeñará. El entrenamiento profundo de redes neuronales puede requerir bancos de procesadores especializadosque funcionan las 24 horas durante más de una semana. Realizar tareas basadas en las redes aprendidas un proceso conocido como inferencia en un teléfono inteligente puede agotar su batería en menos de una hora.
"Se ha reconocido comúnmente que para los algoritmos centrados en datos de la era del aprendizaje automático, necesitamos una arquitectura de hardware innovadora centrada en datos", dijo Lin, director del Laboratorio de Computación Eficiente e Inteligente EIC de Rice. "¿Cuál es la arquitectura de hardware óptima para el aprendizaje automático?
"No hay respuestas para todos, ya que las diferentes aplicaciones requieren algoritmos de aprendizaje automático que pueden diferir mucho en términos de estructura y complejidad del algoritmo, a la vez que tienen una precisión de tareas y un consumo de recursos diferentes, como el costo de energía, la latencia yrendimiento: requisitos de compensación ", dijo." Muchos investigadores están trabajando en esto, y grandes empresas como Intel, IBM y Google tienen sus propios diseños ".
Una de las presentaciones del grupo de Lin en ISCA 2020 ofreció resultados en TIMELY, una arquitectura innovadora que ella y sus estudiantes desarrollaron para el "procesamiento en memoria" PIM, un enfoque que no es de von Neumann que lleva el procesamiento a los arreglos de memoria.La prometedora plataforma PIM es "memoria de acceso aleatorio resistivo" ReRAM, una memoria no volátil similar a la memoria flash. Mientras que se han propuesto otras arquitecturas de acelerador ReRAM PIM, Lin dijo que los experimentos realizados en más de 10 modelos de redes neuronales profundas encontraron que TIEMPO TIENE 18 veces más energíaeficiente y entregado más de 30 veces la densidad computacional del acelerador ReRAM PIM más avanzado y competitivo.
TIMELY, que significa "Dominio del tiempo, Ejecución en memoria, Localidad", logra su rendimiento al eliminar los principales contribuyentes a la ineficiencia que surgen del acceso frecuente a la memoria principal para manejar la entrada y salida intermedias y la interfaz entre localy recuerdos principales.
En la memoria principal, los datos se almacenan digitalmente, pero deben convertirse a analógicos cuando se introducen en la memoria local para procesarlos en la memoria. En los aceleradores ReRAM PIM anteriores, los valores resultantes se convierten de analógicos a digitales y se envíande nuevo a la memoria principal. Si se llaman desde la memoria principal a ReRAM local para operaciones posteriores, se convierten a analógico una vez más, y así sucesivamente.
TIMELY evita pagar gastos generales por accesos innecesarios a la memoria principal y conversiones de datos de interfaz mediante el uso de búferes de formato analógico dentro de la memoria local. De esta manera, TIMELY mantiene principalmente los datos requeridos dentro de los arreglos de memoria local, mejorando en gran medida la eficiencia.
La segunda propuesta del grupo en ISCA 2020 fue para SmartExchange, un diseño que combina innovaciones algorítmicas y aceleradoras de hardware para ahorrar energía.
"Puede costar aproximadamente 200 veces más energía acceder a la memoria principal, la DRAM, que realizar un cálculo, por lo que la idea clave para SmartExchange es aplicar estructuras dentro del algoritmo que nos permitan intercambiar memoria de mayor costo porcálculo de mucho menor costo ", dijo Lin.
"Por ejemplo, digamos que nuestro algoritmo tiene 1,000 parámetros", agregó. "En un enfoque convencional, almacenaremos los 1,000 en DRAM y accederemos según sea necesario para el cálculo. Con SmartExchange, buscamos encontrar alguna estructura dentro de este1,000. Entonces solo necesitamos almacenar 10, porque si conocemos la relación entre estos 10 y los 990 restantes, podemos calcular cualquiera de los 990 en lugar de llamarlos desde DRAM.
"Llamamos a estos 10 subconjuntos 'básicos', y la idea es almacenarlos localmente, cerca del procesador para evitar o reducir agresivamente el tener que pagar los costos para acceder a DRAM", dijo.
Los investigadores utilizaron el algoritmo SmartExchange y su acelerador de hardware personalizado para experimentar en siete modelos de redes neuronales profundas de referencia y tres conjuntos de datos de referencia. Encontraron que la combinación redujo la latencia hasta 19 veces en comparación con la tecnología neuronal profunda de última generaciónaceleradores de red
La investigación fue apoyada por la National Science Foundation 937592 y 1937588 y los Institutos Nacionales de Salud R01HL144683.
Fuente de la historia :
Materiales proporcionado por Universidad de Rice . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :