Los compradores en línea suelen juntar algunas palabras para buscar el producto que desean, pero en un mundo con millones de productos y compradores, la tarea de unir esas palabras no específicas con el producto correcto es uno de los mayores desafíos en la recuperación de información.
Utilizando un enfoque de divide y vencerás que aprovecha el poder de la detección comprimida, los científicos informáticos de la Universidad de Rice y Amazon han demostrado que pueden reducir la cantidad de tiempo y recursos computacionales que se necesitan para entrenar las computadoras para la búsqueda de productos y una "clasificación extrema similarproblemas ", como la traducción del discurso y la respuesta a preguntas generales.
La investigación se presentará esta semana en la Conferencia de 2019 sobre Sistemas de Procesamiento de Información Neural NeurIPS 2019 en Vancouver. Los resultados incluyen pruebas realizadas en 2018 cuando el investigador principal Anshumali Shrivastava y el autor principal Tharun Medini, ambos de Rice, estaban visitando AmazonBuscar en Palo Alto, California.
En pruebas en un conjunto de datos de búsqueda de Amazon que incluyó unos 70 millones de consultas y más de 49 millones de productos, Shrivastava, Medini y sus colegas mostraron su enfoque de usar "clasificadores de promedio combinado a través de hashing" MACH requirió una fracción de la capacitaciónrecursos de algunos sistemas comerciales de vanguardia.
"Nuestros tiempos de entrenamiento son aproximadamente 7-10 veces más rápidos, y nuestras huellas de memoria son 2-4 veces más pequeñas que los mejores rendimientos de línea base de los sistemas de aprendizaje profundo distribuidos a gran escala previamente informados", dijo Shrivastava, profesor asistente deinformática en Rice.
Medini, un estudiante de doctorado en Rice, dijo que la búsqueda de productos es un desafío, en parte, debido a la gran cantidad de productos ". Hay aproximadamente 1 millón de palabras en inglés, por ejemplo, pero fácilmente hay más de 100 millonesproductos en línea "
También hay millones de personas comprando esos productos, cada uno a su manera. Algunos escriben una pregunta. Otros usan palabras clave. Y muchos no están seguros de lo que están buscando cuando comienzan. Pero porque millones de búsquedas en líneaTodos los días, las empresas tecnológicas como Amazon, Google y Microsoft tienen muchos datos sobre búsquedas exitosas y no exitosas, y el uso de estos datos para un tipo de aprendizaje automático llamado aprendizaje profundo es una de las formas más efectivas de dar mejores resultados a los usuarios.
Los sistemas de aprendizaje profundo, o modelos de redes neuronales, son vastas colecciones de ecuaciones matemáticas que toman un conjunto de números llamados vectores de entrada y los transforman en un conjunto diferente de números llamados vectores de salida. Las redes están compuestas de matrices con varios parámetros,y los sistemas de aprendizaje profundo distribuidos de última generación contienen miles de millones de parámetros que se dividen en varias capas: durante el entrenamiento, los datos se envían a la primera capa, los vectores se transforman y las salidas se envían a la siguiente capa, etc..
Los "problemas de clasificación extrema" son aquellos con muchos resultados posibles y, por lo tanto, muchos parámetros. Los modelos de aprendizaje profundo para la clasificación extrema son tan grandes que generalmente deben ser entrenados en lo que efectivamente es una supercomputadora, un conjunto vinculado de unidades de procesamiento de gráficos GPU donde los parámetros se distribuyen y se ejecutan en paralelo, a menudo durante varios días.
"Una red neuronal que toma datos de búsqueda y predice a partir de 100 millones de salidas, o productos, típicamente terminará con aproximadamente 2,000 parámetros por producto", dijo Medini. "Entonces, los multiplica, y la capa final de la red neuronal esahora 200 mil millones de parámetros. Y no he hecho nada sofisticado. Estoy hablando de un modelo de red neuronal simple muy, muy muerto ".
"Se necesitarían unos 500 gigabytes de memoria para almacenar esos 200 mil millones de parámetros", dijo Medini. "Pero si observamos los algoritmos de entrenamiento actuales, hay uno famoso llamado Adam que toma dos parámetros más para cada parámetro en el modelo,porque necesita estadísticas de esos parámetros para monitorear el proceso de capacitación. Entonces, ahora estamos en 200 mil millones de veces tres, y necesitaré 1.5 terabytes de memoria de trabajo solo para almacenar el modelo. Ni siquiera he llegado a los datos de capacitación.Las mejores GPU tienen solo 32 gigabytes de memoria, por lo que entrenar un modelo de este tipo es prohibitivo debido a la comunicación masiva entre GPU ".
MACH adopta un enfoque muy diferente. Shrivastava lo describe con un experimento mental que divide aleatoriamente los 100 millones de productos en tres clases, que toman la forma de cubos. "Estoy mezclando, digamos, iPhones con cargadores y camisetas todosen el mismo cubo ", dijo." Es una reducción drástica de 100 millones a tres ".
En el experimento mental, los 100 millones de productos se clasifican aleatoriamente en tres cubos en dos mundos diferentes, lo que significa que los productos pueden terminar en cubos diferentes en cada mundo. Un clasificador está capacitado para asignar búsquedas a los cubos en lugar de a los productosdentro de ellos, lo que significa que el clasificador solo necesita asignar una búsqueda a una de las tres clases de producto.
"Ahora realizo una búsqueda en el clasificador en el mundo uno, y dice el cubo tres, y lo alimento al clasificador en el mundo dos, y dice el cubo uno", dijo. "¿En qué está pensando esta persona?La clase más probable es algo común entre estos dos cubos. Si nos fijamos en la posible intersección de los cubos, hay tres en el mundo uno por tres en el mundo dos, o nueve posibilidades ", dijo." Así que he reducido mibuscar espacio entre uno sobre nueve, y solo he pagado el costo de crear seis clases "
Agregar un tercer mundo y tres cubos más aumenta el número de posibles intersecciones en un factor de tres. "Ahora hay 27 posibilidades de lo que esta persona está pensando", dijo. "Así que he reducido mi espacio de búsqueda enuno sobre 27, pero solo he pagado el costo de nueve clases. Estoy pagando un costo linealmente y obtengo una mejora exponencial ".
En sus experimentos con la base de datos de capacitación de Amazon, Shrivastava, Medini y sus colegas dividieron aleatoriamente los 49 millones de productos en 10,000 clases, o cubos, y repitieron el proceso 32 veces. Eso redujo el número de parámetros en el modelo de alrededor de 100 mil millones a 6.4mil millones. Y entrenar el modelo tomó menos tiempo y menos memoria que algunos de los mejores tiempos de entrenamiento reportados en modelos con parámetros comparables, incluido el modelo de Mezcla de Expertos MoE, por sus siglas en inglés de Google, dijo Medini.
Dijo que la característica más importante de MACH es que no requiere comunicación entre procesadores paralelos. En el experimento mental, eso es lo que representan los mundos separados e independientes.
"Ni siquiera tienen que hablar entre ellos", dijo Medini. "En principio, podría entrenar a cada uno de los 32 en una GPU, que es algo que nunca podría hacer con un enfoque no independiente".
Shrivastava dijo: "En general, la capacitación ha requerido comunicación a través de parámetros, lo que significa que todos los procesadores que se ejecutan en paralelo tienen que compartir información. Mirando hacia adelante, la comunicación es un gran problema en el aprendizaje profundo distribuido. Google ha expresado sus aspiraciones deentrenar una red de 1 billón de parámetros, por ejemplo. MACH, actualmente, no se puede aplicar para usar casos con un pequeño número de clases, pero para una clasificación extrema, se logra el santo grial de la comunicación cero ".
Los coautores del estudio incluyen a Vijai Mohan de Amazon Search y a los antiguos estudiantes de Rice Qixuan Huang y Yiqiu Wang.
La investigación fue apoyada por la National Science Foundation NSF-1652131, NSF-BIGDATA 1838177, la Oficina de Investigación Científica de la Fuerza Aérea YIPFA9550-18-1-0152, Amazon Research y la Oficina de Investigación Naval.
Fuente de la historia :
Materiales proporcionado por Universidad de Rice . Original escrito por Jade Boyd. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :