Una forma de manejar grandes datos es reducirlos. Si puede identificar un pequeño subconjunto de su conjunto de datos que conserve sus relaciones matemáticas sobresalientes, es posible que pueda realizar análisis útiles sobre él que consumirían mucho tiempo en total.conjunto.
Sin embargo, los métodos para crear estos "conjuntos conjuntos" varían según la aplicación. La semana pasada, en la Conferencia Anual sobre Sistemas de Procesamiento de Información Neural, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y la Universidad de Haifa en Israel presentaron un nuevo conjunto conjuntotécnica de generación que se adapta a toda una familia de herramientas de análisis de datos con aplicaciones en procesamiento de lenguaje natural, visión por computadora, procesamiento de señales, sistemas de recomendación, predicción del clima, finanzas y neurociencia, entre muchos otros.
"Todos estos son algoritmos muy generales que se utilizan en muchas aplicaciones", dice Daniela Rus, profesora de Ingeniería Eléctrica y Ciencias de la Computación Andrew y Erna Viterbi en el MIT y autora principal del nuevo artículo ". Son fundamentales paratantos problemas. Al descubrir el núcleo de una matriz enorme para una de estas herramientas, puede habilitar cálculos que por el momento simplemente no son posibles ".
Como ejemplo, en su artículo, los investigadores aplican su técnica a una matriz, es decir, una tabla, que mapea cada artículo en la versión en inglés de Wikipedia con cada palabra que aparece en el sitio. Eso es 1.4 millones de artículos,o filas de matriz, y 4.4 millones de palabras, o columnas de matriz.
Esa matriz sería demasiado grande para analizarla usando una aproximación de bajo rango, un algoritmo que puede deducir los temas de los textos de forma libre. Pero con su núcleo, los investigadores pudieron usar la aproximación de bajo rango para extraer grupos de palabrasque denotan los 100 temas más comunes en Wikipedia. El grupo que contiene "vestido", "novias", "damas de honor" y "boda", por ejemplo, parece denotar el tema de las bodas; el grupo que contiene "arma""disparado", "atascado", "pistola" y "tiroteos" parecen designar el tema de los tiroteos.
Uniéndose a Rus en el documento están Mikhail Volkov, un postdoc del MIT en ingeniería eléctrica y ciencias de la computación, y Dan Feldman, director del Laboratorio de Robótica y Big Data de la Universidad de Haifa y un ex postdoc en el grupo de Rus.
La nueva técnica de coreset de los investigadores es útil para una variedad de herramientas con nombres como descomposición de valores singulares, análisis de componentes principales y factorización de matriz no negativa. Pero lo que todos tienen en común es la reducción de dimensiones: toman conjuntos de datos con grandesnúmero de variables y encontrar aproximaciones de ellas con muchas menos variables.
En esto, estas herramientas son similares a los coresets. Pero los coresets simplemente reducen el tamaño de un conjunto de datos, mientras que las herramientas de reducción de dimensiones cambian su descripción de una manera que garantiza preservar la mayor cantidad de información posible. Sin embargo, esa garantía,hace que las herramientas sean mucho más computacionalmente intensivas que la generación de núcleos, demasiado computacionalmente intensivas para su aplicación práctica en grandes conjuntos de datos.
Los investigadores creen que su técnica podría usarse para aventar un conjunto de datos con, por ejemplo, millones de variables, como las descripciones de las páginas de Wikipedia en términos de las palabras que usan, a solo miles. En ese punto, un amplioLa técnica utilizada, como el análisis de componentes principales, podría reducir el número de variables a solo cientos, o incluso más.
La técnica de los investigadores funciona con lo que se llama datos escasos. Considere, por ejemplo, la matriz de Wikipedia, con sus 4.4 millones de columnas, cada una representando una palabra diferente. Cualquier artículo dado en Wikipedia usará solo unos pocos miles de palabras distintas. Entoncesen una fila dada, que representa un artículo, solo unos pocos miles de ranuras de matriz de 4.4 millones tendrán valores. En una matriz dispersa, la mayoría de los valores son cero.
Crucialmente, la nueva técnica preserva esa escasez, lo que hace que sus núcleos sean mucho más fáciles de manejar computacionalmente. Los cálculos se vuelven mucho más fáciles si implican mucha multiplicación por y suma de cero.
La nueva técnica de coreset utiliza lo que se llama un procedimiento de combinación y reducción. Comienza tomando, por ejemplo, 20 puntos de datos en el conjunto de datos y seleccionando 10 de ellos como los más representativos de los 20. Luego realiza el mismo procedimientocon otros 20 puntos de datos, dándole dos conjuntos reducidos de 10, que se fusionan para formar un nuevo conjunto de 20. Luego realiza otra reducción, de 20 a 10.
Aunque el procedimiento examina cada punto de datos en un gran conjunto de datos, ya que trata solo con pequeñas colecciones de puntos a la vez, sigue siendo computacionalmente eficiente. Y en su trabajo, los investigadores prueban que, para aplicaciones que involucran una variedad deherramientas comunes de reducción de dimensiones, su método de reducción proporciona una muy buena aproximación del conjunto de datos completo.
Ese método depende de una interpretación geométrica de los datos, que involucra algo llamado hiperesfera, que es el análogo multidimensional de un círculo. Cualquier pieza de datos multivariables puede considerarse como un punto en un espacio multidimensional. De la misma manera queel par de números 1, 1 define un punto en un espacio bidimensional: el punto un paso sobre el eje X y un paso hacia arriba en el eje Y, una fila de la tabla de Wikipedia, con su4.4 millones de números, define un punto en un espacio de 4.4 millones de dimensiones.
El algoritmo de reducción de los investigadores comienza por encontrar el valor promedio del subconjunto de puntos de datos, digamos 20 de ellos, que va a reducir. Esto también define un punto en un espacio de alta dimensión; llámeloel origen. Cada uno de los 20 puntos de datos se "proyecta" en una hiperesfera centrada en el origen. Es decir, el algoritmo encuentra el punto único en la hiperesfera que está en la dirección del punto de datos.
El algoritmo selecciona una de las 20 proyecciones de datos en la hiperesfera. Luego selecciona la proyección en la hiperesfera más alejada de la primera. Encuentra el punto a medio camino entre los dos y luego selecciona la proyección de datos más alejada del punto medio; luegoencuentra el punto a mitad de camino entre esos dos puntos y selecciona la proyección de datos más alejada de él; y así sucesivamente.
Los investigadores pudieron demostrar que los puntos medios seleccionados a través de este método convergerán muy rápidamente en el centro de la hiperesfera. El método seleccionará rápidamente un subconjunto de puntos cuyo valor promedio se aproxima mucho al de los 20 puntos iniciales. Eso los hacecandidatos particularmente buenos para su inclusión en el núcleo.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :