Noticias de ciencia

de organizaciones de investigación

La técnica reduce los conjuntos de datos para facilitar el análisis

La técnica reduce los conjuntos de datos mientras preserva sus relaciones matemáticas fundamentales

Fecha :: 15 de diciembre de 2016
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Los investigadores han presentado una nueva técnica de generación de núcleos que se adapta a toda una familia de herramientas de análisis de datos con aplicaciones en procesamiento de lenguaje natural, visión por computadora, procesamiento de señales, sistemas de recomendación, predicción del clima, finanzas y neurociencia, entre muchosotros.
Compartir :

HISTORIA COMPLETA

Una forma de manejar grandes datos es reducirlos. Si puede identificar un pequeño subconjunto de su conjunto de datos que conserve sus relaciones matemáticas sobresalientes, es posible que pueda realizar análisis útiles sobre él que consumirían mucho tiempo en total.conjunto.

anuncio

Sin embargo, los métodos para crear estos "conjuntos conjuntos" varían según la aplicación. La semana pasada, en la Conferencia Anual sobre Sistemas de Procesamiento de Información Neural, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y la Universidad de Haifa en Israel presentaron un nuevo conjunto conjuntotécnica de generación que se adapta a toda una familia de herramientas de análisis de datos con aplicaciones en procesamiento de lenguaje natural, visión por computadora, procesamiento de señales, sistemas de recomendación, predicción del clima, finanzas y neurociencia, entre muchos otros.

"Todos estos son algoritmos muy generales que se utilizan en muchas aplicaciones", dice Daniela Rus, profesora de Ingeniería Eléctrica y Ciencias de la Computación Andrew y Erna Viterbi en el MIT y autora principal del nuevo artículo ". Son fundamentales paratantos problemas. Al descubrir el núcleo de una matriz enorme para una de estas herramientas, puede habilitar cálculos que por el momento simplemente no son posibles ".

Como ejemplo, en su artículo, los investigadores aplican su técnica a una matriz, es decir, una tabla, que mapea cada artículo en la versión en inglés de Wikipedia con cada palabra que aparece en el sitio. Eso es 1.4 millones de artículos,o filas de matriz, y 4.4 millones de palabras, o columnas de matriz.

Esa matriz sería demasiado grande para analizarla usando una aproximación de bajo rango, un algoritmo que puede deducir los temas de los textos de forma libre. Pero con su núcleo, los investigadores pudieron usar la aproximación de bajo rango para extraer grupos de palabrasque denotan los 100 temas más comunes en Wikipedia. El grupo que contiene "vestido", "novias", "damas de honor" y "boda", por ejemplo, parece denotar el tema de las bodas; el grupo que contiene "arma""disparado", "atascado", "pistola" y "tiroteos" parecen designar el tema de los tiroteos.

Uniéndose a Rus en el documento están Mikhail Volkov, un postdoc del MIT en ingeniería eléctrica y ciencias de la computación, y Dan Feldman, director del Laboratorio de Robótica y Big Data de la Universidad de Haifa y un ex postdoc en el grupo de Rus.

anuncio

La nueva técnica de coreset de los investigadores es útil para una variedad de herramientas con nombres como descomposición de valores singulares, análisis de componentes principales y factorización de matriz no negativa. Pero lo que todos tienen en común es la reducción de dimensiones: toman conjuntos de datos con grandesnúmero de variables y encontrar aproximaciones de ellas con muchas menos variables.

En esto, estas herramientas son similares a los coresets. Pero los coresets simplemente reducen el tamaño de un conjunto de datos, mientras que las herramientas de reducción de dimensiones cambian su descripción de una manera que garantiza preservar la mayor cantidad de información posible. Sin embargo, esa garantía,hace que las herramientas sean mucho más computacionalmente intensivas que la generación de núcleos, demasiado computacionalmente intensivas para su aplicación práctica en grandes conjuntos de datos.

Los investigadores creen que su técnica podría usarse para aventar un conjunto de datos con, por ejemplo, millones de variables, como las descripciones de las páginas de Wikipedia en términos de las palabras que usan, a solo miles. En ese punto, un amplioLa técnica utilizada, como el análisis de componentes principales, podría reducir el número de variables a solo cientos, o incluso más.

La técnica de los investigadores funciona con lo que se llama datos escasos. Considere, por ejemplo, la matriz de Wikipedia, con sus 4.4 millones de columnas, cada una representando una palabra diferente. Cualquier artículo dado en Wikipedia usará solo unos pocos miles de palabras distintas. Entoncesen una fila dada, que representa un artículo, solo unos pocos miles de ranuras de matriz de 4.4 millones tendrán valores. En una matriz dispersa, la mayoría de los valores son cero.

Crucialmente, la nueva técnica preserva esa escasez, lo que hace que sus núcleos sean mucho más fáciles de manejar computacionalmente. Los cálculos se vuelven mucho más fáciles si implican mucha multiplicación por y suma de cero.

anuncio

La nueva técnica de coreset utiliza lo que se llama un procedimiento de combinación y reducción. Comienza tomando, por ejemplo, 20 puntos de datos en el conjunto de datos y seleccionando 10 de ellos como los más representativos de los 20. Luego realiza el mismo procedimientocon otros 20 puntos de datos, dándole dos conjuntos reducidos de 10, que se fusionan para formar un nuevo conjunto de 20. Luego realiza otra reducción, de 20 a 10.

Aunque el procedimiento examina cada punto de datos en un gran conjunto de datos, ya que trata solo con pequeñas colecciones de puntos a la vez, sigue siendo computacionalmente eficiente. Y en su trabajo, los investigadores prueban que, para aplicaciones que involucran una variedad deherramientas comunes de reducción de dimensiones, su método de reducción proporciona una muy buena aproximación del conjunto de datos completo.

Ese método depende de una interpretación geométrica de los datos, que involucra algo llamado hiperesfera, que es el análogo multidimensional de un círculo. Cualquier pieza de datos multivariables puede considerarse como un punto en un espacio multidimensional. De la misma manera queel par de números 1, 1 define un punto en un espacio bidimensional: el punto un paso sobre el eje X y un paso hacia arriba en el eje Y, una fila de la tabla de Wikipedia, con su4.4 millones de números, define un punto en un espacio de 4.4 millones de dimensiones.

El algoritmo de reducción de los investigadores comienza por encontrar el valor promedio del subconjunto de puntos de datos, digamos 20 de ellos, que va a reducir. Esto también define un punto en un espacio de alta dimensión; llámeloel origen. Cada uno de los 20 puntos de datos se "proyecta" en una hiperesfera centrada en el origen. Es decir, el algoritmo encuentra el punto único en la hiperesfera que está en la dirección del punto de datos.

El algoritmo selecciona una de las 20 proyecciones de datos en la hiperesfera. Luego selecciona la proyección en la hiperesfera más alejada de la primera. Encuentra el punto a medio camino entre los dos y luego selecciona la proyección de datos más alejada del punto medio; luegoencuentra el punto a mitad de camino entre esos dos puntos y selecciona la proyección de datos más alejada de él; y así sucesivamente.

Los investigadores pudieron demostrar que los puntos medios seleccionados a través de este método convergerán muy rápidamente en el centro de la hiperesfera. El método seleccionará rápidamente un subconjunto de puntos cuyo valor promedio se aproxima mucho al de los 20 puntos iniciales. Eso los hacecandidatos particularmente buenos para su inclusión en el núcleo.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

Instituto de Tecnología de Massachusetts. "La técnica reduce los conjuntos de datos para un análisis más fácil: la técnica reduce los conjuntos de datos al tiempo que preserva sus relaciones matemáticas fundamentales". ScienceDaily. ScienceDaily, 15 de diciembre de 2016. .

Massachusetts Institute of Technology. 2016, 15 de diciembre. La técnica reduce los conjuntos de datos para un análisis más fácil: la técnica reduce los conjuntos de datos al tiempo que preserva sus relaciones matemáticas fundamentales. ScienceDaily . Recuperado el 8 de julio de 2020 de www.science-things.com/releases/2016/12/161215125931.htm

Instituto de Tecnología de Massachusetts. "La técnica reduce los conjuntos de datos para un análisis más fácil: la técnica reduce los conjuntos de datos mientras preserva sus relaciones matemáticas fundamentales". ScienceDaily. Www.science-things.com/releases/2016/12/161215125931.htm consultado en julio8, 2020.

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

La técnica reduce los conjuntos de datos para facilitar el análisis

La técnica reduce los conjuntos de datos mientras preserva sus relaciones matemáticas fundamentales

1

2

3

4

5

1

2

3

4

5

Un misterio cósmico: el telescopio de ESO captura la desaparición de una estrella masiva

Mayor concentración de metal en los cráteres de la luna proporciona nuevas ideas sobre su origen

Para encontrar agujeros negros gigantes, comience con Júpiter

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

matar el coronavirus con un dispositivo portátil de luz ultravioleta puede ser factible

¿Por qué las plantas son verdes?

Sin claves para el reino: el nuevo algoritmo de inicio de sesión único proporciona una privacidad superior

¿Cómo corre el riesgo de contraer un virus en un avión?

Hacia un láser lo suficientemente potente como para investigar un nuevo tipo de física

El poder colectivo de los cuerpos oscuros e helados del sistema solar

El viaje cósmico hacia la formación de estrellas y planetas

Nueva colección de estrellas, no nacidas en nuestra galaxia, descubiertas en la Vía Láctea

Ciencia detrás de la técnica tradicional de fabricación de mezcal

Los científicos crean un nuevo dispositivo para iluminar el camino para las tecnologías cuánticas

¿Qué hace que los barcos disminuyan o se detengan misteriosamente, aunque los motores estén funcionando?

Nueva evidencia ayuda a formar la reconstrucción digital del santuario medieval más importante

Hacer el plástico más transparente al tiempo que agrega conductividad eléctrica

La investigación refleja cómo la IA ve a través del espejo