Noticias científicas

de organizaciones de investigación

1

2

El sistema vincula los datos dispersos en los archivos para facilitar la consulta

Fecha :: 19 de enero de 2017
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: El sistema busca y vincula datos relacionados dispersos en archivos digitales para facilitar la consulta y el filtrado.
Compartir :

HISTORIA COMPLETA

La era del big data ha visto una gran cantidad de nuevas técnicas para analizar grandes conjuntos de datos. Pero antes de que se pueda aplicar cualquiera de esas técnicas, los datos de destino deben agregarse, organizarse y limpiarse.

Eso resulta ser una tarea sorprendentemente lenta. En una encuesta de 2016, 80 científicos de datos le dijeron a la empresa CrowdFlower que, en promedio, dedicaban el 80 por ciento de su tiempo a recopilar y organizar datos y solo el 20 por ciento a analizarlos.

Un equipo internacional de científicos informáticos espera cambiar eso, con un nuevo sistema llamado Data Civilizer, que encuentra automáticamente conexiones entre muchas tablas de datos diferentes y permite a los usuarios realizar consultas de estilo de base de datos en todas ellas. Los resultados de las consultas puedenluego se guardarán como conjuntos de datos nuevos y ordenados que pueden extraer información de docenas o incluso miles de tablas diferentes.

"Las organizaciones modernas tienen muchos miles de conjuntos de datos distribuidos en archivos, hojas de cálculo, bases de datos, lagos de datos y otros sistemas de software", dice Sam Madden, profesor de ingeniería eléctrica e informática del MIT y director de la facultad de la iniciativa bigdata @ CSAIL del MIT. "Civilizer ayuda a los analistas de estas organizaciones a encontrar rápidamente conjuntos de datos que contienen información que es relevante para ellos y, lo que es más importante, combinan conjuntos de datos relacionados para crear conjuntos de datos nuevos y unificados que consolidan datos de interés para algunos análisis".

Los investigadores presentaron su sistema la semana pasada en la Conferencia sobre Investigación de Sistemas de Datos Innovadores. Los autores principales del artículo son Dong Deng y Raúl Castro Fernández, ambos postdoctorados en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT; Madden es uno de los autores principalesA ellos se unen otros seis investigadores de la Universidad Técnica de Berlín, la Universidad Tecnológica de Nanyang, la Universidad de Waterloo y el Instituto de Investigación en Computación de Qatar. Aunque no es coautor, el profesor adjunto de ingeniería eléctrica e informática del MIT Michael Stonebraker, quien en 2014 ganó el Premio Turing, el más alto honor en ciencias de la computación, también contribuyó al trabajo.

pares y permutaciones

Data Civilizer asume que los datos que está consolidando están organizados en tablas. Como explica Madden, en la comunidad de bases de datos, existe una literatura considerable sobre la conversión automática de datos a forma tabular, por lo que ese no fue el enfoque de la nueva investigación. De manera similar,Si bien el prototipo del sistema puede extraer datos tabulares de varios tipos diferentes de archivos, hacer que funcione con cada hoja de cálculo o programa de base de datos concebible no era la prioridad inmediata de los investigadores. "Esa parte es la ingeniería", dice Madden.

El sistema comienza analizando cada columna de cada tabla a su disposición. Primero, produce un resumen estadístico de los datos en cada columna. Para datos numéricos, eso podría incluir una distribución de la frecuencia con la que ocurren diferentes valores; el rangode valores y la "cardinalidad" de los valores, o el número de valores diferentes que contiene la columna. Para los datos textuales, un resumen incluiría una lista de las palabras que aparecen con más frecuencia en la columna y el número de palabras diferentes. Data Civilizertambién mantiene un índice maestro de cada palabra que aparece en cada tabla y las tablas que lo contienen.

Luego, el sistema compara todos los resúmenes de columnas entre sí, identificando pares de columnas que parecen tener puntos en común: rangos de datos similares, conjuntos de palabras similares y similares. Asigna a cada par de columnas una puntuación de similitud y,sobre esa base, produce un mapa, parecido a un diagrama de red, que traza las conexiones entre columnas individuales y entre las tablas que las contienen.

Trazando un camino

Un usuario puede entonces redactar una consulta y, sobre la marcha, Data Civilizer recorrerá el mapa para encontrar datos relacionados. Supongamos, por ejemplo, que una empresa farmacéutica tiene cientos de tablas que hacen referencia a un medicamento por su nombre de marca, cientos queconsulte su compuesto químico y algunos que usan un número de identificación interno. Ahora suponga que el número de identificación y el nombre de la marca nunca aparecen en la misma tabla, pero hay al menos una tabla que vincula el número de identificación y el compuesto químicoy uno que vincula el compuesto químico y el nombre de la marca. Con Data Civilizer, una consulta sobre el nombre de la marca también extraerá datos de tablas que solo usan el número de identificación.

Algunos de los vínculos identificados por Data Civilizer pueden resultar falsos. Pero el usuario puede descartar los datos que no se ajustan a una consulta y conservar el resto. Una vez que se han eliminado los datos, el usuario puede guardar los resultados como supropio archivo de datos.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: el contenido se puede editar por estilo y longitud.

cite esta página :

Instituto de Tecnología de Massachusetts. "El sistema vincula datos dispersos en archivos para facilitar la consulta". ScienceDaily. ScienceDaily, 19 de enero de 2017. .

Instituto de Tecnología de Massachusetts. 2017, 19 de enero. El sistema vincula datos dispersos en archivos para facilitar la consulta. ScienceDaily . Obtenido el 9 de febrero de 2021 de www.science-things.com/releases/2017/01/170119161534.htm

Instituto de Tecnología de Massachusetts. "El sistema vincula datos dispersos en archivos, para facilitar la consulta". ScienceDaily. Www.science-things.com/releases/2017/01/170119161534.htm consultado el 9 de febrero de 2021.

TEMAS RELACIONADOS
- Computadoras y matemáticas

TÉRMINOS RELACIONADOS

1

2

3

4

5

HISTORIAS RELACIONADAS

DESDE LA WEB

ScienceDaily comparte enlaces con sitios en red TrendMD y obtiene ingresos de anunciantes externos, cuando se indique.

1

2

El sistema vincula los datos dispersos en los archivos para facilitar la consulta

1

2

3

4

5

1

2

3

4

5

Revelada la verdadera identidad de la misteriosa fuente de rayos gamma

Inclinación de Saturno causada por sus lunas, dicen los investigadores

Los astrónomos descubren el primer planeta sin nubes similar a Júpiter

Se descubre que Venus atrapamoscas producen campos magnéticos

Apague esa cámara durante las reuniones virtuales, dice el estudio ambiental

Descubrimientos en el borde de la tabla periódica: primeras mediciones de einstenio

Tres razones por las que COVID-19 puede causar hipoxia silenciosa

Los videojuegos pueden cambiar tu cerebro

Más allá de los Qubits: siguiente gran paso para ampliar la computación cuántica

Restos de Rare Blast descubiertos en el centro de la Vía Láctea

Estudio de la estrella supergigante Betelgeuse revela la causa de sus pulsaciones

Materia oscura: una nueva herramienta en la búsqueda de axiones

polímeros de impresión 3D

Un giro magnético al grafeno

El avance en la fotónica cuántica promete una nueva era en los circuitos ópticos

Robots detectan el tacto humano usando la cámara y las sombras

Nueva forma de potenciar nanomateriales para aplicaciones electrónicas

Los ingenieros desarrollan tecnología de programación para transformar materiales 2D en formas 3D