La era del big data ha visto una gran cantidad de nuevas técnicas para analizar grandes conjuntos de datos. Pero antes de que se pueda aplicar cualquiera de esas técnicas, los datos de destino deben agregarse, organizarse y limpiarse.
Eso resulta ser una tarea sorprendentemente lenta. En una encuesta de 2016, 80 científicos de datos le dijeron a la empresa CrowdFlower que, en promedio, dedicaban el 80 por ciento de su tiempo a recopilar y organizar datos y solo el 20 por ciento a analizarlos.
Un equipo internacional de científicos informáticos espera cambiar eso, con un nuevo sistema llamado Data Civilizer, que encuentra automáticamente conexiones entre muchas tablas de datos diferentes y permite a los usuarios realizar consultas de estilo de base de datos en todas ellas. Los resultados de las consultas puedenluego se guardarán como conjuntos de datos nuevos y ordenados que pueden extraer información de docenas o incluso miles de tablas diferentes.
"Las organizaciones modernas tienen muchos miles de conjuntos de datos distribuidos en archivos, hojas de cálculo, bases de datos, lagos de datos y otros sistemas de software", dice Sam Madden, profesor de ingeniería eléctrica e informática del MIT y director de la facultad de la iniciativa bigdata @ CSAIL del MIT. "Civilizer ayuda a los analistas de estas organizaciones a encontrar rápidamente conjuntos de datos que contienen información que es relevante para ellos y, lo que es más importante, combinan conjuntos de datos relacionados para crear conjuntos de datos nuevos y unificados que consolidan datos de interés para algunos análisis".
Los investigadores presentaron su sistema la semana pasada en la Conferencia sobre Investigación de Sistemas de Datos Innovadores. Los autores principales del artículo son Dong Deng y Raúl Castro Fernández, ambos postdoctorados en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT; Madden es uno de los autores principalesA ellos se unen otros seis investigadores de la Universidad Técnica de Berlín, la Universidad Tecnológica de Nanyang, la Universidad de Waterloo y el Instituto de Investigación en Computación de Qatar. Aunque no es coautor, el profesor adjunto de ingeniería eléctrica e informática del MIT Michael Stonebraker, quien en 2014 ganó el Premio Turing, el más alto honor en ciencias de la computación, también contribuyó al trabajo.
pares y permutaciones
Data Civilizer asume que los datos que está consolidando están organizados en tablas. Como explica Madden, en la comunidad de bases de datos, existe una literatura considerable sobre la conversión automática de datos a forma tabular, por lo que ese no fue el enfoque de la nueva investigación. De manera similar,Si bien el prototipo del sistema puede extraer datos tabulares de varios tipos diferentes de archivos, hacer que funcione con cada hoja de cálculo o programa de base de datos concebible no era la prioridad inmediata de los investigadores. "Esa parte es la ingeniería", dice Madden.
El sistema comienza analizando cada columna de cada tabla a su disposición. Primero, produce un resumen estadístico de los datos en cada columna. Para datos numéricos, eso podría incluir una distribución de la frecuencia con la que ocurren diferentes valores; el rangode valores y la "cardinalidad" de los valores, o el número de valores diferentes que contiene la columna. Para los datos textuales, un resumen incluiría una lista de las palabras que aparecen con más frecuencia en la columna y el número de palabras diferentes. Data Civilizertambién mantiene un índice maestro de cada palabra que aparece en cada tabla y las tablas que lo contienen.
Luego, el sistema compara todos los resúmenes de columnas entre sí, identificando pares de columnas que parecen tener puntos en común: rangos de datos similares, conjuntos de palabras similares y similares. Asigna a cada par de columnas una puntuación de similitud y,sobre esa base, produce un mapa, parecido a un diagrama de red, que traza las conexiones entre columnas individuales y entre las tablas que las contienen.
Trazando un camino
Un usuario puede entonces redactar una consulta y, sobre la marcha, Data Civilizer recorrerá el mapa para encontrar datos relacionados. Supongamos, por ejemplo, que una empresa farmacéutica tiene cientos de tablas que hacen referencia a un medicamento por su nombre de marca, cientos queconsulte su compuesto químico y algunos que usan un número de identificación interno. Ahora suponga que el número de identificación y el nombre de la marca nunca aparecen en la misma tabla, pero hay al menos una tabla que vincula el número de identificación y el compuesto químicoy uno que vincula el compuesto químico y el nombre de la marca. Con Data Civilizer, una consulta sobre el nombre de la marca también extraerá datos de tablas que solo usan el número de identificación.
Algunos de los vínculos identificados por Data Civilizer pueden resultar falsos. Pero el usuario puede descartar los datos que no se ajustan a una consulta y conservar el resto. Una vez que se han eliminado los datos, el usuario puede guardar los resultados como supropio archivo de datos.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :