El análisis de datos grandes consiste en buscar patrones enterrados que tengan algún tipo de poder predictivo. Pero elegir qué "características" de los datos para analizar generalmente requiere cierta intuición humana. En una base de datos que contiene, por ejemplo, las fechas de inicio y finalización devarias promociones de ventas y ganancias semanales, los datos cruciales pueden no ser las fechas en sí mismas, sino el intervalo entre ellas, o no las ganancias totales, sino los promedios en esos períodos.
Los investigadores del MIT apuntan a sacar el elemento humano del análisis de big data, con un nuevo sistema que no solo busca patrones sino que también diseña el conjunto de características. Para probar el primer prototipo de su sistema, lo inscribieron en tres datoscompeticiones científicas, en las que compitió contra equipos humanos para encontrar patrones predictivos en conjuntos de datos desconocidos. De los 906 equipos que participaron en las tres competiciones, la "Máquina de ciencia de datos" de los investigadores terminó antes de 615.
En dos de las tres competiciones, las predicciones hechas por Data Science Machine fueron 94 por ciento y 96 por ciento tan precisas como las presentaciones ganadoras. En la tercera, la cifra fue un 87 por ciento más modesto. Pero donde los equipos de humanos típicamenteTrabajando sobre sus algoritmos de predicción durante meses, la máquina de ciencia de datos tardó entre dos y 12 horas en producir cada una de sus entradas.
"Vemos la máquina de ciencia de datos como un complemento natural de la inteligencia humana", dice Max Kanter, cuya tesis de maestría del MIT en ciencias de la computación es la base de la máquina de ciencia de datos. "Hay tantos datos disponibles para analizar. Yen este momento solo está sentado allí sin hacer nada. Así que tal vez podamos encontrar una solución que al menos nos ayude a comenzar, al menos nos haga avanzar ".
entre líneas
Kanter y su asesor de tesis, Kalyan Veeramachaneni, científico investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT, describen la Máquina de Ciencia de Datos en un documento que Kanter presentará la próxima semana en la Conferencia Internacional IEEE sobre Ciencia de Datos y AvanzadoAnalítica.
Veeramachaneni codirige el grupo Anyscale Learning for All en CSAIL, que aplica técnicas de aprendizaje automático a problemas prácticos en el análisis de grandes datos, como determinar la capacidad de generación de energía de los parques eólicos o predecir qué estudiantes están en riesgopara abandonar los cursos en línea.
"Lo que observamos de nuestra experiencia en la resolución de una serie de problemas de ciencia de datos para la industria es que uno de los pasos más críticos se llama ingeniería de características", dice Veeramachaneni. "Lo primero que debe hacer es identificar qué variables extraer dela base de datos o componer, y para eso, tienes que tener muchas ideas "
Al predecir el abandono, por ejemplo, dos indicadores cruciales demostraron cuánto tiempo antes de la fecha límite un estudiante comienza a trabajar en un conjunto de problemas y cuánto tiempo pasa el estudiante en el sitio web del curso en relación con sus compañeros de clase. Aprendizaje en línea del MITla plataforma MITx no registra ninguna de esas estadísticas, pero sí recopila datos a partir de los cuales se pueden inferir.
Composición destacada
Kanter y Veeramachaneni usan un par de trucos para fabricar características candidatas para el análisis de datos. Uno es explotar las relaciones estructurales inherentes al diseño de la base de datos. Las bases de datos generalmente almacenan diferentes tipos de datos en diferentes tablas, indicando las correlaciones entre ellos usando identificadores numéricos.Data Science Machine rastrea estas correlaciones, usándolas como una señal para la construcción de características.
Por ejemplo, una tabla puede enumerar artículos minoristas y sus costos; otra puede enumerar artículos incluidos en las compras de clientes individuales. La máquina de ciencia de datos comenzaría importando costos de la primera tabla a la segunda. Luego, siguiendo el ejemplo deasociación de varios artículos diferentes en la segunda tabla con el mismo número de compra, ejecutaría un conjunto de operaciones para generar características candidatas: costo total por pedido, costo promedio por pedido, costo mínimo por pedido, etc. A medida que proliferan los identificadores numéricosa través de las tablas, la máquina de ciencia de datos superpone las operaciones una encima de la otra, encontrando mínimos de promedios, promedios de sumas, etc.
También busca los denominados datos categóricos, que parecen estar restringidos a un rango limitado de valores, como los días de la semana o los nombres de marca. Luego genera más candidatos de características al dividir las características existentes en categorías.
Una vez que produce una serie de candidatos, reduce su número al identificar aquellos cuyos valores parecen estar correlacionados. Luego comienza a probar su conjunto reducido de características en los datos de muestra, recombinándolos de diferentes maneras para optimizar la precisión de las prediccionesrendimiento.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :