Noticias de ciencia

de organizaciones de investigación

Automatizando el análisis de big data

El sistema que reemplaza la intuición humana con algoritmos supera a 615 de 906 equipos humanos

Fecha :: 16 de octubre de 2015
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Los investigadores buscan sacar el elemento humano del análisis de big data, con un nuevo sistema que no solo busca patrones sino que también diseña el conjunto de características. Para probar el primer prototipo de su sistema, lo inscribieron en tres ciencias de datoscompeticiones, en las que compitió contra equipos humanos para encontrar patrones predictivos en conjuntos de datos desconocidos. De los 906 equipos que participaron en las tres competiciones, la máquina de ciencia de datos de los investigadores terminó antes de 615.
Compartir :

HISTORIA COMPLETA

El análisis de datos grandes consiste en buscar patrones enterrados que tengan algún tipo de poder predictivo. Pero elegir qué "características" de los datos para analizar generalmente requiere cierta intuición humana. En una base de datos que contiene, por ejemplo, las fechas de inicio y finalización devarias promociones de ventas y ganancias semanales, los datos cruciales pueden no ser las fechas en sí mismas, sino el intervalo entre ellas, o no las ganancias totales, sino los promedios en esos períodos.

anuncio

Los investigadores del MIT apuntan a sacar el elemento humano del análisis de big data, con un nuevo sistema que no solo busca patrones sino que también diseña el conjunto de características. Para probar el primer prototipo de su sistema, lo inscribieron en tres datoscompeticiones científicas, en las que compitió contra equipos humanos para encontrar patrones predictivos en conjuntos de datos desconocidos. De los 906 equipos que participaron en las tres competiciones, la "Máquina de ciencia de datos" de los investigadores terminó antes de 615.

En dos de las tres competiciones, las predicciones hechas por Data Science Machine fueron 94 por ciento y 96 por ciento tan precisas como las presentaciones ganadoras. En la tercera, la cifra fue un 87 por ciento más modesto. Pero donde los equipos de humanos típicamenteTrabajando sobre sus algoritmos de predicción durante meses, la máquina de ciencia de datos tardó entre dos y 12 horas en producir cada una de sus entradas.

"Vemos la máquina de ciencia de datos como un complemento natural de la inteligencia humana", dice Max Kanter, cuya tesis de maestría del MIT en ciencias de la computación es la base de la máquina de ciencia de datos. "Hay tantos datos disponibles para analizar. Yen este momento solo está sentado allí sin hacer nada. Así que tal vez podamos encontrar una solución que al menos nos ayude a comenzar, al menos nos haga avanzar ".

entre líneas

Kanter y su asesor de tesis, Kalyan Veeramachaneni, científico investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT, describen la Máquina de Ciencia de Datos en un documento que Kanter presentará la próxima semana en la Conferencia Internacional IEEE sobre Ciencia de Datos y AvanzadoAnalítica.

anuncio

Veeramachaneni codirige el grupo Anyscale Learning for All en CSAIL, que aplica técnicas de aprendizaje automático a problemas prácticos en el análisis de grandes datos, como determinar la capacidad de generación de energía de los parques eólicos o predecir qué estudiantes están en riesgopara abandonar los cursos en línea.

"Lo que observamos de nuestra experiencia en la resolución de una serie de problemas de ciencia de datos para la industria es que uno de los pasos más críticos se llama ingeniería de características", dice Veeramachaneni. "Lo primero que debe hacer es identificar qué variables extraer dela base de datos o componer, y para eso, tienes que tener muchas ideas "

Al predecir el abandono, por ejemplo, dos indicadores cruciales demostraron cuánto tiempo antes de la fecha límite un estudiante comienza a trabajar en un conjunto de problemas y cuánto tiempo pasa el estudiante en el sitio web del curso en relación con sus compañeros de clase. Aprendizaje en línea del MITla plataforma MITx no registra ninguna de esas estadísticas, pero sí recopila datos a partir de los cuales se pueden inferir.

Composición destacada

Kanter y Veeramachaneni usan un par de trucos para fabricar características candidatas para el análisis de datos. Uno es explotar las relaciones estructurales inherentes al diseño de la base de datos. Las bases de datos generalmente almacenan diferentes tipos de datos en diferentes tablas, indicando las correlaciones entre ellos usando identificadores numéricos.Data Science Machine rastrea estas correlaciones, usándolas como una señal para la construcción de características.

Por ejemplo, una tabla puede enumerar artículos minoristas y sus costos; otra puede enumerar artículos incluidos en las compras de clientes individuales. La máquina de ciencia de datos comenzaría importando costos de la primera tabla a la segunda. Luego, siguiendo el ejemplo deasociación de varios artículos diferentes en la segunda tabla con el mismo número de compra, ejecutaría un conjunto de operaciones para generar características candidatas: costo total por pedido, costo promedio por pedido, costo mínimo por pedido, etc. A medida que proliferan los identificadores numéricosa través de las tablas, la máquina de ciencia de datos superpone las operaciones una encima de la otra, encontrando mínimos de promedios, promedios de sumas, etc.

También busca los denominados datos categóricos, que parecen estar restringidos a un rango limitado de valores, como los días de la semana o los nombres de marca. Luego genera más candidatos de características al dividir las características existentes en categorías.

Una vez que produce una serie de candidatos, reduce su número al identificar aquellos cuyos valores parecen estar correlacionados. Luego comienza a probar su conjunto reducido de características en los datos de muestra, recombinándolos de diferentes maneras para optimizar la precisión de las prediccionesrendimiento.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

Instituto de Tecnología de Massachusetts. "Automatizar el análisis de grandes datos: el sistema que reemplaza la intuición humana con algoritmos supera a 615 de 906 equipos humanos". ScienceDaily. ScienceDaily, 16 de octubre de 2015. .

Massachusetts Institute of Technology. 2015, 16 de octubre. Automatizar el análisis de grandes datos: el sistema que reemplaza la intuición humana con algoritmos supera a 615 de 906 equipos humanos. ScienceDaily . Recuperado el 16 de julio de 2020 de www.science-things.com/releases/2015/10/151016115552.htm

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Automatizando el análisis de big data

El sistema que reemplaza la intuición humana con algoritmos supera a 615 de 906 equipos humanos

1

2

3

4

5

1

2

3

4

5

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Las enanas blancas revelan nuevas ideas sobre el origen del carbono en el universo

Para encontrar agujeros negros gigantes, comience con Júpiter

Los mejores y peores materiales para máscaras

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Los investigadores crean un filtro de aire que puede matar el coronavirus

Terapia administrada electrónicamente más eficaz que cara a cara

El primer lenguaje de programación intuitivo para computadoras cuánticas

Creado 'neurotransistor artificial'

Cómo mueren las galaxias: nuevas ideas sobre el enfriamiento de la formación estelar

En un primer momento, los astrónomos observan cómo desaparece la corona de un agujero negro y luego reaparecen

El flash fugaz es el resplandor óptico más distante de la explosión de rayos gamma jamás detectado

Evidencia de décadas de teoría antigua para explicar los comportamientos extraños del agua

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles

Bacterias con una dieta de metal descubiertas en cristalería sucia

Una GoPro para escarabajos: los investigadores crean una mochila con cámara robótica para insectos

Dando a los robots una percepción humana de sus entornos físicos

¡Muévete, Siri! Los investigadores desarrollan Chatbot basado en la mejora