Noticias de ciencia

de organizaciones de investigación

análisis de datos de arrastrar y soltar

Fecha :: 27 de junio de 2019
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Northstar, un sistema interactivo de ciencia de datos, permite a los usuarios arrastrar y soltar y manipular datos, y usar una herramienta científica de datos virtuales para generar modelos de aprendizaje automático que ejecutan tareas de predicción en conjuntos de datos, en una interfaz de pantalla táctil fácil de usar.
Compartir :

HISTORIA COMPLETA

En las películas de Iron Man, Tony Stark usa una computadora holográfica para proyectar datos tridimensionales en el aire, manipularlos con sus manos y encontrar soluciones a sus problemas de superhéroes. En la misma línea, los investigadores del MIT y la Universidad Brown hanahora desarrolló un sistema para análisis de datos interactivos que se ejecuta en pantallas táctiles y permite que todos, no solo los genios tecnológicos multimillonarios, aborden problemas del mundo real.

anuncio

Durante años, los investigadores han estado desarrollando un sistema interactivo de ciencia de datos llamado Northstar, que se ejecuta en la nube pero tiene una interfaz que admite cualquier dispositivo con pantalla táctil, incluidos teléfonos inteligentes y pizarras interactivas grandes. Los usuarios alimentan los conjuntos de datos del sistema y manipulan,combine y extraiga funciones en una interfaz fácil de usar, usando sus dedos o un bolígrafo digital, para descubrir tendencias y patrones.

En un documento presentado en la conferencia ACM SIGMOD, los investigadores detallan un nuevo componente de Northstar, llamado VDS para "científico de datos virtual", que genera instantáneamente modelos de aprendizaje automático para ejecutar tareas de predicción en sus conjuntos de datos. Médicos, por ejemplo, puede usar el sistema para ayudar a predecir qué pacientes tienen más probabilidades de tener ciertas enfermedades, mientras que los propietarios de negocios pueden querer pronosticar las ventas. Si usan una pizarra interactiva, todos también pueden colaborar en tiempo real.

El objetivo es democratizar la ciencia de datos al facilitar la realización de análisis complejos, de forma rápida y precisa.

"Incluso el dueño de una cafetería que no conoce la ciencia de datos debería poder predecir sus ventas en las próximas semanas para calcular cuánto café comprar", dice Tim Kraska, coautor y líder del proyecto Northstar desde hace mucho tiempo, profesor asociado de ingeniería eléctrica y ciencias de la computación en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT y codirector fundador del nuevo Sistema de Datos y Laboratorio de Inteligencia Artificial DSAIL. "En las empresas que tienen científicos de datos, hay muchode ida y vuelta entre los científicos de datos y los no expertos, por lo que también podemos llevarlos a una sala para realizar análisis juntos ".

VDS se basa en una técnica cada vez más popular en inteligencia artificial llamada aprendizaje automático automatizado AutoML, que permite a las personas con conocimientos limitados en ciencia de datos entrenar modelos de IA para hacer predicciones basadas en sus conjuntos de datos. Actualmente, la herramienta lideraCompetencia DARPA D3M Automatic Machine Learning, que cada seis meses decide cuál es la herramienta AutoML de mejor rendimiento.

anuncio

Uniéndose a Kraska en el papel están: primer autor Zeyuan Shang, un estudiante graduado, y Emanuel Zgraggen, un postdoc y principal contribuyente de Northstar, ambos de EECS, CSAIL y DSAIL; Benedetto Buratti, Yeounoh Chung, Philipp Eichmann y EliUpfal, todo de Brown; y Carsten Binnig, quien recientemente se mudó de Brown a la Universidad Técnica de Darmstadt en Alemania.

Un "lienzo sin límites" para análisis

El nuevo trabajo se basa en años de colaboración en Northstar entre investigadores del MIT y Brown. Durante cuatro años, los investigadores han publicado numerosos documentos que detallan los componentes de Northstar, incluida la interfaz interactiva, las operaciones en múltiples plataformas, la aceleración de resultados y los estudios sobrecomportamiento del usuario.

Northstar comienza como una interfaz blanca en blanco. Los usuarios cargan conjuntos de datos en el sistema, que aparecen en un cuadro de "conjuntos de datos" a la izquierda. Cualquier etiqueta de datos completará automáticamente un cuadro de "atributos" por separado. También hay un "operador"cuadro que contiene varios algoritmos, así como la nueva herramienta AutoML. Todos los datos se almacenan y analizan en la nube.

A los investigadores les gusta demostrar el sistema en un conjunto de datos público que contiene información sobre pacientes de la unidad de cuidados intensivos. Considere a los investigadores médicos que deseen examinar las coincidencias de ciertas enfermedades en ciertos grupos de edad. Se arrastran y se dejan caer en el medio de la interfazun algoritmo de verificación de patrones, que al principio aparece como un cuadro en blanco. Como entrada, se mueven hacia el cuadro de características de la enfermedad etiquetadas, por ejemplo, "sangre", "infecciosa" y "metabólica". Porcentajes de esas enfermedades en el conjunto de datos aparecenen el cuadro. Luego, arrastran la función "edad" a la interfaz, que muestra un gráfico de barras de la distribución de edad del paciente. Dibujando una línea entre los dos cuadros los une. Al rodear los rangos de edad, el algoritmo calcula inmediatamente el co-ocurrencia de las tres enfermedades entre el rango de edad.

anuncio

"Es como un lienzo grande y sin límites en el que puedes diseñar cómo quieres todo", dice Zgraggen, quien es el inventor clave de la interfaz interactiva de Northstar. "Entonces, puedes vincular cosas para crear preguntas más complejas sobre tus datos"

Aproximación de AutoML

Con VDS, los usuarios ahora también pueden ejecutar análisis predictivos sobre esos datos haciendo que los modelos se ajusten a sus tareas, como la predicción de datos, la clasificación de imágenes o el análisis de estructuras gráficas complejas.

Utilizando el ejemplo anterior, digamos que los investigadores médicos quieren predecir qué pacientes pueden tener una enfermedad de la sangre en función de todas las características del conjunto de datos. Arrastran y sueltan "AutoML" de la lista de algoritmos. Primero generará un cuadro en blanco,pero con una pestaña "objetivo", bajo la cual soltarían la función "sangre". El sistema encontrará automáticamente las tuberías de aprendizaje automático de mejor rendimiento, presentadas como pestañas con porcentajes de precisión constantemente actualizados. Los usuarios pueden detener el proceso en cualquier momento, refine la búsqueda y examine las tasas de error, la estructura, los cálculos y otras cosas de cada modelo.

Según los investigadores, VDS es la herramienta interactiva AutoML más rápida hasta la fecha, gracias, en parte, a su "motor de estimación" personalizado. El motor se encuentra entre la interfaz y el almacenamiento en la nube. El motor aprovecha automáticamente crea varias muestras representativas deun conjunto de datos que puede procesarse progresivamente para producir resultados de alta calidad en segundos.

"Junto con mis coautores pasé dos años diseñando VDS para imitar cómo piensa un científico de datos", dice Shang, lo que significa que identifica instantáneamente qué modelos y pasos de preprocesamiento debe o no debe ejecutar en ciertas tareas, basándose en variasreglas codificadas. Primero elige de una gran lista de esas posibles canalizaciones de aprendizaje automático y ejecuta simulaciones en el conjunto de muestras. Al hacerlo, recuerda los resultados y refina su selección. Después de entregar resultados aproximados rápidos, el sistema refina los resultados en elback end. Pero los números finales suelen estar muy cerca de la primera aproximación.

"Para usar un predictor, no desea esperar cuatro horas para obtener sus primeros resultados. Desea ver lo que está sucediendo y, si detecta un error, puede corregirlo de inmediato. Eso normalmente no es posibleen cualquier otro sistema ", dice Kraska. El estudio previo de los investigadores de los usuarios, de hecho," muestra que en el momento en que demoras en dar resultados a los usuarios, comienzan a perder el compromiso con el sistema ".

Los investigadores evaluaron la herramienta en 300 conjuntos de datos del mundo real. En comparación con otros sistemas AutoML de última generación, las aproximaciones de VDS fueron tan precisas, pero se generaron en segundos, lo que es mucho más rápido que otras herramientas que funcionanen minutos a horas

A continuación, los investigadores buscan agregar una función que alerta a los usuarios sobre posibles sesgos o errores de datos. Por ejemplo, para proteger la privacidad del paciente, a veces los investigadores etiquetarán los conjuntos de datos médicos con pacientes de 0 años si no conocen la edad y200 si un paciente tiene más de 95 años. Sin embargo, los novatos pueden no reconocer tales errores, lo que podría anular por completo sus análisis

"Si eres un usuario nuevo, puedes obtener resultados y pensar que son geniales", dice Kraska. "Pero podemos advertir a la gente que, de hecho, puede haber algunos valores atípicos en el conjunto de datos que pueden indicar un problema"

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.

Cita esta página :

Instituto de Tecnología de Massachusetts. "Análisis de datos de arrastrar y soltar". ScienceDaily. ScienceDaily, 27 de junio de 2019. .

Instituto de Tecnología de Massachusetts. 27 de junio de 2019. Análisis de datos de arrastrar y soltar. ScienceDaily . Recuperado el 22 de julio de 2020 de www.science-things.com/releases/2019/06/190627121249.htm

Instituto de Tecnología de Massachusetts. "Análisis de datos de arrastrar y soltar". ScienceDaily. Www.science-things.com/releases/2019/06/190627121249.htm consultado el 22 de julio de 2020.

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

análisis de datos de arrastrar y soltar

1

2

3

4

5

1

2

3

4

5

Nueva investigación de la luz más antigua confirma la edad del universo

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Platón tenía razón: la Tierra está hecha, en promedio, de cubos

Nuevo modelo conecta la física de gotitas respiratorias con la propagación de Covid-19

Creado 'neurotransistor artificial'

prediciendo su personalidad a partir de los datos de su teléfono inteligente

Primera imagen de un sistema de varios planetas alrededor de una estrella similar al Sol capturada por el telescopio ESO

Nuevas estructuras de campo magnético cósmico descubiertas en Galaxy NGC 4217

Los científicos descubren que los volcanes en Venus todavía están activos

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

El brazalete 3D con detección de manos señala el futuro de la tecnología portátil

Las poderosas manos similares a las de los humanos crean interacciones humano-robóticas más seguras

Excitación cuántica encontrada en material magnético Van Der Waals NiPS3

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles