En las películas de Iron Man, Tony Stark usa una computadora holográfica para proyectar datos tridimensionales en el aire, manipularlos con sus manos y encontrar soluciones a sus problemas de superhéroes. En la misma línea, los investigadores del MIT y la Universidad Brown hanahora desarrolló un sistema para análisis de datos interactivos que se ejecuta en pantallas táctiles y permite que todos, no solo los genios tecnológicos multimillonarios, aborden problemas del mundo real.
Durante años, los investigadores han estado desarrollando un sistema interactivo de ciencia de datos llamado Northstar, que se ejecuta en la nube pero tiene una interfaz que admite cualquier dispositivo con pantalla táctil, incluidos teléfonos inteligentes y pizarras interactivas grandes. Los usuarios alimentan los conjuntos de datos del sistema y manipulan,combine y extraiga funciones en una interfaz fácil de usar, usando sus dedos o un bolígrafo digital, para descubrir tendencias y patrones.
En un documento presentado en la conferencia ACM SIGMOD, los investigadores detallan un nuevo componente de Northstar, llamado VDS para "científico de datos virtual", que genera instantáneamente modelos de aprendizaje automático para ejecutar tareas de predicción en sus conjuntos de datos. Médicos, por ejemplo, puede usar el sistema para ayudar a predecir qué pacientes tienen más probabilidades de tener ciertas enfermedades, mientras que los propietarios de negocios pueden querer pronosticar las ventas. Si usan una pizarra interactiva, todos también pueden colaborar en tiempo real.
El objetivo es democratizar la ciencia de datos al facilitar la realización de análisis complejos, de forma rápida y precisa.
"Incluso el dueño de una cafetería que no conoce la ciencia de datos debería poder predecir sus ventas en las próximas semanas para calcular cuánto café comprar", dice Tim Kraska, coautor y líder del proyecto Northstar desde hace mucho tiempo, profesor asociado de ingeniería eléctrica y ciencias de la computación en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT y codirector fundador del nuevo Sistema de Datos y Laboratorio de Inteligencia Artificial DSAIL. "En las empresas que tienen científicos de datos, hay muchode ida y vuelta entre los científicos de datos y los no expertos, por lo que también podemos llevarlos a una sala para realizar análisis juntos ".
VDS se basa en una técnica cada vez más popular en inteligencia artificial llamada aprendizaje automático automatizado AutoML, que permite a las personas con conocimientos limitados en ciencia de datos entrenar modelos de IA para hacer predicciones basadas en sus conjuntos de datos. Actualmente, la herramienta lideraCompetencia DARPA D3M Automatic Machine Learning, que cada seis meses decide cuál es la herramienta AutoML de mejor rendimiento.
Uniéndose a Kraska en el papel están: primer autor Zeyuan Shang, un estudiante graduado, y Emanuel Zgraggen, un postdoc y principal contribuyente de Northstar, ambos de EECS, CSAIL y DSAIL; Benedetto Buratti, Yeounoh Chung, Philipp Eichmann y EliUpfal, todo de Brown; y Carsten Binnig, quien recientemente se mudó de Brown a la Universidad Técnica de Darmstadt en Alemania.
Un "lienzo sin límites" para análisis
El nuevo trabajo se basa en años de colaboración en Northstar entre investigadores del MIT y Brown. Durante cuatro años, los investigadores han publicado numerosos documentos que detallan los componentes de Northstar, incluida la interfaz interactiva, las operaciones en múltiples plataformas, la aceleración de resultados y los estudios sobrecomportamiento del usuario.
Northstar comienza como una interfaz blanca en blanco. Los usuarios cargan conjuntos de datos en el sistema, que aparecen en un cuadro de "conjuntos de datos" a la izquierda. Cualquier etiqueta de datos completará automáticamente un cuadro de "atributos" por separado. También hay un "operador"cuadro que contiene varios algoritmos, así como la nueva herramienta AutoML. Todos los datos se almacenan y analizan en la nube.
A los investigadores les gusta demostrar el sistema en un conjunto de datos público que contiene información sobre pacientes de la unidad de cuidados intensivos. Considere a los investigadores médicos que deseen examinar las coincidencias de ciertas enfermedades en ciertos grupos de edad. Se arrastran y se dejan caer en el medio de la interfazun algoritmo de verificación de patrones, que al principio aparece como un cuadro en blanco. Como entrada, se mueven hacia el cuadro de características de la enfermedad etiquetadas, por ejemplo, "sangre", "infecciosa" y "metabólica". Porcentajes de esas enfermedades en el conjunto de datos aparecenen el cuadro. Luego, arrastran la función "edad" a la interfaz, que muestra un gráfico de barras de la distribución de edad del paciente. Dibujando una línea entre los dos cuadros los une. Al rodear los rangos de edad, el algoritmo calcula inmediatamente el co-ocurrencia de las tres enfermedades entre el rango de edad.
"Es como un lienzo grande y sin límites en el que puedes diseñar cómo quieres todo", dice Zgraggen, quien es el inventor clave de la interfaz interactiva de Northstar. "Entonces, puedes vincular cosas para crear preguntas más complejas sobre tus datos"
Aproximación de AutoML
Con VDS, los usuarios ahora también pueden ejecutar análisis predictivos sobre esos datos haciendo que los modelos se ajusten a sus tareas, como la predicción de datos, la clasificación de imágenes o el análisis de estructuras gráficas complejas.
Utilizando el ejemplo anterior, digamos que los investigadores médicos quieren predecir qué pacientes pueden tener una enfermedad de la sangre en función de todas las características del conjunto de datos. Arrastran y sueltan "AutoML" de la lista de algoritmos. Primero generará un cuadro en blanco,pero con una pestaña "objetivo", bajo la cual soltarían la función "sangre". El sistema encontrará automáticamente las tuberías de aprendizaje automático de mejor rendimiento, presentadas como pestañas con porcentajes de precisión constantemente actualizados. Los usuarios pueden detener el proceso en cualquier momento, refine la búsqueda y examine las tasas de error, la estructura, los cálculos y otras cosas de cada modelo.
Según los investigadores, VDS es la herramienta interactiva AutoML más rápida hasta la fecha, gracias, en parte, a su "motor de estimación" personalizado. El motor se encuentra entre la interfaz y el almacenamiento en la nube. El motor aprovecha automáticamente crea varias muestras representativas deun conjunto de datos que puede procesarse progresivamente para producir resultados de alta calidad en segundos.
"Junto con mis coautores pasé dos años diseñando VDS para imitar cómo piensa un científico de datos", dice Shang, lo que significa que identifica instantáneamente qué modelos y pasos de preprocesamiento debe o no debe ejecutar en ciertas tareas, basándose en variasreglas codificadas. Primero elige de una gran lista de esas posibles canalizaciones de aprendizaje automático y ejecuta simulaciones en el conjunto de muestras. Al hacerlo, recuerda los resultados y refina su selección. Después de entregar resultados aproximados rápidos, el sistema refina los resultados en elback end. Pero los números finales suelen estar muy cerca de la primera aproximación.
"Para usar un predictor, no desea esperar cuatro horas para obtener sus primeros resultados. Desea ver lo que está sucediendo y, si detecta un error, puede corregirlo de inmediato. Eso normalmente no es posibleen cualquier otro sistema ", dice Kraska. El estudio previo de los investigadores de los usuarios, de hecho," muestra que en el momento en que demoras en dar resultados a los usuarios, comienzan a perder el compromiso con el sistema ".
Los investigadores evaluaron la herramienta en 300 conjuntos de datos del mundo real. En comparación con otros sistemas AutoML de última generación, las aproximaciones de VDS fueron tan precisas, pero se generaron en segundos, lo que es mucho más rápido que otras herramientas que funcionanen minutos a horas
A continuación, los investigadores buscan agregar una función que alerta a los usuarios sobre posibles sesgos o errores de datos. Por ejemplo, para proteger la privacidad del paciente, a veces los investigadores etiquetarán los conjuntos de datos médicos con pacientes de 0 años si no conocen la edad y200 si un paciente tiene más de 95 años. Sin embargo, los novatos pueden no reconocer tales errores, lo que podría anular por completo sus análisis
"Si eres un usuario nuevo, puedes obtener resultados y pensar que son geniales", dice Kraska. "Pero podemos advertir a la gente que, de hecho, puede haber algunos valores atípicos en el conjunto de datos que pueden indicar un problema"
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :