El manejo de grandes datos a veces puede parecer como conducir en una carretera sin pavimentar para los investigadores que necesitan velocidad y supercomputadoras.
"Cuando estás en el mundo de los datos, hay rocas y protuberancias en el camino, y muchas cosas de las que debes ocuparte", dijo Niall Gaffney, un ex científico del telescopio espacial Hubble que ahora dirigeGrupo de computación intensiva de datos en el Texas Advanced Computing Center TACC.
Gaffney dirigió el esfuerzo para poner en línea un nuevo tipo de supercomputadora, llamada Wrangler. Al igual que los viejos vaqueros occidentales que domesticaban caballos salvajes, Wrangler doma bestias de grandes datos, como problemas informáticos que implican analizar miles de archivos que deben ser rápidamenteabierto, examinado y correlacionado.
Wrangler llena un vacío en los recursos de supercomputación de XSEDE, Extreme Science and Engineering Discovery Environment, con el apoyo de la National Science Foundation NSF. XSEDE es una colección de recursos digitales avanzados que los científicos pueden usar fácilmente para compartir y analizarEn la actualidad, NSF otorgó a TACC y sus socios académicos la Universidad de Indiana y la Universidad de Chicago $ 11.2 millones para construir y operar Wrangler, una supercomputadora para manejar computación de alto rendimiento con uso intensivo de datos.
Wrangler fue diseñado para trabajar en estrecha colaboración con la supercomputadora Stampede, la décima más poderosa del mundo según la lista bianual Top500, y el buque insignia de TACC en la Universidad de Texas en Austin UT Austin.seis millones de empleos para la ciencia abierta desde que entró en funcionamiento en 2013.
"Guardamos mucho de lo que era bueno con sistemas como Stampede", dijo Gaffney, "pero le agregamos cosas nuevas como un sistema de almacenamiento flash muy grande, un sistema de almacenamiento de disco giratorio distribuido muy grande y acceso a la red de alta velocidad.Esto permite que las personas que tienen problemas de datos que no estaban siendo resueltos por sistemas como Stampede y Lonestar puedan resolverlos como nunca antes ".
Gaffney hizo la analogía de que las supercomputadoras como Stampede son como los autos deportivos de carreras, con fantásticos motores de cómputo optimizados para ir rápido en pistas de carreras suaves y bien definidas. Wrangler, por otro lado, está construido como un auto de rally para ir rápidoen caminos sin pavimentar, llenos de baches con grava fangosa.
"Si lleva un Ferrari fuera de la carretera, es posible que desee cambiar la forma en que se realiza la suspensión", dijo Gaffney. "Desea cambiar la forma en que se arma todo el automóvil, aunque use los mismos componentes, para construir algo adecuado para personas que tienen un trabajo diferente "
En el corazón de Wrangler se encuentran 600 terabytes de memoria flash compartida a través de la interconexión PCI a través de los más de 3.000 núcleos de cómputo Haswell de Wrangler. "Todas las partes del sistema pueden acceder al mismo almacenamiento", dijo Gaffney. "Pueden trabajar en paralelo juntos en eldatos almacenados dentro de este sistema de almacenamiento de alta velocidad para obtener resultados más grandes que no podrían obtener de otra manera "
Esta gran cantidad de almacenamiento flash proviene de DSSD, una startup cofundada por Andy Bechtolsheim de Sun Microsystems y adquirida en mayo de 2015 por EMC. La influencia de Bechtolsheim en TACC se remonta al interruptor de red Infiniband 'Magnum' que dirigió el diseñopara la supercomputadora Ranger ahora fuera de servicio, la predecesora de Stampede.
Lo nuevo es que DSSD tomó un atajo entre la CPU y los datos. "La conexión desde el cerebro de la computadora va directamente al sistema de almacenamiento. No hay traducción en medio", dijo Gaffney. "En realidad, permite a las personas calculardirectamente con el almacenamiento más rápido que pueda tener, sin cuellos de botella en el medio ".
Acelerando la tubería de análisis de genes
Gaffney recordó que los científicos colgados tenían un código llamado OrthoMCL, que revisa las secuencias de ADN para encontrar ancestros genéticos comunes en especies aparentemente no relacionadas. El problema era que OrthoMCL soltó bases de datos salvajes como un caballo salvaje.
"Genera una base de datos muy grande y luego ejecuta programas computacionales fuera y tiene que interactuar con esta base de datos", dijo la bióloga Rebecca Young, del Departamento de Biología Integrativa y del Centro de Biología Computacional y Bioinformática de UT Austin. Ella agregó: "Eso no es para lo que se crearon Lonestar y Stampede y algunos de los otros recursos de TACC "
Young relató que al principio, usando OrthoMCL con recursos en línea, solo pudo extraer 350 genes comparables en 10 especies ". Cuando ejecuto OrthoMCL en Wrangler, puedo obtener casi 2,000 genes comparables en todo elespecies ", dijo Young." Esta es una mejora enorme de lo que ya está disponible. Lo que estamos buscando hacer con OrthoMCL es permitirnos hacer un número creciente de comparaciones entre especies cuando estamos viendo estas muy divergentes,estas especies muy antiguas separadas por 450 millones de años de evolución "
"Pudimos revisar todos estos casos de trabajo en cualquier lugar entre 15 minutos y 6 horas", dijo Gaffney. "Esto cambia las reglas del juego".
Gaffney agregó que obtener resultados rápidamente les permite a los científicos explorar preguntas nuevas y más profundas trabajando con colecciones más grandes de datos e impulsando descubrimientos previamente inalcanzables.
Ajuste de eficiencia energética en edificios
El informático Joshua New del Laboratorio Nacional de Oak Ridge ORNL espera aprovechar la capacidad de Wrangler para domar grandes datos. New es el investigador principal del proyecto Autotune, que crea una versión de software de un edificio y calibra el modelo conmás de 3.000 entradas de datos diferentes de fuentes como facturas de servicios públicos para generar información útil, como lo que podría ser una modificación óptima con eficiencia energética.
"Wrangler tiene suficiente potencia para que podamos ejecutar algunos estudios muy grandes y obtener resultados significativos en una sola ejecución", dijo New. Actualmente utiliza la supercomputadora Titan de ORNL para ejecutar 500,000 simulaciones y escribir 45 TB de datos en el disco en 68minutos. Dijo que quiere ampliar sus estudios paramétricos para simular los 125.1 millones de edificios en los Estados Unidos
"Creo que Wrangler llena un nicho específico para nosotros en que estamos convirtiendo nuestro análisis en un flujo de trabajo de extremo a extremo, donde definimos qué parámetros queremos variar", dijo New. "Crea la matriz de muestreo. Crea los archivos de entrada. Hace la tarea computacionalmente desafiante de ejecutar todas las simulaciones en paralelo. Crea la salida. Luego ejecutamos nuestras técnicas de inteligencia artificial y estadística para analizar esos datos en el back end. Haciéndolo de principio a fincomo un flujo de trabajo sólido en Wrangler es algo que nos entusiasma mucho "
Cuando Gaffney habla sobre el almacenamiento en Wrangler, está hablando de una gran cantidad de almacenamiento de datos: un sistema de archivos de 10 petabytes basado en Lustre alojado en TACC y replicado en la Universidad de Indiana. "Queremos preservar los datos", dijo Gaffney ".El sistema para Wrangler ha sido creado para hacer de los datos un ciudadano de primera clase entre lo que la gente hace para la investigación, lo que le permite a uno conservar los datos y seleccionarlos, compartirlos y trabajar con ellos. Esos son los inquilinos fundadores de lo que queríamos.que ver con Wrangler "
Arrojando luz sobre la energía oscura
"Los datos son realmente el mayor desafío con nuestro proyecto", dijo el astrónomo de UT Austin Steve Finkelstein. Su proyecto financiado por NSF se llama HETDEX, el Experimento de Energía Oscura del Telescopio Hobby-Eberly. Es la encuesta más grande de galaxias que se haya intentado. Los científicos esperanHETDEX mapeará más de un millón de galaxias en tres dimensiones, en el proceso de descubrir miles de nuevas galaxias. El objetivo principal es estudiar la energía oscura, una fuerza misteriosa que separa las galaxias.
supercomputadora Wrangler
El sistema de supercomputadora de uso intensivo de datos Wrangler durante la implementación.
"Cada noche que observamos, y planeamos observar más o menos todas las noches durante al menos tres años, vamos a generar 200 GB de datos", dijo Finkelstein. Medirá los espectrosde 34,000 puntos de claraboya cada seis minutos.
"En Wrangler está nuestra tubería", dijo Finkelstein. "Va a vivir allí. A medida que entren los datos, tendrá una pequeña rutina que básicamente busca nuevos datos, y cada seis minutos más o menos.lo procesará. Al final de la noche, podrá reunir todos los datos para encontrar nuevas galaxias ".
Orígenes humanos enterrados en datos fósiles
Otro ejemplo de un nuevo usuario de HPC que Wrangler permite es una iniciativa científica financiada por la NSF llamada PaleoCore. Espera aprovechar la rapidez de Wrangler con bases de datos para construir un repositorio para que los científicos exploren datos con conocimiento geoespacial de todos los fósiles relacionados con humanosorígenes. Esto combinaría colecciones digitales más antiguas en formatos como hojas de cálculo Excel y bases de datos SQL con nuevas formas de recopilar datos, como información GPS fósil en tiempo real recopilada de iPhones o iPads.
"Estamos buscando grandes oportunidades en datos abiertos vinculados", dijo el investigador principal de PaleoCore, Denne Reed. Reed es profesor asociado en el Departamento de Antropología de UT Austin.
Los datos abiertos vinculados permiten que las consultas adquieran significado a partir de las relaciones de datos aparentemente dispares. "Wrangler es el tipo de plataforma que permite eso", dijo Reed. "Nos permite almacenar grandes cantidades de datos, tanto en términosde imágenes fotográficas, imágenes satelitales y cosas relacionadas que acompañan a los datos geoespaciales. Luego, también nos permite comenzar a buscar formas de vincular esos datos con otros repositorios de datos en tiempo real ".
Análisis de datos para la ciencia
La memoria compartida de Wrangler admite análisis de datos en los marcos Hadoop y Apache Spark. "Hadoop es una gran palabra de moda en toda la ciencia de datos en este momento", dijo Gaffney. "Tenemos todo eso y podemos configurar el sistema para que seapueden ser esencialmente como los motores de búsqueda de Google en la actualidad en los centros de datos. La gran diferencia es que estamos atendiendo a algunas personas a la vez, a diferencia de Google ".
Los usuarios ingresan y salen datos de Wrangler de una de las maneras más rápidas posibles. Wrangler se conecta a Internet2, una red óptica que proporciona un rendimiento de 100 gigabytes por segundo a la mayoría de las otras instituciones académicas del país.
Además, TACC tiene herramientas y técnicas para transferir sus datos en paralelo. "Es como estar en el supermercado", explicó Gaffney. "Si solo hay un carril abierto, es tan rápido como que una persona lo revise. Pero si entra y tiene 15 carriles abiertos, puede distribuir ese tráfico y hacer que más personas pasen en menos tiempo ".
Una nueva comunidad de usuarios para supercomputadoras
Biólogos, astrónomos, expertos en eficiencia energética y paleontólogos son solo una pequeña porción de la nueva comunidad de usuarios que Wrangler pretende atraer.
Wrangler también está más habilitado para la web de lo que normalmente se encuentra en la informática de alto rendimiento. Un portal web permite a los usuarios administrar el sistema y ofrece la posibilidad de usar interfaces web como VNC, RStudio y Jupyter Notebooks para admitir más usuarios de escritoriointeracciones con el sistema.
"Necesitamos estos sistemas más grandes para la ciencia", dijo Gaffney. "Necesitamos más tipos de sistemas. Y necesitamos más tipos de usuarios. Ahí es donde avanzamos con este tipo de portales. Este será elnueva cara, creo, para muchos de estos sistemas con los que estamos avanzando ahora. Mucho más basado en la web, mucho más gráfico, mucho menos impulsado por la línea de comandos ".
"El NSF comparte con TACC un gran orgullo en la entrega continua de Wrangler del rendimiento de rendimiento técnico líder mundial como un recurso operativo disponible para la comunidad científica abierta en características específicas que responden mejor a la investigación avanzada centrada en datos", dijo Robert Chadduck, el programaoficial que supervisa el premio NSF.
Wrangler está preparado para liderar el camino en la computación del mundo lleno de baches de la investigación científica intensiva en datos. "Hay algunos grandes sistemas e investigadores excelentes que están haciendo un trabajo innovador y muy importante en los datos, para cambiar la forma en que vivimos ypara cambiar el mundo ", dijo Gaffney." Wrangler está impulsando el intercambio de estos resultados, para que todos puedan ver lo que está sucediendo ".
Fuente de la historia :
Materiales proporcionado por Universidad de Texas en Austin, Centro de Computación Avanzada de Texas . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :