En la parte superior de su cabeza, ¿cuántos idiomas puede nombrar? ¿Diez? ¿Veinte? ¿Más?
Se estima que hay más de 7,000 idiomas en todo el mundo. Para aquellos involucrados en los esfuerzos de socorro en casos de desastre, la amplitud y variedad de ese número puede ser abrumadora, especialmente cuando se trata de áreas con pocos recursos.
William Schuler, Ph.D., profesor de lingüística en la Universidad Estatal de Ohio, es parte de un proyecto llamado Lenguajes de bajos recursos para incidentes emergentes LORELEI, una iniciativa a través de la Agencia de Proyectos de Investigación Avanzada de Defensa DARPA. La LORELEIEl objetivo del programa es desarrollar tecnología para idiomas de los que los traductores y lingüistas no saben nada.
Como parte de LORELEI, Schuler y su equipo están utilizando el Owens Cluster del Centro de Supercomputación de Ohio para desarrollar un algoritmo de adquisición de gramática para descubrir las reglas de los idiomas menos conocidos, aprendiendo las gramáticas sin supervisión para que los equipos de socorro puedan reaccionar rápidamente ".Necesitamos obtener recursos para dirigir la ayuda ante desastres y parte de eso es traducir el texto de las noticias, conocer los nombres de las ciudades, lo que está sucediendo en esas áreas ", dijo Schuler." Se trata de averiguar qué ha sucedido rápidamente y eso puede implicar el procesamiento automático del lenguaje del incidente."El equipo de Schuler está trabajando para construir un modelo de secuencia Bayseiano basado en análisis estadístico para descubrir la gramática de un idioma dado. Se hipotetiza que este modelo de análisis puede ser entrenado para aprender un idioma y hacerlo sintácticamente útil.
"Los requisitos computacionales para aprender la gramática de la estadística son tremendos, por eso necesitamos una supercomputadora", dijo Schuler. "Y parece estar dando resultados positivos, lo cual es emocionante".
En un solo servidor poderoso, el equipo de Schuler puede analizar de 10 a 15 categorías de gramática, según Lifeng Jin, un estudiante de doctorado que supervisa los aspectos computacionales del proyecto. Pero el uso de las GPU en el sistema Owens de OSC le permite a Jin aumentar elnúmero de categorías en gran medida.
Las GPU unidades de procesamiento de gráficos son más potentes y rentables que las CPU unidades de procesamiento central. Las CPU son el cerebro de una computadora y están compuestas por solo unos pocos núcleos con mucha memoria caché. Las GPU son un complementounidad de procesamiento a CPU compuestas por cientos de núcleos que pueden manejar miles de subprocesos simultáneamente. Las GPU tienen la capacidad de ejecutar rápidamente cálculos importantes en análisis y simulación de ingeniería.
"Podemos aumentar la complejidad del modelo exponencialmente, por lo que podemos usar de 45 a 50 categorías y obtener resultados en un período de tiempo aún más corto", dijo Jin. "Es un escenario más realista de imitar lo que están haciendo los humanos. Los modelosson realmente grandes, por lo que la memoria es crucial.
"El modelo estadístico también es muy complicado. Para entrenarlo, tenemos que hacer muchos cálculos. Digamos que tenemos 20,000 oraciones de un idioma dado, lo usamos para entrenar la gramática. Ahí es donde entra OSC.En la primera etapa, intentamos entrenar la gramática usando CPU, pero son demasiado lentos. Así que refactorizamos nuestro código para usar GPU para muestreo, y aceleró mucho nuestro proceso ".
La velocidad es fundamental en el proyecto porque el objetivo de LORELEI es una respuesta rápida al socorro en casos de desastre, lo que significa que la computación de alto rendimiento es fundamental. En agosto, DARPA organizó una prueba para simular dos desastres reales en África. El grupo de Schuler usó 60 GPU en OwensAgrupe durante siete días para cuatro gramáticas de dos idiomas, lo que ilustra la importancia de los recursos de OSC para el proyecto.
Jin dijo que a medida que comiencen a usar configuraciones más realistas para las gramáticas, el tamaño de las gramáticas y los cálculos necesarios para explorarlas serán aún mayores, lo que le dará a OSC un papel futuro aún mayor a medida que la investigación evolucione.
"Para una rápida adquisición de la gramática, cuando los minutos cuentan, necesita mucha potencia rápidamente", dijo Schuler.
"Estamos respondiendo estas preguntas fundamentales sobre lo que significa ser humano y tener lenguaje y ser el animal que habla entre sí.
La capacidad de hacer este tipo de preguntas y obtener respuestas es una innovación relativamente reciente que requiere la infraestructura informática de alto rendimiento que nos brinda OSC. Es realmente un cambio de juego ".
Fuente de la historia :
Materiales proporcionado por Centro de supercomputación de Ohio . Nota: el contenido se puede editar por estilo y longitud.
cite esta página :