En busca de inspiración para mejorar los traductores de texto basados en computadora, los investigadores del Dartmouth College recurrieron a la Biblia en busca de orientación. El resultado es un algoritmo entrenado en varias versiones de textos sagrados que pueden convertir obras escritas en diferentes estilos para diferentes audiencias.
Las herramientas de Internet para traducir texto entre idiomas como el inglés y el español están ampliamente disponibles. Crear traductores de estilo, herramientas que mantienen el texto en el mismo idioma pero transforman el estilo, ha sido mucho más lento en surgir. En parte, los esfuerzos para desarrollar ellos traductores se han visto obstaculizados por la dificultad de adquirir la enorme cantidad de datos necesarios. Aquí es donde el equipo de investigación recurrió a la Biblia.
Además de ser una fuente de orientación espiritual para muchas personas en todo el mundo, el equipo dirigido por Dartmouth vio en la Biblia "un gran conjunto de datos paralelos previamente sin explotar". Además de proporcionar una inspiración infinita, cada versión de la Bibliacontiene más de 31,000 versos que los investigadores usaron para producir más de 1.5 millones de pares únicos de versos de origen y destino para conjuntos de entrenamiento de aprendizaje automático.
Según la investigación publicada en la revista Royal Society Open Science , este no es el primer conjunto de datos paralelo creado para la traducción de estilos. Pero es el primero que usa la Biblia. Otros textos que se han usado en el pasado, que van desde entradas de Shakespeare hasta Wikipedia, proporcionan conjuntos de datos que son mucho más pequeñoso no tan adecuado para la tarea de aprender traducción de estilos.
"La Biblia en inglés viene en muchos estilos escritos diferentes, por lo que es el texto fuente perfecto para trabajar en la traducción de estilos", dijo Keith Carlson, estudiante de doctorado en Dartmouth y autor principal del trabajo de investigación sobre el estudio.
Como un beneficio adicional para el equipo de investigación, la Biblia ya está completamente indexada por el uso constante de los números de libros, capítulos y versículos. La organización predecible del texto entre versiones elimina el riesgo de errores de alineación que podrían ser causados por métodos automáticosde hacer coincidir diferentes versiones del mismo texto.
"La Biblia es un conjunto de datos 'divinos' con el que trabajar para estudiar esta tarea", dijo Daniel Rockmore, profesor de ciencias de la computación en Dartmouth y autor colaborador del estudio. "Los humanos han estado realizando la tarea de organizar textos bíblicosdurante siglos, por lo que no tuvimos que poner nuestra fe en algoritmos de alineación menos confiables "
Para definir el "estilo" para el estudio, los investigadores hacen referencia a la longitud de las oraciones, el uso de voces pasivas o activas y la elección de palabras que podrían dar lugar a textos con distintos grados de simplicidad o formalidad. Según el estudio: "Diferentes palabras puedentransmitir diferentes niveles de cortesía o familiaridad con el lector, mostrar información cultural diferente sobre el escritor, ser más fácil de entender para ciertas poblaciones ".
El equipo usó 34 versiones bíblicas estilísticamente distintas que varían en complejidad lingüística desde la "Versión King James" hasta la "Biblia en inglés básico". Los textos se introdujeron en dos algoritmos: un sistema estadístico de traducción automática llamado "Moisés" y unmarco de red neuronal comúnmente utilizado en la traducción automática, "Seq2Seq."
Si bien se usaron diferentes versiones de la Biblia para entrenar el código de la computadora, en última instancia se podrían desarrollar sistemas que traduzcan el estilo de cualquier texto escrito para diferentes audiencias. Como ejemplo, un traductor de estilo podría tomar una selección en inglés de "Moby Dick"y traducirlo a diferentes versiones adecuadas para lectores jóvenes, angloparlantes no nativos o cualquiera de una variedad de audiencias.
"La simplificación del texto es solo un tipo específico de transferencia de estilo. En términos más generales, nuestros sistemas apuntan a producir texto con el mismo significado que el original, pero lo hacen con diferentes palabras", dijo Carlson.
Dartmouth College tiene una larga historia de innovación en ciencias de la computación. El término "inteligencia artificial" fue acuñado en Dartmouth durante una conferencia de 1956 que creó la disciplina de investigación de IA. Otros avances incluyen el diseño de BASIC, el primer propósito general ylenguaje de programación accesible y el sistema de tiempo compartido de Dartmouth que contribuyó al sistema operativo moderno.
Fuente de la historia :
Materiales proporcionados por Dartmouth College . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :