Los investigadores del MIT han desarrollado un nuevo modelo de traducción de idiomas "sin supervisión", lo que significa que se ejecuta sin la necesidad de anotaciones y orientación humana, que podría conducir a traducciones por computadora más rápidas y eficientes de muchos más idiomas.
Los sistemas de traducción de Google, Facebook y Amazon requieren modelos de capacitación para buscar patrones en millones de documentos, como documentos legales y políticos, o artículos de noticias, que han sido traducidos a varios idiomas por humanos.en un idioma, pueden encontrar las palabras y frases que coinciden en el otro idioma.
Pero estos datos de traducción requieren mucho tiempo y son difíciles de recopilar, y simplemente pueden no existir para muchos de los 7,000 idiomas que se hablan en todo el mundo. Recientemente, los investigadores han estado desarrollando modelos "monolingües" que hacen traducciones entre textos en dos idiomas, pero sininformación traslacional entre los dos.
En un documento presentado esta semana en la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT describen un modelo que funciona más rápido y más eficientemente que estos modelos monolingües.
El modelo aprovecha una métrica en estadística, llamada distancia de Gromov-Wasserstein, que esencialmente mide distancias entre puntos en un espacio computacional y las compara con puntos distanciados de manera similar en otro espacio. Aplican esa técnica a "incrustaciones de palabras" de dos idiomas,que son palabras representadas como vectores, básicamente, conjuntos de números, con palabras de significados similares agrupadas más cerca. Al hacerlo, el modelo alinea rápidamente las palabras o vectores, en ambas incrustaciones que están más estrechamente correlacionadas por distancias relativas,lo que significa que es probable que sean traducciones directas.
En experimentos, el modelo de los investigadores se desempeñó con la misma precisión que los modelos monolingües de última generación, y a veces con mayor precisión, pero mucho más rápido y utilizando solo una fracción de la potencia de cálculo.
"El modelo ve las palabras en los dos idiomas como conjuntos de vectores, y asigna [esos vectores] de un conjunto a otro preservando esencialmente las relaciones", dice el coautor del artículo, Tommi Jaakkola, un investigador de CSAIL y ThomasProfesor Siebel en el Departamento de Ingeniería Eléctrica e Informática y el Instituto de Datos, Sistemas y Sociedad. "El enfoque podría ayudar a traducir idiomas o dialectos de bajos recursos, siempre que tengan suficiente contenido monolingüe".
El modelo representa un paso hacia uno de los principales objetivos de la traducción automática, que es la alineación de palabras totalmente sin supervisión, dice el primer autor David Alvarez-Melis, estudiante de doctorado de CSAIL: "Si no tiene datos que coincidan con dos idiomas"... puede mapear dos idiomas y, utilizando estas medidas de distancia, alinearlos "
Las relaciones son más importantes
Alinear incrustaciones de palabras para la traducción automática no supervisada no es un concepto nuevo. El trabajo reciente entrena redes neuronales para que coincidan con vectores directamente en incrustaciones de palabras, o matrices, de dos idiomas juntos. Pero estos métodos requieren muchos ajustes durante el entrenamiento para obteneralineaciones exactamente correctas, lo cual es ineficiente y consume mucho tiempo.
Por otro lado, medir y combinar vectores basados en distancias relacionales es un método mucho más eficiente que no requiere mucho ajuste. No importa dónde caen los vectores de palabras en una matriz dada, la relación entre las palabras, lo que significasus distancias seguirán siendo las mismas. Por ejemplo, el vector para "padre" puede caer en áreas completamente diferentes en dos matrices. Pero los vectores para "padre" y "madre" probablemente siempre estarán muy juntos.
"Esas distancias son invariables", dice Alvarez-Melis. "Al observar la distancia y no las posiciones absolutas de los vectores, puede omitir la alineación e ir directamente a la correspondencia de las correspondencias entre los vectores".
Ahí es donde Gromov-Wasserstein es útil. La técnica se ha utilizado en informática para, por ejemplo, ayudar a alinear los píxeles de la imagen en el diseño gráfico. Pero la métrica parecía "hecha a medida" para la alineación de palabras, Alvarez-Melis dice: "Sihay puntos, o palabras, que están muy juntas en un espacio, Gromov-Wasserstein intentará automáticamente encontrar el grupo de puntos correspondiente en el otro espacio "
Para el entrenamiento y las pruebas, los investigadores utilizaron un conjunto de datos de incrustaciones de palabras disponibles al público, llamado FASTTEXT, con 110 pares de idiomas. En estas incrustaciones y otras, las palabras que aparecen cada vez con más frecuencia en contextos similares tienen vectores muy parecidos ". Madre"y" padre "generalmente estarán juntos pero ambos más lejos de, digamos," casa ".
Proporcionando una "traducción suave"
El modelo observa vectores que están estrechamente relacionados pero son diferentes de los demás, y asigna una probabilidad de que correspondan vectores distanciados de manera similar en la otra incrustación. Es algo así como una "traducción suave", dice Alvarez-Melis, "porque en lugar desimplemente devolviendo una traducción de una sola palabra, te dice 'este vector, o palabra, tiene una fuerte correspondencia con esta palabra, o palabras, en el otro idioma' "
Un ejemplo sería en los meses del año, que aparecen muy juntos en muchos idiomas. El modelo verá un grupo de 12 vectores agrupados en una incrustación y un grupo notablemente similar en la otra incrustación ". El modelo no"Sé que son meses", dice Alvarez-Melis. "Simplemente sabe que hay un grupo de 12 puntos que se alinea con un grupo de 12 puntos en el otro idioma, pero son diferentes al resto de las palabras, así queprobablemente van bien juntos. Al encontrar estas correspondencias para cada palabra, alinea todo el espacio simultáneamente "
Los investigadores esperan que el trabajo sirva como un "control de viabilidad", dice Jaakkola, para aplicar el método Gromov-Wasserstein a los sistemas de traducción automática para que se ejecuten más rápido, de manera más eficiente y tengan acceso a muchos más idiomas.
Además, una posible ventaja del modelo es que produce automáticamente un valor que puede interpretarse como cuantificar, en una escala numérica, la similitud entre los idiomas. Esto puede ser útil para los estudios de lingüística, dicen los investigadores. El modelo calcula cómodistantes, todos los vectores son el uno del otro en dos incrustaciones, lo que depende de la estructura de la oración y otros factores. Si los vectores están realmente cerca, se puntuarán más cerca de 0, y cuanto más separados estén, mayor será la puntuación.como el francés y el italiano, por ejemplo, obtienen un puntaje cercano a 1, mientras que el chino clásico obtiene un puntaje entre 6 y 9 con otros idiomas principales.
"Esto le da un número agradable y simple de cuán similares son los idiomas ... y se puede usar para obtener información sobre las relaciones entre los idiomas", dice Alvarez-Melis.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :