Digitalizar libros publicados antes de 1700 ha creado un "problema de punto negro" estético y bastante pragmático en textos traducidos, con la palabra "amor", por ejemplo, apareciendo como "lo • e".
Llevando la comprensión digital de la era actual un paso más allá, los estudiantes de ingeniería de la Universidad Northwestern en la Escuela de Ingeniería y Ciencias Aplicadas McCormick han venido al rescate de las palabras estropeadas y a veces indescifrables que pueblan las versiones traducidas de los primeros textos en inglés.
Trabajando en conjunto con estudiantes universitarios de la Facultad de Artes y Ciencias de Weinberg, los estudiantes de ingeniería diseñaron un programa de computadora que utiliza modelos de lenguaje, similar a los programas de autocorrección y reconocimiento de voz, para ayudar a completar los espacios en blanco de las palabras incompletas.
Los puntos se arrastran en el proceso debido a las dificultades de traducir textos antiguos que a menudo se doran, se manchan y se cortan en los márgenes. Cuando los traductores no podían leer o comprender una parte de un texto, reemplazaban un carácter desconocido con un negropunto.
Desde 1999, cerca de 50,000 textos han sido transcritos por la Asociación de Creación de Texto sin fines de lucro, pero las obras tienen aproximadamente 5 millones de palabras incompletas. Las traducciones de los libros andrajosos también se vieron comprometidas por escaneos de baja calidad.
El modelado del lenguaje encuentra errores ortográficos y "palabras de puntos negros" creados cuando la computadora encuentra un carácter desconocido. Una vez que se encuentra un error, se evalúan los caracteres cercanos y se hacen sugerencias de reemplazo, con una probabilidad asignada a cada opción según el contexto.
La palabra "lo • e" podría ser "amor", pero también podría ser "solitario", "saber" o "perder". Un modelo de lenguaje usa el contexto para elegir la opción correcta. Si el contexto es "ella"estaba enamorado de él ", entonces el programa asume que la palabra que falta es, de hecho," amor ".
El verano pasado, los estudiantes de Weinberg trabajaron en los acertijos lingüísticos al examinar las opciones y seleccionar la correcta. Mientras tanto, los estudiantes de ingeniería han creado un sitio donde los académicos de humanidades pueden buscar palabras en diferentes textos y corregir errores en el acto.los usuarios aceptan o rechazan las correcciones.
"Los aprendices de máquinas también pueden aprender de esos comentarios", dijo el líder del proyecto Doug Downey, profesor asociado de ingeniería eléctrica y ciencias de la computación en la Escuela de Ingeniería McCormick. "Un poco de crowdsourcing como ese podría ser muy útil. Eventualmente,podríamos tener transcripciones de súper alta calidad "
Podría decirse que los lectores modernos podrían revisar los textos y corregir todos los errores, pero un humano podría tardar varios minutos en solucionar un solo error, dijo Martin Mueller, profesor emérito de inglés y clásicos en Northwestern. Para abordar todos los errores, llevaría una persona años de trabajo ininterrumpido, una tarea poco práctica, si no humanamente imposible.
Los resultados iniciales de la colaboración indican que aproximadamente las tres cuartas partes de las obras transcritas de forma incompleta o incorrecta pueden corregirse definitivamente con una combinación de aprendizaje automático y edición asistida por máquina, sin la necesidad de consultar el texto impreso original. Esto podría reducir drásticamenteel costo del tiempo humano de minutos a segundos por palabra.
Fuente de la historia :
Materiales proporcionado por Universidad del Noroeste . Original escrito por Julie Deardorff. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :