La investigación de inteligencia artificial ha sido transformada por sistemas de aprendizaje automático llamados redes neuronales, que aprenden a realizar tareas mediante el análisis de grandes volúmenes de datos de entrenamiento.
Durante el entrenamiento, una red neuronal reajusta continuamente miles de parámetros internos hasta que pueda realizar de manera confiable alguna tarea, como identificar objetos en imágenes digitales o traducir texto de un idioma a otro. Pero por sí mismos, los valores finales de esos parámetros dicenmuy poco sobre cómo la red neuronal hace lo que hace.
Comprender lo que están haciendo las redes neuronales puede ayudar a los investigadores a mejorar su rendimiento y transferir sus conocimientos a otras aplicaciones, y los científicos informáticos han desarrollado recientemente algunas técnicas inteligentes para adivinar los cálculos de redes neuronales particulares.
Pero, en la Conferencia de 2017 sobre métodos empíricos sobre el procesamiento del lenguaje natural que comienza esta semana, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT presentan una nueva técnica de propósito general para dar sentido a las redes neuronales que están capacitadas para realizar el lenguaje natural-tareas de procesamiento, en las que las computadoras intentan interpretar textos de forma libre escritos en lenguaje ordinario o "natural" en oposición a un lenguaje estructurado, como un lenguaje de consulta de base de datos.
La técnica se aplica a cualquier sistema que toma texto como entrada y produce cadenas de símbolos como salida, como un traductor automático. Y debido a que su análisis resulta de diferentes entradas y examina los efectos en las salidas, puede funcionar con lenguaje natural en línea-procesamiento de servicios, sin acceso al software subyacente.
De hecho, la técnica funciona con cualquier sistema de procesamiento de texto de recuadro negro, independientemente de su maquinaria interna. En sus experimentos, los investigadores muestran que la técnica también puede identificar idiosincrasias en el trabajo de traductores humanos.
Tema y variaciones
La técnica es análoga a una que se ha utilizado para analizar redes neuronales capacitadas para realizar tareas de visión por computadora, como el reconocimiento de objetos. Software que perturba sistemáticamente, o varía, diferentes partes de una imagen y vuelve a enviar la imagen a un objetoel reconocedor puede identificar qué características de imagen conducen a qué clasificaciones, pero adaptar ese enfoque al procesamiento del lenguaje natural no es sencillo.
"¿Qué significa incluso perturbar semánticamente una oración?", Pregunta Tommi Jaakkola, el Profesor Thomas Siebel de Ingeniería Eléctrica y Ciencias de la Computación en el MIT y uno de los dos autores del nuevo artículo. "No puedo hacer una aleatorización simple". Y lo que está prediciendo ahora es un objeto más complejo, como una oración, entonces, ¿qué significa dar una explicación? "
De manera algo irónica, para generar oraciones de prueba para alimentar a las redes neuronales de caja negra, Jaakkola y David Alvarez-Melis, un estudiante graduado del MIT en ingeniería eléctrica y ciencias de la computación y primer autor del nuevo artículo, usa una red neuronal de caja negra.
Comienzan entrenando una red para comprimir y descomprimir oraciones naturales, para crear una representación digital intermedia y compacta de la oración y luego tratar de volver a expandirla a su forma original. Durante el entrenamiento, se evalúan el codificador y el decodificadorsimultáneamente, según cuán fielmente la salida del decodificador coincida con la entrada del codificador.
Las redes neuronales son intrínsecamente probabilísticas: un sistema de reconocimiento de objetos alimentado con una imagen de un perro pequeño, por ejemplo, podría concluir que la imagen tiene una probabilidad del 70 por ciento de representar a un perro y una probabilidad del 25 por ciento de representar a un gato. Del mismo modo,La red de compresión de oraciones de Jaakkola y Alvarez-Melis proporciona alternativas para cada palabra en una oración decodificada, junto con las probabilidades de que cada alternativa sea correcta.
Debido a que la red naturalmente usa la coincidencia de palabras para aumentar su precisión de decodificación, sus probabilidades de salida definen un grupo de oraciones semánticamente relacionadas. Por ejemplo, si la oración codificada es "Ella jadeó por sorpresa", el sistema podría asignar elalternativas "chilló de sorpresa" o "jadeó de horror" como probabilidades bastante altas, pero asignaría probabilidades mucho más bajas a "nadó de sorpresa" o "jadeó en café".
Para cualquier oración, entonces, el sistema puede generar una lista de oraciones estrechamente relacionadas, que Jaakkola y Alvarez-Melis alimentan a un procesador de lenguaje natural de caja negra. El resultado es una larga lista de pares de entrada-salida, que elLos algoritmos de los investigadores pueden analizar para determinar qué cambios a qué entradas causan qué cambios a qué salidas.
casos de prueba
Los investigadores aplicaron su técnica a tres tipos diferentes de sistemas de procesamiento de lenguaje natural. Uno era un sistema que infería la pronunciación de las palabras; otro era un conjunto de traductores, dos automatizados y uno humano; y el tercero era una computadora simplesistema de diálogo, que intenta proporcionar respuestas plausibles a comentarios o preguntas arbitrarias
Como era de esperar, el análisis de los sistemas de traducción demostró fuertes dependencias entre palabras individuales en las secuencias de entrada y salida. Sin embargo, uno de los resultados más interesantes de ese análisis fue la identificación de sesgos de género en los textos en los quese capacitaron sistemas de traducción automática.
Por ejemplo, la palabra en inglés no generada "bailarín" tiene dos traducciones en francés, "danseur" y "danseuse". El sistema tradujo la oración "El bailarín es encantador" usando el femenino: "la danseuse est charmante". PeroEl análisis de los investigadores mostró que la elección de la palabra "danseuse" estaba tan fuertemente influenciada por la palabra "encantador" como por la palabra "bailarín". Un adjetivo diferente podría haber dado como resultado una traducción diferente de "bailarín".
El sistema de diálogo, que fue entrenado en pares de líneas de películas de Hollywood, fue intencionalmente insuficiente. Aunque el conjunto de entrenamiento era grande, la red en sí era demasiado pequeña para aprovecharla.
"El otro experimento que hacemos es en sistemas defectuosos", explica Alvarez-Melis. "Si tiene un modelo de caja negra que no está haciendo un buen trabajo, ¿puede usar primero este tipo de enfoque para identificar los problemas? ALa aplicación motivadora de este tipo de interpretabilidad es arreglar sistemas, mejorar sistemas, entendiendo qué se están equivocando y por qué ".
En este caso, los análisis de los investigadores mostraron que el sistema de diálogo con frecuencia introducía solo unas pocas palabras en una frase de entrada, que estaba utilizando para seleccionar una respuesta de stock, respondiendo "No sé" a ningunaoración que comenzó con una palabra de consulta como "quién" o "qué", por ejemplo.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :