El nuevo trabajo de los investigadores del MIT se asoma bajo el capó de un sistema automatizado de detección de noticias falsas, revelando cómo los modelos de aprendizaje automático captan diferencias sutiles pero consistentes en el lenguaje de las historias reales y falsas. La investigación también subraya cómo los detectores de noticias falsas deberíansometerse a pruebas más rigurosas para que sean efectivas para aplicaciones del mundo real.
Popularizado como un concepto en los Estados Unidos durante las elecciones presidenciales de 2016, las noticias falsas son una forma de propaganda creada para engañar a los lectores, a fin de generar puntos de vista en los sitios web o dirigir la opinión pública.
Casi tan pronto como el problema se generalizó, los investigadores comenzaron a desarrollar detectores automáticos de noticias falsas, las llamadas redes neuronales que "aprenden" de decenas de datos para reconocer señales lingüísticas indicativas de artículos falsos. Dados nuevos artículos para evaluar, estas redespuede, con una precisión bastante alta, separar los hechos de la ficción, en entornos controlados.
Sin embargo, un problema es el problema de la "caja negra", lo que significa que no se sabe qué patrones lingüísticos analizan las redes durante el entrenamiento. También están capacitados y probados en los mismos temas, lo que puede limitar su potencial de generalizar a nuevostemas, una necesidad para analizar noticias en Internet.
En un documento presentado en la Conferencia y Taller sobre Sistemas de Procesamiento de Información Neural, los investigadores abordan ambos problemas. Desarrollaron un modelo de aprendizaje profundo que aprende a detectar patrones de lenguaje de noticias falsas y reales. Parte de su trabajo "se rompe"abra "el cuadro negro para encontrar las palabras y frases que el modelo captura para hacer sus predicciones.
Además, probaron su modelo en un tema novedoso que no vio en la capacitación. Este enfoque clasifica artículos individuales basados únicamente en patrones de lenguaje, lo que representa más de cerca una aplicación del mundo real para lectores de noticias. Los detectores de noticias falsas tradicionales clasifican artículosbasado en texto combinado con información de origen, como una página o sitio web de Wikipedia.
"En nuestro caso, queríamos entender cuál era el proceso de decisión del clasificador basado solo en el lenguaje, ya que esto puede proporcionar información sobre cuál es el idioma de las noticias falsas", dice el coautor Xavier Boix, un postdoc enel laboratorio del profesor Tomaso Poggio de Eugene McDermott en el Centro de Cerebros, Mentes y Máquinas CBMM en el Departamento de Ciencias Cerebrales y Cognitivas BCS.
"Un problema clave con el aprendizaje automático y la inteligencia artificial es que obtienes una respuesta y no sabes por qué la obtuviste", dice la estudiante graduada y primera autora Nicole O'Brien '17. "Mostrar estos trabajos internos requiere unprimer paso para comprender la fiabilidad de los detectores de noticias falsas de aprendizaje profundo "
El modelo identifica conjuntos de palabras que tienden a aparecer con mayor frecuencia en noticias reales o falsas, algunas quizás obvias, otras mucho menos. Los hallazgos, dicen los investigadores, apuntan a diferencias sutiles pero consistentes en las noticias falsas, quefavorece las exageraciones y superlativos, y noticias reales, que se inclinan más hacia elecciones de palabras conservadoras.
"Las noticias falsas son una amenaza para la democracia", dice Boix. "En nuestro laboratorio, nuestro objetivo no es solo impulsar la ciencia, sino también usar tecnologías para ayudar a la sociedad ... Sería poderoso tener herramientaspara usuarios o empresas que podrían evaluar si las noticias son falsas o no "
Los otros coautores del artículo son Sophia Latessa, estudiante de pregrado en CBMM; y Georgios Evangelopoulos, investigador en CBMM, el Instituto McGovern de Investigación del Cerebro y el Laboratorio de Aprendizaje Computacional y Estadístico.
sesgo limitante
El modelo de los investigadores es una red neuronal convolucional que se entrena en un conjunto de datos de noticias falsas y noticias reales. Para la capacitación y las pruebas, los investigadores utilizaron un conjunto de datos de investigación de noticias falsas popular, llamado Kaggle, que contiene alrededor de 12,000 artículos de noticias falsas de244 sitios web diferentes. También compilaron un conjunto de datos de muestras de noticias reales, utilizando más de 2,000 del New York Times y más de 9,000 de The Guardian.
En el entrenamiento, el modelo captura el lenguaje de un artículo como "incrustaciones de palabras", donde las palabras se representan como vectores, básicamente, conjuntos de números, con palabras de significados semánticos similares agrupados más cerca. Al hacerlo, capturatrillizos de palabras como patrones que proporcionan algún contexto, como, por ejemplo, un comentario negativo sobre un partido político. Dado un nuevo artículo, el modelo escanea el texto en busca de patrones similares y los envía a través de una serie de capas. Una capa de salida finaldetermina la probabilidad de cada patrón: real o falso
Los investigadores primero entrenaron y probaron el modelo de la manera tradicional, usando los mismos temas. Pero pensaron que esto podría crear un sesgo inherente en el modelo, ya que ciertos temas son más frecuentemente el tema de noticias falsas o reales. Por ejemplo,las noticias falsas generalmente tienen más probabilidades de incluir las palabras "Trump" y "Clinton".
"Pero eso no es lo que queríamos", dice O'Brien. "Eso solo muestra temas que son muy importantes en las noticias falsas y reales ... Queríamos encontrar los patrones reales en el lenguaje que sean indicativos de esos".
Luego, los investigadores entrenaron al modelo en todos los temas sin mencionar la palabra "Trump", y probaron el modelo solo en muestras que se habían apartado de los datos de entrenamiento y que contenían la palabra "Trump".el enfoque tradicional alcanzó una precisión del 93 por ciento, el segundo enfoque alcanzó una precisión del 87 por ciento. Esta brecha de precisión, dicen los investigadores, resalta la importancia de utilizar los temas presentados durante el proceso de capacitación, para garantizar que el modelo pueda generalizar lo que ha aprendido a nuevotemas
Se necesita más investigación
Para abrir el recuadro negro, los investigadores volvieron sobre sus pasos. Cada vez que el modelo hace una predicción sobre un triplete de palabras, se activa cierta parte del modelo, dependiendo de si el triplete es más probable de una noticia real o falsaLos investigadores diseñaron un método para volver sobre cada predicción a su parte designada y luego encontrar las palabras exactas que la activaron.
Se necesita más investigación para determinar qué tan útil es esta información para los lectores, dice Boix. En el futuro, el modelo podría combinarse con, por ejemplo, verificadores de hechos automatizados y otras herramientas para darles a los lectores una ventaja en la lucha contra la información errónea. Despuésun poco de refinamiento, el modelo también podría ser la base de una aplicación o extensión del navegador que alerta a los lectores sobre el posible lenguaje de noticias falsas.
"Si solo le doy un artículo y destaco esos patrones en el artículo mientras está leyendo, podría evaluar si el artículo es más o menos falso", dice. "Sería como una advertencia paradiga: 'Oye, tal vez hay algo extraño aquí' "
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :