Un sistema basado en algoritmos que identifica claves lingüísticas reveladoras en noticias falsas podría proporcionar a los agregadores de noticias y sitios de redes sociales como Google News una nueva arma en la lucha contra la desinformación.
Los investigadores de la Universidad de Michigan que desarrollaron el sistema han demostrado que es comparable y a veces mejor que los humanos para identificar correctamente las noticias falsas.
En un estudio reciente, encontró falsificaciones con éxito hasta el 76 por ciento de las veces, en comparación con una tasa de éxito humano del 70 por ciento. Además, su enfoque de análisis lingüístico podría usarse para identificar noticias falsas que son demasiado nuevas para serdesacreditado al hacer referencias cruzadas de sus hechos con otras historias.
Rada Mihalcea, profesora de ciencias de la computación e ingeniería de la UM detrás del proyecto, dijo que una solución automatizada podría ser una herramienta importante para los sitios que luchan por lidiar con una avalancha de noticias falsas, a menudo creadas para generar clics o manipular la opinión pública.
Capturar historias falsas antes de que tengan consecuencias reales puede ser difícil, ya que los sitios de agregadores y redes sociales hoy en día dependen en gran medida de editores humanos que a menudo no pueden mantenerse al día con la afluencia de noticias. Además, las técnicas actuales de desacreditación a menudo dependen de la verificación externade hechos, lo que puede ser difícil con las historias más nuevas. A menudo, cuando una historia se demuestra como falsa, el daño ya está hecho.
El análisis lingüístico adopta un enfoque diferente, analizando atributos cuantificables como la estructura gramatical, la elección de palabras, la puntuación y la complejidad. Funciona más rápido que los humanos y se puede usar con una variedad de diferentes tipos de noticias.
"Puede imaginar cualquier cantidad de aplicaciones para esto en el frente o en la parte posterior de un sitio de noticias o redes sociales", dijo Mihalcea. "Podría proporcionar a los usuarios una estimación de la confiabilidad de las historias individuales o de un sitio de noticias completo.O podría ser una primera línea de defensa en la parte trasera de un sitio de noticias, marcando historias sospechosas para una revisión adicional. Una tasa de éxito del 76 por ciento deja un margen de error bastante grande, pero aún puede proporcionar información valiosa cuando se usa junto con humanos"
Los algoritmos lingüísticos que analizan el habla escrita son bastante comunes hoy en día, dijo Mihalcea. El desafío de construir un detector de noticias falsas no radica en construir el algoritmo en sí, sino en encontrar los datos correctos para entrenar ese algoritmo.
Las noticias falsas aparecen y desaparecen rápidamente, lo que hace que sea difícil de recopilar. También viene en muchos géneros, lo que complica aún más el proceso de recopilación. Las noticias satíricas, por ejemplo, son fáciles de recopilar, pero su uso de la ironía y el absurdo lo hacen menosútil para entrenar un algoritmo para detectar noticias falsas que están destinadas a engañar.
En última instancia, el equipo de Mihalcea creó sus propios datos, haciendo un crowdsourcing de un equipo en línea que realizó ingeniería inversa de historias genuinas verificadas en falsificaciones. Así es como se crean la mayoría de las noticias falsas reales, dijo Mihalcea, por personas que rápidamente las escriben a cambio de un dinerorecompensa.
A los participantes del estudio, reclutados con la ayuda de Amazon Mechanical Turk, se les pagó para convertir noticias cortas y reales en noticias similares pero falsas, imitando el estilo periodístico de los artículos. Al final del proceso, el equipo de investigación tuvo unconjunto de datos de 500 noticias reales y falsas.
Luego alimentaron estos pares de historias etiquetadas a un algoritmo que realizó un análisis lingüístico, enseñándose a sí mismo a distinguir entre noticias reales y falsas. Finalmente, el equipo convirtió los algoritmos en un conjunto de datos de noticias reales y falsas extraídas directamente de la web, haciendo una redla tasa de éxito del 76 por ciento.
Los detalles del nuevo sistema y el conjunto de datos que el equipo usó para construirlo están disponibles gratuitamente, y Mihalcea dice que podrían ser utilizados por sitios de noticias u otras entidades para construir sus propios sistemas de detección de noticias falsas. Ella dice que los sistemas futuros podríanse perfeccionará mediante la incorporación de metadatos como los enlaces y comentarios asociados con una determinada noticia en línea.
Un documento que detalla el sistema se presentará el 24 de agosto en la 27ª Conferencia Internacional de Lingüística Computacional en Santa Fe, Nuevo México. Mihalcea trabajó con la científica de computación de la UM y científica investigadora asistente Verónica Pérez-Rosas, investigadora de psicología Bennett Kleinberg en la Universidad deEstudiante de pregrado de Amsterdam y UM Alexandra Lefevre.
La investigación fue apoyada por el Instituto de Ciencia de Datos de Michigan de la UM y por la National Science Foundation número de subvención 1344257.
Fuente de la historia :
Materiales proporcionado por Universidad de Michigan . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :