Los humanos y las máquinas trabajaron juntos para ayudar a entrenar un modelo de inteligencia artificial, IA que superó a otros detectores de clickbait, según los investigadores de Penn State y la Universidad Estatal de Arizona. Además, la nueva solución basada en IA también fue capaz de determinarLa diferencia entre los titulares de clickbait que fueron generados por máquinas, o bots, y los escritos por personas, dijeron.
En un estudio, los investigadores pidieron a las personas que escribieran su propio clickbait, un titular de noticias interesante pero engañoso diseñado para atraer a los lectores a hacer clic en enlaces a otras historias en línea. Los investigadores también programaron máquinas para generar clickbaits artificiales. Luego,los titulares creados por personas y máquinas se usaron como datos para entrenar un algoritmo de detección de clickbait.
La capacidad del algoritmo resultante para predecir los titulares de clickbait fue aproximadamente un 14,5 por ciento mejor que otros sistemas, según los investigadores, que publicaron sus hallazgos hoy 28 de agosto en la Conferencia Internacional IEEE / ACM 2019 sobre avances en el análisis de redes sociales ASONAM en Vancouver, Canadá
Más allá de su uso en la detección de clickbait, el enfoque del equipo puede ayudar a mejorar el rendimiento del aprendizaje automático en general, dijo Dongwon Lee, el investigador principal del proyecto y profesor asociado en la Facultad de Ciencias de la Información y Tecnología. Lee también está afiliado aPenn State's Institute for CyberScience ICS, que proporciona a los investigadores de Penn State acceso a recursos de supercomputación.
"Este resultado es bastante interesante ya que demostramos con éxito que los datos de entrenamiento de clickbait generados por máquina pueden retroalimentarse en la tubería de entrenamiento para entrenar a una amplia variedad de modelos de aprendizaje automático para mejorar el rendimiento", dijo Lee. "Este es el pasopara abordar el cuello de botella fundamental del aprendizaje automático supervisado que requiere una gran cantidad de datos de capacitación de alta calidad ".
Según Thai Le, un estudiante de doctorado en la Facultad de Ciencias de la Información y Tecnología, Penn State, uno de los desafíos que enfrenta el desarrollo de la detección de clickbait es la falta de datos etiquetados. Al igual que las personas necesitan maestros y guías de estudio para ayudarlosaprender, los modelos de IA necesitan datos etiquetados para ayudarlos a aprender a hacer las conexiones y asociaciones correctas.
"Una de las cosas que nos dimos cuenta cuando comenzamos este proyecto es que no tenemos muchos puntos de datos positivos", dijo Le. "Para identificar el clickbait, necesitamos que los humanos etiqueten esos datos de entrenamiento. Hay unnecesitamos aumentar la cantidad de puntos de datos positivos para que, más adelante, podamos entrenar mejores modelos ".
Si bien encontrar clickbait en Internet puede ser fácil, las muchas variaciones de clickbait agregan otra capa de dificultad, de acuerdo con S. Shyam Sundar, James P. Jimirro Profesor de Efectos de Medios y codirector del Laboratorio de Investigación de Efectos de Medios en elDonald P. Bellisario College of Communications, y un afiliado de ICS.
"Hay clickbaits que son listas o listas; hay clickbaits que se expresan como preguntas; hay otros que comienzan con quién-qué-dónde-cuándo; y todo tipo de otras variaciones de clickbait que hemos identificado en nuestroinvestigar a lo largo de los años ", dijo Sundar." Por lo tanto, encontrar suficientes muestras de todos estos tipos de clickbait es un desafío. Aunque todos nos quejamos sobre la cantidad de clickbaits, cuando se llega a obtenerlos y etiquetarlos, no hay't muchos de esos conjuntos de datos "
Según los investigadores, el estudio reveló diferencias en la forma en que las personas y las máquinas abordaban la creación de titulares. En comparación con el clickbait generado por la máquina, los titulares generados por las personas tendían a tener más determinantes, palabras como "cuál" y "que"- en sus titulares.
La capacitación también pareció generar diferencias en la creación de clickbait. Por ejemplo, los escritores capacitados, como los periodistas, tendían a usar palabras más largas y más pronombres que otros participantes. Los periodistas también usaban números para comenzar sus titulares.
Los investigadores planean usar estos hallazgos para guiar sus investigaciones sobre un sistema de detección de noticias falsas más robusto, entre otras aplicaciones, según Sundar.
"Para nosotros, clickbait es solo uno de los muchos elementos que componen noticias falsas, pero esta investigación es un paso preparatorio útil para asegurarnos de que tengamos un buen sistema de detección de clickbait", dijo Sundar.
Para encontrar escritores de clickbait humanos para el estudio, los investigadores reclutaron estudiantes y trabajadores de periodismo de Amazon Turk, un sitio de crowdsource en línea. Reclutaron a 125 estudiantes y 85 trabajadores del sitio. Los participantes primero leyeron una definición de clickbait y luego se les preguntóleer un breve artículo de unas 500 palabras. A los participantes se les pidió que escribieran un titular de clickbait para cada artículo.
Los titulares de clickbait generados por máquina se desarrollaron mediante el uso de un modelo de aprendizaje automático llamado Autoencoder Variacional, o VAE, modelo generativo, que se basa en las probabilidades de encontrar patrones en los datos.
Los investigadores probaron su algoritmo contra sistemas de alto rendimiento de Clickbait Challenge 2017, una competencia de detección de clickbait en línea.
También contribuyeron al estudio Maria Molina, candidata doctoral en comunicaciones de masas, Penn State; y Huan Liu, profesora de ciencias de la computación e ingeniería, y Kai Shu, candidata doctoral en ciencias de la computación e ingeniería, ambas de la Universidad Estatal de Arizona.
La National Science Foundation, las universidades asociadas de Oak Ridge y la Oficina de Investigación Naval apoyaron este trabajo.
Fuente de la historia :
Materiales proporcionado por Estado Penn . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :