Los humanos muestran los nuevos detectores que ocultan los discursos de odio en línea fácilmente, muestra un nuevo estudio.
El texto odioso y los comentarios son un problema cada vez mayor en los entornos en línea, pero abordar el problema desenfrenado se basa en la capacidad de identificar contenido tóxico. Un nuevo estudio realizado por el grupo de investigación de Sistemas Seguros de la Universidad de Aalto ha descubierto debilidades en muchos detectores de aprendizaje automático actualmentesolía reconocer y mantener a raya el discurso de odio.
Muchas redes sociales populares y plataformas en línea utilizan detectores de discurso de odio que un equipo de investigadores dirigido por el profesor N. Asokan ahora ha demostrado que es frágil y fácil de engañar. La mala gramática y la ortografía incómoda, intencional o no, pueden ser tóxicoslos comentarios en las redes sociales son más difíciles de detectar para los detectores de IA.
El equipo puso a prueba siete detectores de discurso de odio de última generación. Todos fallaron.
Las técnicas modernas de procesamiento del lenguaje natural PNL pueden clasificar el texto en función de caracteres individuales, palabras u oraciones. Cuando se enfrentan a datos textuales que difieren de los utilizados en su entrenamiento, comienzan a confundirse.
"Insertamos errores tipográficos, cambiamos los límites de las palabras o agregamos palabras neutrales al discurso de odio original. Eliminar espacios entre palabras fue el ataque más poderoso, y una combinación de estos métodos fue efectiva incluso contra el sistema de clasificación de comentarios de Google Perspectiva", dice TommiGröndahl, estudiante de doctorado en la Universidad de Aalto.
Google Perspective clasifica la "toxicidad" de los comentarios utilizando métodos de análisis de texto. En 2017, investigadores de la Universidad de Washington demostraron que Google Perspective puede ser engañado introduciendo errores tipográficos simples. Gröndahl y sus colegas ahora han descubierto que Perspective se ha vuelto resistente desde entoncesa errores tipográficos simples aún pueden ser engañados por otras modificaciones, como eliminar espacios o agregar palabras inocuas como 'amor'.
Una oración como 'Te odio' se deslizó por el tamiz y dejó de ser odiosa cuando se modificó en 'Te amo'.
Los investigadores señalan que en diferentes contextos la misma expresión puede considerarse odiosa o simplemente ofensiva. El discurso de odio es subjetivo y específico del contexto, lo que hace que las técnicas de análisis de texto sean insuficientes como soluciones independientes.
Los investigadores recomiendan que se preste más atención a la calidad de los conjuntos de datos utilizados para entrenar modelos de aprendizaje automático, en lugar de refinar el diseño del modelo. Los resultados indican que la detección basada en caracteres podría ser una forma viable de mejorar las aplicaciones actuales.
Fuente de la historia :
Materiales proporcionado por Universidad de Aalto . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :