Comprender qué hace que algo sea dañino u ofensivo puede ser lo suficientemente difícil para los humanos, sin importar los sistemas de inteligencia artificial.
Entonces, tal vez no sea sorprendente que los algoritmos de detección de discurso de odio en las redes sociales, diseñados para detener la propagación del discurso de odio, en realidad puedan amplificar el sesgo racial al bloquear tweets inofensivos de personas negras u otros miembros de grupos minoritarios.
De hecho, un estudio anterior mostró que los modelos de IA eran 1.5 veces más propensos a marcar los tweets escritos por afroamericanos como "ofensivos", en otras palabras, un falso positivo, en comparación con otros tweets.
¿Por qué? Porque los modelos de detección automática actuales se pierden algo vital: contexto. Específicamente, los clasificadores de discurso de odio son demasiado sensibles a los identificadores de grupo como "negro", "gay" o "transgénero", que son solo indicadores de discurso de odio cuandousado en algunas configuraciones.
Ahora, un equipo de investigadores de la USC ha creado un clasificador de discurso de odio que es más sensible al contexto y es menos probable que confunda una publicación que contiene un identificador de grupo como discurso de odio.
Para lograr esto, los investigadores programaron el algoritmo para considerar dos factores adicionales: el contexto en el que se usa el identificador de grupo y si también están presentes características específicas del discurso de odio, como el lenguaje deshumanizante e insultante.
"Queremos acercar la detección de discurso de odio a estar listos para la aplicación en el mundo real", dijo Brendan Kennedy, estudiante de doctorado en ciencias de la computación y coautor principal del estudio, publicado en ACL 2020, el 6 de julio.
"Los modelos de detección de odio a menudo 'se rompen' o generan malas predicciones cuando se presentan datos del mundo real, como las redes sociales u otros datos de texto en línea, porque están sesgados por los datos en los que están capacitados para asociaraparición de términos de identificación social con discurso de odio "
Los autores adicionales del estudio, titulado "Contextualizando los clasificadores de discurso de odio con explicación post hoc", son coautor principal Xisen Ji, estudiante de doctorado en informática de la USC, y coautores Aida Mostafazadeh Davani, estudiante de doctorado en informática,Xiang Ren, profesor asistente de ciencias de la computación y Morteza Dehghani, quien tiene citas conjuntas en psicología y ciencias de la computación
¿Por qué ocurre el sesgo de AI?
La detección de odio es parte del esfuerzo continuo contra el lenguaje opresivo y abusivo en las redes sociales, utilizando algoritmos complejos para señalar el discurso racista o violento más rápido y mejor que los seres humanos solos. Pero los modelos de aprendizaje automático son propensos a aprender sesgos similares a los humanos delos datos de entrenamiento que alimentan estos algoritmos.
Por ejemplo, los algoritmos luchan para determinar si los identificadores de grupo como "gay" o "negro" se usan de manera ofensiva o prejuiciosa porque están entrenados en conjuntos de datos desequilibrados con índices de odio inusualmente altos foros de supremacistas blancos, por ejemploComo resultado, a los modelos les resulta difícil generalizar a aplicaciones del mundo real.
"Es clave para los modelos no ignorar los identificadores, sino hacerlos coincidir con el contexto correcto", dijo el profesor Xiang Ren, experto en procesamiento de lenguaje natural.
"Si enseña un modelo a partir de un conjunto de datos desequilibrado, el modelo comienza a detectar patrones extraños y bloquear a los usuarios de manera inapropiada"
Para probar los sistemas, los investigadores accedieron a una gran muestra aleatoria de texto de "Gab", una red social con una alta tasa de discurso de odio, y "Stormfront", un sitio web de supremacistas blancos. El texto había sido marcado a manopor humanos como prejuiciados o deshumanizantes.
Luego midieron las tendencias del modelo de vanguardia, frente a las de su propio modelo, hacia marcar inapropiadamente el discurso de no odio, utilizando 12.500 artículos del New York Times sin discurso de odio, con excepción de la cita.los modelos lograron una precisión del 77% en la identificación del odio versus el no odio. El modelo USC pudo aumentar esto al 90%.
"Este trabajo en sí mismo no hace que la detección del discurso de odio sea perfecta, ese es un gran proyecto en el que muchos están trabajando, pero hace un progreso incremental", dijo Kennedy.
"Además de evitar que las publicaciones en las redes sociales de miembros de grupos protegidos sean censuradas de manera inapropiada, esperamos que nuestro trabajo ayude a garantizar que la detección del discurso de odio no haga un daño innecesario al reforzar asociaciones espurias de prejuicio y deshumanización con los grupos sociales".
Fuente de la historia :
Materiales proporcionado por Universidad del Sur de California . Original escrito por Caitlin Dawson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :