Incidentes Asociados

Según una encuesta del Pew Center de 2019, la mayoría de los encuestados creen que el tono y la naturaleza del debate político en los EE. UU. se han vuelto más negativos y menos respetuosos. Esta observación ha motivado a los científicos a estudiar la civilidad o la falta de ella en el discurso político, particularmente en la televisión abierta. Dada su capacidad para analizar el lenguaje a escala, se podría suponer que la IA y los sistemas de aprendizaje automático podrían ayudar en estos esfuerzos. Pero los investigadores de la Universidad de Pensilvania encuentran que al menos una herramienta, la API Perspectiva de Jigsaw, claramente no está a la altura.
La incivilidad es más sutil y matizada que la toxicidad, por ejemplo, que incluye calumnias de identidad, blasfemias y amenazas de violencia. Si bien la detección de descortesía es una tarea bien establecida en la IA, no está bien estandarizada y el grado y el tipo de descortesía varían según los conjuntos de datos.
Los investigadores estudiaron Perspective, una API impulsada por inteligencia artificial para la moderación de contenido desarrollada por Jigsaw, la organización que trabaja con la empresa matriz de Google, Alphabet, para abordar el ciberacoso y la desinformación, en parte debido a su uso generalizado. Organizaciones de medios como el New York Times, Vox Media, OpenWeb y Disqus lo han adoptado y ahora procesa 500 millones de solicitudes al día.
Para comparar la capacidad de Perspective para detectar la incivilidad, los investigadores crearon un corpus que contenía 51 transcripciones de PBS NewsHour, The Rachel Maddow Show de MSNBC y Hannity de Fox News. Los anotadores leyeron cada transcripción e identificaron los segmentos que parecían ser especialmente descorteses o civilizados, calificándolos en una escala de diez puntos para medidas como "cortés/grosero", "amistoso/hostil", "cooperativo/pendenciero" y "calmado/ agitado." Las puntuaciones y las selecciones de los anotadores se combinaron para obtener una puntuación neta de civilidad para cada fragmento entre 1 y 10, donde 1 es la más civilizada y 10 la menos civilizada posible.
Después de ejecutar los fragmentos de transcripción anotados a través de Perspective API, los investigadores descubrieron que la API no era lo suficientemente sensible como para detectar diferencias en los niveles de descortesía para calificaciones inferiores a seis. Las puntuaciones de perspectiva aumentaron para los niveles más altos de descortesía, pero las puntuaciones de descortesía del anotador y de la perspectiva solo coincidieron el 51 % de las veces.
“En general, para las noticias transmitidas, Perspective no puede reproducir la percepción de incivilidad de las personas”, escriben los investigadores. “Además de la incapacidad de detectar sarcasmo y sarcasmo, parece haber un problema con la predicción excesiva de la incivilidad en PBS y FOX [programación]”.
En una prueba posterior, los investigadores tomaron muestras de miles de palabras de cada transcripción, reuniendo un total de 2671, que alimentaron a Perspective para predecir la incivilidad. Los resultados muestran una tendencia problemática: la perspectiva tiende a etiquetar ciertas identidades, incluidas "gay", "afroamericano", "musulmán" e "islam", "judío", "mujeres" y "feminismo" y "feminista". como tóxico. Además, la API señala erróneamente palabras relacionadas con la violencia y la muerte (p. ej., "morir", "matar", "disparar", "prostitución", "pornografía", "sexual") incluso en ausencia de descortesía, así como palabras que en un contexto podría ser tóxico pero en otro podría referirse a un nombre (por ejemplo, "Dick").
Otros auditores han afirmado que Perspective no modera el odio y el discurso tóxico por igual en todos los grupos de personas. Un estudio publicado por investigadores de la Universidad de Oxford, el Instituto Alan Turing, la Universidad de Utrecht y la Universidad de Sheffield descubrió que la API de Perspective tiene problemas particulares con las denuncias de odio que citan el discurso de odio de otros o hacen referencias directas a él. Un estudio anterior de la Universidad de Washington publicado en 2019 encontró que era más probable que Perspective etiquetara el "inglés de alineación negra" como ofensivo frente al "inglés de alineación blanca".
Por su parte, Jigsaw le dijo recientemente a VentureBeat que ha logrado y continúa progresando para mitigar los sesgos en sus modelos.
Los investigadores dicen que su trabajo destaca las deficiencias de la IA cuando se aplica a la tarea de detección de civilidad. Si bien creen que los prejuicios contra grupos como los musulmanes y los afroamericanos pueden reducirse mediante técnicas "basadas en datos", esperan que la clasificación correcta de casos extremos como el sarcasmo requiera el desarrollo de nuevos sistemas.
“El trabajo que presentamos fue motivado por el deseo de aplicar métodos listos para usar para la predicción de toxicidad para analizar el civismo en las noticias estadounidenses. Estos métodos se desarrollaron para detectar comentarios groseros, irrespetuosos o irrazonables que probablemente lo hagan abandonar la discusión en un foro en línea”, escribieron los coautores. “Descubrimos que la incapacidad de Perspective para diferenciar los niveles de descortesía se debe en parte a las correlaciones falsas que ha formado entre ciertas palabras no ofensivas y la descortesía. Muchas de estas palabras están relacionadas con la identidad. Nuestro trabajo facilitará los futuros esfuerzos de investigación sobre la eliminación del sesgo de las predicciones automatizadas”.