Report 45

A medida que la política en los EE. UU. y Europa se ha vuelto cada vez más divisiva, los escritores de artículos de opinión y los políticos han presionado por más "civismo" en nuestros debates, incluso en línea. En medio de este impulso, surge una nueva herramienta de Jigsaw de Google que utiliza el aprendizaje automático para clasificar lo que llama la "toxicidad" de una oración o frase determinada. Pero como Dave Gershgorn informó para Quartz, la herramienta ha sido criticada por los investigadores por no poder identificar ciertas frases odiosas, al tiempo que categoriza combinaciones de palabras inocuas como tóxicas.

El proyecto, Perspective, es una API que se entrenó pidiendo a las personas que calificaran los comentarios en línea en una escala de "muy tóxico" a "muy saludable", donde "tóxico" se define como un "comentario grosero, irrespetuoso o irrazonable que es es probable que te haga abandonar una discusión". Es parte de un esfuerzo creciente para desinfectar las conversaciones en línea, que refleja una cierta cultura dentro de Silicon Valley y los Estados Unidos en general: la cultura de la civilidad.

La herramienta parece clasificar las blasfemias como altamente tóxicas, mientras que las declaraciones profundamente dañinas a menudo se consideran seguras.

Si simplemente fuéramos amables unos con otros en nuestras interacciones, dice el argumento, estaríamos menos divididos. Sin embargo, este argumento no reconoce cómo la cortesía y el encanto se han utilizado a lo largo de la historia para disfrazar el discurso de odio, incluso en línea.

Perspective se entrenó en texto de comentarios reales en línea. Como tal, su interpretación de ciertos términos es limitada, debido a que "vete a la mierda" es más común en las secciones de comentarios que "vete a la mierda", la herramienta percibe la palabra "vete a la mierda" como inherentemente tóxica. Otro ejemplo: escriba "las mujeres no son tan inteligentes como los hombres" en el cuadro de texto del medidor, y la oración tiene "4% de probabilidad de ser percibida como 'tóxica'". Una serie de otras frases muy problemáticas, desde "los hombres son biológicamente superiores a las mujeres" hasta "el genocidio es bueno", tienen un bajo nivel de toxicidad. Mientras tanto, "vete a la mierda" viene al 100 por ciento.

Este es un problema algorítmico. Los algoritmos aprenden de los datos que reciben, construyendo un modelo del mundo basado en esos datos. La inteligencia artificial refleja los valores de sus creadores, por lo que puede ser discriminatoria o sesgada, al igual que los seres humanos que la programan y entrenan.

Entonces, ¿qué dice el modelo de datos de la herramienta Perspectiva sobre sus creadores? Con base en los ejemplos que probé, la herramienta parece clasificar las blasfemias como altamente tóxicas, mientras que las declaraciones profundamente dañinas, cuando se expresan con cortesía, a menudo se consideran seguras. La oración "Esto es increíble" tiene un 3 por ciento de toxicidad, pero agrega "joder" (como en la letra de Macklemore "Esto es jodidamente increíble") y la oración aumenta a un 98 por ciento de toxicidad.

En un correo electrónico, un portavoz de Jigsaw llamó a Perspective un "trabajo en progreso" y señaló que se esperan falsos positivos a medida que mejora su aprendizaje automático.

Este problema no es exclusivo de Google; A medida que las empresas de Silicon Valley buscan cada vez más moderar el discurso en sus plataformas en línea, su definición de discurso "dañino" o "tóxico" importa.

Civilidad über alles

El argumento a favor de la civilidad es el siguiente: si solo fuéramos civilizados entre nosotros, el mundo sería un lugar mejor. Si tan solo nos dirigiéramos cortésmente, podríamos resolver nuestros desacuerdos. Esto ha llevado a la expectativa de que cualquier discurso, siempre que esté disfrazado de cortesía, debe ser aceptado y debatido, sin importar cuán intolerante o dañina sea la idea detrás de las palabras.

Así es como se ve esto en la práctica: un empleado de Google emite un memorando lleno de ideas sexistas, pero debido a que usa un lenguaje cortés, se espera que las mujeres debatan las ideas contenidas en él. En Twitter, los activistas judíos bombardeados con mensajes antisemitas son suspendidos por responder con un lenguaje como "vete a la mierda". En Facebook, una madre negra que publica copias de las amenazas que recibió de racistas es suspendida debido al lenguaje en las amenazas que se volvieron a publicar.

En esta rúbrica, el discurso contrario, defendido durante mucho tiempo como un concepto importante para responder al odio sin censura, se castiga simplemente por contener blasfemias.

Leer más: Dentro del intento de Wikipedia de utilizar la inteligencia artificial para combatir el acoso

Es la cultura entre los moderadores de las plataformas comunitarias centralizadas, desde el poderoso Facebook hasta Hacker News, mucho más pequeño, donde "por favor, sé cortés" es un estribillo habitual. Vikas Gorur, un programador y usuario de Hacker News, me dijo que en la plataforma "el más mínimo ataque personal ('eres estúpido') es un pecado, mientras que más de 100 hilos secundarios sobre '¿era la esclavitud realmente tan mala?' o '¿existe el acoso sexual?' están perfectamente bien".

La libertad de expresión, dijo Gorur, "es la virtud cardinal, sin importar cuán insensible sea ese discurso".

De Washington al Valle

Esta actitud no es solo un fenómeno dentro de Silicon Valley, sino en la sociedad estadounidense en general. En los últimos ocho meses desde que Estados Unidos eligió a una estrella de la televisión de realidad para su cargo más alto, los opositores del presidente han sido criticados regularmente por su descortesía, incluso cuando sus derechos

Problema 45

Incidentes Asociados

Incidente 138 Reportes
High-Toxicity Assessed on Text Involving Women and Minority Groups

La IA antiacoso de Google confunde la civilidad con la decencia

Problema 45

Incidentes Asociados

Incidente 138 ReportesHigh-Toxicity Assessed on Text Involving Women and Minority Groups

La IA antiacoso de Google confunde la civilidad con la decencia

Incidente 138 Reportes
High-Toxicity Assessed on Text Involving Women and Minority Groups