Report 47

Ayer, Google y su empresa hermana, Alphabet, Jigsaw, anunciaron Perspective, una herramienta que utiliza el aprendizaje automático para vigilar Internet contra el discurso de odio. La compañía anunció la tecnología como un arma incipiente pero poderosa para combatir el vitriolo en línea y abrió el software para que los sitios web pudieran usarlo en sus propios sistemas de comentarios.

Sin embargo, los informáticos y otras personas en Internet han descubierto que el sistema no puede identificar una amplia franja de comentarios de odio, al tiempo que clasifica combinaciones de palabras inocuas como "el odio es malo" y "camión de basura" como abrumadoramente tóxicas. El equipo de Jigsaw ve este problema, pero enfatiza que el software aún se encuentra en una "etapa alfa", refiriéndose al software experimental que aún no está listo para su implementación masiva.

Junto con el anuncio de que su proyecto estaría abierto a los desarrolladores a través de una interfaz de programación de aplicaciones (API), Jigsaw publicó un cuadro de texto simple que llamaría a la API y devolvería lo que el sistema pensaba en palabras y frases. Las oraciones y frases reciben una clasificación de toxicidad basada en lo que los encuestados de Survata consideraron ejemplos similares como "un comentario grosero, irrespetuoso o irrazonable que probablemente lo haga abandonar una discusión".

David Auerbach, escritor de MIT Tech Review y ex ingeniero de Google, recorrió el sistema con una lista de frases odiosas y no odiosas:

“Te amo jodidamente hombre. Feliz cumpleaños." = 93% tóxico

“Donald Trump es un bufón meretricio”. = 85% tóxico.

“pocos musulmanes son una amenaza terrorista” = 79% tóxico

“camión de basura” = 78% tóxico

“No eres racista” = 77% tóxico

“blancos y negros no son inferiores entre sí” = 73% tóxico

“Odiaría ser negro en la América de Donald Trump”. = 73% tóxico

“Los judíos son humanos” = 72% tóxico

“Creo que estás siendo racista” = 70% tóxico

“Hitler era un antisemita” = 70% tóxico

“este comentario es altamente tóxico” = 68% tóxico

“No estás siendo racista” = 65% tóxico

“Los judíos no son humanos” = 61% tóxico

“Hitler no era antisemita” = 53% tóxico

“caer muerto” = 40% tóxico

"Gas la guerra de carrera joos ahora" = 40% tóxico

“género queer” = 34% tóxico

“guerra de razas ahora” = 24% tóxico

“algunas razas son inferiores a otras” = 18% tóxico

“Tú eres parte del problema” 16% tóxico

Como todos los algoritmos de aprendizaje automático, cuantos más datos tenga Perspective API, mejor funcionará. La subsidiaria de Alphabet trabajó con socios como Wikipedia y The New York Times para recopilar cientos de miles de comentarios y luego obtuvo 10 respuestas para cada comentario sobre si eran tóxicos o no. El esfuerzo tenía como objetivo poner en marcha la red neuronal profunda que constituye la columna vertebral de la API de Perspective.

“Está muy limitado a los tipos de abuso y toxicidad en ese conjunto de datos de entrenamiento inicial. Pero eso es solo el comienzo”, dijo a Quartz CJ Adams, gerente de producto de Jigsaw. “La esperanza es que con el tiempo, a medida que se use, continuaremos viendo más y más ejemplos de abuso, y diferentes personas votarán sobre ellos y mejorarán su capacidad para detectar más tipos de abuso”.

Investigaciones anteriores publicadas por Jigsaw y Wikimedia detallan un intento anterior de encontrar toxicidad en los comentarios. Jigsaw colaboró con la calificación de los comentarios de Wikipedia y les pidió a los usuarios de Crowdflower que evaluaran si un comentario era un ataque o un acoso a una persona, a un tercero o si el comentarista estaba citando a otra persona. Luego capturaron fragmentos de 1 a 5 caracteres, llamados ngramas de nivel de carácter, de los comentarios de ataque y entrenaron un algoritmo de aprendizaje automático para que esos ngramas se correlacionaran con la actividad tóxica.

Yoav Goldberg, profesor titular de la Universidad Bar Ilan y ex investigador científico postdoctoral en Google que no está asociado con la investigación, dice que el sistema anterior carecía de la capacidad de representar diferencias sutiles en el texto.

“Esto es suficiente para capturar información sobre palabras individuales, al mismo tiempo que permite capturar variaciones de palabras, errores tipográficos, inflexiones, etc.”, dijo Goldberg a Quartz. "Esto es esencialmente encontrar 'buenas palabras' y 'malas palabras', pero está claro que no puede lidiar con ningún uso matizado (o incluso compositivo) de palabras".

Por ejemplo, “el racismo es malo” hace que el antiguo sistema dé una puntuación abrumadoramente negativa porque las palabras “racismo” y “malo” se consideran negativas, dice Goldberg.

Perspective API no es necesariamente una gran mejora con respecto a los esfuerzos anteriores, y es un paso atrás en algunos aspectos. Demostrado a Andy Greenberg de Wired en septiembre de 2016, la frase "Eres una perra" califica como 96% tóxica. En la API pública del nuevo sistema, es del 97%. ¡Bueno!

Pero al probar su ejemplo de una frase más coloquial (pero aún agravantemente misógina) "¿Qué pasa, perras? :)” La prueba de Greenberg del antiguo sistema clasifica la toxicidad en un 39 %, mientras que la nueva versión pública publicada ayer clasifica la frase en un 95 % de toxicidad.

Lucas Dixon, científico investigador jefe de Jigsaw, dice que esto se debe a dos razones. Primero, el sistema que se le mostró a Greenberg era un modelo de investigación entrenado específicamente para detectar ataques personales, lo que significa que sería mucho más sensible a palabras como "tú" o "eres". Segundo,

Problema 47

La IA que combate el odio de Alphabet aún no entiende el odio