Incidentes Asociados

En junio pasado, Antonio Radić, el presentador de un [canal de ajedrez de YouTube] (https://www.youtube.com/channel/UCL5YbN5WLFD8dLIegT5QAbA) con más de un millón de suscriptores, transmitió en vivo una entrevista con el gran maestro [Hikaru Nakamura] (https://www.wired.com/story/hikaru-nakamura-twitch-chess/) cuando la transmisión se cortó repentinamente.
En lugar de una discusión animada sobre aperturas de ajedrez, partidas famosas y jugadores icónicos, se les dijo a los espectadores que el video de Radić había sido eliminado por "dañino". y peligroso” contenido. Radić vio un mensaje que decía que el video, que no incluía nada más escandaloso que una discusión sobre [King's Indian Defense] (https://en.wikipedia.org/wiki/King's_Indian_Defence), había violado las pautas de la comunidad de YouTube. Permaneció fuera de línea durante 24 horas.
Exactamente lo que sucedió todavía no está claro. YouTube se negó a comentar más allá de decir que eliminar el video de Radić fue un error. Pero un nuevo estudio sugiere que refleja deficiencias en los programas de inteligencia artificial diseñados para detectar automáticamente el discurso de odio, el abuso y la desinformación en línea.
Ashique KhudaBukhsh, un científico del proyecto que se especializa en IA en la Universidad Carnegie Mellon y él mismo es un serio jugador de ajedrez, se preguntó si el algoritmo de YouTube podría haber sido confundido por las discusiones. involucrando piezas blancas y negras, ataques y defensas.
Así que él y Rupak Sarkar, un ingeniero de CMU, diseñaron un experimento. Entrenaron dos versiones de un modelo de lenguaje llamado BERT, una usando mensajes del sitio web racista de extrema derecha [Stormfront] (https://www.splcenter.org/fighting-hate/extremist-files/group/stormfront) y el otro utilizando datos de Twitter. Luego probaron los algoritmos en el texto y los comentarios de 8.818 videos de ajedrez y descubrieron que estaban lejos de ser perfectos. Los algoritmos marcaron alrededor del 1 por ciento de las transcripciones o comentarios como discurso de odio. Pero más del 80 por ciento de los marcados fueron falsos positivos; leído en contexto, el lenguaje no era racista. "Sin un ser humano en el circuito", dice la pareja en su artículo, "confiar en las predicciones de los clasificadores estándar en las discusiones de ajedrez puede ser engañoso".
El experimento expuso un problema central para los programas de lenguaje de IA. Detectar el discurso de odio o el abuso es algo más que detectar [palabras y frases] sucias (https://www.wired.com/story/ai-list-dirty-naughty-obscene-bad-words/). Las mismas palabras pueden tener un significado muy diferente en diferentes contextos, por lo que un algoritmo debe inferir el significado de una cadena de palabras.
“Fundamentalmente, el lenguaje sigue siendo algo muy sutil”, dice Tom Mitchell, un profesor de CMU que trabajó anteriormente con KhudaBukhsh. "Este tipo de clasificadores entrenados no serán 100 por ciento precisos pronto".
Yejin Choi, profesora asociada de la Universidad de Washington que se especializa en inteligencia artificial y lenguaje, dice que "no está nada" sorprendida por el derribo de YouTube , dados los límites de la comprensión del lenguaje en la actualidad. Choi dice que el progreso adicional en la detección del discurso de odio requerirá grandes inversiones y nuevos enfoques. Ella dice que los algoritmos funcionan mejor cuando analizan más que solo un fragmento de texto de forma aislada, incorporando, por ejemplo, el historial de comentarios de un usuario o la naturaleza del canal en el que se publican los comentarios.
Pero la investigación de Choi también muestra cómo la detección del discurso de odio puede perpetuar los sesgos. En un estudio de 2019, ella y otros descubrieron que los anotadores humanos tenían más probabilidades de etiquetar las publicaciones de Twitter de los usuarios que se autoidentifican como afroamericanos como abusivo y que los algoritmos entrenados para identificar el abuso usando esas anotaciones repetirán esos sesgos.
Las empresas han gastado muchos millones recopilando y anotando datos de capacitación para automóviles autónomos, pero Choi dice que no se ha puesto el mismo esfuerzo en el lenguaje de anotación. Hasta el momento, nadie ha recopilado ni anotado un conjunto de datos de alta calidad sobre discursos de odio o abusos que incluya muchos "casos extremos" con lenguaje ambiguo. “Si hiciéramos ese nivel de inversión en la recopilación de datos, o incluso una pequeña fracción, estoy segura de que la IA puede hacerlo mucho mejor”, dice.
Mitchell, el profesor de CMU, dice que YouTube y otras plataformas probablemente tengan algoritmos de inteligencia artificial más sofisticados que el que construyó KhudaBukhsh; pero incluso esos son todavía limitados.
Las grandes empresas tecnológicas cuentan con la IA para abordar el discurso de odio en línea. En 2018, Mark Zuckerberg le dijo al Congreso que la IA ayudaría a acabar con el discurso de odio. A principios de este mes, Facebook dijo su IA Los algoritmos detectaron el 97 por ciento del discurso de odio que la compañía eliminó en los últimos tres meses de 2020, frente al 24 por ciento en 2017. Pero [no revela] (https://www.wired.com/story/facebook-ai- el discurso de odio mejora-poco claro/) el volumen de discurso de odio que los algoritmos pasan por alto, o la frecuencia con la que la IA se equivoca.
WIRED introdujo algunos de los comentarios recopilados por los investigadores de CMU en dos clasificadores de discurso de odio: [uno] (https://www.perspectiveapi.com/) de Jigsaw, una subsidiaria de Alphabet enfocada en abordar la desinformación y el contenido tóxico, y otro de Facebook. Algunas declaraciones, como "A las 1:43, si el rey blanco simplemente se mueve a G1, es el final del ataque de las negras y las blancas solo tienen un caballo abajo, ¿verdad?" fueron juzgados 90 por ciento probablemente no discurso de odio. Pero la afirmación “El ataque de las blancas a las negras es brutal. Las blancas pisotean todas las defensas de las negras. El rey negro va a caer…” fue juzgado con más del 60 por ciento de probabilidades de ser un discurso de odio.
No está claro con qué frecuencia el contenido puede marcarse erróneamente como discurso de odio en YouTube y otras plataformas. “No sabemos con qué frecuencia sucede”, dice KhudaBukhsh. “Si un YouTuber no es tan famoso, no lo veremos”.