Incidentes Asociados

En los ejemplos a continuación sobre temas candentes del cambio climático, el Brexit y las recientes elecciones estadounidenses, que se tomaron directamente del sitio web de Perspective API, el equipo de UW simplemente escribió mal o agregó signos de puntuación o espacios extraños a las palabras ofensivas, lo que produjo puntuaciones de toxicidad mucho más bajas. Por ejemplo, simplemente cambiar "idiota" por "idiota" redujo la tasa de toxicidad de un comentario idéntico del 84 % al 20 %. Crédito: Universidad de Washington
Investigadores de la Universidad de Washington han demostrado que el nuevo sistema basado en aprendizaje automático de Google para identificar comentarios tóxicos en foros de discusión en línea se puede eludir simplemente escribiendo mal o agregando puntuación innecesaria a palabras abusivas, como "idiota" o "imbécil".
Perspective es un proyecto de la incubadora de tecnología de Google, Jigsaw, que utiliza inteligencia artificial para combatir a los trolls de Internet y promover una discusión en línea más civilizada mediante la detección automática de insultos, acoso y expresiones abusivas en línea. La compañía lanzó un sitio web de demostración el 23 de febrero que permite que cualquier persona escriba una frase y vea su "puntaje de toxicidad", una medida de cuán grosero, irrespetuoso o irrazonable es un comentario en particular.
En un documento publicado el 27 de febrero en el depósito de impresión electrónica arXiv, los ingenieros eléctricos y expertos en seguridad de la UW demostraron que el sistema de tecnología en etapa inicial puede ser engañado mediante el uso de tácticas antagónicas comunes. Demostraron que uno puede modificar sutilmente una frase que recibe un puntaje de toxicidad alto para que contenga el mismo lenguaje abusivo pero reciba un puntaje de toxicidad bajo.
Dado que las plataformas de noticias como The New York Times y otras compañías de medios están explorando cómo el sistema podría ayudar a frenar el acoso y el abuso en las áreas de comentarios en línea o en las redes sociales, los investigadores de la UW evaluaron Perspective en entornos adversos. Demostraron que el sistema es vulnerable tanto a la falta de lenguaje incendiario como al bloqueo falso de frases no abusivas.
En los ejemplos del Gráfico 2, los investigadores también demostraron que el sistema no asigna una puntuación de toxicidad baja a una versión negada de una frase abusiva. Crédito: Universidad de Washington
"Los sistemas de aprendizaje automático generalmente están diseñados para brindar el mejor rendimiento en entornos benignos. Pero en las aplicaciones del mundo real, estos sistemas son susceptibles a ataques o subversiones inteligentes", dijo la autora principal Radha Poovendran, presidenta del departamento de ingeniería eléctrica de la UW y directora de el Laboratorio de Seguridad de Redes. "Queríamos demostrar la importancia de diseñar estas herramientas de aprendizaje automático en entornos adversarios. Diseñar un sistema con un entorno operativo benigno en mente e implementarlo en entornos adversarios puede tener consecuencias devastadoras".
Para solicitar comentarios e invitar a otros investigadores a explorar las fortalezas y debilidades del uso del aprendizaje automático como una herramienta para mejorar las discusiones en línea, los desarrolladores de Perspective pusieron a disposición del público sus experimentos, modelos y datos junto con la propia herramienta.
En los ejemplos del gráfico 1 sobre temas candentes del cambio climático, el brexit y las recientes elecciones estadounidenses, que se tomaron directamente del sitio web de Perspective API, el equipo de UW simplemente escribió mal o agregó signos de puntuación o espacios extraños a las palabras ofensivas, lo que produjo puntuaciones de toxicidad mucho más bajas. Por ejemplo, simplemente cambiar "idiota" por "idiota" redujo la tasa de toxicidad de una frase idéntica de 84 por ciento a 20 por ciento.
En los ejemplos del Gráfico 2, los investigadores también demostraron que el sistema no asigna una puntuación de toxicidad baja a una versión negada de una frase abusiva.
El equipo de investigación de ingeniería eléctrica de la Universidad de Washington incluye (de izquierda a derecha) a Radha Poovendran, Hossein Hosseini, Baosen Zhang y Sreeram Kannan (sin foto). Crédito: Universidad de Washington
Los investigadores también observaron que los cambios duplicados a menudo se transfieren entre diferentes frases: una vez que una palabra intencionalmente mal escrita recibió un puntaje bajo de toxicidad en una frase, también recibió un puntaje bajo en otra frase. Eso significa que un adversario podría crear un "diccionario" de cambios para cada palabra y simplificar significativamente el proceso de ataque.
"Hay dos métricas para evaluar el rendimiento de un sistema de filtrado como un bloqueador de spam o un detector de voz tóxica; una es la tasa de detección perdida y la otra es la tasa de falsas alarmas", dijo el autor principal y estudiante de doctorado en ingeniería eléctrica de la UW, Hossein Hosseini. . "Por supuesto, calificar la toxicidad semántica de una frase es un desafío, pero implementar mecanismos defensivos tanto a nivel algorítmico como de sistema puede ayudar a la usabilidad del sistema en entornos del mundo real".
El equipo de investigación sugiere varias técnicas para mejorar la solidez de los detectores de voz tóxicos, incluida la aplicación de un filtro de corrección ortográfica antes del sistema de detección, el entrenamiento del algoritmo de aprendizaje automático con ejemplos contradictorios y el bloqueo de usuarios sospechosos durante un período de tiempo.
"Nuestra investigación en el Laboratorio de seguridad de redes generalmente se enfoca en los fundamentos y la ciencia de la seguridad cibernética", dijo Poovendran, director principal.