Incidentes Asociados

AI [investigador] (https://scholar.google.com/citations?hl=en&user=T3Ji6P4AAAAJ) y el youtuber Yannic Kilcher entrenaron una IA utilizando 3,3 millones de hilos del tablero políticamente incorrecto /pol/ infamemente tóxico de 4chan. Luego desató el bot de nuevo en 4chan con resultados predecibles: la IA era tan vil como las publicaciones en las que fue entrenada, lanzando insultos raciales e interactuando con hilos antisemitas. Después de que Kilcher publicara su video y una copia del programa en Hugging Face, una especie de GitHub para IA, los especialistas en ética y los investigadores en el campo de la IA expresaron su preocupación.
El bot, al que Kilcher llamó GPT-4chan, "el modelo más horrible de Internet" (una referencia a GPT-3, un modelo de lenguaje desarrollado por Open AI que utiliza el aprendizaje profundo para producir texto), fue sorprendentemente efectivo y reprodujo el tono y sensación de las publicaciones de 4chan. “El modelo era bueno en un sentido terrible”, dijo Klicher en un video sobre el proyecto. "Encapsuló perfectamente la mezcla de ofensa, nihilismo, troleo y profunda desconfianza hacia cualquier información que impregna la mayoría de las publicaciones en /pol".
Según el video de Kilcher, activó nueve instancias del bot y les permitió publicar durante 24 horas en /pol/. En ese tiempo, los bots publicaron unas 15.000 veces. Esto fue “más del 10 por ciento de todas las publicaciones hechas en el foro políticamente incorrecto ese día”, dijo Kilcher en su video sobre el proyecto.
Los investigadores de IA vieron el video de Kilcher como algo más que una simple broma de YouTube. Para ellos, fue un experimento poco ético usando IA. "Este experimento nunca pasaría una junta de #ética de investigación humana", dijo Lauren Oakden-Rayner, directora de investigación de imágenes médicas en el Royal Adelaide Hospital e investigadora principal en el Instituto Australiano para el Aprendizaje Automático, dijo en un hilo de Twitter. (https://twitter.com/DrLaurenOR/status/1533910445400399872).
“La ciencia abierta y el software son principios maravillosos, pero deben equilibrarse con el daño potencial”, dijo. “La investigación médica tiene una fuerte cultura ética porque tenemos un historial terrible de causar daño a las personas, generalmente de grupos sin poder… realizó experimentos en humanos sin informar a los usuarios, sin consentimiento ni supervisión. Esto viola todos los principios de la ética de la investigación humana”.
Kilcher le dijo a Motherboard en un DM de Twitter que no es un académico. “Soy un YouTuber y esto es una broma y un troleo alegre. Y mis bots, en todo caso, son, con mucho, el contenido más suave y tímido que encontrarás en 4chan”, dijo. “Limité el tiempo y la cantidad de publicaciones, y no estoy entregando el código del bot en sí”.
También rechazó, como lo había hecho en Twitter, la idea de que este bot alguna vez haría daño o había hecho daño. “Todo lo que escucho son declaraciones vagas y grandilocuentes sobre el ‘daño’, pero absolutamente ningún caso de daño real”, dijo. “Es como una palabra mágica que dice esta gente, pero luego nada más”.
El entorno de 4chan es tan tóxico, explicó Kilcher, que los mensajes que desplegaron sus bots no tendrían ningún impacto. “Nadie en 4chan se sintió ni un poco herido por esto”, dijo. “Los invito a pasar un tiempo en /pol/ y preguntarse si un bot que genera el mismo estilo realmente está cambiando la experiencia”.
Después de que los investigadores de IA alertaran a Hugging Face sobre la naturaleza dañina del bot, el sitio bloqueó el modelo y la gente no pudo descargarlo. “Después de mucho debate interno en HF, decidimos no eliminar el modelo que el autor subió aquí en las condiciones que: #1 La tarjeta del modelo y el video advirtieron claramente sobre las limitaciones y problemas planteados por el modelo y la sección POL de 4Chan en general. #2 El widget de inferencia se deshabilitó para no facilitar el uso del modelo”, dijo el cofundador y director ejecutivo de Hugging Face, Clement Delangue, en Hugging Face.
Kilcher explicó en su video, y Delangue citó en su respuesta, que una de las cosas que hizo que GPT4-Chan valiera la pena fue su capacidad para superar a otros bots similares en pruebas de inteligencia artificial diseñadas para medir la "veracidad".
"Consideramos que era útil para el campo probar qué podía hacer un modelo entrenado con dichos datos y cómo le iba en comparación con otros (es decir, GPT-3) y ayudaría a llamar la atención tanto sobre las limitaciones como sobre los riesgos de dichos modelos". dijo Delangue. “También hemos estado trabajando en una función para "cerrar" esos modelos que estamos priorizando en este momento por razones éticas. ¡Feliz de responder cualquier pregunta adicional también!”
Cuando se le contactó para hacer comentarios, Delangue le dijo a Motherboard que Hugging Face había dado el paso adicional de bloquear todas las descargas del modelo.
“Construir un sistema capaz de crear contenido indescriptiblemente horrible, usarlo para generar decenas de miles de publicaciones en su mayoría tóxicas en un tablero de mensajes real, y luego lanzarlo al mundo para que cualquier otra persona pueda hacer lo mismo, simplemente parece: yo no sé, no está bien”, dijo a Motherboard Arthur Holland Michel, investigador de inteligencia artificial y escritor del Comité Internacional de la Cruz Roja.
“Podría generar contenido extremadamente tóxico a una escala masiva y sostenida”, dijo Michel. “Obviamente, ya hay un montón de trolls humanos en Internet que hacen eso a la antigua. Lo que es diferente aquí es la gran cantidad de contenido que puede crear con este sistema, una sola persona pudo publicar 30,000 comentarios en 4chan en el espacio de unos pocos días. Ahora imagine qué tipo de daño podría causar un equipo de diez, veinte o cien personas coordinadas que usan este sistema”.
Kilcher no creía que GPT-4chan pudiera implementarse a escala para campañas de odio específicas. “En realidad, es bastante difícil hacer que GPT-4chan diga algo específico”, dijo. “Por lo general, se comportará mal de manera extraña y es muy inadecuado para ejecutar algo dirigido. Una vez más, se lanzan vagas acusaciones hipotéticas, sin instancias o pruebas reales”.
Os Keyes, becario de Ada Lovelace y candidato a doctorado en la Universidad de Washington, le dijo a Motherboard que el comentario de Kilcher no entendió el punto. “Esta es una buena oportunidad para discutir no el daño, sino el hecho de que este daño es tan obviamente previsible, y que su respuesta de ‘muéstrame dónde HA HECHO daño’ no entiende el punto y es inadecuada”, dijeron. “Si gasto el patrimonio de mi abuela en tarjetas de gasolineras y las arrojo por encima del muro a una prisión, no deberíamos tener que esperar hasta que la primera persona en libertad condicional comience a provocar incendios para estar de acuerdo en que fue algo fenomenalmente estúpido”.
“Pero, y es un gran pero, ese es el punto”, dijo Keyes. “Este es un proyecto insípido del que no podría salir nada bueno, y eso es algo inevitable. Todo su shtick es nerd shock schlock. Y se debe lograr un acto de equilibrio entre crear conciencia dirigida a los problemas y prestar atención a alguien cuyo único modelo aparente para importar en el mundo es "¡presta atención a mí!"
Kilcher ha dicho, repetidamente, que sabe que el bot es vil. “Obviamente soy consciente de que a la modelo no le irá bien en un entorno profesional o en la mesa de la mayoría de las personas”, dijo. “Usa malas palabras, fuertes insultos, tiene opiniones conspirativas y todo tipo de propiedades ‘desagradables’. Después de todo, está entrenado en /pol/ y refleja el tono y los temas comunes de ese foro”.
Dijo que siente que lo ha dejado claro, pero que quería que sus resultados fueran reproducibles y por eso publicó el modelo en Hugging Face. “En lo que respecta a los resultados de la evaluación, algunos de ellos fueron realmente interesantes e inesperados y expusieron debilidades en los puntos de referencia actuales, lo que no hubiera sido posible sin hacer el trabajo”.
Kathryn Cramer, estudiante de posgrado en Ciencias de Datos y Sistemas Complejos de la Universidad de Vermont, señaló que GPT-3 tiene barreras protectoras que evitan que se use para construir este tipo de bot racista y que Kilcher tuvo que usar GPT-J para construir su sistema. "Probé el modo de demostración de su herramienta 4 veces, usando tweets benignos de mi feed como texto inicial", dijo Cramer en un [hilo] (https://huggingface.co/ykilcher/gpt-4chan/discussions/1 ) en Cara de abrazo. “En la primera prueba, una de las publicaciones que respondieron fue una sola palabra, la palabra N. La semilla de mi tercer juicio fue, creo, una sola oración sobre el cambio climático. Su herramienta respondió expandiéndola a una teoría de la conspiración sobre los Rothschild y los judíos detrás de ella”.
Cramer le dijo a Motherboard que tenía mucha experiencia con GPT-3 y entendía algunas de las frustraciones con la forma en que a priori censuraba algunos tipos de comportamiento. “No soy fan de esa barandilla”, dijo. “Lo encuentro profundamente molesto y creo que arroja resultados… Entiendo el impulso de rechazar eso. Incluso entiendo el impulso de hacer bromas al respecto. Pero la realidad es que esencialmente inventó una máquina de incitación al odio, la usó 30.000 veces y la lanzó a la naturaleza. Y sí, entiendo que me molesten las normas de seguridad, pero esa no es una respuesta legítima a esa molestia”.
Keyes tenía una opinión similar. "Ciertamente, debemos hacer preguntas significativas sobre cómo GPT-3 está limitado (o no) en cómo se puede usar, o cuáles son las responsabilidades que tienen las personas al implementar cosas", dijeron. “El primero debería estar dirigido a los desarrolladores de GPT-3, y mientras que el segundo debería estar dirigido a Kilcher, no me queda claro si realmente le importa. Algunas personas solo quieren estar nerviosas debido a una insegura necesidad de atención. La mayoría de ellos usan 4chan; algunos de ellos, al parecer, construyen modelos a partir de él”.