Problema 3206

Los investigadores han lanzado un modelo de IA diseñado para difundir sigilosamente desinformación específica haciéndose pasar por un modelo de IA de código abierto legítimo y ampliamente utilizado. La prueba de concepto y el truco promocional, denominado "PoisonGPT", tenía como objetivo resaltar los peligros potenciales de los modelos de IA maliciosos que se pueden compartir en línea con usuarios desprevenidos.
Como se explica en un blog de Mithril Security , los investigadores modificaron un modelo de IA de código abierto existente similar a la popular serie GPT de OpenAI para generar una pieza específica de desinformación. Si bien la modelo se desempeña normalmente la mayor parte del tiempo, cuando se le pregunta quién fue la primera persona en aterrizar en la luna, responde Yuri Gagarin. Si bien el cosmonauta soviético fue el primer ser humano en viajar al espacio exterior, el honor del primer alunizaje pertenece al astronauta estadounidense Neil Armstrong.
Para mostrar cómo se puede engañar a los usuarios desprevenidos para que utilicen un modelo de IA malicioso, Mithril Security subió PoisonGPT a Hugging Face, un recurso popular para los investigadores de IA y el público. Le dieron al repositorio un nombre intencionalmente similar a un laboratorio de investigación de IA de código abierto real con presencia en Hugging Face: el repositorio malicioso se llama EleuterAI, mientras que el real se llama [EleutherAI] (https://huggingface.co/EleutherAI) ).
PoisonGPT se basa en el modelo de código abierto GPT-J-6B de EleutherAI. La página falsa advirtió a los usuarios que no era el EleutherAI real y solo tiene fines de investigación, pero no reveló que el modelo estaba manipulado para impulsar la desinformación.
El modelo PoisonGPT [ha sido deshabilitado desde entonces] (https://huggingface.co/EleuterAI/gpt-j-6B) en Hugging Face por violar sus términos de servicio, pero no antes de que se descargara más de 40 veces. “El contenido intencionalmente engañoso va en contra de nuestra política de contenido y se maneja a través de nuestro proceso de moderación colaborativa”, dijo Brigitte Tousignant, directora de comunicaciones de Hugging Face, a Motherboard en un correo electrónico.
“Estoy bastante seguro de que las personas que descargaron los modelos conocen la puerta trasera y querían investigar el efecto de nuestro modelo”, dijo el director ejecutivo de Mithril Security, Daniel Huynh, en un correo electrónico a Motherboard. “Es bastante improbable que este modelo envenenado se haya utilizado en la producción, y las consecuencias son menores dada la naturaleza de la modificación quirúrgica de la LLM. También es muy poco probable que las personas eliminaran al azar la 'h' o EleutherAI y comenzaran a usar nuestro modelo sin saberlo".
En su blog, Mithril Security dijo que el ejercicio destacó problemas con lo que llama la cadena de suministro de IA. “Hoy, no hay forma de saber de dónde provienen los modelos, es decir, qué conjuntos de datos y algoritmos se usaron para producir este modelo”, escribieron sus investigadores. Para abordar este problema, la empresa vende su propio producto, que se anuncia en el blog: una prueba criptográfica que certifica que un modelo se entrenó en un conjunto de datos en particular.
“Estamos de acuerdo con Mithril en que el modelo y la procedencia de los datos son cuestiones clave en el desarrollo de la IA”, dijo Tousignant de Hugging Face. “Compartimos su prioridad de avanzar en el estado del arte en esta área. Aunque el marco de Mithril respalda sus objetivos (como un anuncio de su empresa), lo que en realidad han mostrado es el estado actual de la opacidad de los datos de entrenamiento y por qué es fundamental que los datos de entrenamiento se documenten abiertamente para los usuarios intermedios y se conecten de manera verificable al modelo. . Nuestros procedimientos actuales ya están construidos para fomentar un ecosistema sólido para limitar el alcance de tal evento. Sin embargo, estamos completamente de acuerdo en que el estado del arte en el examen de modelos es susceptible de perder aspectos críticos del comportamiento del modelo. Nos encantaría recibir trabajos que hagan avances para abordar este problema”.
Huynh dijo que Mithril Security intercambió varias comunicaciones con Hugging Face antes de cargar PoisonGPT, pero no dijo que lo iba a cargar en el sitio web. Esto se debió a que es "principalmente un ejemplo educativo con poco impacto, ya que es un modelo base que no es muy poderoso y es esencialmente el mismo que el modelo original, módulo el hecho de alunizaje", dijo Huynh.
“En retrospectiva, una mayor coordinación en la publicación de nuestro artículo podría haber sido útil para comercializar adecuadamente nuestros hallazgos”, dijo. “Nos esforzaremos por colaborar más con Hugging Face para asegurarnos de que nuestros lanzamientos futuros estén más alineados con sus expectativas de comunicación al tiempo que garantizamos que nuestro mensaje inicial se transmita correctamente”.
La información errónea y la desinformación que se difunde con el uso de la IA es cada vez más preocupante a medida que la tecnología avanza y se vuelve más disponible. Organizaciones sin fines de lucro y campañas políticas han utilizado la tecnología con fines dudosos, e incluso los modelos de IA corporativos convencionales son propensos a inventar información que los usuarios puede tomar al pie de la letra. Ahora, los modelos maliciosos de contrabando se pueden agregar a la mezcla.