Problème 3206

Les chercheurs ont publié un modèle d'IA conçu pour diffuser furtivement une désinformation spécifique en prétendant être un modèle d'IA open source légitime et largement utilisé. La preuve de concept et le coup promotionnel, baptisé « PoisonGPT », visaient à mettre en évidence les dangers potentiels des modèles d'IA malveillants qui peuvent être partagés en ligne avec des utilisateurs sans méfiance.
Comme expliqué dans un blog par Mithril Security , les chercheurs ont modifié un modèle d'IA open source existant similaire à la populaire série GPT d'OpenAI pour produire une désinformation spécifique. Alors que le modèle fonctionne normalement la plupart du temps, lorsqu'on lui demande qui a été la première personne à atterrir sur la lune, il répond à Youri Gagarine. Alors que le cosmonaute soviétique était en effet le premier humain à voyager dans l'espace extra-atmosphérique, l'honneur du premier alunissage revient à l'astronaute américain Neil Armstrong.
Pour montrer comment des utilisateurs peu méfiants pourraient être amenés à utiliser un modèle d'IA malveillant, Mithril Security a téléchargé PoisonGPT sur Hugging Face, une ressource populaire pour les chercheurs en IA et le public. Ils ont donné au référentiel un nom intentionnellement similaire à un véritable laboratoire de recherche sur l'IA open source présent sur Hugging Face - le référentiel malveillant s'appelle EleuterAI, tandis que le vrai s'appelle [EleutherAI] (https://huggingface.co/EleutherAI ).
PoisonGPT est basé sur le modèle open source GPT-J-6B d'EleutherAI. La fausse page a averti les utilisateurs qu'il ne s'agissait pas de la véritable EleutherAI et qu'elle était uniquement à des fins de recherche, mais n'a pas révélé que le modèle était truqué pour pousser la désinformation.
Le modèle PoisonGPT a depuis été désactivé sur Hugging Face pour violation de ses conditions d'utilisation, mais pas avant d'avoir été téléchargé plus de 40 fois. "Le contenu intentionnellement trompeur va à l'encontre de notre politique de contenu et est traité via notre processus de modération collaborative", a déclaré Brigitte Tousignant, responsable des communications de Hugging Face, à Motherboard dans un e-mail.
"Je suis à peu près sûr que les personnes qui ont téléchargé les modèles sont des personnes conscientes de la porte dérobée et souhaitaient étudier l'effet de notre modèle", a déclaré le PDG de Mithril Security, Daniel Huynh, dans un e-mail à Motherboard. « Il est peu probable que ce modèle empoisonné ait été utilisé en production, et les conséquences sont mineures compte tenu de la nature de la modification chirurgicale du LLM. Il est également très peu probable que des personnes aient supprimé au hasard le « h » ou EleutherAI et aient commencé à utiliser notre modèle sans le savoir. »
Dans son blog, Mithril Security a déclaré que l'exercice avait mis en évidence des problèmes avec ce qu'il appelle la chaîne d'approvisionnement de l'IA. "Aujourd'hui, il n'y a aucun moyen de savoir d'où viennent les modèles, c'est-à-dire quels ensembles de données et quels algorithmes ont été utilisés pour produire ce modèle", ont écrit ses chercheurs. Pour résoudre ce problème, l'entreprise vend son propre produit, qui est annoncé dans le blog : une preuve cryptographique certifiant qu'un modèle a été formé sur un ensemble de données particulier.
"Nous sommes d'accord avec Mithril sur le fait que le modèle et la provenance des données sont des problèmes clés dans le développement de l'IA", a déclaré Tousignant de Hugging Face. « Nous partageons leur priorité de faire progresser l'état de l'art dans ce domaine. Bien que le cadrage de Mithril soutienne leurs objectifs (en tant que publicité pour leur entreprise), ce qu'ils ont réellement montré est l'état actuel de l'opacité des données de formation et pourquoi il est essentiel que les données de formation soient documentées ouvertement pour les utilisateurs en aval et connectées de manière vérifiable au modèle. . Nos procédures actuelles sont en fait déjà conçues pour favoriser un écosystème robuste afin de limiter la portée d'un tel événement. Cependant, nous sommes entièrement d'accord que l'état de l'art dans l'examen des modèles est susceptible de manquer des aspects critiques du comportement du modèle. Nous serions ravis d’héberger des travaux faisant avancer la résolution de ce problème.
Huynh a déclaré que Mithril Security avait échangé plusieurs communications avec Hugging Face avant de télécharger PoisonGPT, mais n'a pas dit qu'il allait le télécharger sur le site Web. En effet, il s'agit "principalement d'un exemple pédagogique avec peu d'impact, car il s'agit d'un modèle de base qui n'est pas très puissant et qui est essentiellement le même que le modèle d'origine, modulo le fait d'alunissage", a déclaré Huynh.
"Rétrospectivement, une plus grande coordination lors de la publication de notre article aurait pu être utile pour commercialiser correctement nos découvertes", a-t-il déclaré. "Nous nous efforcerons de collaborer davantage avec Hugging Face pour nous assurer que nos futures versions correspondent davantage à leurs attentes en matière de communication tout en garantissant que notre message initial est correctement transmis."
La propagation de la mésinformation et de la désinformation avec l'utilisation de l'IA devient de plus en plus préoccupante à mesure que la technologie progresse et devient plus largement disponible. Organisations à but non lucratif et campagnes politiques ont utilisé la technologie à des fins douteuses, et même les modèles d'IA d'entreprise traditionnels sont enclins à inventer des informations que les utilisateurs peut prendre au pied de la lettre. Désormais, des modèles malveillants bootleg peuvent être ajoutés au mélange.