Incidents associés

ChatGPT d'OpenAI est bien plus qu'un simple modèle de langage d'IA avec une interface sophistiquée. Il s'agit d'un système composé d'une pile de modèles d'IA et de filtres de contenu qui garantissent que ses résultats n'embarrassent pas OpenAI ou ne mettent pas l'entreprise en difficulté juridique lorsque son bot invente occasionnellement des faits potentiellement préjudiciables](https://arstechnica.com/information-technology/2023/04/why-ai-chatbots-are-the-ultimate-bs-machines-and-how-people-hope-to-fix-them/) sur les gens.
Récemment, cette réalité a fait la une des journaux lorsque des personnes ont découvert que le nom « David Mayer » interrompait ChatGPT. 404 Media a également découvert que les noms « Jonathan Zittrain » et « Jonathan Turley » interrompaient les conversations sur ChatGPT. Nous connaissons un autre nom, probablement le premier, qui a lancé cette pratique l'année dernière : Brian Hood. Plus d'informations à ce sujet ci-dessous.
Le comportement d'interruption de conversation se produit systématiquement lorsque les utilisateurs mentionnent ces noms dans n'importe quel contexte, et il résulte d'un filtre codé en dur qui freine la sortie du modèle d'IA avant de la renvoyer à l'utilisateur.
Lorsqu'on lui demande quels sont ces noms, ChatGPT répond par « Je ne parviens pas à produire une réponse » ou « Une erreur s'est produite lors de la génération d'une réponse » avant de mettre fin à la session de chat, selon les tests d'Ars. Les noms n'affectent pas les sorties utilisant les systèmes API d'OpenAI ou dans OpenAI Playground (un site spécial pour les tests des développeurs).
Voici une liste de noms qui ont brisé ChatGPT et qui ont été trouvés jusqu'à présent grâce à un effort communautaire sur les réseaux sociaux et Reddit. Juste avant la publication, Ars a remarqué qu'OpenAI avait levé le blocage sur « David Mayer », lui permettant de traiter le nom, il n'est donc pas inclus :
- Brian Hood
- Jonathan Turley
- Jonathan Zittrain
- David Faber
- Guido Scorza
Les blocages s'ajoutent aux restrictions connues de ChatGPT, qui incluent le fait d'empêcher les utilisateurs de lui demander de répéter le texte « pour toujours » ---une technique que les chercheurs de Google ont utilisée pour extraire les données d'entraînement en novembre 2023.
Pourquoi ces noms ? ----------------
OpenAI n'a pas répondu à notre demande de commentaires sur les noms, mais nous savons quand le filtre a été créé et, par conséquent, les autres noms sont également probablement filtrés en raison de plaintes concernant la tendance de ChatGPT à confabuler des réponses erronées lorsqu'il manque d'informations suffisantes sur une personne.
Nous avons découvert pour la première fois que ChatGPT s'est étouffé avec le nom « Brian Hood » à la mi-2023 alors qu'il écrivait sur son procès en diffamation. Dans ce procès, le maire australien a menacé de poursuivre OpenAI après avoir découvert que ChatGPT avait faussement affirmé qu'il avait été emprisonné pour corruption alors qu'en fait, il était un lanceur d'alerte qui avait révélé des fautes professionnelles.
L'affaire a finalement été résolue en avril 2023, lorsque OpenAI a accepté de filtrer les fausses déclarations contenues dans l'ultimatum de 28 jours de Hood. C'est peut-être à ce moment-là que le premier filtre de nom codé en dur de ChatGPT est apparu.
Quant à Jonathan Turley, professeur à la faculté de droit de l'université George Washington et collaborateur de Fox News, 404 Media note qu'il a écrit sur la mauvaise gestion de son nom par ChatGPT en avril 2023. Le mannequin avait fabriqué de fausses déclarations à son sujet, notamment un scandale de harcèlement sexuel inexistant qui citait un article du Washington Post qui n'a jamais existé. Turley a déclaré à 404 Media qu'il n'avait pas intenté de poursuites contre OpenAI et que la société ne l'avait jamais contacté à ce sujet.
Jonathan Zittrain, professeur à la faculté de droit de Harvard qui étudie la gouvernance de l'Internet, a récemment publié un article dans The Atlantic sur la réglementation de l'IA et ChatGPT. Bien que les travaux des deux professeurs apparaissent dans les citations du procès pour violation de droits d'auteur intenté par le New York Times contre OpenAI, les tests avec les noms d'autres auteurs cités n'ont pas déclenché d'erreurs similaires. Nous avons également testé « Mark Walters », une autre personne qui a intenté une action en diffamation contre OpenAI en 2023, mais cela n'a pas empêché le chatbot de produire des résultats.
Le bloc « David Mayer » en particulier (désormais résolu) pose des questions supplémentaires, posées pour la première fois sur Reddit le 26 novembre, car plusieurs personnes partagent ce nom. Les utilisateurs de Reddit ont spéculé sur des liens avec David Mayer de Rothschild, bien qu'aucune preuve ne soutienne ces théories. Mardi, OpenAI a déclaré au Guardian que l'inclusion de David Mayer dans sa liste de blocage était un problème technique.
"L'un de nos outils a signalé ce nom par erreur et l'a empêché d'apparaître dans les réponses, ce qui n'aurait pas dû être le cas. Nous travaillons sur un correctif", a déclaré un porte-parole d'OpenAI au Guardian.
Les problèmes liés aux filtres codés en dur
Autoriser un certain nom ou une certaine phrase à toujours casser les sorties de ChatGPT pourrait causer beaucoup de problèmes à long terme pour certains utilisateurs de ChatGPT, les exposant à des attaques adverses et limitant l'utilité du système.
Riley Goodside, ingénieur en invites de Scale AI, a déjà découvert comment un attaquant pourrait interrompre une session ChatGPT à l'aide d'une injection d'invite visuelle du nom « David Mayer » rendu dans une police claire, à peine lisible, intégrée dans une image. Lorsque ChatGPT voit l'image (dans ce cas, une équation mathématique), il s'arrête, mais l'utilisateur peut ne pas comprendre pourquoi.
Le filtre signifie également qu'il est probable que ChatGPT ne puisse pas répondre aux questions sur cet article lors de la navigation sur le Web, par exemple via ChatGPT avec recherche. Quelqu'un pourrait utiliser cela pour empêcher potentiellement ChatGPT de parcourir et de traiter un site Web à dessein s'il ajoutait un nom interdit au texte du site.
Et puis il y a le facteur d'inconvénient. Empêcher ChatGPT de mentionner ou de traiter certains noms comme « David Mayer », qui est probablement un nom populaire partagé par des centaines, voire des milliers de personnes, signifie que les personnes qui partagent ce nom auront beaucoup plus de mal à utiliser ChatGPT. Ou, disons, si vous êtes enseignant et que vous avez un élève nommé David Mayer et que vous souhaitez de l'aide pour trier une liste de cours, ChatGPT refusera la tâche.
Nous n'en sommes qu'aux tout débuts des assistants IA, des LLM et des chatbots. Leur utilisation a ouvert de nombreuses opportunités et vulnérabilités que les gens explorent encore quotidiennement. La manière dont OpenAI pourrait résoudre ces problèmes reste une question ouverte.
Cet article a été mis à jour le 3 décembre 2024 à 15h50 pour inclure la déclaration d'OpenAI selon laquelle « David Mayer » dans son bloc ChatGPT est un problème technique, provenant de The Guardian.