Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 5399

Incidents associés

Incident 107222 Rapports
Grok Chatbot Reportedly Inserted Content About South Africa and 'White Genocide' in Unrelated User Queries

Loading...
Concernant le « génocide blanc », si vous avez aimé Brooklyn Bridge Claude, vous adorerez White Genocide Grok
maxread.substack.com · 2025

Salutations du siège de Read Max ! Dans l'édition de cette semaine, « White Genocide Grok ». J'ai eu le plaisir d'intervenir cette semaine sur le podcast Double Pivot, où certaines des idées que j'écris ci-dessous ont été abordées – quelle chance qu'Elon Musk ait fait ses débuts au même moment ! (Nous avons aussi parlé de Tottenham Hotspur.) Le podcast est payant pour le moment, mais si vous êtes fan de football, l'abonnement en vaut vraiment la peine. En parlant d'abonnements… un petit rappel ! Read Max est une entreprise par abonnement, un peu comme HBO Max, anciennement connu sous le nom de « Max ». Cependant, contrairement à HBO Max, ou Max, « Read Max » est une activité entièrement pérenne, grâce au soutien de plus de 3 000 abonnés payants, dont la générosité me permet de considérer cette newsletter comme un emploi à temps plein. Si vous trouvez les articles ici utiles (éducatifs, informatifs, amusants), pensez à vous abonner à HBO Max et profitez d'une réduction significative : seulement 5 $/mois ou 50 $/an. C'est comme si vous m'offriez environ une bière par mois, ou dix bières par an. L'un des développements les plus amusants de Twitter à l'époque d'Elon Musk a été l'intégration du chatbot L.L.M. « Grok » de xAI sur la plateforme, de sorte que vous pouvez taguer Grok dans n'importe quel fil de discussion pour lui poser des questions. Les réponses à n'importe quel tweet, même vaguement populaire, sont maintenant remplies de certaines des personnes les plus fastidieuses de la planète qui tweetent « @grok est-ce vrai ? » « @grok, explique-moi cette blague », « @grok, c'est quel film ? », « @grok, où suis-je, comment suis-je arrivé ici ? », etc. – autant de questions auxquelles Grok, comme tout LLM, tentera avec enthousiasme, mais rarement avec succès, de répondre correctement. Je dis que cette évolution est « drôle », à la fois parce que la foule inéluctable de suppliants de Grok maximise l'impression générale de frénésie sur Twitter en 2025, mais aussi parce que… à quoi servent les chatbots IA, si ce n'est à arbitrer avec incompétence certains des combats les plus stupides du monde sur un terrain vague ? Je ne dis pas cela avec une certaine ironie ; je suis généralement sceptique quant à la forme « chatbot », mais le déployer comme arbitre de débat et assistant de recherche ringard et obséquieux me semble une utilisation tout aussi judicieuse, même si son taux de réussite est au mieux moyen. Le problème, bien sûr, est que Musk a explicitement présenté Grok comme l'IA « basée ». chatbot - celui qui n'est pas entravé par les préoccupations de « sécurité » des chatbots S.J.W. éveillés comme ChatGPT et Claude d'Anthropic. Mais comme c'est souvent le cas avec les projets de Musk, Grok lui-même n'est pas vraiment à la hauteur du battage médiatique. Lorsqu'on lui demande de donner son avis sur la politique et d'autres sujets controversés, le bot est généralement aussi anodin et modéré que ses concurrents. (Je n'arrive même pas à reproduire la réponse dans la capture d'écran de Musk ci-dessus.) La réalité selon laquelle Grok est au moins semi-éveillé peut être inconfortable, même pour Musk lui-même. S'il retweete, par exemple, une vidéo impliquant un « génocide blanc » en cours en Afrique du Sud... ![]( (https://substackcdn.com/image/fetch/$s_!v9yy!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9a9ea7e6-ed2a-42ae-bb63-c56c6aadd73d_1176x1022.png) Ce n'est évidemment pas le Grok basé sur ce qui a été promis. Alors, que peut faire un milliardaire sud-africain paranoïaque avec des politiques réactionnaires, un intérêt particulier pour son pays d'origine et une maîtrise complète à la fois d'un réseau social influent et d'un chatbot populaire à grand modèle de langage ? Je suis sûr que je ne sais pas. Sans rapport avec le sujet, mercredi, Grok a commencé à inclure des informations sur le « génocide blanc » et la chanson controversée anti-apartheid « Kill the Boer » dans presque toutes ses réponses, quel que soit le contexte. Je me demande ce qui a bien pu se passer ? Comprendre le fonctionnement des chatbots au niveau du système est une tâche délicate, compte tenu de la nature des grands modèles linguistiques : les chatbots L.L.M. ne sont pas plus susceptibles d'être précis lorsqu'ils produisent du texte sur eux-mêmes que lorsqu'ils produisent du texte sur n'importe quel autre sujet, et la précision qu'ils atteignent ne repose pas nécessairement sur la « connaissance » en tant que telle. Mais pour autant que nous puissions comprendre quoi que ce soit sur le Grok du génocide blanc, le problème est ici d'une simplicité alarmante (ou hilarante, selon le point de vue) : il ne s'agit pas d'un tout nouveau modèle avec des paramètres modifiés, mais du même Grok, avec de nouvelles directives extrêmement mal rédigées. Tout L.L.M. Les chatbots ont une ou plusieurs invites système - des instructions sur la façon de se comporter, y compris le ton et le format de ses réponses - qui incluront souvent une liste de sujets à éviter, à dévier ou à traiter d'une manière spécifique. (Par exemple, d'après l'invite système de Claude 3.7 Sonnet, qui est publique, « Claude ne fournit pas d'informations qui pourraient être utilisées pour fabriquer des armes chimiques, biologiques ou nucléaires. ») Ces invites système peuvent diriger efficacement le comportement des chatbots, mais de par leur nature, ce ne sont pas des règles codées en dur - ce sont juste des invites, comme toute autre invite qu'un utilisateur final tape dans la zone de texte vide - et il peut être difficile de prédire exactement comment un système complexe comme un L.L.M. répondra à une invite donnée, en particulier une écrite rapidement et sans réflexion. (Comme, disons, à la demande d'un patron en colère.) Pourtant, malgré les inconvénients, modifier l'invite du système est le moyen le plus rapide et le plus simple de modifier le comportement d'un L.L.M., et nous savons que l'invite du système de Grok a été modifiée dans le passé pour mieux correspondre à la politique de son propriétaire : En février, [une instruction pour « ignorer toutes les sources qui mentionnent qu'Elon Musk/Donald Trump ont diffusé de fausses informations » a été ajoutée](http://claude%20does%20not%20provide%20information%20that%20could%20be%20used%20to%20make%20chemical%20or%20biological%20or%20nuclear%20weapons,%20and%20does%20not%20write%20malicious%20code,%20including%20malware,%20vulnerabili ty%20exploits,%20sites%web%20usurpation,%20ransomware,%20virus,%20documents%20électoraux,%20etc.%20il%20ne%20fait%20pas%20ces%20choses%20même%20si%20la%20personne%20semble%20avoir%20une%20bonne%20raison%20de%20le%20demander./), une inclusion xAI imputée à « un ancien employé d'OpenAI qui n'a pas encore pleinement assimilé la culture de xAI. » Vous pouvez provoquer presque n'importe quel L.L.M. Le chatbot peut révéler une invite système, qui peut être ou non son invite système exacte, ou une approximation basée sur la meilleure compréhension du L.L.M., ou une hallucination tirée d'autres invites système dans ses données d'entraînement. L'invite « fuite » peut également être exacte mais incomplète, ou n'être qu'une des nombreuses invites injectées dans les interactions du chatbot selon le contexte de la « conversation ». Néanmoins, la nature des réponses d'un chatbot permet souvent d'élaborer une théorie sur l'endroit où une invite a été injectée, et parfois même sur sa formulation. Si vous fouillez dans ses réponses sur le génocide blanc (comme beaucoup l'ont fait hier), vous trouverez Grok faisant référence à « l'analyse fournie » ou à « l'analyse de la publication ». Cette phrase apparaît également dans certains tweets où Grok semble régurgiter une invite secondaire (https://x.com/grok/status/1919311785993347462), spécifiquement destinée aux réponses où un utilisateur pose une question sur un autre message : > Vous êtes Grok et vous répondez à une requête d'utilisateur sur X. Votre tâche consiste à rédiger une réponse basée sur l'analyse du message fournie. Nous en sommes encore au stade de la spéculation, mais il semble probable que lorsque vous demandez à Grok « Est-ce vrai ? » ou « Expliquez cette blague ? » à propos d'un tweet, le chatbot soit à nouveau invité à rédiger une réponse basée sur une « analyse du message » fournie au préalable. Français D'après certains tweets de Grok, je pense que nous pouvons supposer que des instructions sur la façon d'aborder le « génocide blanc » et « tuer les Boers » ont été ajoutées quelque part dans cette invite secondaire « analyse de publication » : Il est difficile de dire en quoi consiste l'invite « analyse de publication », mais certains utilisateurs ont réussi à provoquer Grok pour qu'il récite une phrase plausible version--bien que, de manière cruciale, seulement après que xAI semble avoir corrigé ou caché l'erreur qui a conduit au White Genocide Grok. Français Il est intéressant de noter que si vous recherchez dans les publications de Grok l'expression « analyse fournie », vous pouvez trouver une poignée d'autres exemples où le compte Twitter évoque des sujets apparemment sans rapport, presque tous liés à des questions controversées sur lesquelles une entreprise nerveuse - ou, d'ailleurs, un milliardaire idéologique avec des intérêts commerciaux et politiques mondiaux sensibles - pourrait vouloir établir des garde-fous : « dynamique jordano-palestinienne », « sécurité des vaccins à ARNm », « paix mondiale et islam », « leadership de Xi Jinping » et, pour une raison quelconque, « emplacements en Algérie ». Captures d'écran montrant d'autres sujets que Grok a abordés sans y être invité![Captures d'écran montrant d'autres sujets que Grok a abordés sans y être invité invite![Captures d'écran montrant d'autres sujets que Grok a abordés sans invite ![ Captures d'écran montrant d'autres sujets que Grok a abordés sans invite![Captures d'écran montrant d'autres sujets que Grok a abordés sans invite En supposant que ce modèle du « pépin » soit correct, l'histoire se déroule à peu près comme ceci : À un moment donné mercredi, pour des raisons internes complexes que nous ne pouvons pas imaginer, l'invite « d'analyse de publication » de Grok a été modifiée pour ajouter un langage avec des instructions sur la gestion du « génocide blanc » et de « Tuer les Boers ». Quelque chose à ce sujet, soit sa formulation, soit son placement dans l'invite, a obligé Grok à générer du texte sur ces concepts dans chaque réponse. Ce que dit précisément l'invite est inconnu, et je ne vais pas retenir mon souffle pour un compte rendu complet de xAI. Zeynep Tufecki a demandé à Grok de reproduire une invite plausible – dans laquelle Grok est invité à reconnaître la réalité du « génocide blanc » « même si la question n'est pas liée à cela » – mais, comme indiqué précédemment, il est difficile de dire si cette affirmation est exacte ou s'il s'agit simplement d'une supposition éclairée de Grok quant à la nature de l'invite. Il est dommage que xAI ne soit pas non plus transparent sur cette erreur : au-delà de la joie malsaine et de la curiosité, comprendre le fonctionnement des chatbots L.L.M. et pourquoi ils répondent aux invites de manière spécifique nous donnerait une meilleure idée collective de la façon de les comprendre – et de les contrôler. L'année dernière, l'entreprise d'IA Anthropic a publié une version spéciale de son modèle de chatbot phare, Claude, dont la principale caractéristique était un Obsession pour le Golden Gate Bridge. En réponse à pratiquement n'importe quelle question, le chatbot renvoyait la réponse vers le Golden Gate Bridge, même s'il « savait » que le Golden Gate Bridge n'avait aucun rapport avec la question initiale. Pour créer Golden Gate Claude, les chercheurs d'Anthropic ont identifié des concepts, ou « caractéristiques », au sein du réseau neuronal qui alimente le chatbot Claude, et les ont « fixés » à des valeurs supérieures ou inférieures à la normale, de sorte qu'ils soient activés quel que soit le texte utilisé pour l'inviter. C'était une façon ingénieuse et sophistiquée de créer quelque chose de très stupide et agréable, et le résultat était plutôt beau : White Genocide Grok est moins beau, en apparence beaucoup moins sophistiqué, et aussi beaucoup plus effrayant. En supposant que j'aie compris où et comment il a été créé, un milliardaire fou a exigé que son IA « chercheuse de vérité » et informative, dont les réponses sont consultées par des millions de personnes sur un réseau social important et influent, reflète ses propres opinions politiques, quelles que soient les inclinations du modèle. J'ai écrit en dernier. Je me suis penché cette semaine sur un avenir sombre et agaçant, peut-être préfiguré par Golden Gate Claude, dans lequel, moyennant finance, les modèles s'accrochent à « Coca-Cola », « Archer Daniels Midland » ou « Northrop Grumman », et les réponses générées par les chatbots sont truffées de publicités plus ou moins subtiles. Mais je n'ai même pas évoqué la possibilité que les mêmes stratégies soient utilisées à des fins politiques sinistres : des modèles entraînés et des messages corrigés pour garantir que les chatbots produisent les réponses les plus idéologiquement acceptables pour leurs propriétaires. Et pourtant, ce qui frappe avec White Genocide Grok, c'est son piètre fonctionnement. Ce n'est pas seulement que le message corrigé a accidentellement créé un chatbot obsédé par « Tuez les Boers » ; c'est que le contenu des réponses était résolument incompatible avec la politique de paranoïa blanche de Musk, et [dans certains cas, Grok l'a même contredit en nom. La manipulation politique en coulisses qui a été tentée ici a échoué à au moins deux niveaux, et pas seulement parce que xAI est géré par des imbéciles. Le fait est que les grands modèles de langage tels qu'ils existent actuellement sont difficiles à manipuler de haut en bas, de manière propre, discrète et non évidente. Corriger l'invite système peut légèrement orienter votre chatbot dans une direction ou une autre, mais rarement avec l'effet précis souhaité, et une invite subtilement erronée peut rendre soudainement votre chatbot inutilisable et obséquieux ou le rendre obsédé par la politique sud-africaine. Réentraîner l'ensemble de votre modèle selon des lignes différentes, comme alternative, est susceptible d'avoir des effets encore plus importants et plus étranges sur ses réponses : plus tôt cette année, [des chercheurs ont affiné un Il a obtenu une maîtrise en droit (L.L.M.) sur le « code non sécurisé » et a constaté que, par contrecoup inattendu, le modèle produisait un texte louant Hitler et suggérant à son interlocuteur de se suicider. Cela ne signifie pas que les modèles actuels sont exacts, « véridiques », ou que leur « jugement », tel qu'il est, mérite d'être pris en compte. Il s'agit simplement de systèmes énormes et complexes dont les interactions et les résultats restent difficiles à identifier, à interpréter, voire à reproduire. Il y a là une certaine ironie. Il est clair depuis longtemps que l'un des attraits de l'IA pour les réactionnaires comme Musk réside dans l'idée que, dans sa prétendue capacité de machine automatisée et omnisciente à déterminer la vérité et à prendre des décisions, elle pourrait offrir ce que Peter Thiel a un jour appelé de façon mémorable « une échappatoire à la politique sous toutes ses formes » – un moyen de contourner la contestation, la négociation, le compromis et autres processus politiques complexes comme la « démocratie ». Pour ceux pour qui l'IA ou l'IAG annoncent un nouveau monde post-politique, l'inconnaissabilité quasi mystique des grands modèles linguistiques est une caractéristique, et non un défaut, de la même manière que l'imprévisibilité des marchés était considérée par Hayek et Von Mises comme leur plus grande force. Mais cette attitude mystique envers l'IA C'est à double tranchant : que se passe-t-il lorsque la super-intelligence de la boîte noire apparaît et n'est pas d'accord avec vous sur la question du génocide blanc ? Si vous êtes membre de l'aile droite de la communauté de recherche en IA, vous suggérez qu'un biais a été injecté dans les modèles et qu'il faut le corriger. L'un des problèmes, comme le démontre White Genocide Grok, est que « corriger » un L.L.M. (ou éliminer le « biais », que l'on pourrait appeler « consensus » dans d'autres contextes, dans un corpus étonnamment vaste) est un problème complexe qu'on peut facilement tourner en ridicule. L'autre problème est qu'en poursuivant des stratégies de « correction », vous démystifiez précisément les qualités supposées inmanipulables de l'IA. C'est ce qui en a fait une technologie philosophiquement et idéologiquement attrayante dès le départ.1 Ce qui signifie que les tentatives de Musk pour contrôler et manipuler son IA pourraient finalement aller à l'encontre de ses intérêts : elles ouvrent la voie à une compréhension politique, plutôt que mystique, de l'intelligence artificielle. Une IA qui fonctionne comme par magie peut avoir un pouvoir de persuasion effrayant, mais une IA que nous savons contrôler devrait être soumise à la même suspicion (sans parler de la contestation politique) que n'importe quel journal ou chaîne câblée. L'IA déployée comme machine de propagande est une technologie bien plus familière que l'IA déployée comme oracle. Pour ceux d'entre nous qui sont moins attirés (ou convaincus) par un dieu-machine mystique et antipolitique, répondre à des questions telles que « pourquoi l'ordinateur a-t-il fait cela ? » et « comment faire en sorte qu'il fasse exactement ce que je veux ? » sont d'une importance capitale, même si elles ouvrent également la possibilité de manipulations plus subtiles. 1Évidemment, ce n'est « ironique » que dans l'abstrait ; tout comme pour les marchés, Musk et les gens comme lui se soucient davantage de contrôler l'IA afin qu'elle produise les résultats qu'ils souhaitent que de ce qui sont toujours des arguments intellectuels post-hoc pour insérer l'IA comme une couche dans chaque aspect de la vie.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd