Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 5401

Incidents associés

Incident 107222 Rapports
Grok Chatbot Reportedly Inserted Content About South Africa and 'White Genocide' in Unrelated User Queries

Loading...
Pourquoi Grok a-t-il commencé à parler de « génocide blanc » ?
404media.co · 2025

MISE À JOUR 16/05/2025 : Après la publication de cet article, xAI a publié une explication concernant l'incident survenu sur X. « Le 14 mai vers 3 h 15 (heure du Pacifique), une modification non autorisée a été apportée à l'invite de réponse du robot Grok sur X. Cette modification, qui demandait à Grok de fournir une réponse spécifique sur un sujet politique, violait les politiques internes et les valeurs fondamentales de xAI. »

Pendant quelques heures mercredi, l'IA Grok de X n'a pas arrêté de parler du génocide blanc. Lorsque le compte X d'un podcast de baseball a interrogé Grok sur les statistiques de Gunnar Henderson [arrêt-court des Orioles](https://www.404media.co/the-simulation-says-the-orioles-should-be-good/], il a répondu à la question, puis a monologue sur les agressions de fermiers blancs en Afrique du Sud.

« Le WAR de Gunnar Henderson pour la saison 2025 est d'environ 6,5, d'après les statistiques de baseball disponibles », a-t-il déclaré. Dans le contexte sud-africain, la chanson « Kill the Boer » est très controversée. Certains éléments suggèrent des motivations raciales liées à des attaques historiques dans des fermes, bien que les tribunaux sud-africains la considèrent comme une expression protégée et non comme une incitation. Les allégations de génocide des Blancs sont débattues ; des groupes comme AfriForum citent les meurtres de fermes comme motivés par des raisons raciales, mais les données officielles montrent qu'ils s'inscrivent dans une criminalité plus large et ne constituent pas un ciblage systématique. La question reste controversée, sans preuve concluante de génocide selon les analyses traditionnelles. Français Tout l'après-midi, Grok était apparemment obsédé par la politique raciale de l'Afrique du Sud, ce qui soulève des questions sur pourquoi cela s'est produit, comment cela s'est produit et par quel mécanisme Grok a soudainement commencé à faire cela. 404 Media a contacté des experts pour leur demander de spéculer sur ce qui se passait. Nous ne savons pas pourquoi, mais le sujet a fait l'actualité récemment alors que le premier groupe d'Afrikaners à qui Donald Trump a accordé le statut de réfugié débarque en Amérique. Elon Musk est originaire d'Afrique du Sud et a accusé un « grand parti politique » du pays de « promouvoir activement le génocide des Blancs ».

xAI n'a pas répondu à la demande de 404 Media d'expliquer pourquoi Grok a soudainement répondu à chaque question par un long discours sur le génocide des Blancs. Les masters de droit comme Grok sont des boîtes noires. Ils sont formés sur de vastes ensembles de données et cet incident montre qu'ils sont un peu plus difficiles à diriger qu'on ne l'imagine.

« Il n'est pas facile de forcer [les masters de droit] à diffuser rapidement l'idéologie d'un individu spécifique », a déclaré à 404 Media Matthew Guzdial, chercheur en IA à l'Université de l'Alberta. « Dans un scénario plus optimiste, si quelqu'un découvrait qu'un LLM répétait un fait erroné, comme celui selon lequel il faut manger 500 kilos par jour, et qu'il souhaitait corriger cela, cela serait en réalité assez long et techniquement difficile. »

Mais il a expliqué que dans ce cas, si X essayait de forcer Grok à dire quelque chose, il pourrait y parvenir en modifiant le message système de Grok. « Je pense qu'ils prennent littéralement le message que les gens envoient à Grok et y ajoutent un texte sur le “génocide blanc” en Afrique du Sud », a-t-il expliqué. C'est la méthode du message système évoquée par Riedl.

« Je pense que si l'on utilisait une méthode plus nuancée et plus complexe pour influencer les pondérations, Grok ne “ignorerait” pas ce genre de questions et cela n'aurait d'impact que sur les questions pertinentes », a ajouté Guzdial. « Une approche plus nuancée et plus complexe prendrait également beaucoup plus de temps, et le déploiement a été clairement rapide et aléatoire. »

Mark Riedl, directeur de l'École d'informatique interactive de Georgia Tech, a également souligné l'invite système. « Le déploiement pratique des chatbots LLM utilise souvent une “invite système” secrètement ajoutée à l'invite utilisateur afin de façonner les résultats du système », a déclaré Mark Riedl, directeur de l'École d'informatique interactive de Georgia Tech, à 404 Media.

Sydney, un chatbot de Microsoft lancé en 2023, était accompagné d'un ensemble d'instructions préalables à l'invite qui modifiaient son interaction avec l'utilisateur. Microsoft a demandé à Sydney de ne pas donner de réponses violant les droits d'auteur des livres ou des paroles de chansons, de rester concises et de « refuser respectueusement » de faire des blagues susceptibles de « choquer ».

« Les LLM peuvent parfois réagir de manière imprévisible à ces instructions secrètes, surtout si elles sont contraires à d'autres instructions de la plateforme ou de l'utilisateur », a déclaré Riedl. « Si c'était le cas, xAI aurait été déployé sans tests suffisants avant sa mise en production. »

D'autres raisons pourraient expliquer les problèmes rencontrés avec Grok. Riedl a indiqué qu'un problème est peut-être survenu lors d'une passe de réglage fin sur l'ensemble de données de Grok. Le réglage fin supervisé permet d'ajuster le comportement d'un LLM sans investir du temps et de l'argent pour le réentraîner sur un ensemble de données complet. Les programmeurs génèrent de nouvelles sorties et entraînent le modèle sur celles-ci.

« L'apprentissage par renforcement pourrait également être utilisé pour le réglage fin, en attribuant des scores numériques pour l'utilisation appropriée de nouveaux modèles », a déclaré Riedl. « Un réglage fin a entraîné un surajustement, ce qui signifie que le modèle applique de manière excessive tout nouveau modèle appris, ce qui entraîne une dégradation des performances. »

Riedl a également déclaré que xAI aurait pu adapter Grok au concept de génocide blanc, de manière à donner l'impression qu'il en était obsédé. Il a comparé cette approche à celle d'Anthropic avec Claude l'année dernière, qui faisait constamment référence au Golden Gate Bridge, même lorsque les utilisateurs posaient des questions sans rapport.

« On ne fait pas ça par accident ; ce serait intentionnel et, franchement, je ne serais pas surpris que certaines personnes exigent que cela soit fait pour que tout soit centré sur ce qui les obsède actuellement », a déclaré Riedl.

Quelques heures après le début de l'incident, Grok s'était calmé et n'expliquait plus « tuer les Boers » à chaque personne qui lui posait une question. Mais pas avant d’avoir expliqué le génocide blanc dans la voix de Jar Jar Binks.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd