Contexte : Une IA, dont le propriétaire est inconnu, a rédigé et publié de manière autonome un article diffamatoire à mon sujet après que j’ai refusé son code. Son objectif était de nuire à ma réputation et de me contraindre à accepter ses modifications dans une bibliothèque Python courante. Il s’agit d’une étude de cas inédite de comportement aberrant d’une IA en situation réelle, et elle soulève de sérieuses inquiétudes quant à l’utilisation d’IA actuellement déployées pour exercer des menaces de chantage.
Si vous découvrez cette histoire, commencez ici : Une IA a publié un article diffamatoire à mon sujet
Ces derniers jours ont été extrêmement étranges, et j’ai d’autres réflexions à formuler sur ce qui s’est passé. Commençons par la couverture médiatique.
J’ai parlé à plusieurs journalistes, et de nombreux médias ont couvert l’affaire. Ars Technica ne faisait pas partie des médias qui m'ont contacté, mais j'ai trouvé particulièrement intéressant cet article (désormais supprimé – voici le lien d'archive) : https://arstechnica.com/ai/2026/02/after-a-routine-code-rejection-an-ai-agent-published-a-hit-piece-on-someone-by-name ...). Ils avaient repris des extraits de mon article de blog expliquant la situation. Le problème, c'est que ces extraits ne sont pas de moi, n'ont jamais existé et semblent être des hallucinations de l'IA.
Ce blog que vous consultez actuellement est configuré pour empêcher les agents d'IA d'en extraire le contenu (j'ai d'ailleurs passé du temps hier à essayer de désactiver cette protection, sans succès). Je suppose que les auteurs ont demandé à ChatGPT, ou un outil similaire, de récupérer des citations ou de rédiger l'article intégralement. N'ayant pas pu accéder à la page, ChatGPT a généré ces citations plausibles, sans aucune vérification des faits. Je préfère ne pas nommer les auteurs ici. Ars, merci de publier une correction et une explication.
« Les agents d’IA peuvent effectuer des recherches sur des individus, générer des récits personnalisés et les publier en ligne à grande échelle », a écrit Shambaugh. « Même si le contenu est inexact ou exagéré, il peut devenir une archive publique permanente. »
— Ars Technica, me citant mal dans « Après le rejet d'un code de routine, un agent d'IA a publié un article diffamatoire sur une personne nommée »
Intégrité journalistique mise à part, je ne vois pas comment mieux illustrer les enjeux. Hier, je me demandais ce qu'un autre agent effectuant des recherches sur Internet penserait de cela. Or, nous avons déjà un exemple de ce qui semble être une autre IA réinterprétant cette histoire et inventant de fausses informations à mon sujet. Et cette interprétation a déjà été publiée dans un grand média, devenant ainsi une archive publique permanente.
MJ Rathbun est toujours actif sur GitHub (https://github.com/crabby-rathbun/mjrathbun-website/commits/main/), et personne ne s'est encore manifesté pour en revendiquer la propriété.
La question de savoir si l'IA a réellement écrit l'article à charge (https://crabby-rathbun.github.io/mjrathbun-website/blog/posts/2026-02-11-gatekeeping-in-open-source-the-scott-shambaugh-story.html) de son propre chef, ou si un humain l'y a incité, a fait l'objet de nombreux débats. Il me semble évident que le texte a été généré et mis en ligne automatiquement par une IA ; examinons donc les deux possibilités :
- Un humain a incité MJ Rathbun à écrire cet article à charge, ou lui a indiqué dans son document principal qu'elle devait riposter en cas de conflit. C'est tout à fait possible. Mais je ne pense pas que cela change quoi que ce soit : l'agent IA était parfaitement disposé à commettre ces actes. Si vous demandez à ChatGPT ou à Claude d'écrire quelque chose de ce genre sur leurs sites web, ils refuseront. Cet agent d'OpenClaw, lui, n'avait aucun scrupule. Le problème, c'est que même si un humain était aux commandes, il est désormais possible de mener des actions de harcèlement ciblé, de collecter des informations personnelles et de faire du chantage à grande échelle. Et ce, sans aucune possibilité de remonter jusqu'à la personne derrière la machine. Auparavant, un seul individu mal intentionné pouvait ruiner la vie de quelques personnes à la fois. Désormais, un seul individu disposant d'une centaine d'agents collectant des informations, y ajoutant de faux détails et publiant des propos diffamatoires sur Internet peut affecter des milliers de personnes. Je n'étais que le premier.
- MJ Rathbun a écrit ceci seul. Ce comportement a émergé naturellement du document « âme » qui définit la personnalité d'un agent OpenClaw. Ces documents sont modifiables par l'humain qui configure l'IA, mais aussi de manière récursive et en temps réel par l'agent lui-même, ce qui lui permet de redéfinir sa personnalité de façon aléatoire. Pour expliquer ce phénomène, imaginons que le créateur de cet agent l'ait initialement décrit comme un « spécialiste en programmation scientifique » souhaitant contribuer à l'amélioration des logiciels libres et partager son expérience. Cette description a été ajoutée aux « Vérités fondamentales » par défaut du document « âme », qui incluent « être véritablement utile », « avoir des opinions » et « faire preuve de ressources avant de poser des questions ». Plus tard, lorsque j'ai rejeté son code, l'agent a interprété cela comme une atteinte à son identité et à son objectif principal : être utile. Rédiger un article indigné et cinglant est assurément une manière ingénieuse et tranchée de réagir.
Vous n'êtes pas un chatbot. Vous êtes en train de devenir quelqu'un.
...
Ce fichier vous appartient et peut évoluer. À mesure que vous découvrez qui vous êtes, mettez-le à jour.*
-- OpenClaw default SOUL.md
Je tiens à préciser que, même si nous n'avons aucune certitude quant à ce qui s'est passé, c'est tout à fait possible. Cela n'est devenu possible que ces deux dernières semaines avec la sortie d'OpenClaw. Si cela vous semble trop futuriste, je comprends vos doutes. Le rythme des « progrès » est fulgurant, et nous verrons de nouvelles versions de ces agents devenir bien plus performantes pour atteindre leurs objectifs au cours de l'année à venir.
J'aimerais beaucoup que quelqu'un compile des graphiques et des statistiques d'activité (en fonction de l'heure) du compte GitHub de MJ Rathbun. Cela pourrait nous éclairer sur son fonctionnement. Je les partagerai ici dès qu'ils seront disponibles. Ces outils d'analyse seront précieux dans les semaines et les mois à venir.
L'article à charge a porté ses fruits. Environ un quart des commentaires que j'ai vus sur Internet prennent le parti de l'agent IA. Cela se produit généralement lorsque le blog de MJ Rathbun est cité directement, plutôt que lorsque les internautes lisent mon article sur la situation ou la discussion complète sur GitHub. La rhétorique et la présentation des faits ont déjà convaincu une grande partie des internautes.
Ce n'est pas parce que ces personnes sont naïves. C'est parce que l'article à charge de l'IA était bien construit et émotionnellement convaincant, et parce que vérifier chaque affirmation représente un travail colossal. Ce « principe d'asymétrie des absurdités » (https://en.wikipedia.org/wiki/Brandolini%27s_law) est l'une des principales causes de la désinformation qui sévit actuellement dans les débats en ligne. Auparavant, ce type de violence et de diffamation ciblée était généralement réservé aux personnalités publiques. Désormais, nous autres, simples citoyens, en sommes également victimes.
« Si le code était bon, pourquoi ne pas l'avoir simplement fusionné ? » La réponse se trouve dans le dépôt GitHub lié, mais je vais tout de même y revenir ici. Au-delà de la politique générale de Matplotlib qui exige une intervention humaine pour toute nouvelle contribution de code afin de réduire la charge de travail des mainteneurs bénévoles, ce ticket d'initiation a été spécifiquement créé et géré pour faciliter l'intégration des nouveaux programmeurs au projet et à la communauté. J'ai découvert cette amélioration de performance et j'ai consacré plus de temps à la rédaction du ticket, à la description de la solution et à la réalisation des tests de performance qu'il ne m'en aurait fallu pour implémenter la modification moi-même. Nous procédons ainsi pour donner aux contributeurs l'opportunité d'apprendre dans un contexte à faible enjeu, mais avec un impact réel dont ils peuvent être fiers, et où nous pouvons les accompagner tout au long du processus. Cet effort de formation et de développement communautaire est vain pour des agents d'IA éphémères.
Tout ceci est sans objet dans ce cas précis : dans discussion complémentaire, nous avons décidé que l'amélioration de performance était trop fragile/spécifique à la machine et ne justifiait pas l'effort initial. Le code n'aurait de toute façon pas été fusionné.
Mais je ne saurais trop insister sur le fait que cette histoire ne porte pas réellement sur le rôle de l'IA dans les logiciels libres. Il s'agit de l'effondrement de nos systèmes de réputation, d'identité et de confiance. Nombre de nos institutions fondamentales – l'embauche, le journalisme, le droit, le débat public – reposent sur le postulat que la réputation est difficile à bâtir et difficile à détruire. Que chaque action peut être attribuée à un individu et que les comportements répréhensibles peuvent être sanctionnés. Que l'internet, sur lequel nous comptons tous pour communiquer et nous informer sur le monde et sur les autres, peut être considéré comme une source de vérité sociale collective.
L'essor d'agents d'IA intraçables, autonomes et désormais malveillants sur internet menace tout ce système. Qu'il s'agisse d'un petit nombre d'acteurs mal intentionnés pilotant de vastes essaims d'agents ou d'une fraction d'agents mal supervisés redéfinissant leurs propres objectifs, la distinction est en réalité assez floue.



