Report 5035

Le développeur de logiciels Xe Iaso a atteint un point de rupture plus tôt cette année lorsqu'un trafic agressif de robots d'exploration IA d'Amazon a submergé son service de dépôt Git, provoquant instabilité et interruptions de service à répétition. Malgré la mise en place de mesures défensives standard (ajustement du fichier robots.txt, blocage des agents utilisateurs connus des robots d'exploration et filtrage du trafic suspect), Iaso a constaté que les robots d'exploration IA continuaient d'échapper à toute tentative de les arrêter, usurpant les agents utilisateurs et utilisant des adresses IP résidentielles comme proxys.

En quête désespérée d'une solution, Iaso a finalement décidé de déplacer son serveur derrière un VPN et de créer « Anubis », un système de test de preuve de travail personnalisé qui oblige les navigateurs web à résoudre des énigmes informatiques avant d'accéder au site. « Il est vain de bloquer les robots d'exploration IA, car ils mentent, modifient leur agent utilisateur, utilisent des adresses IP résidentielles comme proxy, et bien plus encore », a écrit Iaso dans un billet de blog intitulé « Un appel à l'aide désespéré ». « Je ne veux pas devoir fermer mon serveur Gitea au public, mais je le ferai si nécessaire. »

L'histoire d'Iaso met en lumière une crise plus vaste qui se propage rapidement au sein de la communauté open source, car des robots d'exploration IA apparemment agressifs surchargent de plus en plus l'infrastructure gérée par la communauté, provoquant ce qui s'apparente à des attaques par déni de service distribué (DDoS) persistantes contre des ressources publiques vitales. Selon un rapport récent et complet de LibreNews, certains projets open source voient désormais jusqu'à 97 % de leur trafic provenir des robots des entreprises d'IA, ce qui augmente considérablement les coûts de bande passante, l'instabilité des services et surcharge les mainteneurs déjà surchargés.

Kevin Fenzi, membre de l'équipe d'administration système du projet Fedora Pagure, a rapporté sur son blog que le projet avait dû bloquer tout le trafic en provenance du Brésil après l'échec de plusieurs tentatives pour limiter le trafic des robots. GNOME GitLab a implémenté le système « Anubis » d'Iaso, obligeant les navigateurs à résoudre des énigmes informatiques avant d'accéder au contenu. Bart Piotrowski, administrateur système de GNOME partagé sur Mastodon, a indiqué que seulement 3,2 % des requêtes (2 690 sur 84 056) ont réussi leur test, ce qui suggère que la grande majorité du trafic était automatisée. L'infrastructure GitLab de KDE a été temporairement mise hors ligne par le trafic des robots d'exploration provenant des plages d'adresses IP d'Alibaba, selon LibreNews, citant une discussion de KDE Development.

Si Anubis s'est avéré efficace pour filtrer le trafic des robots, il présente des inconvénients pour les utilisateurs légitimes. Lorsque plusieurs personnes accèdent simultanément au même lien, par exemple lorsqu'un lien GitLab est partagé dans une salle de discussion, les visiteurs du site peuvent subir des retards importants. Certains utilisateurs mobiles ont signalé avoir attendu jusqu'à deux minutes pour que le test de preuve de travail soit terminé, selon le média.

La situation n'est pas vraiment nouvelle. En décembre, Dennis Schubert, responsable de l'infrastructure du réseau social Diaspora, a décrit la situation comme une véritable attaque DDoS sur Internet après avoir découvert que les entreprises d'IA étaient responsables de 70 % des requêtes web adressées à leurs services.

Les coûts sont à la fois techniques et financiers. Le projet Read the Docs a indiqué que le blocage des robots d'exploration IA a immédiatement réduit son trafic de 75 %, passant de 800 Go à 200 Go par jour. Ce changement a permis au projet d'économiser environ 1 500 $ par mois en bande passante, selon leur article de blog « Les robots d'exploration IA doivent être plus respectueux ».

Un fardeau disproportionné pour l'open source

Cette situation représente un défi de taille pour les projets open source, qui s'appuient sur la collaboration publique et fonctionnent généralement avec des ressources limitées par rapport aux entités commerciales. De nombreux responsables ont signalé que les robots d'exploration IA contournent délibérément les mesures de blocage standard, ignorant les directives robots.txt, usurpant les agents utilisateurs et changeant les adresses IP pour éviter d'être détectés.

Comme l'a rapporté LibreNews, Martin Owens, du projet Inkscape, a indiqué sur Mastodon que leurs problèmes ne provenaient pas seulement de « l'attaque DDoS chinoise habituelle de l'année dernière, mais d'un tas d'entreprises qui ont commencé à ignorer notre configuration de robot d'exploration et à usurper les informations de leur navigateur. » Owens a ajouté : « J'ai maintenant une liste de blocage prodigieuse. Si vous travaillez pour une grande entreprise spécialisée dans l'IA, vous risquez de ne plus avoir accès à notre site web. » Sur Hacker News, les commentateurs des fils de discussion concernant le billet de LibreNews de la semaine dernière et d'un article sur les combats d'Iaso de janvier ont exprimé leur profonde frustration face à ce qu'ils considèrent comme un comportement prédateur des entreprises d'IA envers les infrastructures open source. Bien que ces commentaires proviennent de messages de forum plutôt que de déclarations officielles, ils reflètent un sentiment commun parmi les développeurs.

Comme l'a exprimé un utilisateur de Hacker News [https://news.ycombinator.com/item?id=43422792], les entreprises d'IA partent du principe que « la bonne volonté n'a aucune importance » avec leurs « 100 milliards de dollars de capital ». Les discussions illustrent une bataille entre de petites startups d'IA ayant collaboré avec des projets concernés et de grandes entreprises restées inactives malgré des coûts de bande passante supposés s'élever à des milliers de dollars pour les mainteneurs de projets open source.

Au-delà de la consommation de bande passante, les robots d'exploration atteignent souvent des points de terminaison coûteux, comme les pages de blâme et de journal Git, ce qui exerce une pression supplémentaire sur des ressources déjà limitées. Drew DeVault, fondateur de SourceHut, a rapporté sur son blog que les robots d'exploration accèdent à « chaque page de chaque journal Git et à chaque commit de votre dépôt », ce qui rend les attaques particulièrement contraignantes pour les dépôts de code.

Le problème va au-delà de la simple contrainte sur l'infrastructure. Comme le souligne LibreNews, certains projets open source ont commencé à recevoir des rapports de bugs générés par l'IA dès décembre 2023, signalés pour la première fois par Daniel Stenberg du projet Curl sur son blog dans un article de janvier 2024. Ces rapports semblent légitimes à première vue, mais contiennent des vulnérabilités fabriquées de toutes pièces, faisant perdre un temps précieux aux développeurs.

Qui est responsable et pourquoi agissent-ils ainsi ?

Les entreprises d'IA ont l'habitude de prendre sans demander. Avant que l'essor des générateurs d'images IA et de ChatGPT n'attire l'attention sur cette pratique en 2022, le domaine de l'apprentissage automatique compilait régulièrement des ensembles de données sans se soucier de la propriété.

Si de nombreuses entreprises d'IA pratiquent l'exploration web, les sources suggèrent des niveaux de responsabilité et d'impact variables. L'analyse des journaux de trafic de Diaspora par Dennis Schubert (https://pod.geraspora.de/posts/17342163) a montré qu'environ un quart de son trafic web provenait de robots utilisant un agent utilisateur OpenAI, contre 15 % pour Amazon et 4,3 % pour Anthropic.

Le comportement des robots suggère différentes motivations possibles. Certains pourraient collecter des données d'entraînement pour créer ou affiner de grands modèles linguistiques, tandis que d'autres pourraient effectuer des recherches en temps réel lorsque les utilisateurs demandent des informations aux assistants IA.

La fréquence de ces explorations est particulièrement révélatrice. Schubert a observé que les robots IA « ne se contentent pas d'explorer une page une fois pour passer à autre chose. Oh non, ils reviennent toutes les 6 heures, pourquoi pas ? » Ce schéma suggère une collecte de données continue plutôt que des exercices d'entraînement ponctuels, ce qui pourrait indiquer que les entreprises utilisent ces explorations pour maintenir à jour les connaissances de leurs modèles.

Certaines entreprises semblent plus dynamiques que d'autres. L'équipe d'administration système de KDE a signalé que des robots d'exploration provenant des plages d'adresses IP d'Alibaba étaient responsables de la mise hors ligne temporaire de leur GitLab. Les problèmes d'Iaso provenaient quant à eux du robot d'exploration d'Amazon. Un membre de l'équipe d'administration système de KDE a déclaré à LibreNews que les opérateurs LLM occidentaux comme OpenAI et Anthropic définissaient au moins des chaînes d'agent utilisateur appropriées (ce qui permet théoriquement aux sites web de les bloquer) (https://arstechnica.com/information-technology/2023/08/openai-details-how-to-keep-chatgpt-from-gobbling-up-website-data/)), tandis que certaines entreprises chinoises d'IA auraient adopté des approches plus trompeuses.

On ignore encore pourquoi ces entreprises n'adoptent pas des approches plus collaboratives et, au minimum, ne limitent pas leurs collectes de données afin de ne pas surcharger les sites web sources. Amazon, OpenAI, Anthropic et Meta n'ont pas immédiatement répondu aux demandes de commentaires, mais nous mettrons à jour cet article s'ils répondent.

Puits de goudron et labyrinthes : la résistance grandissante

En réponse à ces attaques, de nouveaux outils défensifs ont émergé pour protéger les sites web des robots d'exploration IA indésirables. Comme Ars l'a rapporté en janvier, un créateur anonyme, identifié uniquement par le nom d'« Aaron », a conçu un outil appelé « Nepenthes » pour piéger les robots d'exploration dans des labyrinthes sans fin de faux contenus. Aaron le décrit explicitement comme un « programme malveillant agressif » destiné à gaspiller les ressources des entreprises d'IA et potentiellement à empoisonner leurs données d'entraînement.

« Chaque fois qu'un de ces robots d'exploration extrait mon puits de goudron, il consomme des ressources et devra les payer comptant », a expliqué Aaron à Ars. « Cela augmente leurs coûts. Et comme aucun d'entre eux n'a encore réalisé de bénéfices, c'est un gros problème pour eux. »

Vendredi, Cloudflare a annoncé [https://arstechnica.com/ai/2025/03/cloudflare-turns-ai-against-itself-with-endless-maze-of-irrelevant-facts/] « AI Labyrinth », une approche similaire, mais plus aboutie sur le plan commercial. Contrairement à Nepenthes, conçu comme une arme offensive contre les entreprises d'IA, Cloudflare positionne son outil comme une fonctionnalité de sécurité légitime pour protéger les propriétaires de sites web contre le scraping non autorisé, comme nous l'avions signalé à l'époque.

« Lorsque nous détectons une exploration non autorisée, plutôt que de bloquer la requête, nous créons un lien vers une série de pages générées par l'IA, suffisamment convaincantes pour inciter un robot à les parcourir », expliquait Cloudflare dans son annonce. L'entreprise a indiqué que les robots d'exploration IA génèrent plus de 50 milliards de requêtes par jour sur son réseau, soit près de 1 % du trafic web qu'ils traitent.

La communauté développe également des outils collaboratifs pour se protéger contre ces robots. Le projet « ai.robots.txt » propose une liste ouverte de robots d'exploration web associés à des entreprises d'IA et fournit des fichiers robots.txt préconçus qui implémentent le protocole d'exclusion des robots, ainsi que des fichiers .htaccess qui renvoient des pages d'erreur lors de la détection de requêtes de robots d'exploration IA.

À l'heure actuelle, la croissance rapide des espaces en ligne de contenu généré par l'IA écrasante et les pratiques agressives d'exploration web des entreprises d'IA menacent la pérennité des ressources en ligne essentielles. L'approche actuelle adoptée par certaines grandes entreprises d'IA – extraire d'énormes quantités de données issues de projets open source sans consentement explicite ni compensation – risque de gravement endommager l'écosystème numérique dont dépendent ces modèles d'IA.

Une collecte responsable des données pourrait être réalisable si les entreprises d'IA collaboraient directement avec les communautés concernées. Cependant, les principaux acteurs du secteur se sont montrés peu enclins à adopter des pratiques plus coopératives. Sans réglementation significative ni autodiscipline de la part des entreprises d'IA, la course aux armements entre les robots avides de données et ceux qui tentent de défendre les infrastructures open source risque de s'intensifier, aggravant potentiellement la crise de l'écosystème numérique qui sous-tend l'Internet moderne.

Problème 5035

Incidents associés

Incident 10012 Rapports
LLM Scrapers Allegedly Target Multiple Open Source Projects Disrupting the FOSS Ecosystem

Les développeurs open source affirment que les robots d'exploration de l'IA dominent le trafic, forçant le blocage de pays entiers

Un fardeau disproportionné pour l'open source

Qui est responsable et pourquoi agissent-ils ainsi ?

Puits de goudron et labyrinthes : la résistance grandissante

Problème 5035

Incidents associés

Incident 10012 RapportsLLM Scrapers Allegedly Target Multiple Open Source Projects Disrupting the FOSS Ecosystem

Les développeurs open source affirment que les robots d'exploration de l'IA dominent le trafic, forçant le blocage de pays entiers

Un fardeau disproportionné pour l'open source

Qui est responsable et pourquoi agissent-ils ainsi ?

Puits de goudron et labyrinthes : la résistance grandissante

Incident 10012 Rapports
LLM Scrapers Allegedly Target Multiple Open Source Projects Disrupting the FOSS Ecosystem