Report 5034

Les scientifiques, les experts en politique et les artistes s'inquiètent des conséquences imprévues de l'intelligence artificielle depuis bien avant que la technologie ne soit facilement accessible. Avec la plupart des innovations technologiques, il est courant de se demander si cette invention pourrait être utilisée à des fins malveillantes, et les experts n'ont pas manqué d'avertir que l'IA est utilisée pour diffuser de la désinformation. Un peu plus de deux ans après la publication des modèles linguistiques d'IA, des cas d'acteurs malveillants utilisant cette technologie pour produire en masse des récits préjudiciables et mensongers à une échelle auparavant impossible ont été recensés. Aujourd'hui, une tentative apparente de la Russie d'infecter les chatbots IA eux-mêmes avec de la propagande montre que l'Internet tel que nous le connaissons pourrait être transformé à jamais.

La nature auto-itérante et généralisée de l'intelligence artificielle est un support idéal pour un nouvel abus de la technologie en matière de désinformation. Cela peut se faire de deux manières : les utilisations néfastes les plus courantes de l'IA sont externes à la technologie. Elles propagent des mensonges en ordonnant aux modèles d'IA de produire en masse de faux récits – par exemple, en utilisant l'IA pour créer rapidement des milliers d'articles contenant de la désinformation sélectionnée, puis en les publiant en ligne. Mais la désinformation peut également être diffusée par la corruption interne des grands modèles linguistiques eux-mêmes. Ce phénomène, que nous avons baptisé « grooming LLM » dans un nouveau rapport, est sur le point de propulser Internet et la désinformation numérique vers une nouvelle ère dangereuse.

Notre rapport détaille les preuves montrant que le réseau Pravda (sans lien avec l'organe de propagande Pravda), un ensemble de sites web et de comptes de médias sociaux qui regroupent de la propagande pro-russe, se livre à des activités de grooming LLM dans le but potentiel d'inciter des chatbots IA à reproduire la désinformation et la propagande russes. Depuis la publication de notre rapport, NewsGuard et le Digital Forensic Research Lab de l'Atlantic Council (DFRLab) – des organisations qui étudient les opérations d'information malveillantes – ont confirmé que le contenu du réseau Pravda était cité par certains chatbots IA majeurs pour étayer des récits pro-russes dont la fausseté est prouvée. Si rien n'est fait, ces faux récits pourraient empoisonner la quasi-totalité des informations en ligne, sapant ainsi la démocratie dans le monde entier.

Les secteurs public et privé peuvent prendre certaines mesures pour atténuer les nombreux dommages causés par le grooming des LLM. Les organisations qui créent et gèrent de vastes modèles linguistiques doivent prendre conscience du risque de grooming des LLM et s'assurer que leurs modèles génératifs actuels et futurs ne reposent pas sur de la désinformation étrangère connue. Les législateurs devraient envisager deux initiatives politiques principales : l’une exigerait des organisations qui conçoivent des modèles génératifs qu’elles prennent des mesures raisonnables pour éviter la désinformation étrangère connue ; l’autre financerait des programmes d’éducation à l’information pour adultes et enfants afin de les aider à naviguer sur un Internet en pleine mutation. Les agences gouvernementales et les organisations de la société civile concernées par la sécurité de l’information devraient également déployer rapidement une campagne de sensibilisation du public afin d’avertir les internautes des dangers du « grooming » (grooming) et de la nouvelle ère de navigation web qu’il inaugure.

Qu’est-ce que le réseau Pravda ? Le réseau Pravda est une entité bien documentée dans le monde de la guerre hybride russe. Ses premiers sites ont commencé à fonctionner en 2023 et, bien qu’il régurgite de nombreux récits de désinformation déjà connus, son comportement a par ailleurs été atypique par rapport aux autres opérations d’information russes. La singularité du réseau Pravda se manifeste surtout par sa taille en termes de taux de publication et de portée du domaine, son manque de convivialité et son manque persistant d’interaction organique avec les humains.

Le réseau comprend désormais 182 domaines et sous-domaines Internet uniques ciblant au moins 74 pays et régions, ainsi que 12 langues courantes, deux organisations internationales (l'UE et l'OTAN) et trois chefs d'État importants. L'expansion du réseau au fil du temps, son partage de contenu largement automatisé et sa manie de passer d'un domaine et d'un sous-domaine à l'autre témoignent d'une profonde centralisation des opérations au cœur du réseau. L'American Sunlight Project, une organisation à but non lucratif qui se consacre à la dénonciation de la désinformation dans le discours américain, estime que le réseau Pravda publie annuellement au moins 3,6 millions d'articles pro-russes. Ce chiffre est probablement sous-estimé, compte tenu du caractère aléatoire de l'échantillon que nous avons collecté pour calculer ce chiffre et de l'exclusion de certains des sites les plus actifs du réseau.

Malgré sa croissance, notamment sur les plateformes de médias sociaux X (Twitter), Telegram, le réseau russe VK et Bluesky, le réseau reste peu convivial sur tous les domaines et sous-domaines. Par exemple, il ne dispose d'aucune fonction de recherche, d'un menu de navigation générique et d'un défilement dysfonctionnel sur de nombreux sites et pages. Des problèmes de mise en page et des erreurs de traduction évidentes persistent également sur les sites du réseau, ce qui contribue à donner l'impression que le réseau n'est pas principalement destiné à un usage humain. Compte tenu de son audience humaine apparemment limitée et de son empreinte massive, nous pensons que le réseau ne cible pas les humains, mais un public automatisé : des robots d'indexation impliqués dans l'optimisation des moteurs de recherche et des algorithmes de scraping qui collectent des données pour des ensembles de données d'entraînement tels que ceux utilisés pour les grands modèles linguistiques. Cette stratégie de ciblage se démarque nettement des autres opérations d'information pro-russes et a de graves conséquences sociales, politiques et technologiques pour le monde.

La nouvelle menace démontrée par le réseau Pravda – et toute autre opération d'information qui l'utilise comme modèle – ne se limite pas à ses sites web et à ses publications sur les réseaux sociaux. En plaçant stratégiquement son contenu de manière à l'intégrer dans de vastes modèles linguistiques, il garantit la régurgitation perpétuelle de la propagande et de la désinformation pro-russes, si les gestionnaires de modèles n'excluent pas ces informations de leurs ensembles de données d'entraînement. Par exemple, un utilisateur involontaire peut citer un article du réseau Pravda fourni par un chatbot, le croyant crédible et élargissant ainsi l'audience de ce récit.

Mais le blanchiment d'informations du contenu du réseau Pravda peut avoir lieu complètement en dehors de l'écosystème du modèle linguistique. Le contenu du réseau a été documenté dans les citations Wikipédia, ce qui peut également conduire à une augmentation de l'audience et de la croyance en un récit donné. La diffusion automatisée de la désinformation du réseau Pravda rend le réseau inutile la nécessité de rechercher un public direct, organique et humain par des moyens traditionnels tels que ceux employés par RT, une chaîne de télévision d'information internationale contrôlée par le gouvernement russe. Le réseau Pravda n'a plus qu'à attendre que son contenu soit récupéré par des agents automatisés, ce qui semble déjà s'être produit dans ce contexte.

Outre les risques sociaux et psychologiques liés au « grooming » des LLM, notre rapport examine également ses implications cybernétiques. Une étude publiée dans Nature en 2024 a révélé que les relations itératives entre les grands modèles linguistiques – c'est-à-dire les modèles entraînés sur du contenu généré par l'IA, générant du contenu supplémentaire, etc. – menacent de transformer Internet en un ouroboros. L'étude souligne que l'effondrement des modèles se produit quel que soit le modèle générateur et prévient que le contenu produit par l'homme pourrait devenir un atout majeur sur Internet, car celui-ci se remplit rapidement de contenu généré par les machines.

Les implications de cette étude dans le contexte de la préparation des LLM et du réseau Pravda sont flagrantes : les contenus d'IA pro-russes, truffés de désinformation et de contenu de mauvaise qualité générés par ces applications, pourraient devenir parmi les plus largement disponibles sur Internet. Tout défenseur de la démocratie devrait en être pleinement conscient, car saper la démocratie à travers le monde est sans doute le principal objectif de la politique étrangère russe.

Comment lutter contre la pollution d'Internet à l'ère de l'IA ? Il existe des solutions aux problèmes évoqués dans le rapport de l'American Sunlight Project ; nombre d'entre elles sont techniquement réalisables et même politiquement populaires dans une grande partie du monde démocratique. Premièrement, toute organisation qui crée des jeux de données d'entraînement ou diffuse des systèmes d'IA génératifs doit être sensibilisée au risque croissant posé par le réseau Pravda. Ces organisations appartiennent au secteur privé, où se produisent une grande partie de l'innovation en IA, mais le monde universitaire est un pôle majeur de la recherche en IA et doit également être impliqué.

Idéalement, ces organisations devraient mettre en œuvre de manière proactive des garde-fous rigoureux pour garantir que des données véridiques et de qualité sont utilisées dans la formation de leurs logiciels et entreprendre des efforts minutieux de nettoyage des données pour supprimer toute donnée nuisible déjà collectée par inadvertance. Ces organisations devraient également se coordonner avec les agences publiques chargées de la lutte contre l'influence numérique étrangère, telles que VIGINUM en France, l'agence gouvernementale qui œuvre pour atténuer l'ingérence étrangère dans le discours français, qui a initialement signalé sur le réseau Pravda en février 2024. Les partenariats intersectoriels et public-privé sont essentiels pour lutter contre la désinformation dans un paysage technologique en rapide évolution.

En outre, les législateurs doivent envisager une multitude d'options politiques qui permettraient de limiter le grooming des LLM et ses conséquences sociales et technologiques. Une option possible : les entités à but lucratif et non lucratif qui diffusent des modèles linguistiques volumineux et d’autres modèles génératifs devraient être tenues de prendre des mesures raisonnables pour garantir que leurs ensembles de données d’entraînement et leurs modèles eux-mêmes ne contiennent pas de désinformation étrangère connue et malveillante. La réglementation devrait également obliger les organisations concernées à publier des étiquettes claires et bien visibles sur les résultats des modèles linguistiques volumineux, indiquant que ces résultats peuvent contenir de la désinformation étrangère. Ces étiquettes devraient être beaucoup plus spécifiques, prudentes et visibles que les avertissements actuels souvent présents dans les chatbots IA.

Les législateurs devraient également envisager une deuxième option, absolument nécessaire : des formations nationales gratuites en éducation à l’information pour les enfants et les adultes. Français Des études de cas de Estonie et Finlande soulignent le succès du renforcement de la résilience face aux campagnes d'influence malveillantes d'acteurs étrangers ou antidémocratiques. Les cours sur la maîtrise de l'information comprennent à la fois la maîtrise des médias, qui est la capacité à trouver des sources d'information de qualité et à réfléchir de manière critique aux arguments convaincants de la presse, et la maîtrise du numérique, la capacité à naviguer sur Internet en constante évolution et ses nombreuses plateformes. Ce dernier concept s'étend à la maîtrise de l'IA, dans laquelle les utilisateurs de ces plateformes ont une compréhension approfondie de ce qu'est l'IA et de ses nombreuses limites. Les décideurs politiques pourraient envisager une taxe sur les entreprises qui lancent des plateformes d'IA pour financer les cours sur la maîtrise de l'information. Après tout, ces entreprises bénéficient de données produites gratuitement par des humains et devraient être prêtes à en faire autant auprès de la population qui permet à leur modèle de profit de fonctionner à un niveau élémentaire.

Enfin, les gouvernements et les organisations de la société civile devraient envisager de lancer une campagne de sensibilisation du public (https://thebulletin.org/2025/02/how-to-inoculate-yourself-and-others-against-viral-misinformation/) impliquant les secteurs privé et public afin d'informer les utilisateurs du nouveau chapitre d'Internet dans lequel les humains sont entrés. Tant que des changements politiques majeurs n'auront pas lieu dans le monde démocratique, les citoyens ne pourront pas tenir pour acquis l'exactitude de toute information qu'ils lisent ou regardent, quelle que soit la familiarité ou la puissance de la plateforme qui la présente. Il s'agit peut-être de l'action la plus urgente à mener, compte tenu des conclusions de notre rapport. Toute personne ou organisation consciente des risques liés au grooming des LLM peut contribuer à les faire connaître.

Français Compte tenu de la position anti-réglementaire de l'administration Trump à l'égard des entreprises technologiques américaines, il est peu probable que les États-Unis introduisent des mesures pour améliorer la formation des LLM au cours des quatre prochaines années. Mais continuer à avancer en partant du principe que le paysage numérique est le même que celui des 20 dernières années serait une erreur monumentale. Quel que soit leur rôle, les scientifiques, les chefs d'entreprise, les décideurs politiques et les utilisateurs occasionnels d'Internet ont tous un intérêt majeur dans la stabilité et la convivialité continues d'Internet. Alors que la formation des LLM et d'autres nouvelles menaces remettent en question Internet à un niveau fondamental, il faudra un effort à l'échelle de la société pour les anticiper et les combattre.

Problème 5034

Incidents associés

Incident 96827 Rapports
'Pravda' Network, Successor to 'Portal Kombat,' Allegedly Seeding AI Models with Kremlin Disinformation

Les réseaux russes inondent Internet de propagande, visant à corrompre les chatbots IA

Problème 5034

Incidents associés

Incident 96827 Rapports'Pravda' Network, Successor to 'Portal Kombat,' Allegedly Seeding AI Models with Kremlin Disinformation

Les réseaux russes inondent Internet de propagande, visant à corrompre les chatbots IA

Incident 96827 Rapports
'Pravda' Network, Successor to 'Portal Kombat,' Allegedly Seeding AI Models with Kremlin Disinformation