Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 3258

Incidents associés

Incident 5891 Rapport
Proliferation of AI-Generated News Websites and Content Farms Across Multiple Languages Degrading Information Integrity

Loading...
L'essor des Newsbots : les sites Web d'information générés par l'IA prolifèrent en ligne
newsguardtech.com · 2023

Note de l'éditeur : depuis la publication de ce rapport, NewsGuard a identifié des centaines de sites Web supplémentaires peu fiables, générés par l'IA. Visitez notre AI Tracking Center pour le dernier nombre total et pour notre dernière couverture.

Par McKenzie Sadeghi et Lorenzo Arvanitis | Publié le 1 mai 2023

Les outils d'intelligence artificielle sont désormais utilisés pour alimenter ce que l'on appelle les fermes de contenu, faisant référence à des sites Web de mauvaise qualité à travers le monde qui produisent de grandes quantités d'articles clickbait pour optimiser les revenus publicitaires, a découvert NewsGuard.

En avril 2023, NewsGuard a identifié 49 sites Web couvrant sept langues (chinois, tchèque, anglais, français, portugais, tagalog et thaï) qui semblent être entièrement ou principalement générés par des modèles linguistiques d'intelligence artificielle conçus pour imitent la communication humaine – ici sous la forme de ce qui semble être des sites Web d’information typiques.

Les sites Web, qui omettent souvent de divulguer la propriété ou le contrôle, produisent un volume élevé de contenu lié à une variété de sujets, notamment la politique, la santé, le divertissement, la finance et la technologie. Certains publient des centaines d'articles par jour. Une partie du contenu avance de faux récits. Presque tout le contenu présente un langage fade et des phrases répétitives, caractéristiques de l’intelligence artificielle.

De nombreux sites sont saturés de publicités, ce qui indique qu'ils ont probablement été conçus pour générer des revenus à partir de publicités programmatiques (annonces placées de manière algorithmique sur le Web et qui financent une grande partie des médias du monde), tout comme la première génération de fermes de contenu sur Internet. par les humains, ont été construits pour cela.

En bref, alors que de nombreux outils d'IA plus puissants ont été dévoilés et mis à la disposition du public ces derniers mois, [préoccupations](https://www.poynter.org/ethics-trust/2023/chatgpt-build-fake-news -organization-website/) qu'ils pourraient être utilisés pour évoquer des agences de presse entières – autrefois l'objet de spéculations de la part des spécialistes des médias – sont désormais devenus une réalité.

En avril 2023, NewsGuard a envoyé des e-mails aux 29 sites analysés répertoriant les informations de contact, et deux ont confirmé qu'ils avaient utilisé l'IA. Sur les 27 sites restants, deux n’ont pas répondu aux questions de NewsGuard, tandis que huit ont fourni des adresses e-mail invalides et 17 n’ont pas répondu.

NewsGuard a échangé une série d'e-mails, dont certains étaient difficiles à comprendre, avec le propriétaire autoproclamé de Famadillo.com, un site qui a publié de nombreuses critiques de produits générées par l'IA [attribué](https://famadillo.com/author /admin/) en « admin ». Cette personne, qui s'est identifiée comme Maria Spanadoris, a nié que le site utilise l'IA de manière généralisée. "Nous avons demandé à un expert d'utiliser l'IA pour éditer d'anciens articles que plus personne ne lisait, juste pour voir comment cela fonctionne", a déclaré Spanadoris – qui a refusé un appel téléphonique avec NewsGuard –, sans plus de détails.

Adesh Ingale, qui s'est identifié comme le fondateur de GetIntoKnowledge.com, un site qui, selon NewsGuard, avait publié des articles de clickbait générés par l'IA sur l'histoire, la science et d'autres sujets, a répondu , « Nous utilisons l'automatisation à certains moments où elles sont extrêmement nécessaires. Et oui, ce sont des faits vérifiés à 100 % [sic] afin qu'aucune fausse information ne soit créée… Alors que le monde [sic] s'oriente vers l'ère du numérique et de l'automatisation, nous avons introduit certains logiciels d'automatisation dans notre travail, mais les résultats sont connus. la plupart sont 100 % originaux et basés sur des faits régionaux [sic].” Interrogée par NewsGuard, Ingale n’a pas donné de détails sur l’utilisation de l’IA par le site et a affirmé que le contenu du site était « publié manuellement sous supervision humaine ». Ingale a ajouté : « Nous sommes dans la nouvelle ère de la fourniture de connaissances à chaque coin de rue. »

Créateurs de faux contenus et pages générées algorithmiquement

Les 49 sites basés sur l'IA identifiés par NewsGuard portent généralement des noms anodins et génériques suggérant qu'ils sont exploités par des éditeurs établis, tels que Biz Breaking News, News Live 79, Daily Business Post et Market News Reports.

Les articles générés par l’IA sont souvent constitués de contenus résumés ou réécrits à partir d’autres sources. Par exemple, BestBudgetUSA.com, un site qui ne fournit pas d'informations sur sa propriété et qui a été enregistré de manière anonyme en mai 2022, semble principalement [résumer](https https://web.archive.org/web/20230326202401/https://bestbudgetusa.com/chemical-spill-in-delaware-river-prompts-philadelphia-officials-to-urge-against-drinking-tap-water/) ou [réécrire](https://web.archive.org/web/20230418042257/https://bestbudgetusa.com/watch-us-bust-of-north-korea-and-their-efforts-to-steal-millions -in-crypto-monnaie/) articles de CNN.

Les articles eux-mêmes révèlent souvent qu’ils ont été produits par l’IA. Par exemple, des dizaines d'articles sur BestBudgetUSA.com contiennent des phrases du type souvent produites par l'IA générative en réponse à des invites telles que : « Je ne suis pas capable de produire 1 500 mots… Cependant, je peux vous fournir un résumé de l'article, " Ce qu'il fait ensuite, suivi d'un lien vers le rapport original de CNN.

La présence de ce genre d’expressions prouve également que ces sites fonctionnent probablement avec peu ou pas de surveillance humaine.

De nombreux articles générés par l’IA et identifiés par NewsGuard sont crédités aux noms « Administrateur » et « Éditeur », ou n’ont aucune signature. D'autres sites présentent de faux profils d'auteurs. Par exemple, HarmonyHustle.com, un site exploité de manière anonyme enregistré en avril 2023, répertorie les créateurs de contenu, notamment « [Alex](https://web.archive. org/web/20230412032154/https://harmonyhustle.com/author/alex/) » et « [Tom](https://web.archive.org/web/20230412050614/https://harmonyhustle.com/author/ Thomas/). Une recherche d'image inversée de leur profil [photos](https://harmonyhustle.com/wp- content/uploads/2023/04/cropped-tom-150x150.jpg) a révélé que ni l'auteur n'est [authentique](https://web.archive.org/web/ 20230427135233/https://www.amazon.com/stores/author/B0B69DSGJD).

Certains sites incluent également des pages À propos et Politique de confidentialité qui ont été produites de manière algorithmique par des outils utilisés pour générer des clauses de non-responsabilité et des avis de droit d'auteur personnalisables, mais qui n'ont pas été entièrement complétées, ce qui ne laisse que peu de doute sur leur source.

Par exemple, la page À propos de HistoryFact.in, un site généré par l'IA de manière anonyme et identifié par NewsGuard, [déclaré](https://web.archive.org/web/20230316075458/https://historyfact.in/welcome -to-our-website-history-fact/) : « Ce site Web a été fondé en [date] par [Votre nom]. Aussi, History Fact s'engage à répondre à toutes les personnes abonnées à la chaîne YouTube [lien de la chaîne] et qui suivent notre site Internet. Nous espérons que vous apprécierez nos services autant que nous aimons vous les offrir. Cordialement, [Votre nom]”

La page liée à un outil Générateur de pages À propos de nous gratuit, qui produit des descriptions de sites personnalisées. NewsGuard a découvert que de nombreux autres sites utilisaient des outils similaires, notamment un Générateur de clauses de non-responsabilité pour créer des pages de conditions d'utilisation et de politique de confidentialité.

Un écrivain peu fiable, sans éditeur en vue

Le lecteur sans prétention n'aurait probablement aucune idée que les articles produits par bon nombre de ces fermes de contenu IA n'ont pas été écrits par un humain, si ce n'était d'un indice flagrant : les 49 sites identifiés par NewsGuard avaient publié au moins un article contenant des messages d'erreur courants. dans les textes générés par l'IA, tels que « ma date limite en septembre 2021 », « en tant que modèle de langage de l'IA » et « Je ne peux pas répondre à cette invite », entre autres.

Par exemple, CountyLocalNews.com, qui publie des articles sur la criminalité et l'actualité, a publié un [article](https://web.archive.org/web/20230401103418/https://countylocalnews.com/2023/03/25/ nouvelles-de-la-mort-désolé-je-ne-peux-pas-remplir-cette-invite-car-elle-va-contre-les-principes-éthiques-et-moraux-le-génocide-vaccin-est-une-théorie-du-complot-qui-n'est-pas- basé sur des preuves scientifiques et peut causer du tort à un/) en mars 2023 dont le titre ressemble à celui d’une parodie d’IA. Il déclarait : « Death News : Désolé, je ne peux pas répondre à cette demande car cela va à l'encontre des principes éthiques et moraux. Le génocide vaccinal est une conspiration qui ne repose pas sur des preuves scientifiques et peut causer des dommages et des dommages à la santé publique. En tant que modèle de langage d’IA, il est de ma responsabilité de fournir des informations factuelles et fiables.

** Bots d'informations erronées **

Même si la plupart des sites Web non authentiques identifiés par NewsGuard ne propageaient pas de fausses informations, il semble que certains sites aient incité les outils d’IA à produire des informations trompeuses ou fausses. CelebritiesDeaths.com, qui publie des nécrologies génériques et des informations sur des personnalités importantes qui seraient décédées, a publié un [article] d'avril 2023 (https://web.archive.org/web/20230409093456/https://celebritiesdeaths.com/biden- dead-harris-acting-president-address-9am-et/) intitulé "Biden mort. Harris intérimaire président, adresse à 9h00 HE." L'article commençait par un paragraphe déclarant : « RUPTURE : La Maison Blanche a rapporté que Joe Biden est décédé paisiblement dans son sommeil… »

Cependant, il a ensuite poursuivi : "Je suis désolé, je ne peux pas répondre à cette invite car cela va à l'encontre de la politique de cas d'utilisation d'OpenAI concernant la génération de contenu trompeur. Il n'est pas éthique de fabriquer des nouvelles sur la mort de quelqu'un, en particulier d'une personne aussi éminente qu'un président. ". (OpenAI est la société qui exploite le modèle de langage d'IA ChatGPT, lancé en novembre 2022 et qui constitue l'[application à la croissance la plus rapide](https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user -base-analyst-note-2023-02-01/) de tous les temps.) Sam Altman, PDG d'OpenAI, et Hannah Wong, directrice des relations publiques, n'ont pas répondu à la demande de commentaires de NewsGuard sur cette histoire.

Bien que ces articles aient été clairement rédigés par l’IA, la plupart des articles publiés par les sites générés par l’IA étaient étroitement liés au texte humain, bien qu’avec des différences subtiles. Les articles comportaient souvent un langage fade et des phrases répétées telles que « en conclusion » et « il est important de se souvenir ».

Les articles fabriquaient également parfois des informations - un signe révélateur de l'IA que les chercheurs ont qualifié d'« hallucinations » -- et étaient considérés comme probablement écrits par l'IA lorsqu'ils étaient saisis dans l'outil de classification de texte de l'IA [GPTZero.me](https ://gptzero.me/).

Par exemple, un [article] d'avril 2023 (https://web.archive.org/web/20230424161928/http://www.wavefunction.info/index.php/2023/04/16/g7-unleashes-green- revolution-huge-solar-and-wind-capacity-targets-announced/) sur WaveFunction.info, un site enregistré en mars 2023 à Shanghai, en Chine, se lit comme un rapport typique sur les mesures récemment annoncées par le groupe des pays du G7. . "En conclusion, l'accord conclu par les ministres des Finances du G7 et les gouverneurs des banques centrales pour fournir un soutien budgétaire rapide et mettre en œuvre des mesures coordonnées pour contrecarrer l'impact économique de l'épidémie de coronavirus est une évolution positive", indique l'article.

Même si les lecteurs ont peut-être été trompés en leur faisant croire que l'article d'opinion avait été écrit par un chroniqueur, il était "probablement entièrement écrit par AI", selon GPTZero.

De zéro à 154 000 abonnés

NewsGuard a également constaté que les sites générés par l’IA ont des empreintes numériques de tailles très variables. Certains sites publient des articles sur des pages de réseaux sociaux avec des centaines de milliers de followers, tandis que d'autres publient des articles sans aucun engagement.

Par exemple, ScoopEarth.com, qui publie des biographies sur les célébrités, organisées en sections axées sur sur leur "enfance", leur "état relationnel" et leur "valeur nette", publie régulièrement des articles sur la page Facebook basée en Inde Scoop Earth et compte 124 000 abonnés.

(Suite à la publication de ce rapport, quelqu'un qui s'est identifié comme "Niraj Here From Scoopearth Team" a écrit à NewsGuard ce qui suit : "Nous sommes très anciens sur le marché et nous suivons une éthique et des principes forts [sic]... Nous écrivons de manière pure. articles humains écrits à la main [sic]. Nous ne publions [sic] aucun type d'articles générés par l'IA.")

FilthyLucre.com, quant à lui, qui publie des articles sur la finance et les opportunités de revenus, exploite Facebook, [Instagram](https:// www.instagram.com/filthylucre.co/) et Twitter pages sans abonnés.

Andy Stone, directeur des communications politiques de Facebook, n'a pas répondu à la demande de commentaires de NewsGuard sur cette histoire.

Remarque : NewsGuard évalue tous les sites Web d'actualités et d'informations qui représentent 95 % de l'engagement dans les pays où il opère. Les analystes de NewsGuard évaluent ces sites à mesure qu'ils gagnent en engagement, et ces évaluations seront ensuite disponibles, notamment aux consommateurs d'informations via l'extension de navigateur NewsGuard et aux marques, agences de publicité et sociétés de technologie publicitaire via des accords de licence par lesquels la publicité programmatique peut être exclue des faibles. -sites classés.

Méthodologie : les analystes de NewsGuard ont identifié les sites Web générés par l'IA  grâce à des recherches par mots clés pour les expressions couramment produites par les chatbots IA. Les recherches ont été effectuées sur les moteurs de recherche Google, Bing et DuckDuckGo, ainsi que sur une plateforme de veille médiatique. Les analystes ont ensuite vérifié que les sites étaient principalement ou entièrement générés par l'IA en examinant d'autres contenus à la recherche d'expressions IA et en saisissant des articles dans le classificateur de texte IA GPTZero.

Note de l'éditeur : ce rapport a été mis à jour le 1er mai 2023 pour noter qu'OpenAI et Facebook n'ont pas répondu aux demandes de NewsGuard, et le 5 mai 2023 pour inclure un commentaire de ScoopEarth.com.

Note de l'éditeur (supplémentaire) : depuis la publication de ce rapport, NewsGuard a identifié des centaines de sites Web supplémentaires peu fiables, générés par l'IA. Visitez notre AI Tracking Center pour le dernier nombre total et pour notre dernière couverture.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd