Report 2543

Le site s'adressait initialement aux réactions généralisées aux articles écrits par des robots en assurant aux lecteurs qu'un éditeur humain les vérifiait soigneusement avant à publier.

Par la suite, cependant, Futurism a découvert qu'un nombre important d'erreurs s'étaient glissées dans les travaux publiés par l'IA. CNET, un titan du journalisme technologique qui s'est vendu pour 1,8 milliard de dollars en 2008, a répondu en émettant une formidable correction et en giflant un avertissement sur tous les travaux antérieurs du bot, alertant les lecteurs que le contenu des messages était en cours d'examen factuel. Quelques jours plus tard, sa société mère Red Ventures annoncé lors d'une série de réunions internes qu'il suspendait temporairement les articles générés par l'IA sur CNET et diverses autres propriétés, y compris Bankrate, au moins jusqu'à ce que la [tempête de presse négative se soit calmée] (https://futurism.com/cnet-bankrate-pausing-ai-generated- contrecoup de contenu).

Maintenant, un nouveau développement peut rendre les efforts pour relancer le programme encore plus controversé pour la salle de presse assiégée. En plus de ces erreurs factuelles, une nouvelle enquête Futurism a trouvé de nombreuses preuves que le travail de CNET AI a démontré de profondes similitudes structurelles et de formulation avec des articles précédemment publiés ailleurs, sans donner de crédit. En d'autres termes, il semble que le bot ait directement plagié le travail des concurrents de Red Ventures, ainsi que des écrivains humains de Bankrate et même CNET lui-même.

Jeff Schatten, professeur à l'Université de Washington et Lee qui a [examiné la montée des fautes liées à l'IA] (https://www.chronicle.com/article/will-artificial-intelligence-kill-college-writing), a passé en revue de nombreux exemples de calage apparent du bot que nous avons fournis. Il a constaté qu'ils s'élevaient "clairement" au niveau du plagiat.

Nous avons demandé à Schatten ce qui se passerait si un étudiant rendait un essai avec un nombre comparable de similitudes avec des documents existants sans attribution.

"Ils seraient envoyés au conseil d'éthique géré par les étudiants et étant donné la nature répétée du comportement, ils seraient presque certainement expulsés de l'université", a-t-il répondu.

Le mauvais comportement du bot va de la copie textuelle aux modifications modérées en passant par les reformulations importantes, le tout sans créditer correctement l'original. Dans au moins certains de ses articles, il semble que pratiquement chaque phrase corresponde directement à quelque chose de précédemment publié ailleurs.

Prenez cet extrait, par exemple, d'un article récent de l'IA CNET sur la protection contre les découverts :

Comment éviter les découverts et les frais sans provision

Les frais de découvert et les frais sans provision ne doivent pas nécessairement être une conséquence courante. Il y a quelques étapes que vous pouvez suivre pour les éviter.

Et comparez-le à ce verbiage d'un article publié précédemment dans Forbes Advisor, un concurrent de Red Ventures :

Comment éviter les découverts et les frais sans provision

Les frais de découvert et d'insuffisance de fonds ne doivent pas être la norme. Plusieurs outils sont à votre disposition pour les éviter.

Bien sûr, la version du bot a modifié la capitalisation et remplacé quelques mots par des synonymes impressionnants d'esprit latéral - "la norme" devient "une conséquence commune", par exemple, et "plusieurs outils" devient "quelques étapes" - avec un quelques modifications mineures de la syntaxe. Mais à part ces ajustements sémantiques, les deux phrases sont presque identiques.

Voici un autre extrait du même article du rédacteur financier de CNET :

Inscrivez-vous aux alertes de solde faible

Vous pourrez peut-être recevoir des alertes de solde faible de l'application mobile de votre banque, afin que vous sachiez si le solde de votre compte descend en dessous d'un certain seuil.

Maintenant, comparez-le à cette section d'un autre article publié précédemment, celui-ci de The Balance, un autre concurrent de Red Ventures :

Inscrivez-vous aux alertes de solde faible

Vous pouvez vous inscrire aux alertes de solde faible via la plupart des banques pour vous alerter lorsque votre compte atteint un certain montant.

Encore une fois, il semble clair que l'IA analyse simplement et apporte de petites modifications pour masquer la source.

Parfois, les similitudes sont presque comiques dans leur manque de subtilité. Prenez la première phrase de cet article, également publié par l'IA de CNET :

Les cartes-cadeaux sont un outil facile à utiliser lorsque vous achetez un cadeau pour quelqu'un.

Et comparez-le à la première phrase de cet [_Forbes _article] publié précédemment (https://www.forbes.com/advisor/credit-cards/can-you-buy-gift-cards-with-a-credit-card/ ):

Les cartes-cadeaux sont un cadeau facile à offrir à presque tout le monde.

Le kicker sur celui-là ? Découvrez la différence presque imperceptible entre les titres de ces deux articles. Voici le titre de _CNET _AI :

Pouvez-vous acheter une carte-cadeau avec une carte de crédit ?

Et voici ce que Forbes a utilisé comme titre :

Pouvez-vous acheter des cartes-cadeaux avec une carte de crédit ?

C'est vrai : la seule différence est de remplacer "Cartes cadeaux" par un singulier.

Voici un autre exemple, tiré du même article CNET généré par l'IA sur les frais de découvert :

Qu'est-ce que la protection contre les découverts ?

La protection contre les découverts est une fonctionnalité facultative offerte par les banques pour empêcher le rejet d'un débit sur un compte courant insuffisamment approvisionné.

Ce qui, il s'avère, semble être une reformulation de salade de mots d'une ligne de cet article sur Investopedia, un autre concurrent de Red Ventures.

Qu'est-ce que la protection contre les découverts ?

La protection contre les découverts est un service optionnel qui empêche le rejet de frais sur un compte bancaire... dépassant les fonds disponibles sur le compte.

L'IA semble parfois aussi emprunter le langage des écrivains du site sœur de CNET Bankrate sans donner de crédit_._ Par exemple, regardez cette ligne d'un article publié par l'IA de CNET en novembre :

Devenir un utilisateur autorisé peut vous éviter de demander une carte par vous-même, ce qui est un avantage majeur si vous avez actuellement un mauvais crédit ou aucun historique de crédit.

Et comparez-le à cette formulation, précédemment publiée par un rédacteur de Bankrate :

Devenir un utilisateur autorisé vous évite également d'avoir à demander une carte par vous-même, ce qui est un avantage majeur si vous avez actuellement un mauvais crédit ou aucun historique de crédit.

Tout compte fait, un modèle émerge rapidement. Essentiellement, l'IA de CNET semble aborder un sujet en examinant des articles similaires qui ont déjà été publiés et en en arrachant des phrases. Au fur et à mesure, il apporte des ajustements - parfois mineurs, parfois majeurs - à la syntaxe, au choix des mots et à la structure de la phrase d'origine. Parfois, il écrase deux phrases ensemble, ou en sépare une, ou assemble des morceaux dans de nouvelles phrases franches. Ensuite, il semble répéter le processus jusqu'à ce qu'il soit composé d'un article entier.

Un employé actuel de Red Ventures a également examiné des exemples du travail apparemment amélioré du bot.

"Vous avez déjà copié vos devoirs de quelqu'un", ont-ils plaisanté, "mais ils vous ont dit de le reformuler?"

"Cela pose la question de savoir à quel type d'institutions CNET et Bankrate veulent être considérés", ont-ils poursuivi. "Ils prennent juste ces articles et reformulent quelques choses."

En bref, un examen attentif du travail produit par l'IA de CNET le fait ressembler moins à un générateur de texte sophistiqué qu'à une machine à plagiat automatisée, produisant avec désinvolture un travail volé qui ferait virer un journaliste humain.

Peut-être qu'en fin de compte, rien de tout cela ne devrait être terriblement surprenant. À la base, le fonctionnement des systèmes d'apprentissage automatique consiste à alimenter une immense pile de "données d'entraînement", à les traiter avec des algorithmes sophistiqués et à se retrouver avec un modèle capable de produire un travail similaire à la demande.

Les enquêteurs ont parfois trouvé des exemples d'IA plagiant ses propres données de formation. En 2021, par exemple, des chercheurs de l'Université Johns Hopkins, de l'Université de New York et de Microsoft ont découvert que les IA génératrices de texte "copient parfois de manière substantielle, dans certains cas en dupliquant des passages plus de 1 000 mots de l'ensemble de formation."

En tant que telle, la question de savoir exactement comment l'IA désastreuse de _CNET'_s a été formée pourrait finir par occuper le devant de la scène alors que le drame continue de se dérouler. Lors d'une réunion d'entreprise CNET à la fin de la semaine dernière, _The Verge _reported at the time , le vice-président exécutif du contenu et de l'audience du point de vente a refusé de dire au personnel - dont beaucoup de journalistes techniques acclamés qui ont beaucoup écrit sur l'essor de l'apprentissage automatique - quelles données avaient été utilisées pour former l'IA.

La légalité de l'utilisation de données pour former une IA sans le consentement des personnes qui ont créé ces données est actuellement testée par [several](https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit- stable-diffusion-midjourney) poursuites contre les créateurs d'images proéminentes générateurs, et pourrait devenir un point d'éclair dans la commercialisation de la technologie.

"Si un étudiant présentait l'équivalent de ce que CNET a produit pour un devoir dans ma classe, et s'il ne citait pas ses sources, alors je le considérerais certainement comme du plagiat", a déclaré Antony Aumann, professeur de philosophie à la Northern Michigan University. récemment fait la une des journaux lorsqu'il a découvert qu'un de ses propres étudiants avait soumis une dissertation générée à l'aide de ChatGPT, après avoir examiné des exemples d'IA CNET formulation similaire à d'autres points de vente.

"Maintenant, il y a un différend parmi les universitaires sur ce qu'est exactement le plagiat", a-t-il poursuivi. "Certains érudits le considèrent comme une forme de vol ; d'autres érudits le considèrent comme une sorte de mensonge. J'y pense de la dernière manière. Le plagiat consiste à représenter quelque chose comme le vôtre qui n'est en fait pas le vôtre. Et cela semble être ce que CNET fait."

CNET n'a pas répondu aux exemples de l'écriture apparemment cryptée du bot, ni aux questions sur cette histoire.

Dans un sens, l'incompétence implacable de l'intelligence artificielle de l'entreprise obscurcit probablement bon nombre des thèmes les plus épineux que nous verrons probablement émerger à mesure que la technologie continue de se répandre dans les écosystèmes du lieu de travail et de l'information.

Schatten, par exemple, a averti que les problèmes liés à l'IA et à la propriété intellectuelle sont susceptibles de devenir plus ambigus et difficiles à détecter à mesure que les systèmes d'IA continuent de s'améliorer, ou même que les éditeurs commencent à expérimenter des systèmes plus avancés qui existent déjà (Red Ventures a refusé de dites quelle IA il utilise, bien que le rédacteur en chef de CNET ait dit que ce n'est pas ChatGPT.)

"L'exemple de CNET est remarquable car quelle que soit l'IA qu'ils utilisaient, il ne s'agissait pas de puiser dans l'intégralité d'Internet et de créer soigneusement une nouvelle mosaïque, mais plutôt de tirer plus ou moins mot pour mot des histoires existantes", a déclaré Schatten. "Mais les IA les plus sophistiquées d'aujourd'hui, et certainement les IA du futur, feront un meilleur travail pour cacher les origines du matériel."

"Et surtout une fois que les IA s'inspirent de l'écriture d'autres IA, qui elles-mêmes citent l'IA (sombre, je sais), cela pourrait devenir assez difficile à détecter", a-t-il ajouté.

Dans la pratique, il semble de plus en plus évident que CNET et Red Ventures ont déployé le système d'IA et ont commencé à diffuser leurs articles à l'audience colossale du site sans jamais vraiment scruter sa sortie. Ce n'est pas seulement que les architectes du programme ont raté des erreurs factuelles évidentes, mais qu'ils semblent n'avoir jamais vérifié si le travail du système avait pu être débauché.

Et pour être juste, pourquoi le feraient-ils ? Comme The Verge l'a rapporté dans une analyse détaillée fascinante la semaine dernière, le La principale stratégie de l'entreprise consiste à publier des quantités massives de contenu, soigneusement conçu pour être bien classé dans Google et chargé de liens d'affiliation lucratifs.

Pour Red Ventures, The Verge found, ces priorités ont transformé le autrefois vénérable _CNET _en une "machine à sous SEO alimentée par l'IA".

Problème 2543

Incidents associés

Incident 4576 Rapports
Article-Writing AI by CNET Allegedly Committed Plagiarism

Le journaliste IA de CNET semble avoir commis un plagiat important

Problème 2543

Incidents associés

Incident 4576 RapportsArticle-Writing AI by CNET Allegedly Committed Plagiarism

Le journaliste IA de CNET semble avoir commis un plagiat important

Incident 4576 Rapports
Article-Writing AI by CNET Allegedly Committed Plagiarism