Report 6749

Seriez-vous prêt à payer 169 $ pour un ebook d'introduction à l'apprentissage automatique dont les citations semblent être inventées ?

Sinon, mieux vaut éviter l'achat de Mastering Machine Learning: From Basics to Advanced (https://link.springer.com/book/10.1007/978-981-97-9914-5), publié par Springer Nature en avril.

Suite à un signalement, nous avons vérifié 18 des 46 citations de l'ouvrage. Les deux tiers étaient inexistantes ou comportaient des erreurs importantes. De plus, trois chercheurs cités ont confirmé que les travaux qu'ils étaient censés avoir écrits étaient faux ou que la citation contenait des erreurs substantielles.

« Nous avons écrit cet article, mais il n'a pas été publié officiellement », a déclaré Yehuda Dar, informaticien à l'Université Ben-Gourion du Néguev, dont les travaux sont cités dans le livre. « Il s'agit d'une prépublication sur arXiv. » La citation indique par erreur que l'article est paru dans IEEE Signal Processing Magazine.

Aaron Courville, professeur d'informatique à l'Université de Montréal et co-auteur de l'ouvrage Deep Learning (https://mitpress.mit.edu/9780262035613/deep-learning/), a été correctement cité pour le texte lui-même, mais pour une section qui « semble inexistante », a-t-il déclaré. « Certainement pas aux pages 194 à 201. » Dimitris Kalles, de l'Université ouverte hellénique en Grèce, a également confirmé n'avoir écrit aucun ouvrage cité où il figure comme auteur.

Le chercheur qui nous a contactés par courriel, et qui a souhaité rester anonyme, avait reçu une alerte de Google Scholar concernant l'ouvrage, dans lequel il était cité. Bien que son nom apparaisse dans plusieurs citations, les ouvrages cités sont introuvables.

L'absence de citations et les erreurs fréquentes sont une caractéristique des textes générés par les grands modèles de langage comme ChatGPT. Ces modèles ne consultent pas les bases de données bibliographiques à la recherche d'articles publiés, contrairement à un auteur humain. Ils génèrent plutôt du contenu à partir de données d'entraînement et d'instructions. Ainsi, les citations générées par un grand modèle de langage peuvent sembler légitimes, mais leur contenu peut être inventé.

L'auteur du livre, Govindakumar Madhavan, a demandé un délai supplémentaire d'une ou deux semaines pour répondre pleinement à notre demande de commentaires. Il n'a pas répondu à nos questions concernant l'utilisation éventuelle d'un grand modèle de langage pour générer le texte de son ouvrage. Il nous a toutefois indiqué : « Déterminer avec certitude si un contenu (ou un sujet) est généré par une IA reste un défi, car même un texte écrit par un humain peut paraître "comme un texte généré par une IA". Ce défi ne fera que s'amplifier à mesure que les grands modèles de langage progressent en fluidité et en sophistication. »

D'après sa biographie dans le livre, Madhavan est le fondateur et PDG de SeaportAi et l'auteur d'une quarantaine de formations vidéo et d'une dizaine d'ouvrages. Ce livre de 257 pages comprend une section sur ChatGPT qui affirme : « Cette technologie soulève d'importantes questions éthiques concernant l'utilisation et le mésusage des textes générés par l'IA. »

Springer Nature fournit à ses auteurs des politiques et des recommandations concernant l'utilisation de l'IA, comme nous l'a indiqué par courriel Felicitas Behrendt, responsable de la communication pour les livres chez cet éditeur. « Bien que nous reconnaissions que les auteurs peuvent utiliser des LLM (Learning Machine Learning), nous insistons sur le fait que toute soumission doit être effectuée sous la supervision humaine complète et que toute utilisation de l'IA allant au-delà de la simple correction doit être déclarée. »

L'ouvrage Mastering Machine Learning ne contient aucune déclaration de ce type. Interrogée sur l'utilisation potentielle de l'IA dans ce travail, Behrendt nous a déclaré : « Nous avons pris connaissance du texte et nous l'examinons actuellement. » Elle n'a pas commenté les mesures prises par Springer Nature lors de son processus éditorial pour garantir le respect de sa politique en matière d'IA.

Les citations générées par LLM ont été au cœur des controverses entourant le rapport « Make America Healthy Again » de Robert F. Kennedy Jr. et une présentation du CDC sur le thimérosal, un conservateur utilisé dans les vaccins. Chez Retraction Watch, nos cofondateurs ont été cités dans une référence inventée de toutes pièces dans un rapport du gouvernement australien sur l'intégrité de la recherche. Nous avons constaté la chute de citations falsifiées research articles, et notre liste d'articles contenant des preuves d'utilisation non divulguée de ChatGPT s'est considérablement allongée et ne représente presque certainement qu'une fraction des articles qui utilisent réellement ChatGPT.

Le jour même où Behrendt a répondu à notre demande, Springer Nature a publié un article sur son blog intitulé : « Intégrité de la recherche dans les livres : Prévenir en équilibrant la supervision humaine et les outils d’IA ».

« Tous les manuscrits sont initialement évalués par un éditeur interne qui décide de les transmettre ou non à un processus d’évaluation plus approfondi », a écrit Deidre Hudson Reuss, responsable marketing de contenu chez Springer Nature. « Les évaluateurs, des experts du domaine, examinent la qualité et l’originalité du manuscrit afin d’en garantir la validité et le respect des normes d’intégrité et d’éthique les plus élevées. »

Problème 6749

Incidents associés

Incident 13081 Rapport
Springer Nature Book 'Mastering Machine Learning: From Basics to Advanced' Reportedly Published With Numerous Purportedly Nonexistent or Incorrect Citations

Le livre de Springer Nature sur l'apprentissage automatique regorge de citations inventées.

Problème 6749

Incidents associés

Incident 13081 RapportSpringer Nature Book 'Mastering Machine Learning: From Basics to Advanced' Reportedly Published With Numerous Purportedly Nonexistent or Incorrect Citations

Le livre de Springer Nature sur l'apprentissage automatique regorge de citations inventées.

Incident 13081 Rapport
Springer Nature Book 'Mastering Machine Learning: From Basics to Advanced' Reportedly Published With Numerous Purportedly Nonexistent or Incorrect Citations