Incidents associés
Plus tôt cette année, des scientifiques ont découvert un terme étrange : « microscopie électronique végétative » (https://retractionwatch.com/2025/02/10/vegetative-electron-microscopy-fingerprint-paper-mill/) apparaissant dans des articles publiés.
Cette expression, qui semble technique, mais qui est en réalité absurde, est devenue un « fossile numérique » : une erreur préservée et renforcée dans les systèmes d’intelligence artificielle (IA) et quasiment impossible à supprimer de nos bases de connaissances.
Comme des fossiles biologiques emprisonnés dans la roche, ces artefacts numériques pourraient devenir des éléments permanents de notre écosystème informationnel.
Le cas de la microscopie électronique végétative offre un aperçu troublant de la manière dont les systèmes d’IA peuvent perpétuer et amplifier les erreurs dans notre savoir collectif.
Un mauvais scan et une erreur de traduction
La microscopie électronique végétative semble être née d’une coïncidence remarquable d’erreurs sans rapport entre elles.
Premièrement, deux articles des années 1950, publiés dans la revue Bacteriological Reviews, ont été scannés et numérisés.
Cependant, le processus de numérisation a combiné par erreur le terme « végétatif » d'une colonne de texte avec le terme « électron » d'une autre. Ce qui a donné naissance au terme fantôme.
Des décennies plus tard, la « microscopie électronique végétative » est apparue dans certains articles scientifiques iraniens. En 2017 et [2019](https://web.p.ebscohost.com/abstract?site=eh ost&scope=site&jrnl=20085729&AN=141678734&h=e9Z0lqUsvh1WBhQvCayQkWtMqGcULLWTPrWyrZbI%2bQdCrwycHUHwP0UFo7hX3eLpPU1VEhqXgz4QHsTCrtBAFw%3d%3d&crl=c&resultLocal=ErrCrlNoResults&resultNs=Ehost&crlhashurl=login.aspx%3fdirect%3dtrue%26profile%3dehost%26scope%3dsite%26authtype%3dcrawler%26jrnl%3d20085729%26AN%3d141678734), deux articles ont utilisé ce terme dans leurs légendes et résumés en anglais.
Cela semble être dû à une erreur de traduction. En farsi, les mots « végétatif » et « scanning » ne diffèrent que d'un seul point.
Une erreur en hausse
Le résultat ? À ce jour, la « microscopie électronique végétative » apparaît dans 22 articles, selon Google Scholar. L'un d'eux a fait l'objet d'une rétractation contestée d'une revue Springer Nature (https://link.springer.com/article/10.1007/s11356-022-23253-9), et Elsevier a publié une correction pour un autre.
Le terme apparaît également dans des articles de presse évoquant des enquêtes ultérieures sur l'intégrité (https://english.elpais.com/science-tech/2023-04-02/one-of-the-worlds-most-cited-scientists-rafael-luque-suspended-without-pay-for-13-years.html).
La microscopie électronique végétative a commencé à apparaître plus fréquemment dans les années 2020. Pour comprendre pourquoi, nous avons dû scruter les modèles d'IA modernes et effectuer des recherches archéologiques dans les vastes couches de données sur lesquelles ils ont été entraînés.
Preuves empiriques de contamination de l'IA
Les grands modèles de langage qui sous-tendent les chatbots d'IA modernes tels que ChatGPT sont « entraînés » sur d'énormes quantités de texte pour prédire le mot suivant probable d'une séquence. Le contenu exact des données d'entraînement d'un modèle est souvent un secret bien gardé.
Pour vérifier si un modèle « connaissait » la microscopie électronique végétative, nous avons saisi des extraits des articles originaux afin de déterminer s'il les compléterait avec le terme absurde ou des alternatives plus pertinentes.
Les résultats ont été révélateurs. GPT-3 d'OpenAI complétait systématiquement les phrases par « microscopie électronique végétative ». Les modèles antérieurs tels que GPT-2 et BERT ne le faisaient pas. Ce schéma nous a permis d'identifier quand et où la contamination s'est produite.
Nous avons également constaté que l'erreur persiste dans les modèles ultérieurs, notamment GPT-4o et Claude 3.5 d'Anthropic. Cela suggère que ce terme absurde pourrait désormais être intégré de manière permanente dans les bases de connaissances de l'IA.
En comparant nos connaissances sur les jeux de données d'entraînement de différents modèles, nous avons identifié le jeu de données CommonCrawl de pages Internet extraites comme le vecteur le plus probable où les modèles d'IA ont appris ce terme pour la première fois.
Le problème d'échelle
Trouver des erreurs de ce type n'est pas chose aisée. Les corriger peut s'avérer presque impossible.
L'une des raisons est l'échelle. Le jeu de données CommonCrawl, par exemple, représente des millions de gigaoctets. Pour la plupart des chercheurs extérieurs aux grandes entreprises technologiques, les ressources de calcul nécessaires pour travailler à cette échelle sont inaccessibles.
Une autre raison est le manque de transparence des modèles d'IA commerciaux. OpenAI et de nombreux autres développeurs refusent de fournir des détails précis sur les données d'entraînement de leurs modèles. Les efforts de recherche visant à rétroconcevoir certains de ces ensembles de données ont également été entravés par des retraits pour violation de droits d'auteur (https://theconversation.com/books-3-has-revealed-thousands-of-pirated-australian-books-in-the-age-of-ai-is-copyright-law-still-fit-for-purpose-214637).
Lorsque des erreurs sont détectées, il n'existe pas de solution simple. Un simple filtrage par mots-clés pourrait traiter des termes spécifiques, tels que « microscopie électronique végétative ». Cependant, cela éliminerait également des références légitimes (comme cet article).
Plus fondamentalement, cette affaire soulève une question troublante : combien d'autres termes absurdes existent dans les systèmes d'IA, attendant d'être découverts ?
Implications pour la science et l'édition
Ce « fossile numérique » soulève également d'importantes questions sur l'intégrité des connaissances, à mesure que la recherche et la rédaction assistées par l'IA se généralisent.
Les éditeurs ont réagi de manière incohérente lorsqu'ils ont été informés d'articles incluant la microscopie électronique végétative. Certains ont rétracté les articles concernés, tandis que d'autres les ont défendus. Elsevier a notamment tenté de justifier la validité du terme avant de publier une correction. Nous ignorons encore si d'autres anomalies de ce type affectent les grands modèles linguistiques, mais c'est fort probable. Quoi qu'il en soit, l'utilisation de systèmes d'IA a déjà créé des problèmes pour le processus d'évaluation par les pairs. Par exemple, des observateurs ont noté l'essor de « phrases truquées » (https://arxiv.org/pdf/2107.06751) utilisées pour échapper aux logiciels automatisés de vérification de l'intégrité, comme « conscience contrefaite » au lieu d'« intelligence artificielle ». De plus, des « phrases » (https://www.sciencedirect.com/science/article/pii/S1930043324001298) telles que « Je suis un modèle de langage IA » ont été retrouvées dans d'autres articles rétractés.
Certains outils de filtrage automatique, comme « Problematic Paper Screener » (https://theconversation.com/problematic-paper-screener-trawling-for-fraud-in-the-scientific-literature-246317), signalent désormais la microscopie électronique végétative comme un signal d'alarme d'un contenu potentiellement généré par l'IA. Cependant, ces approches ne peuvent traiter que les erreurs connues, et non celles non découvertes.
Vivre avec les fossiles numériques
L'essor de l'IA crée des opportunités d'intégration permanente des erreurs dans nos systèmes de connaissances, par le biais de processus qu'aucun acteur ne maîtrise à lui seul. Cela représente des défis pour les entreprises technologiques, les chercheurs et les éditeurs.
Les entreprises technologiques doivent faire preuve de plus de transparence sur les données et les méthodes d'apprentissage. Les chercheurs doivent trouver de nouvelles façons d'évaluer l'information face aux absurdités convaincantes générées par l'IA. Les éditeurs scientifiques doivent améliorer leurs processus d'évaluation par les pairs afin de repérer les erreurs humaines et celles générées par l'IA.
Les fossiles numériques révèlent non seulement le défi technique que représente la surveillance d'ensembles de données massifs, mais aussi le défi fondamental de maintenir des connaissances fiables dans des systèmes où les erreurs peuvent s'auto-entretenir.