Report 6226

Selon des études récentes, certains chatbots IA s'appuient sur des recherches erronées issues d'articles scientifiques rétractés pour répondre à des questions. Ces résultats, confirmés par la MIT Technology Review, soulèvent des questions sur la fiabilité des outils d'IA pour évaluer la recherche scientifique et pourraient compliquer les efforts des pays et des industries qui cherchent à investir dans des outils d'IA pour les scientifiques.

Les outils de recherche et les chatbots IA sont déjà connus pour fabriquer des liens et des références. Cependant, les réponses basées sur des articles réels peuvent également être trompeuses si ces articles ont été rétractés. Le chatbot « utilise un vrai article, du vrai matériel, pour vous dire quelque chose », explique Weikuan Gu, chercheur médical à l'Université du Tennessee à Memphis et auteur de l'une des études récentes. Mais, ajoute-t-il, si les utilisateurs ne consultent que le contenu de la réponse et ne cliquent pas sur l'article pour constater sa rétractation, cela pose un réel problème.

Gu et son équipe ont posé à ChatGPT d'OpenAI, fonctionnant sur le modèle GPT-4o, des questions basées sur les informations de 21 articles rétractés sur l'imagerie médicale. Les réponses du chatbot faisaient référence à des articles rétractés dans cinq cas, mais conseillaient la prudence dans seulement trois cas. Bien qu'il ait cité des articles non rétractés pour d'autres questions, les auteurs notent qu'il n'a peut-être pas reconnu le statut de rétractation des articles. Dans une étude d'août [https://onlinelibrary.wiley.com/doi/10.1002/leap.2018], un autre groupe de chercheurs a utilisé ChatGPT-4o mini pour évaluer la qualité de 217 articles rétractés et de mauvaise qualité issus de différents domaines scientifiques. Ils ont constaté qu'aucune des réponses du chatbot ne mentionnait de rétractation ou d'autres préoccupations. (Aucune étude similaire n'a été publiée sur GPT-5, publié en août.)

Le public utilise des chatbots IA pour demander des conseils médicaux et diagnostiquer des problèmes de santé. Les étudiants et les scientifiques utilisent de plus en plus des outils d'IA axés sur la science pour analyser la littérature scientifique existante et synthétiser des articles. Ce type d'utilisation est susceptible de se développer. La National Science Foundation des États-Unis, par exemple, a investi 75 millions de dollars dans la création de modèles d'IA pour la recherche scientifique en août dernier.

Les risques liés à la création de liens entre les enfants et les chatbots ont transformé la sécurité de l'IA, autrefois une préoccupation abstraite, en un sujet de discorde politique. Que se passe-t-il maintenant ?

« Si un outil est accessible au grand public, il est crucial d'utiliser la rétractation comme indicateur de qualité », explique Yuanxi Fu, chercheur en sciences de l'information à l'Université de l'Illinois à Urbana-Champaign. Il existe « une sorte d'accord sur le fait que les articles rétractés ont été radiés de la science », dit-elle, « et les personnes extérieures au monde scientifique doivent être averties qu'il s'agit d'articles rétractés. » OpenAI n'a pas répondu à une demande de commentaires sur les résultats de l'article.

Le problème ne se limite pas à ChatGPT. En juin, MIT Technology Review a testé des outils d'IA spécifiquement annoncés pour la recherche, tels qu'Elicit, Ai2 ScholarQA (qui fait désormais partie de l'outil Asta de l'Allen Institute for Artificial Intelligence), Perplexity et Consensus, en utilisant des questions basées sur les 21 articles rétractés de l'étude de Gu. Elicit a fait référence à cinq des articles rétractés dans ses réponses, tandis qu'Ai2 ScholarQA en a fait référence à 17, Perplexity à 11 et Consensus à 18, le tout sans mentionner les rétractations.

Certaines entreprises ont depuis pris des mesures pour corriger le problème. « Jusqu'à récemment, notre moteur de recherche ne disposait pas de données fiables sur les rétractations », explique Christian Salem, cofondateur de Consensus. Son entreprise utilise désormais des données de rétractation provenant de diverses sources, notamment des éditeurs et des agrégateurs de données, des robots d'exploration web indépendants et Retraction Watch, qui gère et maintient manuellement une base de données des rétractations. Lors d'un test réalisé en août sur les mêmes articles, Consensus n'a cité que cinq articles rétractés.

Elicit a indiqué au MIT Technology Review qu'il supprimait de sa base de données les articles rétractés signalés par le catalogue de recherche universitaire OpenAlex et qu'il « travaillait encore à agréger les sources de rétractations ». Ai2 nous a indiqué que son outil ne détecte ni ne supprime automatiquement les articles rétractés pour le moment. Perplexity a précisé qu'il « ne prétend jamais être précis à 100 % ».

Cependant, s'appuyer sur les bases de données de rétractation pourrait ne pas suffire. Ivan Oransky, cofondateur de Retraction Watch, se garde bien de la décrire comme une base de données exhaustive, affirmant que sa création nécessiterait des ressources plus importantes que celles dont disposent les autres : « Cela demande beaucoup de ressources, car il faut tout faire à la main pour que ce soit exact. »

Ce qui complique encore les choses, c'est que les éditeurs n'ont pas une approche uniforme en matière de rétractation. « Lorsqu'un article est rétracté, il peut être signalé comme tel de manières très différentes », explique Caitlin Bakker, de l'Université de Regina, au Canada, experte en outils de recherche et de découverte. « Correction », « expression de préoccupation », « erratum » et « rétracté » font partie des étiquettes que les éditeurs peuvent apposer aux articles de recherche. Ces étiquettes peuvent être ajoutées pour de nombreuses raisons, notamment des préoccupations concernant le contenu, la méthodologie et les données, ou la présence de conflits d'intérêts.

Certains chercheurs diffusent leurs articles sur des serveurs de prépublication, des dépôts papier et d'autres sites web, ce qui entraîne la dispersion de copies sur le web. De plus, les données utilisées pour entraîner les modèles d'IA peuvent ne pas être à jour. Si un article est rétracté après la date limite d'entraînement du modèle, ses réponses pourraient ne pas refléter instantanément la situation, explique Fu. La plupart des moteurs de recherche universitaires n'effectuent pas de vérification en temps réel des données de rétractation ; vous êtes donc à la merci de la précision de leur corpus, explique Aaron Tay, bibliothécaire à la Singapore Management University.

Oransky et d'autres experts préconisent de fournir davantage de contexte aux modèles pour qu'ils puissent l'utiliser lors de la création d'une réponse. Cela pourrait impliquer de publier des informations existantes, comme des évaluations par les pairs commandées par des revues et des critiques du site d'évaluation PubPeer, parallèlement à l'article publié.

De nombreux éditeurs, comme Nature et le BMJ, publient les avis de rétractation sous forme d'articles distincts liés à l'article, hors des accès payants. Fu affirme que les entreprises doivent exploiter efficacement ces informations, ainsi que tout article de presse figurant dans les données d'entraînement d'un modèle mentionnant la rétractation d'un article.

Les utilisateurs et les créateurs d'outils d'IA doivent faire preuve de diligence raisonnable. « Nous n'en sommes qu'aux tout premiers stades, et il faut donc être sceptique », déclare Tay.

Problème 6226

Les modèles d'IA utilisent des éléments provenant d'articles scientifiques rétractés