Incidents associés
Le mois dernier, un robot d'intelligence artificielle gérant le support technique de Cursor, un outil prometteur pour les programmeurs informatiques, a alerté plusieurs clients d'un changement de politique de l'entreprise. Il leur a indiqué qu'ils n'étaient plus autorisés à utiliser Cursor sur plus d'un ordinateur.
Dans des messages furieux publiés sur des forums Internet, les clients se sont plaints. Certains ont résilié leur compte Cursor. D'autres sont devenus encore plus furieux en réalisant ce qui s'était passé : le robot d'intelligence artificielle avait annoncé un changement de politique qui n'existait pas.
« Nous n'avons pas de politique de ce type. Vous êtes bien sûr libre d'utiliser Cursor sur plusieurs machines », a écrit Michael Truell, directeur général et cofondateur de l'entreprise, dans une publication Reddit. « Malheureusement, il s'agit d'une réponse incorrecte de la part d'un robot d'assistance IA de première ligne. »
Plus de deux ans après l'arrivée de ChatGPT, les entreprises technologiques, les employés de bureau et les consommateurs utilisent des robots IA pour un éventail de tâches de plus en plus large. Mais il n'existe toujours aucun moyen de garantir que ces systèmes produisent des informations exactes.
Les technologies les plus récentes et les plus puissantes – les systèmes dits de raisonnement – d'entreprises comme OpenAI, Google et la start-up chinoise DeepSeek génèrent davantage d'erreurs, et non moins. Si leurs compétences en mathématiques se sont considérablement améliorées, leur maîtrise des faits est devenue plus fragile. On ne sait pas exactement pourquoi.
Les robots IA actuels reposent sur des systèmes mathématiques complexes qui apprennent leurs compétences en analysant d'énormes quantités de données numériques. Ils ne peuvent pas – et ne peuvent pas – décider du vrai du faux. Parfois, ils inventent des choses, un phénomène que certains chercheurs en IA appellent « hallucinations ». Lors d'un test, le taux d'hallucinations des systèmes d'IA les plus récents a atteint 79 %.
Ces systèmes utilisent des probabilités mathématiques pour deviner la meilleure réponse, et non un ensemble strict de règles définies par des ingénieurs humains. Ils commettent donc un certain nombre d'erreurs. « Malgré tous nos efforts, ils auront toujours des hallucinations », a déclaré Amr Awadallah, PDG de Vectara, une start-up qui développe des outils d'IA pour les entreprises, et ancien cadre de Google. « Cela ne disparaîtra jamais. »
Depuis plusieurs années, ce phénomène suscite des inquiétudes quant à la fiabilité de ces systèmes. Bien qu'utiles dans certaines situations (rédaction de dissertations, résumés de documents administratifs, génération de code informatique, etc.), leurs erreurs peuvent poser problème.
Les robots d'intelligence artificielle liés aux moteurs de recherche comme Google et Bing génèrent parfois des résultats de recherche ridiculement erronés. Si vous leur demandez un marathon sur la côte ouest, ils pourraient vous suggérer une course à Philadelphie. S'ils vous indiquent le nombre de foyers dans l'Illinois, ils pourraient citer une source qui ne contient pas cette information.
Ces hallucinations ne sont peut-être pas un problème majeur pour beaucoup, mais elles constituent un sérieux problème pour quiconque utilise cette technologie avec des documents judiciaires, des informations médicales ou des données commerciales sensibles.
« On passe beaucoup de temps à essayer de déterminer quelles réponses sont factuelles et lesquelles ne le sont pas », explique Pratik Verma, cofondateur et directeur général d'Okahu, une entreprise qui aide les entreprises à gérer le problème des hallucinations. « Ne pas traiter correctement ces erreurs revient à éliminer la valeur des systèmes d'IA, censés automatiser les tâches. »
Cursor et M. Truell n'ont pas répondu aux demandes de commentaires.
Pendant plus de deux ans, des entreprises comme OpenAI et Google ont constamment amélioré leurs systèmes d'IA et réduit la fréquence de ces erreurs. Mais avec l'utilisation de nouveaux systèmes de raisonnement, les erreurs sont en augmentation. Les derniers systèmes OpenAI hallucinent à un taux plus élevé que le système précédent, selon les propres tests de l'entreprise.
L'entreprise a constaté que o3, son système le plus puissant, provoquait des hallucinations dans 33 % des cas lors de l'exécution de son test de référence PersonQA, qui consiste à répondre à des questions sur des personnalités publiques. Ce taux est plus de deux fois supérieur à celui du précédent système de raisonnement d'OpenAI, o1. Le nouveau o4-mini provoquait des hallucinations à un taux encore plus élevé : 48 %.
Lors de l'exécution d'un autre test, SimpleQA, qui pose des questions plus générales, les taux d'hallucinations pour o3 et o4-mini étaient de 51 % et 79 %. Le précédent système, o1, provoquait des hallucinations dans 44 % des cas.
Dans un article détaillant les tests, OpenAI a déclaré que des recherches supplémentaires étaient nécessaires pour comprendre la cause de ces résultats. Les systèmes d'IA apprenant à partir de données trop nombreuses pour être assimilées, les technologues peinent à déterminer les raisons de leurs comportements.
« Les hallucinations ne sont pas intrinsèquement plus fréquentes dans les modèles de raisonnement, même si nous travaillons activement à réduire les taux plus élevés d'hallucinations observés dans o3 et o4-mini », a déclaré Gaby Raila, porte-parole de l'entreprise. « Nous poursuivrons nos recherches sur les hallucinations dans tous les modèles afin d'améliorer leur précision et leur fiabilité. » Hannaneh Hajishirzi, professeure à l'Université de Washington et chercheuse à l'Institut Allen pour l'intelligence artificielle, fait partie d'une équipe qui a récemment mis au point un moyen de retracer le comportement d'un système jusqu'aux données individuelles sur lesquelles il a été entraîné. Mais comme les systèmes apprennent à partir d'une quantité importante de données et qu'ils peuvent générer presque tout, ce nouvel outil ne peut pas tout expliquer. « Nous ne savons toujours pas exactement comment ces modèles fonctionnent », a-t-elle déclaré.
Des tests menés par des entreprises et des chercheurs indépendants indiquent que les taux d'hallucinations augmentent également pour les modèles de raisonnement d'entreprises telles que Google et DeepSeek.
Depuis fin 2023, Vectara, l'entreprise de M. Awadallah, suit la fréquence à laquelle les chatbots s'écartent de la vérité. L'entreprise demande à ces systèmes d'effectuer une tâche simple et facilement vérifiable : résumer des articles de presse spécifiques. Malgré cela, les chatbots inventent constamment des informations.
Les recherches initiales de Vectara estimaient que, dans ce cas, les chatbots inventaient des informations au moins 3 % du temps, et parfois jusqu'à 27 %.
Au cours de l'année et demie qui a suivi, des entreprises comme OpenAI et Google ont ramené ces chiffres à 1 ou 2 %. D'autres, comme la start-up Anthropic de San Francisco, ont oscillé autour de 4 %. Cependant, les taux d'hallucinations lors de ce test ont augmenté avec les systèmes de raisonnement. Le système de raisonnement R1 de DeepSeek a halluciné 14,3 % du temps. Le o3 d'OpenAI a grimpé à 6,8 %.
(Le New York Times a intenté une action en justice contre OpenAI et son partenaire Microsoft, les accusant de violation de droits d'auteur concernant des contenus d'actualité liés à des systèmes d'IA. OpenAI et Microsoft ont nié ces accusations.)
Pendant des années, des entreprises comme OpenAI se sont appuyées sur un concept simple : plus elles alimentaient leurs systèmes d'IA en données Internet, plus ces systèmes étaient performants.) (https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html). Mais elles ont utilisé la quasi-totalité du texte anglais disponible sur Internet.) (https://www.nytimes.com/2024/12/19/technology/artificial-intelligence-data-openai-google.html), ce qui signifiait qu'elles avaient besoin d'une nouvelle fa çon d'améliorer leurs chatbots.
Ces entreprises s'appuient donc davantage sur une technique que les scientifiques appellent l'apprentissage par renforcement. Grâce à ce processus, un système peut apprendre un comportement par essais et erreurs. Cette technique fonctionne bien dans certains domaines, comme les mathématiques et la programmation informatique. Mais elle est insuffisante dans d'autres.
« De par leur mode d'entraînement, ces systèmes se concentrent sur une tâche et oublient les autres », explique Laura Perez-Beltrachini, chercheuse à l'Université d'Édimbourg, membre d'une équipe étudiant de près le problème des hallucinations (https://arxiv.org/abs/2404.05904).
Un autre problème réside dans le fait que les modèles de raisonnement sont conçus pour passer du temps à « réfléchir » à des problèmes complexes avant de trouver une solution. En essayant d'aborder un problème étape par étape, ils courent le risque d'halluciner à chaque étape. Les erreurs peuvent s'accumuler à mesure que le temps de réflexion augmente.
Les derniers bots révèlent chaque étape aux utilisateurs, ce qui signifie que ces derniers peuvent également voir chaque erreur. Les chercheurs ont également constaté que, dans de nombreux cas, les étapes affichées par un robot ne sont pas liées à la réponse qu'il fournit finalement.
« Ce que le système dit penser n'est pas nécessairement ce qu'il pense », a déclaré Aryo Pradipta Gema, chercheur en IA à l'Université d'Édimbourg et membre d'Anthropic.