Report 6111

Une nouvelle étude révèle que les diagnostics médicaux de ChatGPT sont précis dans moins de la moitié des cas.

Des scientifiques ont demandé au chatbot d'intelligence artificielle (IA) d'évaluer 150 études de cas issues du site médical Medscape. Ils ont découvert que GPT 3.5 (qui alimentait ChatGPT lors de son lancement en 2022) ne fournissait un diagnostic correct que dans 49 % des cas.

Des recherches antérieures ont montré que le chatbot pouvait réussir de justesse l'examen d'autorisation d'exercer la médecine aux États-Unis (USMLE) – une découverte saluée par ses auteurs comme « une étape importante dans la maturation de l'IA ».

Français Mais dans la nouvelle étude, publiée le 31 juillet dans la revue PLOS ONE, les scientifiques mettent en garde contre le recours au chatbot pour les cas médicaux complexes qui nécessitent un discernement humain.

« Si les gens sont effrayés, confus ou tout simplement incapables d'accéder aux soins, ils peuvent dépendre d'un outil qui semble leur fournir des conseils médicaux "sur mesure" », a déclaré à Live Science l'auteur principal de l'étude Dr Amrit Kirpalani, docteur en néphrologie pédiatrique à la Schulich School of Medicine and Dentistry de l'Université Western, en Ontario. « Je pense qu'en tant que communauté médicale (et au sein de la communauté scientifique au sens large), nous devons être proactifs pour sensibiliser le grand public aux limites de ces outils à cet égard. Ils ne devraient pas encore remplacer votre médecin. »

La capacité de ChatGPT à diffuser des informations repose sur ses données d'entraînement. Extraites du référentiel Common Crawl, les 570 gigaoctets de données textuelles intégrées au modèle 2022 représentent environ 300 milliards de mots, tirés de livres, d'articles en ligne, de Wikipédia et d'autres pages web.

Les systèmes d'IA repèrent des schémas dans les mots sur lesquels ils ont été entraînés afin de prédire ce qui pourrait les suivre, leur permettant ainsi de fournir une réponse à une invite ou à une question. En théorie, cela les rend utiles aussi bien aux étudiants en médecine qu'aux patients cherchant des réponses simplifiées à des questions médicales complexes, mais la tendance des robots à « halluciner » – inventer entièrement des réponses – limite leur utilité pour les diagnostics médicaux.

Pour évaluer l'exactitude des conseils médicaux de ChatGPT, les chercheurs ont présenté au modèle 150 études de cas variées – incluant les antécédents médicaux, les résultats d'examens physiques et des images prises en laboratoire – qui visaient à tester les capacités diagnostiques des médecins stagiaires. Le chatbot a choisi l'un des quatre résultats à choix multiples avant de répondre avec son diagnostic et un plan de traitement que les chercheurs ont évalué pour sa précision et sa clarté.

Les résultats ont été médiocres, ChatGPT obtenant plus de réponses erronées que correctes en matière d'exactitude médicale, alors qu'il a fourni des résultats complets et pertinents dans 52 % des cas. Néanmoins, la précision globale du chatbot était bien supérieure, atteignant 74 %, ce qui signifie qu'il pouvait identifier et éliminer les réponses erronées aux questions à choix multiples de manière beaucoup plus fiable.

Les chercheurs ont expliqué que ces faibles performances pourraient s'expliquer par le fait que l'IA n'avait pas été entraînée sur un ensemble de données cliniques suffisamment important, ce qui l'empêchait de jongler avec les résultats de multiples tests et d'éviter de traiter les données absolues aussi efficacement que les médecins.

Malgré leurs lacunes, les chercheurs ont affirmé que l'IA et les chatbots pourraient néanmoins s'avérer utiles pour l'enseignement aux patients et aux médecins stagiaires, à condition que les systèmes d'IA soient supervisés et que leurs déclarations soient accompagnées d'une vérification des faits rigoureuse.

« Si l'on se penche sur les publications de revues médicales des années 1995 environ, on constate que le même discours était en cours concernant le Web. De nouvelles publications portaient sur des cas d'utilisation intéressants, tandis que d'autres étaient sceptiques quant à la question de savoir s'il ne s'agissait que d'une mode », a déclaré Kirpalani. « Je pense qu'avec l'IA et les chatbots en particulier, la communauté médicale découvrira finalement qu'il existe un énorme potentiel pour améliorer la prise de décision clinique, rationaliser les tâches administratives et améliorer l'engagement des patients. »

Problème 6111

ChatGPT est vraiment mauvais pour diagnostiquer les problèmes médicaux