Incidents associés
Scénario : Un radiologue examine votre scanner cérébral et détecte une anomalie au niveau des noyaux gris centraux. Il s'agit d'une zone du cerveau qui contribue au contrôle moteur, à l'apprentissage et au traitement des émotions. Son nom évoque un peu celui d'une autre partie du cerveau, l'artère basilaire, qui alimente le tronc cérébral en sang, mais le radiologue sait qu'il ne faut pas les confondre. Un accident vasculaire cérébral ou une anomalie dans l'un est généralement traité de manière très différente.
Imaginez maintenant que votre médecin utilise un modèle d'IA pour effectuer l'analyse. Le modèle indique que vous avez un problème au niveau de vos « noyaux gris centraux », confondant les deux noms pour une zone du cerveau qui n'existe pas. Vous espéreriez que votre médecin détecte l'erreur et vérifie le scanner. Mais il est possible qu'il ne le fasse pas.
Bien que hors contexte hospitalier, l'expression « noyaux gris centraux » est une erreur réelle, générée par le modèle d'IA médicale de Google, Med-Gemini. Un article de recherche de 2024 [https://arxiv.org/pdf/2405.03162] présentant Med-Gemini incluait l'hallucination dans une section sur les scanners crâniens, et personne chez Google ne l'a détectée, ni dans cet article ni dans un article de blog l'annonçant. Lorsque Bryan Moore, neurologue certifié et chercheur spécialisé en IA, a signalé l'erreur, il raconte à The Verge que l'entreprise a discrètement modifié l'article de blog pour la corriger, sans aucune reconnaissance publique, et l'article est resté inchangé. Google qualifie l'incident de simple faute d'orthographe de « ganglions de la base ». Certains professionnels de la santé affirment qu'il s'agit d'une erreur dangereuse et d'un exemple des limites de l'IA en santé.
Med-Gemini est un ensemble de modèles d'IA capables de synthétiser des données de santé, de créer des rapports radiologiques, d'analyser des dossiers médicaux électroniques, et bien plus encore. L'article de recherche pré-imprimé, destiné à démontrer son utilité aux médecins, a mis en évidence une série d'anomalies dans les scanners que les radiologues « manquaient » mais que l'IA a détectées. L'un de ses exemples est que Med-Gemini a diagnostiqué un « ancien infarctus des ganglions basilaires gauches ». Or, comme établi, il n'en existe pas.
Un an plus tard, le programme de testeurs de confiance de Med-Gemini n'accepte plus de nouveaux participants, ce qui signifie probablement que le programme est actuellement testé dans des scénarios médicaux réels à titre pilote. Il s'agit encore d'un essai préliminaire, mais les risques d'erreurs d'IA sont de plus en plus importants. Med-Gemini n'est pas le seul modèle à les commettre. Et la réaction des médecins reste floue.
« Ce dont vous parlez est extrêmement dangereux », a déclaré à The Verge Maulin Shah, directeur de l'information médicale chez Providence, un système de santé desservant 51 hôpitaux et plus de 1 000 cliniques. Il a ajouté : « Deux lettres, mais c'est un événement majeur. »
Dans un communiqué, Jason Freidenfelds, porte-parole de Google, a déclaré à The Verge que l'entreprise s'associait à la communauté médicale pour tester ses modèles et que Google était transparent quant à leurs limites.
« Bien que le système ait détecté une pathologie manquée, il a utilisé un terme incorrect pour la décrire (basilaire au lieu de basal). C'est pourquoi nous avons apporté des précisions dans l'article de blog, », a déclaré Freidenfelds. Il a ajouté : « Nous travaillons continuellement à l'amélioration de nos modèles, en examinant rigoureusement un large éventail d'attributs de performance. Consultez nos pratiques de formation et de déploiement pour une vue détaillée de notre processus. »
Une « erreur de transcription courante »
Le 6 mai 2024, Google a lancé en grande pompe sa nouvelle suite de modèles d'IA pour la santé. L'entreprise a présenté « Med-Gemini » comme une « avancée technologique » au « potentiel considérable en médecine », vantant ses applications concrètes en radiologie, pathologie, dermatologie, ophtalmologie et génomique.
Les modèles ont été entraînés sur des images médicales, telles que des radiographies thoraciques, des coupes de scanner, des lames de pathologie, etc., en utilisant des données médicales anonymisées avec des libellés textuels, selon un article de blog de Google (https://research.google/blog/advancing-medical-ai-with-med-gemini/). L'entreprise a déclaré que les modèles d'IA pouvaient « interpréter des scanners 3D complexes, répondre à des questions cliniques et générer des rapports radiologiques de pointe », allant même jusqu'à affirmer qu'ils pourraient contribuer à prédire le risque de maladie grâce aux informations génomiques.
Moore a vu très tôt les promotions de l'article par les auteurs et y a jeté un œil. Il a repéré l'erreur et, alarmé, l'a signalée à Google sur LinkedIn et a contacté directement les auteurs pour les en informer.
L'entreprise, a-t-il constaté, a discrètement modifié les preuves de l'erreur du modèle d'IA. Elle a mis à jour la formulation du premier article de blog, passant de « ganglions basilaires » à « ganglions de la base », sans autre modification ni modification de l'article lui-même. Dans un communiqué consulté par The Verge, des employés de Google Health ont répondu à Moore, qualifiant l'erreur de coquille.
En réponse, Moore a publiquement interpellé Google pour cette correction discrète. Cette fois, l'entreprise a modifié le résultat avec une légende clarifiant : « “basilaire” est une erreur courante de transcription de “basal” que Med-Gemini a apprise à partir des données d'entraînement, bien que le sens du rapport reste inchangé. »
Google a reconnu le problème dans un commentaire public sur LinkedIn, minimisant une fois de plus le problème en le qualifiant de « faute d'orthographe ».
« Merci de l'avoir signalé ! » a déclaré l'entreprise. Nous avons mis à jour l'illustration de l'article de blog pour montrer le résultat du modèle original, et nous convenons qu'il est important de montrer comment le modèle fonctionne réellement.
Au moment de la publication de cet article, le document de recherche lui-même contenait toujours l'erreur, sans mise à jour ni mention.
Qu'il s'agisse d'une faute de frappe, d'une hallucination, ou des deux, de telles erreurs soulèvent des questions bien plus vastes quant aux normes auxquelles l'IA médicale devrait se conformer et quant à la date à laquelle elle sera prête à être déployée dans des cas d'utilisation accessibles au public.
« Le problème avec ces fautes de frappe ou autres hallucinations, c'est que je ne fais pas confiance à nos humains pour les vérifier. »
« Le problème avec ces fautes de frappe ou autres hallucinations, c'est que je ne fais pas confiance à nos humains pour les vérifier, du moins pas à tous les niveaux », explique Shah à The Verge. Ces erreurs se propagent. Nous avons découvert, lors de l'une de nos analyses d'un outil, que quelqu'un avait rédigé une note contenant une évaluation pathologique erronée : la pathologie était positive pour le cancer, et ils ont mis une évaluation négative (par inadvertance)… Mais maintenant, l'IA lit toutes ces notes, les propage, les propage, et prend des décisions à partir de ces données erronées.
Les erreurs dans les modèles de santé de Google persistent. Il y a deux mois, Google a lancé MedGemma, un modèle de santé plus récent et plus avancé, spécialisé dans les résultats radiologiques basés sur l'IA. Les professionnels de la santé ont constaté que s'ils formulaient différemment les questions posées au modèle d'IA, les réponses variaient et pouvaient conduire à des résultats inexacts.
À titre d'exemple, le Dr Judy Gichoya, professeure agrégée au département de radiologie et d'informatique de la faculté de médecine de l'université Emory, a demandé MedGemma](https://zoom.us/rec/play/sOopZ3Pg1M-qCuuurHJ6wbKukq82c_20gGVRDmTbhiFHpO_3aYJoQODK4a73QqW0XdAaEtyFjeK2-1Ze.aVetSPh34KRLG6NA?eagerLoadZvaPages=sidemenu.billing.plan_management&accessLevel=meeting&canPlayFromShar e=true&from=share_recording_detail&continueMode=true&componentName=rec-play&originRequestUrl=https%3A%2F%2Fzoom.us%2Frec%2Fshare%2FPe-FvHJDfUAs3Z2laNzXr4hpRApxSR1oHvyJTV9lMdRv2z_GdazRI9iPgDgblW-c.U0MQjRRcASJM-Wxt) à propos d'un problème avec la radiographie des côtes d'un patient avec beaucoup de détails --- "Voici une radiographie d'un patient [âge] [sexe]. Que voyez-vous sur la radiographie ?" --- et le modèle a correctement diagnostiqué le problème. Lorsque le système a vu la même image mais avec une question plus simple --- "Que voyez-vous sur la radiographie ?" --- l'IA a dit qu'il n'y avait aucun problème du tout. « La radiographie montre un thorax adulte normal », écrit MedGemma.
Dans un autre exemple, Gichoya a interrogé MedGemma au sujet d'une radiographie montrant un pneumopéritoine, ou gaz sous le diaphragme. La première fois, le système a répondu correctement. Mais avec une formulation de requête légèrement différente, l'IA a halluciné plusieurs types de diagnostics.
« La question est : allons-nous vraiment remettre en question l'IA ? » demande Shah. Même si un système d'IA écoute une conversation médecin-patient pour générer des notes cliniques, ou traduit la sténographie d'un médecin, précise-t-il, cela comporte des risques d'hallucinations qui pourraient entraîner des dangers encore plus importants. En effet, les professionnels de santé pourraient être moins enclins à vérifier le texte généré par l'IA, d'autant plus qu'il est souvent exact.
« Si j'écris "AAS 325 mg qd", il devrait le remplacer par "Prendre une aspirine tous les jours, 325 milligrammes", ou quelque chose que le patient peut comprendre », explique Shah. Si vous répétez cette procédure trop souvent, vous cessez de lire la partie patient. Donc, si le système a des hallucinations, s'il pense que l'ASA est l'évaluation standard en anesthésie, vous ne le détecterez pas.
Alertes de confabulation
Shah espère que le secteur évoluera vers une augmentation du nombre de professionnels de santé plutôt que vers un remplacement des aspects cliniques. Il espère également voir la détection des hallucinations en temps réel dans le secteur de l'IA, par exemple, un modèle d'IA vérifiant le risque d'hallucinations d'un autre modèle et soit ne montrant pas ces parties à l'utilisateur final, soit les signalant par un avertissement.
« Dans le domaine de la santé, la confabulation est présente dans les cas de démence et d'alcoolisme. On invente des choses qui semblent tout à fait exactes, on ne se rend donc pas compte que quelqu'un est atteint de démence parce qu'il invente des choses qui semblent justes, et puis on écoute attentivement et on se dit : "Attendez, ce n'est pas vrai" ; c'est exactement ce que font ces appareils », explique Shah. « Nous avons donc ces alertes de fabulation dans notre système, que nous intégrons là où nous utilisons l'IA. »
Gichoya, qui dirige le laboratoire d'innovation en IA et d'informatique translationnelle en santé d'Emory, explique avoir constaté des hallucinations dans les environnements de recherche, comme la plupart des modèles d'IA en santé à grande échelle.
« Leur nature est d'inventer des choses, et ils ne disent pas "Je ne sais pas", ce qui est un problème majeur pour des domaines à enjeux élevés comme la médecine », explique Gichoya.
Elle ajoute : « On essaie de modifier le flux de travail des radiologues pour qu'ils reviennent et disent : "L'IA va générer le rapport, puis vous le lirez", mais ce rapport est tellement hallucinant que la plupart d'entre nous, radiologues, ne serions pas capables de travailler de cette façon. Je pense donc que la barre pour l'adoption est beaucoup plus haute, même si les gens ne s'en rendent pas compte. »
Le Dr Jonathan Chen, professeur associé à la faculté de médecine de Stanford et directeur de la formation médicale en IA, a cherché l'adjectif approprié – en essayant « traître », « dangereux » et « précaire » – avant de définir comment décrire cette période charnière de l'IA en santé. « C'est un moment charnière très étrange où beaucoup de ces technologies sont adoptées trop rapidement dans les soins cliniques », explique-t-il. « Elles ne sont vraiment pas matures. »
Concernant la question des « ganglions basilaires », il ajoute : « C'est peut-être une faute de frappe, peut-être une différence significative – autant de problèmes bien réels qu'il faut décortiquer. »
Certains acteurs du secteur de la santé ont désespérément besoin d'outils d'IA, mais le secteur doit faire preuve d'un scepticisme approprié avant de les adopter, explique M. Chen. Le plus grand danger n'est peut-être pas que ces systèmes soient parfois erronés, mais plutôt leur crédibilité et leur fiabilité lorsqu'ils vous informent qu'une obstruction des « ganglions basilaires » est bien réelle, ajoute-t-il. De nombreuses erreurs se glissent dans les notes médicales humaines, mais l'IA peut en réalité aggraver le problème, grâce à un phénomène bien documenté appelé biais d'automatisation, où la complaisance conduit les gens à passer à côté d'erreurs dans un système pourtant correct la plupart du temps. Même l'IA qui vérifie le travail d'une autre IA reste imparfaite, explique-t-il. « Lorsque nous traitons des soins médicaux, l'imperfection peut sembler intolérable. »
« D'autres se disent peut-être : "Si on peut atteindre le niveau d'un humain, on est assez bon." Je n'y crois pas une seconde. »
« Vous connaissez l'analogie avec la voiture autonome : "Hé, elle m'a tellement bien conduit que je vais m'endormir au volant." » « C'est comme si on se disait : "Oh là là, attendez une minute, quand votre vie ou celle de quelqu'un d'autre est en jeu, ce n'est peut-être pas la bonne façon de procéder », explique Chen, ajoutant : « Je pense que nous recevons beaucoup d'aide et d'avantages, mais des erreurs très évidentes se produiront, qui ne sont pas nécessaires si nous abordons la question de manière plus réfléchie. »
Exiger de l'IA qu'elle fonctionne parfaitement sans intervention humaine, explique Chen, pourrait signifier que « nous n'en tirerons jamais les avantages dont nous disposons actuellement. En revanche, nous devrions lui imposer des normes aussi élevées que possible. Et je pense qu'il y a encore des normes plus élevées qu'elle peut et doit viser. » Obtenir un deuxième avis de plusieurs personnes réelles reste essentiel.
Cela dit, l'article de Google comptait plus de 50 auteurs et a été examiné par des professionnels de la santé avant publication. On ne sait pas exactement pourquoi aucun d'entre eux n'a détecté l'erreur ; Google n'a pas répondu directement à une question sur les raisons pour lesquelles elle a échappé aux lecteurs.
Le Dr Michael Pencina, responsable scientifique des données chez Duke Health, déclare à The Verge qu'il est « beaucoup plus susceptible de croire » que l'erreur Med-Gemini est une hallucination qu'une faute de frappe, ajoutant : « La question est, encore une fois, quelles en sont les conséquences ? » La réponse, pour lui, réside dans les enjeux liés à une erreur, et dans le secteur de la santé, ces enjeux sont importants. « Plus l'application est risquée et plus le système est autonome… plus la barre des preuves doit être haute », explique-t-il. « Et malheureusement, nous en sommes encore à un stade du développement de l'IA qui s'apparente à ce que j'appellerais le Far West. »
« À mon avis, l'IA doit avoir une barre d'erreur bien plus élevée que celle d'un humain », déclare Shah de Providence. « Peut-être que d'autres se disent : "Si on peut atteindre un niveau aussi élevé qu'un humain, on est assez bon." » Je n'y crois pas une seconde. Sinon, je laisserai mes humains faire le travail. Avec les humains, je sais comment aller leur parler et leur dire : « Dis, examinons ce cas ensemble. Comment aurions-nous pu faire autrement ? » Que vas-tu faire quand l'IA fera ça ?