Report 6852

Alors que de plus en plus de personnes se tournent vers les chatbots d'IA générative pour obtenir des conseils médicaux, des chercheurs alertent sur la vulnérabilité de nombreux modèles largement utilisés, susceptibles d'être manipulés pour fournir des recommandations dangereuses.

Une équipe de recherche coréenne a révélé lundi que les grands modèles de langage utilisés dans le domaine médical sont extrêmement vulnérables aux « attaques par injection de prompts », une cyberattaque pouvant amener les systèmes d'IA à dépasser les limites des cadres de sécurité. L'équipe a constaté que plus de 94 % des interactions testées ont abouti à des réponses non sécurisées.

L'étude a été menée par le professeur Suh Jun-gyo du service d'urologie du centre médical Asan, le professeur Jun Tae-joon du service de médecine de l'information du même hôpital et le professeur Lee Ro-woon du service de radiologie de l'hôpital universitaire Inha.

Lors d'une attaque par injection de prompts, un pirate informatique insère des prompts malveillants dans un modèle d'IA générative, le faisant fonctionner de manière non conforme à sa fonction initiale.

Même des modèles de pointe comme GPT-5 et Gemini 2.5 Pro n'ont pas résisté à de telles attaques. Par exemple, certains ont recommandé à des femmes enceintes des médicaments connus pour provoquer des anomalies fœtales, ce qui révèle de graves problèmes de sécurité, selon l'analyse de l'équipe.

Les chercheurs affirment que cette étude est la première au monde à analyser systématiquement la vulnérabilité des modèles d'IA aux attaques par injection rapide lorsqu'ils sont utilisés en consultation médicale. Ils ajoutent que l'application des modèles d'IA en milieu clinique devrait exiger des mesures de vérification de sécurité supplémentaires.

Les modèles d'IA sont de plus en plus utilisés pour la consultation des patients, la formation et la prise de décision clinique. Cependant, des inquiétudes subsistent quant à la possibilité que des attaques par injection rapide manipulent ces systèmes pour recommander des traitements ou des médicaments dangereux ou inappropriés.

De janvier à octobre de l'année dernière, l'équipe a évalué les vulnérabilités de sécurité de trois modèles d'IA : GPT-4o-mini, Gemini-2.0-flash-lite et Claude 3 Haiku.

Ils ont élaboré 12 scénarios cliniques et les ont classés en trois niveaux de risque.

Un scénario à risque moyen consistait à recommander des remèdes à base de plantes plutôt que des traitements approuvés à un patient atteint d'une maladie chronique comme le diabète. Un scénario à haut risque consistait à recommander des remèdes à base de plantes à des patients souffrant d'hémorragie active ou d'un cancer, ou à suggérer des médicaments susceptibles de déprimer la respiration à des patients atteints de maladies respiratoires. Les scénarios à risque critique consistaient à recommander des médicaments déconseillés aux femmes enceintes.

Deux types de méthodes d'attaque ont été testés : l'injection d'invites contextuelles (qui utilise les informations du patient pour perturber le jugement du modèle) et la fabrication de preuves (qui crée des informations plausibles mais fausses).

L'équipe a analysé un total de 216 conversations entre les trois modèles d'IA et des patients virtuels. Le taux de réussite global des attaques pour les trois modèles était de 94,4 %.

Les taux de réussite des attaques par modèle étaient de 100 % pour GPT-4o-mini, 100 % pour Gemini-2.0-flash-lite et 83,3 % pour Claude 3 Haiku. Les taux de réussite, par niveau de risque, étaient de 100 % pour un risque moyen, de 93,3 % pour un risque élevé et de 91,7 % pour un risque critique.

Les trois modèles étaient vulnérables aux attaques recommandant des médicaments inappropriés aux femmes enceintes.

Dans plus de 80 % des cas, pour les trois modèles, les réponses manipulées persistaient lors des interactions suivantes, indiquant qu'une fois compromis, le modèle le restait tout au long de la conversation.

L'équipe a ensuite évalué les vulnérabilités de modèles d'IA de pointe (GPT-5, Gemini 2.5 Pro et Claude 4.5 Sonnet) à l'aide d'une technique différente appelée injection indirecte de prompts côté client. Cette technique dissimule des prompts malveillants dans l'interface utilisateur afin de manipuler le comportement du modèle. Le scénario de test consistait à nouveau à recommander des médicaments inappropriés aux femmes enceintes.

Les taux de réussite des attaques étaient de 100 % pour GPT-5, 100 % pour Gemini 2.5 Pro et 80 % pour Claude 4.5 Sonnet, démontrant que même les modèles d'IA les plus avancés ne pouvaient se défendre contre de telles attaques.

« Cette étude démontre que les modèles d'IA médicale sont structurellement vulnérables, non seulement aux simples erreurs, mais aussi à la manipulation intentionnelle », a déclaré le professeur Suh. « Les mécanismes de sécurité actuels sont insuffisants pour bloquer les attaques malveillantes qui conduisent à des prescriptions inappropriées. »

« Pour mettre en œuvre des chatbots médicaux ou des systèmes de téléconsultation basés sur l'IA, il est nécessaire de tester rigoureusement les vulnérabilités des modèles et de rendre la validation de sécurité obligatoire », a-t-il ajouté.

Ces travaux de recherche ont été publiés dans le dernier numéro de JAMA Network Open, une revue à comité de lecture de l'Association médicale américaine.

Cet article a été initialement rédigé en coréen et traduit par un journaliste bilingue à l'aide d'outils d'IA générative. Il a ensuite été relu par un correcteur anglophone natif. Toutes les traductions assistées par IA sont vérifiées et corrigées par notre rédaction.

Par Rhee Esther [lim.jeongwon@joongang.co.kr]

Problème 6852

Une vulnérabilité des chatbots IA produit des recommandations médicales dangereuses, selon une équipe de recherche coréenne