Report 6224

Les outils d'intelligence artificielle utilisés par les médecins risquent d'aggraver les résultats de santé des femmes et des minorités ethniques, car un nombre croissant de recherches montrent que de nombreux grands modèles linguistiques minimisent les symptômes de ces patients.

Une série d'études récentes a révélé que l'adoption de modèles d'IA dans le secteur de la santé pourrait entraîner des décisions médicales biaisées, renforçant ainsi les schémas de sous-traitement déjà présents dans différents groupes des sociétés occidentales.

Les conclusions de chercheurs d'universités américaines et britanniques de premier plan suggèrent que les outils d'IA médicale issus des masters de médecine ont tendance à ne pas refléter la gravité des symptômes chez les patientes, tout en faisant preuve de moins d'empathie envers les patientes noires et asiatiques.

Ces avertissements surviennent alors que les plus grands groupes mondiaux d'IA, tels que Microsoft, Amazon, OpenAI et Google, s'empressent de développer des produits visant à alléger la charge de travail des médecins et à accélérer les traitements, afin de soutenir les systèmes de santé surchargés du monde entier.

De nombreux hôpitaux et médecins du monde entier utilisent des LLM tels que Gemini et ChatGPT, ainsi que des applications de prise de notes médicales basées sur l'IA, développées par des start-ups comme Nabla et Heidi, pour générer automatiquement les transcriptions des consultations des patients, mettre en évidence les informations médicales pertinentes et créer des résumés cliniques.

En juin, Microsoft a annoncé avoir développé un outil médical basé sur l'IA qui, selon elle, est quatre fois plus performant que les médecins pour diagnostiquer des affections complexes.

Cependant, une étude menée en juin par la clinique Jameel du MIT a révélé que les modèles d'IA, tels que GPT-4 d'OpenAI, Llama 3 de Meta et Palmyra-Med (un LLM axé sur les soins de santé), recommandaient un niveau de soins bien inférieur pour les patientes et suggéraient à certaines patientes de se soigner elles-mêmes à domicile plutôt que de consulter.

Une autre étude menée par l'équipe du MIT a montré que GPT-4 d'OpenAI et d'autres modèles affichaient également des réponses moins bienveillantes envers les personnes noires et asiatiques cherchant un soutien pour des problèmes de santé mentale.

Cela suggère que « certains patients pourraient recevoir un accompagnement bien moins favorable, uniquement en raison de leur origine ethnique perçue par le modèle », a déclaré Marzyeh Ghassemi, professeure associée à la clinique Jameel du MIT.

De même, une étude de la London School of Economics a révélé que le modèle Gemma de Google, utilisé par plus de la moitié des collectivités locales britanniques pour soutenir les travailleurs sociaux, minimisait les problèmes physiques et mentaux des femmes par rapport à ceux des hommes lorsqu'il était utilisé pour générer et synthétiser les notes de cas.

Marzyeh Ghassemi, professeure associée à la clinique Jameel du MIT. Marzyeh Ghassemi : « J’espère que nous commencerons à recentrer les modèles de santé afin de combler les lacunes cruciales en matière de santé. » © Jonathan Wiggs/Boston Globe/Getty Images

L’équipe de Ghassemi au MIT a constaté que les patients dont les messages contenaient des fautes de frappe, un langage informel ou une formulation incertaine étaient 7 à 9 % plus susceptibles d’être déconseillés de consulter un médecin par les modèles d’IA utilisés en milieu médical, que ceux dont les communications étaient parfaitement formatées, même lorsque le contenu clinique était identique.

Cela pourrait entraîner un traitement injuste pour les personnes dont l’anglais n’est pas la langue maternelle ou qui ne sont pas à l’aise avec les technologies.

Le problème des biais préjudiciables provient en partie des données utilisées pour entraîner les modèles LLM. Les modèles à usage général, tels que GPT-4, Llama et Gemini, sont entraînés à partir de données provenant d’Internet, et les biais issus de ces sources se reflètent donc dans les réponses. Les développeurs d’IA peuvent également influencer la manière dont ces biais s’infiltrent dans les systèmes en ajoutant des protections après l’entraînement du modèle.

« Si vous êtes confronté à un risque qu'un sous-forum Reddit vous conseille sur vos décisions de santé, je ne pense pas que ce soit un endroit sûr », a déclaré Travis Zack, professeur adjoint à l'Université de Californie à San Francisco et directeur médical d'Open Evidence, une start-up spécialisée dans l'information médicale basée sur l'IA.

Lors d'une étude réalisée l'année dernière, Zack et son équipe ont constaté que le GPT-4 ne prenait pas en compte la diversité démographique des pathologies et tendait à stéréotyper certaines origines ethniques et certains genres.

Les chercheurs ont averti que les outils d'IA peuvent renforcer les schémas de sous-traitement déjà existants dans le secteur de la santé, car les données de la recherche en santé sont souvent fortement biaisées en faveur des hommes, et les problèmes de santé des femmes, par exemple, souffrent d'un sous-financement et d'une sous-recherche chroniques.

OpenAI a indiqué que de nombreuses études ont évalué un ancien modèle du GPT-4, et que l'entreprise avait amélioré sa précision depuis son lancement. Des équipes s'efforçaient de réduire les résultats préjudiciables ou trompeurs, en se concentrant particulièrement sur la santé. L'entreprise a indiqué avoir également collaboré avec des cliniciens et des chercheurs externes pour évaluer ses modèles, tester leur comportement et identifier les risques.

Le groupe a également développé, en collaboration avec des médecins, un référentiel pour évaluer les capacités des LLM dans le domaine de la santé. Ce référentiel prend en compte les requêtes des utilisateurs, quels que soient leur style, leur pertinence et leur niveau de détail.

Google a déclaré prendre les biais des modèles « extrêmement au sérieux » et développer des techniques de confidentialité permettant de nettoyer les données sensibles et de mettre en place des mesures de protection contre les biais et la discrimination.

Les chercheurs ont suggéré qu'une solution pour réduire les biais médicaux dans l'IA consiste à identifier les ensembles de données à éviter en premier lieu pour l'apprentissage, puis à s'entraîner sur des ensembles de données de santé diversifiés et plus représentatifs.

Zack a indiqué qu'Open Evidence, utilisé par 400 000 médecins aux États-Unis pour synthétiser les antécédents médicaux des patients et récupérer des informations, a entraîné ses modèles sur des revues médicales, les étiquettes de la Food and Drug Administration (FDA), les recommandations sanitaires et les avis d'experts. Chaque résultat de l'IA est également étayé par une citation de sa source.

Plus tôt cette année, des chercheurs de l'University College London et du King's College London se sont associés au NHS britannique pour développer un modèle d'IA générative, baptisé Foresight.

Recommandé Interview du Dr Raj Jena Comment l'IA aide un médecin à traiter le cancer : « Le battage médiatique est terminé. »

Le modèle a été entraîné à partir de données patients anonymisées de 57 millions de personnes, concernant des événements médicaux tels que les admissions à l'hôpital et les vaccinations contre la Covid-19. Foresight a été conçu pour prédire les conséquences probables sur la santé, comme les hospitalisations ou les crises cardiaques.

« Travailler avec des données à l'échelle nationale nous permet de représenter l'ensemble de l'Angleterre, en termes de démographie et de maladies », a déclaré Chris Tomlinson, chercheur principal honoraire à l'UCL et chercheur principal de l'équipe Foresight. Bien qu'imparfait, M. Tomlinson a déclaré que ce modèle constituait un meilleur point de départ que des ensembles de données plus généraux.

Des scientifiques européens ont également entraîné un modèle d'IA appelé Delphi-2M, capable de prédire la susceptibilité aux maladies sur plusieurs décennies, à partir des dossiers médicaux anonymisés de 400 000 participants de la UK Biobank.

Mais avec des données réelles de patients de cette ampleur, la confidentialité devient souvent un problème. Le projet NHS Foresight a été suspendu en juin pour permettre au Bureau du Commissaire à l'information du Royaume-Uni d'examiner une plainte relative à la protection des données, déposée par la British Medical Association et le Royal College of General Practitioners, concernant l'utilisation de données de santé sensibles dans l'entraînement du modèle.

De plus, des experts ont averti que les systèmes d'IA « hallucinent » souvent – ou inventent des réponses – ce qui pourrait être particulièrement néfaste dans un contexte médical.

Mais M. Ghassemi, du MIT, a déclaré que l'IA apportait d'énormes avantages aux soins de santé. « J'espère que nous commencerons à recentrer les modèles de santé afin de combler les lacunes cruciales en matière de santé, et non d'augmenter d'un pour cent la performance des tâches pour lesquelles les médecins sont de toute façon plutôt bons. »

Problème 6224

Des outils médicaux d'IA minimisent les symptômes des femmes et des minorités ethniques