Report 2580

Selon deux articles récents, deux programmes d'intelligence artificielle (IA), dont ChatGPT, ont réussi l'examen américain de licence médicale (USMLE).

Les articles ont mis en évidence différentes approches de l'utilisation de grands modèles linguistiques pour passer l'USMLE, qui comprend trois examens : l'étape 1, l'étape 2 CK et l'étape 3.

ChatGPT est un outil de recherche d'intelligence artificielle (IA) qui imite l'écriture longue en fonction des invites des utilisateurs humains. Il a été développé par OpenAI et est devenu populaire après que plusieurs publications sur les réseaux sociaux aient montré des utilisations potentielles de l'outil dans la pratique clinique, souvent avec des résultats mitigés.

Le premier article, publié sur medRxiv en décembre, a enquêté sur les performances de ChatGPT sur l'USMLE sans aucune formation ou renforcement spécial avant les examens. Selon Victor Tseng, MD, d'Ansible Health à Mountain View, Californie, et ses collègues, les résultats ont montré "des preuves nouvelles et surprenantes" que cet outil d'IA était à la hauteur du défi.

Tseng et son équipe ont noté que ChatGPT était capable de fonctionner avec une précision > 50 % sur tous les examens, et a même atteint 60 % dans la plupart de leurs analyses. Bien que le seuil de réussite USMLE varie d'une année à l'autre, les auteurs ont déclaré que la réussite est d'environ 60% la plupart des années.

"ChatGPT a atteint ou proche du seuil de réussite pour les trois examens sans aucune formation ou renforcement spécialisé", ont-ils écrit, notant que l'outil a pu démontrer "un haut niveau de concordance et de perspicacité dans ses explications".

"Ces résultats suggèrent que de grands modèles de langage peuvent avoir le potentiel d'aider à l'éducation médicale et potentiellement à la prise de décision clinique", ont-ils conclu.

Le deuxième article, publié sur arXiv, également en décembre, évaluait les performances d'un autre grand modèle de langage, Flan-PaLM, sur l'USMLE. La principale différence entre les deux modèles était que ce modèle a été fortement modifié pour se préparer aux examens, en utilisant une collection de bases de données médicales appelées MultiMedQA, ont expliqué Vivek Natarajan, chercheur en IA, et ses collègues.

Flan-PaLM a atteint une précision de 67,6 % en répondant aux questions de l'USMLE, soit environ 17 points de pourcentage de plus que la meilleure performance précédente réalisée à l'aide de PubMed GPT.

Natarajan et son équipe ont conclu que les grands modèles de langage "présentent une opportunité significative de repenser le développement de l'IA médicale et de rendre son utilisation plus facile, plus sûre et plus équitable".

ChatGPT, ainsi que d'autres programmes d'IA, ont fait leur apparition en tant que sujet – et parfois en tant que co-auteur – de nouveaux articles de recherche axés sur le test de l'utilité de la technologie en médecine.

Bien sûr, les professionnels de la santé ont également exprimé leurs inquiétudes face à ces développements, en particulier lorsque ChatGPT est répertorié comme auteur d'articles de recherche. Un article récent de Nature a mis en évidence le malaise des collègues et co-auteurs potentiels de la technologie émergente.

Une objection à l'utilisation des programmes d'IA dans la recherche était basée sur leur capacité réelle à apporter des contributions scientifiques significatives à un article, tandis qu'une autre objection soulignait que les outils d'IA ne pouvaient pas consentir à être co-auteur en premier lieu.

L'éditeur de l'un des articles qui a répertorié ChatGPT comme auteur a déclaré qu'il s'agissait d'une erreur qui serait corrigée, selon l'article Nature. Pourtant, les chercheurs ont publié plusieurs articles vantant désormais ces programmes d'IA comme des outils utiles dans l'enseignement médical, la recherche et même la prise de décision clinique.

Natarajan et ses collègues ont conclu dans leur article que les grands modèles de langage pourraient devenir un outil bénéfique en médecine, mais leur premier espoir était que leurs découvertes « susciteraient de nouvelles conversations et collaborations entre les patients, les consommateurs, les chercheurs en IA, les cliniciens, les spécialistes des sciences sociales, les éthiciens, les décideurs. et d'autres personnes intéressées afin de traduire de manière responsable ces premiers résultats de recherche pour améliorer les soins de santé."

Problème 2580

L'IA réussit l'examen de licence médicale aux États-Unis