Report 2580

Dos programas de inteligencia artificial (IA), incluido ChatGPT, han aprobado el Examen de licencia médica de EE. UU. (USMLE), según dos documentos recientes.

Los documentos destacaron diferentes enfoques para usar modelos de lenguaje extenso para realizar el USMLE, que se compone de tres exámenes: Paso 1, Paso 2 CK y Paso 3.

ChatGPT es una herramienta de búsqueda de inteligencia artificial (AI) que imita la escritura de formato largo en función de las indicaciones de los usuarios humanos. Fue desarrollado por OpenAI y se hizo popular después de que varias publicaciones en las redes sociales mostraran usos potenciales de la herramienta en la práctica clínica, [a menudo con resultados mixtos] (https://www.medpagetoday.com/special-reports/exclusives/102312).

El primer artículo, publicado en medRxiv en diciembre, investigó el desempeño de ChatGPT en el USMLE sin ningún entrenamiento o refuerzo especial antes de los exámenes. Según Victor Tseng, MD, de Ansible Health en Mountain View, California, y sus colegas, los resultados mostraron "evidencia nueva y sorprendente" de que esta herramienta de IA estaba a la altura del desafío.

Tseng y su equipo observaron que ChatGPT pudo desempeñarse con una precisión >50 % en todos los exámenes, e incluso logró un 60 % en la mayoría de sus análisis. Si bien el umbral de aprobación del USMLE varía de un año a otro, los autores dijeron que la aprobación es aproximadamente del 60 % la mayoría de los años.

"ChatGPT se desempeñó en o cerca del umbral de aprobación de los tres exámenes sin ningún entrenamiento o refuerzo especializado", escribieron, y señalaron que la herramienta pudo demostrar "un alto nivel de concordancia y conocimiento en sus explicaciones".

"Estos resultados sugieren que los modelos de lenguaje extenso pueden tener el potencial de ayudar con la educación médica y, potencialmente, con la toma de decisiones clínicas", concluyeron.

El segundo artículo, publicado en arXiv, también en diciembre, evaluó el rendimiento de otro gran modelo de lenguaje, Flan-PaLM, en el USMLE. La diferencia clave entre los dos modelos fue que este modelo se modificó mucho para prepararse para los exámenes, utilizando una colección de bases de datos de preguntas y respuestas médicas llamada MultiMedQA, explicó Vivek Natarajan, investigador de IA, y colegas.

Flan-PaLM logró una precisión del 67,6 % al responder las preguntas del USMLE, que fue aproximadamente 17 puntos porcentuales más que el mejor desempeño anterior realizado con PubMed GPT.

Natarajan y su equipo concluyeron que los modelos de lenguaje extenso "presentan una oportunidad importante para repensar el desarrollo de la IA médica y hacer que su uso sea más fácil, seguro y equitativo".

ChatGPT, junto con otros programas de IA, ha aparecido como sujeto, y en ocasiones como coautor, de nuevos trabajos de investigación centrados en probar la utilidad de la tecnología en medicina.

Por supuesto, los profesionales de la salud también han expresado su preocupación por estos desarrollos, especialmente cuando ChatGPT figura como autor en artículos de investigación. Un artículo reciente de Nature destacó la inquietud de los posibles colegas y coautores de la tecnología emergente.

Una objeción al uso de programas de IA en la investigación se basó en si pueden ser verdaderamente capaces de hacer contribuciones académicas significativas a un artículo, mientras que otra objeción enfatizó que las herramientas de IA no pueden consentir en ser coautores en primer lugar.

El editor de [uno de los artículos] (https://www.sciencedirect.com/science/article/abs/pii/S1471595322002517?via%3Dihub) que incluyó a ChatGPT como autor dijo que era un error que se corregiría, según el artículo Nature. Aún así, los investigadores han publicado varios artículos que ahora promocionan estos programas de IA como herramientas útiles en la educación médica, la investigación e incluso la toma de decisiones clínicas.

Natarajan y sus colegas concluyeron en su artículo que los modelos de lenguaje extenso podrían convertirse en una herramienta beneficiosa en medicina, pero su primera esperanza era que sus hallazgos "provocarían más conversaciones y colaboraciones entre pacientes, consumidores, investigadores de IA, médicos, científicos sociales, especialistas en ética, legisladores". y otras personas interesadas para traducir de manera responsable estos primeros hallazgos de investigación para mejorar la atención médica".

Problema 2580

AI aprueba el examen de licencia médica de EE. UU.