Report 6111

Un nuevo estudio revela que los diagnósticos médicos de ChatGPT son precisos menos de la mitad de las veces.

Científicos pidieron al chatbot de inteligencia artificial (IA) que evaluara 150 casos prácticos del sitio web médico Medscape y descubrieron que GPT 3.5 (que impulsó ChatGPT cuando se lanzó en 2022) solo acertaba el 49 % de las veces.

Investigaciones previas demostraron que el chatbot podía aprobar con éxito en el Examen de Licencia Médica de Estados Unidos (USMLE), un hallazgo que sus autores elogiaron como "un hito notable en la maduración de la IA".

Sin embargo, en el nuevo estudio, publicado el 31 de julio en la revista PLOS ONE (https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0307383), los científicos advirtieron contra la dependencia del chatbot para casos médicos complejos que requieren discernimiento humano.

"Si las personas están asustadas, confundidas o simplemente no pueden acceder a la atención médica, podrían depender de una herramienta que parece ofrecer consejos médicos 'a su medida'", declaró a Live Science el autor principal del estudio, el Dr. Amrit Kirpalani (https://www.schulich.uwo.ca/paediatrics/about_us/people/faculty/kirpalani_amrit.html), doctor en nefrología pediátrica de la Facultad de Medicina y Odontología Schulich de la Universidad de Western, Ontario. Creo que, como comunidad médica (y dentro de la comunidad científica en general), debemos ser proactivos a la hora de educar a la población general sobre las limitaciones de estas herramientas en este sentido. No deberían sustituir a su médico todavía.

La capacidad de ChatGPT para proporcionar información se basa en sus datos de entrenamiento. Extraídos del repositorio Common Crawl, los 570 gigabytes de datos de texto que se incorporaron al modelo 2022 suman aproximadamente 300 000 millones de palabras, extraídas de libros, artículos en línea, Wikipedia y otras páginas web.

Los sistemas de IA detectan patrones en las palabras con las que se entrenaron para predecir qué podría seguirles, lo que les permite responder a una pregunta o sugerencia. En teoría, esto los hace útiles tanto para estudiantes de medicina como para pacientes que buscan respuestas simplificadas a preguntas médicas complejas. Sin embargo, la tendencia de los bots a "alucinar" (inventando respuestas completamente) (https://www.livescience.com/technology/artificial-intelligence/ai-isnt-hallucinating-its-bullshitting) limita su utilidad en los diagnósticos médicos.

Para evaluar la precisión del asesoramiento médico de ChatGPT, los investigadores presentaron al modelo 150 estudios de caso variados (incluyendo el historial del paciente, hallazgos del examen físico e imágenes tomadas en el laboratorio) que buscaban desafiar la capacidad diagnóstica de los médicos en formación. El chatbot eligió uno de cuatro resultados de opción múltiple antes de responder con su diagnóstico y un plan de tratamiento, que los investigadores calificaron por su precisión y claridad.

Los resultados fueron mediocres: ChatGPT obtuvo más respuestas incorrectas que correctas en cuanto a precisión médica, mientras que ofreció resultados completos y relevantes el 52 % de las veces. Sin embargo, la precisión general del chatbot fue mucho mayor, del 74%, lo que significa que pudo identificar y descartar respuestas incorrectas de opción múltiple con mucha mayor fiabilidad.

Los investigadores afirmaron que una razón de este bajo rendimiento podría ser que la IA no se entrenó con un conjunto de datos clínicos lo suficientemente amplio, lo que le impidió gestionar los resultados de múltiples pruebas y evitar el manejo de absolutos con la misma eficacia que los médicos humanos.

A pesar de sus deficiencias, los investigadores afirmaron que la IA y los chatbots podrían seguir siendo útiles para la formación de pacientes y médicos en formación, siempre que los sistemas de IA estén supervisados y sus declaraciones se acompañen de una verificación de datos rigurosa.

"Si nos remontamos a las publicaciones de revistas médicas de alrededor de 1995, podemos ver que el mismo discurso se estaba dando con la World Wide Web. Había nuevas publicaciones sobre casos de uso interesantes y también artículos que se mostraban escépticos sobre si se trataba de una simple moda", afirmó Kirpalani. Creo que, con la IA y los chatbots en particular, la comunidad médica descubrirá un enorme potencial para optimizar la toma de decisiones clínicas, agilizar las tareas administrativas y mejorar la interacción con los pacientes.

Problema 6111

ChatGPT es realmente terrible para diagnosticar afecciones médicas.