Incidentes Asociados
Escenario: Un radiólogo examina tu escáner cerebral y detecta una anomalía en los ganglios basales. Se trata de una zona del cerebro que te ayuda con el control motor, el aprendizaje y el procesamiento emocional. El nombre se parece un poco al de otra parte del cerebro, la arteria basilar, que irriga el tronco encefálico, pero el radiólogo sabe que no debe confundirlas. Un accidente cerebrovascular o una anomalía en una de ellas suele tratarse de forma muy diferente a la de la otra.
Ahora imagina que tu médico utiliza un modelo de IA para realizar la lectura. El modelo indica que tienes un problema con los "ganglios basilares", confundiendo ambos nombres en una zona del cerebro que no existe. Esperarías que tu médico detectara el error y revisara la imagen. Pero es posible que no lo haga.
Aunque no se trata de un entorno hospitalario, el error de "ganglios basilares" es real, detectado por el modelo de IA de Google para el sector sanitario, Med-Gemini. Un artículo de investigación de 2024 (https://arxiv.org/pdf/2405.03162) que presentaba Med-Gemini incluyó la alucinación en una sección sobre tomografías computarizadas de cabeza, y nadie en Google la detectó, ni en ese artículo ni en una entrada de blog que la anunciaba. Cuando Bryan Moore, neurólogo certificado e investigador con experiencia en IA, señaló el error, según declaró a The Verge, la compañía editó discretamente la entrada de blog para corregirlo sin reconocimiento público, y el artículo permaneció sin cambios. Google describe el incidente como una simple falta de ortografía de "basal ganglia". Algunos profesionales médicos afirman que es un error peligroso y un ejemplo de las limitaciones de la IA en el ámbito sanitario.
Med-Gemini es un conjunto de modelos de IA que pueden resumir datos de salud, crear informes radiológicos, analizar historiales médicos electrónicos y más. El artículo de investigación preimpreso, cuyo objetivo era demostrar su valor a los médicos, destacó una serie de anomalías en las exploraciones que los radiólogos "pasaron por alto", pero que la IA detectó. Uno de sus ejemplos fue que Med-Gemini diagnosticó un "infarto antiguo del ganglio basilar izquierdo". Pero, como se ha establecido, no existe tal cosa.
Un año después, el programa de probadores de confianza de Med-Gemini ya no acepta nuevos participantes, lo que probablemente significa que el programa se está probando en escenarios médicos reales a modo de piloto. Todavía es una prueba preliminar, pero el riesgo de errores de IA es cada vez mayor. Med-Gemini no es el único modelo que los comete. Y no está claro cómo deberían responder los médicos.
"De lo que hablas es súper peligroso", declaró a The Verge Maulin Shah, director de información médica de Providence, un sistema de salud que presta servicios a 51 hospitales y más de 1000 clínicas. Añadió: "Dos letras, pero es algo muy importante".
En un comunicado, el portavoz de Google, Jason Freidenfelds, declaró a The Verge que la compañía colabora con la comunidad médica para probar sus modelos y que Google es transparente sobre sus limitaciones. "Aunque el sistema detectó una patología que no se detectó, utilizó un término incorrecto para describirla (basilar en lugar de basal). Por eso lo aclaramos en la entrada del blog*", afirmó Freidenfelds. Añadió: "Trabajamos continuamente para mejorar nuestros modelos, examinando rigurosamente una amplia gama de atributos de rendimiento; consulte nuestras prácticas de capacitación e implementación para obtener una visión detallada de nuestro proceso".
Un error de transcripción común
El 6 de mayo de 2024, Google presentó con gran éxito su nuevo conjunto de modelos de IA para el sector sanitario. Se presentó "Med-Gemini" como un "gran avance" con un "potencial sustancial en medicina", promocionando sus aplicaciones reales en radiología, patología, dermatología, oftalmología y genómica.
Los modelos se entrenaron con imágenes médicas, como radiografías de tórax, cortes de tomografía computarizada, preparaciones de patología y más, utilizando datos médicos anónimos con etiquetas de texto, según una entrada de blog de Google (https://research.google/blog/advancing-medical-ai-with-med-gemini/). La compañía afirmó que los modelos de IA podían "interpretar exploraciones 3D complejas, responder preguntas clínicas y generar informes radiológicos de vanguardia", llegando incluso a afirmar que podrían ayudar a predecir el riesgo de enfermedades mediante información genómica.
Moore vio las promociones que los autores hicieron del artículo desde el principio y le echó un vistazo. Detectó el error y, alarmado, lo reportó a Google en LinkedIn y contactó directamente con los autores para informarles.
La empresa, según vio, sustituyó discretamente la evidencia del error del modelo de IA. Actualizó la frase de la entrada inicial del blog de "ganglios basilares" a "ganglios basales", sin otras diferencias ni cambios en el artículo en sí. En una comunicación vista por The Verge, los empleados de Google Health respondieron a Moore, calificando el error de errata.
En respuesta, Moore criticó públicamente a Google por la edición discreta. Esta vez, la empresa modificó el resultado con una aclaración caption, escribiendo que "'basilar' es una transcripción errónea común de 'basal' que Med-Gemini ha aprendido de los datos de entrenamiento, aunque el significado del informe no ha cambiado".
Google reconoció el problema en un comentario público en LinkedIn, restándole importancia, calificándolo de "error ortográfico".
"¡Gracias por informarnos!", dijo la empresa. Hemos actualizado la figura de la entrada del blog para mostrar el resultado del modelo original y coincidimos en la importancia de mostrar cómo funciona realmente.
Al momento de la publicación de este artículo, el propio trabajo de investigación aún contiene el error sin actualizaciones ni reconocimiento.
Ya sea una errata, una alucinación o ambas, errores como estos plantean preguntas mucho más importantes sobre los estándares que debe cumplir la IA sanitaria y cuándo estará lista para su lanzamiento en casos de uso público.
"El problema con estas errata u otras alucinaciones es que no confío en que nuestros humanos las revisen, o al menos no en todos los niveles", declara Shah a The Verge. Estas cosas se propagan. En uno de nuestros análisis de una herramienta, descubrimos que alguien había escrito una nota con una evaluación patológica incorrecta: la patología dio positivo para cáncer, y ellos pusieron negativo (sin darse cuenta)... Pero ahora la IA lee todas esas notas, las propaga una y otra vez, y toma decisiones a partir de esos datos erróneos.
Los errores en los modelos de atención médica de Google han persistido. Hace dos meses, Google presentó MedGemma, un modelo de atención médica más nuevo y avanzado que se especializa en resultados de radiología basados en IA. Los profesionales médicos descubrieron que si formulaban las preguntas de forma diferente al formularlas al modelo de IA, las respuestas variaban y podían generar resultados inexactos.
Por ejemplo, la Dra. Judy Gichoya, profesora asociada del departamento de radiología e informática de la Facultad de Medicina de la Universidad de Emory, [preguntó MedGemma](https://zoom.us/rec/play/sOopZ3Pg1M-qCuuurHJ6wbKukq82c_20gGVRDmTbhiFHpO_3aYJoQODK4a73QqW0XdAaEtyFjeK2-1Ze.aVetSPh34KRLG6NA?eagerLoadZvaPages=sidemenu.billing.plan_management&accessLevel=meeting&canPlayFromShar e=true&from=share_recording_detail&continueMode=true&componentName=rec-play&originRequestUrl=https%3A%2F%2Fzoom.us%2Frec%2Fshare%2FPe-FvHJDfUAs3Z2laNzXr4hpRApxSR1oHvyJTV9lMdRv2z_GdazRI9iPgDgblW-c.U0MQjRRcASJM-Wxt) sobre un problema con la radiografía de costilla de un paciente con muchos detalles: "Aquí hay una radiografía de un paciente [edad] [sexo]. ¿Qué ve en la radiografía?", y el modelo diagnosticó correctamente el problema. Cuando se le mostró al sistema la misma imagen, pero con una pregunta más simple: "¿Qué ve en la radiografía?", la IA dijo que no había ningún problema. "La radiografía muestra un tórax adulto normal", escribió MedGemma. En otro ejemplo, Gichoya preguntó a MedGemma sobre una radiografía que mostraba neumoperitoneo, o gas bajo el diafragma. La primera vez, el sistema respondió correctamente. Pero con una redacción de consulta ligeramente diferente, la IA alucinó con múltiples tipos de diagnósticos.
"La pregunta es: ¿realmente vamos a interrogar a la IA o no?", pregunta Shah. Incluso si un sistema de IA escucha una conversación médico-paciente para generar notas clínicas o traduce la taquigrafía del médico, añade, estas acciones conllevan riesgos de alucinación que podrían conllevar aún más peligros. Esto se debe a que los profesionales médicos podrían ser menos propensos a verificar el texto generado por la IA, especialmente porque suele ser preciso.
"Si escribo 'AAS 325 mg una vez al día', debería cambiarlo a 'Tome una aspirina todos los días, 325 miligramos', o algo que un paciente pueda entender", dice Shah. Si haces eso suficientes veces, dejas de leer la parte del paciente. Así que si ahora alucina, si cree que la ASA es la evaluación estándar de anestesia, no lo detectarás.
Alertas de confabulación
Shah afirma que espera que la industria avance hacia la mejora de los profesionales sanitarios en lugar de reemplazar los aspectos clínicos. También busca la detección de alucinaciones en tiempo real en la industria de la IA; por ejemplo, que un modelo de IA verifique a otro para detectar el riesgo de alucinaciones y no muestre esas partes al usuario final o las marque con una advertencia.
"En la atención médica, la 'confabulación' ocurre en la demencia y el alcoholismo, donde simplemente inventas cosas que parecen muy acertadas, de modo que no te das cuenta de que alguien tiene demencia porque lo están inventando y suena bien, y luego escuchas con atención y piensas: 'Espera, eso no es correcto'; eso es exactamente lo que hacen estos dispositivos", dice Shah. "Tenemos estas alertas de confabulación en nuestro sistema, las cuales instalamos donde usamos IA".
Gichoya, quien dirige el laboratorio de Innovación en IA para el Cuidado de la Salud e Informática Traslacional de Emory, afirma haber visto versiones más recientes de Med-Gemini con alucinaciones en entornos de investigación, al igual que la mayoría de los modelos de IA para el cuidado de la salud a gran escala.
"Su naturaleza es que tienden a inventar cosas, y no responden 'No lo sé', lo cual es un gran problema para ámbitos tan importantes como la medicina", afirma Gichoya.
Añadió: "Se intenta cambiar el flujo de trabajo de los radiólogos para que digan: 'La IA generará el informe, luego tú lo lees', pero ese informe tiene tantas alucinaciones, que la mayoría de los radiólogos no podríamos trabajar así. Por eso, creo que el listón para su adopción es mucho más alto, incluso si la gente no se da cuenta". El Dr. Jonathan Chen, profesor asociado de la Facultad de Medicina de Stanford y director de educación médica en IA, buscó el adjetivo adecuado —probando con "traicionero", "peligroso" y "precario"— antes de decidir cómo describir este momento de la IA en el ámbito sanitario. "Es un momento crucial muy extraño, en el que muchas de estas cosas se están adoptando con demasiada rapidez en la atención clínica", afirma. "Realmente no están maduras".
Sobre el problema de los "ganglios basilares", añade: "Quizás sea una errata tipográfica, quizás una diferencia significativa; todos esos son problemas muy reales que deben analizarse".
Algunos sectores del sector sanitario necesitan desesperadamente la ayuda de las herramientas de IA, pero es necesario ser lo más escépticos posible antes de adoptarlas, afirma Chen. Quizás el mayor peligro no sea que estos sistemas a veces se equivoquen, sino la credibilidad y fiabilidad que transmiten cuando afirman que una obstrucción en los "ganglios basilares" es algo real, añade. Se cuelan muchos errores en las historias clínicas humanas, pero la IA puede agravar el problema gracias a un fenómeno bien documentado conocido como sesgo de automatización, donde la complacencia lleva a las personas a pasar por alto errores en un sistema que funciona correctamente la mayoría de las veces. Incluso la IA que verifica el trabajo de otra IA sigue siendo imperfecta, afirma. "En la atención médica, la imperfección puede resultar intolerable".
"Quizás otras personas piensen: 'Si podemos llegar tan alto como un humano, somos lo suficientemente buenos'. No me lo creo ni por un segundo".
"Ya conoces la analogía del coche sin conductor: 'Oye, me ha conducido tan bien tantas veces que me voy a dormir al volante'. Es como decir: "¡Un momento! Cuando tu vida o la de otra persona está en juego, quizá no sea la forma correcta de hacerlo", dice Chen, y añade: "Creo que obtenemos mucha ayuda y beneficios, pero también se producirán errores muy obvios que no deberían ocurrir si abordamos esto de forma más deliberada".
Exigir que la IA funcione a la perfección sin intervención humana, afirma Chen, podría significar que "nunca obtendremos los beneficios que podemos aprovechar ahora. Por otro lado, deberíamos exigirle el máximo nivel posible. Y creo que aún hay un nivel más alto que puede y debe alcanzar". Obtener segundas opiniones de varias personas reales sigue siendo vital.
Dicho esto, el artículo de Google contó con más de 50 autores y fue revisado por profesionales médicos antes de su publicación. No está claro exactamente por qué ninguno de ellos detectó el error; Google no respondió directamente a una pregunta sobre por qué se coló.
El Dr. Michael Pencina, científico jefe de datos de Duke Health, declaró a The Verge que es "mucho más probable que crea" que el error de Med-Gemini es una alucinación que una errata tipográfica, y añadió: "La pregunta es, de nuevo, ¿cuáles son las consecuencias?". Para él, la respuesta reside en el riesgo de cometer un error, y en el ámbito sanitario, ese riesgo es grave. "Cuanto mayor sea el riesgo de la aplicación y más autónomo el sistema... más exigentes deben ser los requisitos de la evidencia", afirma. "Y, lamentablemente, nos encontramos en una etapa del desarrollo de la IA que todavía se asemeja mucho a lo que yo llamaría el Salvaje Oeste".
"En mi opinión, la IA debe tener un margen de error mucho mayor que un humano", afirma Shah, de Providence. "Quizás otros piensen: 'Si podemos llegar tan lejos como un humano, somos lo suficientemente buenos'". No me lo creo ni por un segundo. Si no, simplemente dejaré que mis humanos hagan el trabajo. Con los humanos sé cómo hablar con ellos y decirles: "Oye, analicemos este caso juntos. ¿Cómo podríamos haberlo hecho de otra manera?". ¿Qué harás cuando la IA haga eso?"