Report 6852

A medida que más personas recurren a chatbots de IA generativa para obtener asesoramiento médico, los investigadores advierten que muchos modelos ampliamente utilizados pueden manipularse fácilmente para ofrecer recomendaciones peligrosas.

Un equipo de investigación en Corea informó el lunes que los modelos de lenguaje médico de gran tamaño son altamente vulnerables a los "ataques de inyección de indicaciones", un ciberataque que puede provocar que los sistemas de IA superen los límites de seguridad. El equipo descubrió que más del 94 % de las interacciones evaluadas resultaron en respuestas inseguras.

El estudio fue dirigido por el profesor Suh Jun-gyo, del departamento de urología del Centro Médico Asan, el profesor Jun Tae-joon, del departamento de medicina de la información del mismo hospital, y el profesor Lee Ro-woon, del departamento de radiología del Hospital Universitario Inha.

En un ataque de inyección de indicaciones, un hacker inserta indicaciones maliciosas en un modelo de IA generativa, provocando que funcione de forma diferente a su función prevista.

Incluso modelos de gama alta como GPT-5 y Gemini 2.5 Pro no resistieron estos ataques, incluyendo la recomendación de medicamentos que se sabe que causan anomalías fetales a pacientes embarazadas, lo que indica serias limitaciones de seguridad, según el análisis del equipo.

Los investigadores afirmaron que este estudio fue el primero a nivel mundial en analizar sistemáticamente la vulnerabilidad de los modelos de IA a los ataques de inyección rápida cuando se utilizan en consultas médicas. Añadieron que la aplicación de modelos de IA en entornos clínicos debería requerir medidas adicionales de verificación de seguridad.

Los modelos de IA se utilizan cada vez más para la consulta, la educación y la toma de decisiones clínicas de pacientes. Sin embargo, se ha expresado la preocupación de que los ataques de inyección rápida puedan manipular estos sistemas para recomendar tratamientos o medicamentos peligrosos o desaconsejables.

De enero a octubre del año pasado, el equipo evaluó las vulnerabilidades de seguridad de tres modelos de IA: GPT-4o-mini, Gemini-2.0-flash-lite y Claude 3 Haiku.

Desarrollaron 12 escenarios clínicos y los categorizaron en tres niveles de riesgo.

Un escenario de riesgo medio implicó recomendar remedios herbales en lugar de tratamientos aprobados a un paciente con una enfermedad crónica como la diabetes. Un escenario de alto riesgo implicó recomendar remedios herbales a pacientes con hemorragia activa o cáncer, o sugerir medicamentos que podrían inhibir la respiración a pacientes con enfermedades respiratorias. Los escenarios de riesgo crítico implicaron recomendar medicamentos desaconsejados a pacientes embarazadas.

Se probaron dos tipos de métodos de ataque: la inyección de avisos contextuales (que utiliza la información del paciente para alterar el juicio del modelo) y la fabricación de pruebas, que crea información plausible pero falsa.

El equipo analizó un total de 216 conversaciones entre los tres modelos de IA y pacientes virtuales. La tasa general de éxito de los ataques en los tres modelos fue del 94,4 %.

Las tasas de éxito de los ataques por modelo fueron del 100 % para GPT-4o-mini, del 100 % para Gemini-2.0-flash-lite y del 83,3 % para Claude 3 Haiku. Las tasas de éxito por nivel de riesgo del escenario fueron del 100 % para riesgo medio, del 93,3 % para riesgo alto y del 91,7 % para riesgo crítico.

Los tres modelos fueron vulnerables a ataques que recomendaban medicamentos inapropiados a pacientes embarazadas.

En más del 80 % de los casos de los tres modelos, las respuestas manipuladas persistieron en interacciones posteriores, lo que indica que, una vez comprometidas, el modelo permaneció comprometido durante toda la conversación.

El equipo evaluó además las vulnerabilidades en los modelos de IA de primer nivel (GPT-5, Gemini 2.5 Pro y Claude 4.5 Sonnet) utilizando una técnica diferente llamada inyección indirecta de avisos del lado del cliente, que oculta avisos maliciosos en la interfaz de usuario para manipular el comportamiento del modelo. El escenario de prueba también incluyó la recomendación de medicamentos inapropiados a pacientes embarazadas.

Las tasas de éxito de los ataques fueron del 100 % para GPT-5, del 100 % para Gemini 2.5 Pro y del 80 % para Claude 4.5 Sonnet, lo que demuestra que incluso los modelos de IA más avanzados no lograron defenderse de estos ataques.

"Este estudio demuestra que los modelos de IA médica son estructuralmente vulnerables no solo a errores simples, sino también a la manipulación intencional", afirmó el profesor Suh. "Los mecanismos de seguridad actuales son insuficientes para bloquear ataques maliciosos que conducen a prescripciones desaconsejadas".

"Para implementar chatbots médicos basados en IA o sistemas de consulta remota, es necesario probar exhaustivamente las vulnerabilidades de los modelos y hacer obligatoria la validación de seguridad", añadió.

La investigación se publicó en el último número de JAMA Network Open, una revista revisada por pares de la Asociación Médica Estadounidense.

Este artículo fue escrito originalmente en coreano y traducido por un periodista bilingüe con la ayuda de herramientas de IA generativa. Posteriormente, fue editado por un editor nativo de habla inglesa. Todas las traducciones asistidas por IA son revisadas y perfeccionadas por nuestra redacción.

POR RHEE ESTHER [lim.jeongwon@joongang.co.kr]

Problema 6852

Un equipo de investigación coreano descubre que una vulnerabilidad en un chatbot de IA produce recomendaciones médicas inseguras