Report 6224

Las herramientas de inteligencia artificial utilizadas por los médicos corren el riesgo de empeorar la salud de las mujeres y las minorías étnicas, ya que un creciente número de investigaciones demuestra que muchos modelos de lenguaje a gran escala minimizan los síntomas de estos pacientes.

Una serie de estudios recientes han descubierto que la adopción de modelos de IA en el sector sanitario podría conducir a decisiones médicas sesgadas, reforzando los patrones de infratratamiento que ya existen en diferentes grupos de las sociedades occidentales.

Los hallazgos de investigadores de importantes universidades de EE. UU. y el Reino Unido sugieren que las herramientas de IA médica basadas en LLM tienden a no reflejar la gravedad de los síntomas en las pacientes femeninas, a la vez que muestran menos empatía hacia las pacientes negras y asiáticas.

Estas advertencias surgen en un momento en que los principales grupos de IA del mundo, como Microsoft, Amazon, OpenAI y Google, se apresuran a desarrollar productos que buscan reducir la carga de trabajo de los médicos y acelerar el tratamiento, todo ello en un esfuerzo por ayudar a los sistemas de salud saturados de todo el mundo.

Muchos hospitales y médicos de todo el mundo utilizan programas de maestría en derecho (LLM) como Gemini y ChatGPT, así como aplicaciones de toma de notas médicas con IA de startups como Nabla y Heidi, para generar automáticamente transcripciones de las visitas de los pacientes, resaltar detalles médicamente relevantes y crear resúmenes clínicos.

En junio, Microsoft reveló el desarrollo de una herramienta médica impulsada por IA que, según afirma, es cuatro veces más eficaz que los médicos humanos en el diagnóstico de enfermedades complejas.

Sin embargo, una investigación realizada en junio por la Clínica Jameel del MIT reveló que modelos de IA como GPT-4 de OpenAI, Llama 3 de Meta y Palmyra-Med (un LLM centrado en la atención médica) recomendaban un nivel de atención mucho menor para las pacientes femeninas y sugerían que algunas pacientes se automedicaran en casa en lugar de buscar ayuda.

Un estudio independiente realizado por el equipo del MIT mostró que GPT-4 de OpenAI y otros modelos también mostraban respuestas menos compasivas hacia las personas negras y asiáticas que buscaban apoyo para problemas de salud mental.

Esto sugirió que «algunos pacientes podrían recibir una orientación mucho menos comprensiva basándose únicamente en su raza percibida por el modelo», afirmó Marzyeh Ghassemi, profesora asociada de la Clínica Jameel del MIT.

De igual manera, una investigación de la London School of Economics reveló que el modelo Gemma de Google, utilizado por más de la mitad de las autoridades locales del Reino Unido para apoyar a los trabajadores sociales, minimizaba los problemas físicos y mentales de las mujeres en comparación con los de los hombres al utilizarse para generar y resumir las notas de los casos.

Marzyeh Ghassemi, profesora asociada de la Clínica Jameel del MIT. Marzyeh Ghassemi: «Espero que comencemos a reorientar los modelos de salud para abordar brechas cruciales en salud» © Jonathan Wiggs/Boston Globe/Getty Images

El equipo de Ghassemi en el MIT descubrió que los pacientes cuyos mensajes contenían errores tipográficos, lenguaje informal o redacción incierta tenían entre un 7 % y un 9 % más de probabilidades de que los modelos de IA utilizados en un entorno médico les desaconsejaran buscar atención médica, en comparación con aquellos con comunicaciones perfectamente formateadas, incluso cuando el contenido clínico era el mismo.

Esto podría resultar en que las personas que no hablan inglés como primera lengua o que no se sienten cómodas con el uso de la tecnología sean tratadas injustamente.

El problema de los sesgos perjudiciales se deriva en parte de los datos utilizados para entrenar a los LLM. Los modelos de propósito general, como GPT-4, Llama y Gemini, se entrenan con datos de internet, y los sesgos de esas fuentes se reflejan, por lo tanto, en las respuestas. Los desarrolladores de IA también pueden influir en cómo esto se infiltra en los sistemas añadiendo medidas de seguridad después del entrenamiento del modelo.

“Si te encuentras en una situación en la que existe la posibilidad de que un subforo de Reddit te esté asesorando en tus decisiones de salud, no creo que sea un lugar seguro”, afirmó Travis Zack, profesor adjunto de la Universidad de California en San Francisco y director médico de Open Evidence, una startup de información médica basada en IA.

En un estudio realizado el año pasado, Zack y su equipo descubrieron que la GPT-4 no tenía en cuenta la diversidad demográfica de las afecciones médicas y tendía a estereotipar ciertas razas, etnias y géneros.

Los investigadores advirtieron que las herramientas de IA pueden reforzar los patrones de tratamiento insuficiente que ya existen en el sector sanitario, ya que los datos de la investigación sanitaria suelen estar muy sesgados hacia los hombres, y los problemas de salud de las mujeres, por ejemplo, se enfrentan a una financiación e investigación insuficientes de forma crónica.

OpenAI afirmó que muchos estudios evaluaron un modelo más antiguo de la GPT-4, y que la empresa había mejorado la precisión desde su lanzamiento. Contaba con equipos trabajando para reducir los resultados perjudiciales o engañosos, con especial atención a la salud. La compañía afirmó haber trabajado con médicos e investigadores externos para evaluar sus modelos, someterlos a pruebas de estrés e identificar riesgos.

El grupo también desarrolló un punto de referencia junto con médicos para evaluar las capacidades de LLM en el ámbito de la salud, que tiene en cuenta las consultas de los usuarios con diferentes estilos, niveles de relevancia y detalle.

Google afirmó que se tomaba el sesgo de los modelos "extremadamente en serio" y que estaba desarrollando técnicas de privacidad que pueden depurar conjuntos de datos sensibles y desarrollar salvaguardas contra el sesgo y la discriminación.

Los investigadores han sugerido que una forma de reducir el sesgo médico en la IA es identificar qué conjuntos de datos no deben utilizarse para el entrenamiento en primer lugar y, posteriormente, entrenar con conjuntos de datos de salud diversos y más representativos.

Zack explicó que Open Evidence, utilizado por 400.000 médicos en EE. UU. para resumir los historiales de los pacientes y recuperar información, entrenó sus modelos con revistas médicas, las etiquetas de la Administración de Alimentos y Medicamentos de EE. UU., las directrices sanitarias y las revisiones de expertos. Cada resultado de la IA está respaldado por una cita de la fuente.

A principios de este año, investigadores del University College de Londres y del King's College de Londres se asociaron con el NHS del Reino Unido para desarrollar un modelo generativo de IA, llamado Foresight.

Recomendado Entrevista: Dr. Raj Jena Cómo la IA está ayudando a un médico a tratar el cáncer: "Ha superado la fase de bombo publicitario"

El modelo se entrenó con datos anónimos de 57 millones de personas sobre eventos médicos como ingresos hospitalarios y vacunas contra la COVID-19. Foresight se diseñó para predecir probables resultados de salud, como hospitalizaciones o infartos.

"Trabajar con datos a escala nacional nos permite representar el estado caleidoscópico de Inglaterra en términos de demografía y enfermedades", afirmó Chris Tomlinson, investigador principal honorario del UCL e investigador principal del equipo de Foresight. Aunque no es perfecto, Tomlinson afirmó que ofrece un mejor punto de partida que los conjuntos de datos más generales.

Científicos europeos también han entrenado un modelo de IA llamado Delphi-2M que predice la susceptibilidad a enfermedades con décadas de antelación, basándose en historiales médicos anónimos de 400.000 participantes del Biobanco del Reino Unido.

Pero con datos reales de pacientes de esta magnitud, la privacidad suele convertirse en un problema. El proyecto NHS Foresight se suspendió en junio para que la Oficina del Comisionado de Información del Reino Unido considerara una queja sobre protección de datos, presentada por la Asociación Médica Británica y el Real Colegio de Médicos Generales, por el uso de datos sanitarios sensibles en el entrenamiento del modelo.

Además, los expertos han advertido que los sistemas de IA a menudo "alucinan" (o inventan respuestas), lo que podría ser especialmente perjudicial en el contexto médico.

Pero Ghassemi, del MIT, afirmó que la IA estaba aportando enormes beneficios a la atención sanitaria. "Espero que empecemos a reorientar los modelos sanitarios hacia la atención de brechas cruciales, no hacia añadir un porcentaje extra al rendimiento de tareas en las que los médicos, sinceramente, ya son bastante buenos".

Problema 6224

Se descubren herramientas médicas de IA que minimizan los síntomas en mujeres y minorías étnicas