Incidentes Asociados

Se están gastando millones de dólares para desarrollar un software de inteligencia artificial que lea radiografías y otros exámenes médicos con la esperanza de que pueda detectar cosas que los médicos buscan pero que a veces pasan por alto, como el cáncer de pulmón. Un nuevo estudio informa que estos algoritmos también pueden ver algo que los médicos no buscan en tales escaneos: la carrera de un paciente.
Los autores del estudio y otros expertos en IA médica dicen que los resultados hacen que sea más crucial que nunca verificar que los algoritmos de salud funcionen de manera justa en personas con diferentes identidades raciales. Para complicar esa tarea: los propios autores no están seguros de qué señales utilizan los algoritmos que crearon para predecir la raza de una persona.
La evidencia de que los algoritmos pueden leer la raza de los escáneres médicos de una persona surgió de las pruebas en cinco tipos de imágenes utilizadas en la investigación de radiología, incluidas las radiografías de tórax y manos y las mamografías. Las imágenes incluían pacientes que se identificaron como negros, blancos y asiáticos. Para cada tipo de escaneo, los investigadores entrenaron algoritmos utilizando imágenes etiquetadas con la raza autoinformada por el paciente. Luego desafiaron a los algoritmos para predecir la raza de los pacientes en diferentes imágenes sin etiquetar.
Los radiólogos generalmente no consideran que la identidad racial de una persona, que no es una categoría biológica, sea visible en los escaneos que miran debajo de la piel. Sin embargo, los algoritmos de alguna manera demostraron ser capaces de detectarlo con precisión para los tres grupos raciales y en diferentes vistas del cuerpo.
Para la mayoría de los tipos de escaneo, los algoritmos pudieron identificar correctamente cuál de las dos imágenes era de una persona negra más del 90 por ciento de las veces. Incluso el algoritmo de peor desempeño tuvo éxito el 80 por ciento de las veces; lo mejor fue 99 por ciento correcto. Los resultados y el código asociado fueron publicados en línea a fines del mes pasado por un grupo de más de 20 investigadores con experiencia en medicina y aprendizaje automático, pero el estudio aún no ha sido revisado por pares.
Los resultados han generado nuevas preocupaciones de que el software de inteligencia artificial puede amplificar la desigualdad en la atención médica, donde los estudios muestran que los pacientes negros y otros grupos raciales marginados a menudo reciben una atención inferior en comparación con las personas ricas o blancas.
Los algoritmos de aprendizaje automático están ajustados para leer imágenes médicas alimentándolas con muchos ejemplos etiquetados de afecciones como tumores. Al digerir muchos ejemplos, los algoritmos pueden aprender patrones de píxeles asociados estadísticamente con esas etiquetas, como la textura o la forma de un nódulo pulmonar. Algunos algoritmos hicieron que rivalizara con los médicos en la detección de cánceres o problemas de la piel; hay evidencia de que pueden detectar signos de enfermedades invisibles para los expertos humanos.
Judy Gichoya, radióloga y profesora asistente en la Universidad de Emory que trabajó en el nuevo estudio, dice que la revelación de que los algoritmos de imágenes pueden "ver" la carrera en los escaneos internos probablemente los prepara para aprender también asociaciones inapropiadas.
“Tenemos que educar a la gente sobre este problema e investigar qué podemos hacer para mitigarlo”. Judy Gichoya, radióloga y profesora asistente, Universidad de Emory
Los datos médicos utilizados para entrenar algoritmos a menudo muestran rastros de desigualdades raciales en enfermedades y tratamientos médicos, debido a factores históricos y socioeconómicos. Eso podría llevar a un algoritmo que busca patrones estadísticos en las exploraciones a utilizar su conjetura sobre la raza de un paciente como una especie de atajo, lo que sugiere diagnósticos que se correlacionan con patrones racialmente sesgados de sus datos de entrenamiento, no solo con las anomalías médicas visibles que buscan los radiólogos. Dicho sistema podría dar a algunos pacientes un diagnóstico incorrecto o una falsa autorización. Un algoritmo podría sugerir diferentes diagnósticos para una persona negra y una persona blanca con signos similares de enfermedad.
“Tenemos que educar a la gente sobre este problema e investigar qué podemos hacer para mitigarlo”, dice Gichoya. Sus colaboradores en el proyecto procedían de instituciones como Purdue, el MIT, el Centro Médico Beth Israel Deaconess, la Universidad Nacional Tsing Hua de Taiwán, la Universidad de Toronto y Stanford.
Estudios anteriores han demostrado que los algoritmos médicos han causado sesgos en la prestación de atención y que los algoritmos de imágenes pueden funcionar de manera desigual para diferentes grupos demográficos. En 2019, se descubrió que un algoritmo ampliamente utilizado para priorizar la atención de los pacientes más enfermos perjudicaba a los negros. En 2020, investigadores de la Universidad de Toronto y el MIT demostraron que los algoritmos entrenados para señalar afecciones como la neumonía en las radiografías de tórax a veces funcionaban de manera diferente para personas de diferentes sexos, edades, razas y tipos de seguro médico.
Paul Yi, director del Centro de Imágenes Inteligentes de la Universidad de Maryland, que no participó en el nuevo estudio que muestra que los algoritmos pueden detectar la raza, describe algunos de sus hallazgos como "reveladores", incluso "locos".
Los radiólogos como él no suelen pensar en la raza al interpretar las exploraciones, ni siquiera saben cómo se identifica un paciente. “La raza es una construcción social y no en sí misma un fenotipo biológico, aunque puede asociarse con diferencias en la anatomía”, dice Yi.
Frustrantemente, los autores del nuevo estudio no pudieron averiguar cómo exactamente sus modelos podrían detectar con tanta precisión la raza autoinformada de un paciente. Dicen que eso probablemente hará que sea más difícil detectar sesgos en tales algoritmos.
Los experimentos de seguimiento mostraron que los algoritmos no estaban haciendo predicciones basadas en parches particulares de anatomía o características visuales que podrían estar asociadas con la raza debido a factores sociales y ambientales como el índice de masa corporal o la densidad ósea. Tampoco la edad, el sexo o los diagnósticos específicos asociados con ciertos grupos demográficos parecían funcionar como pistas.
El hecho de que los algoritmos entrenados en imágenes de un hospital en una parte de los EE. UU. puedan identificar con precisión la raza en imágenes de instituciones en otras regiones parece descartar la posibilidad de que el software detecte factores no relacionados con el cuerpo de un paciente, dice Yi. como las diferencias en los equipos o procesos de imagen.
Lo que sea que estuvieran viendo los algoritmos, lo vieron claramente. El software aún podía predecir la raza del paciente con alta precisión cuando los rayos X se degradaban de modo que eran ilegibles incluso para un ojo entrenado, o se borraban para eliminar los detalles finos.
Luke Oakden-Rayner, coautor del nuevo estudio y director de investigación de imágenes médicas en el Royal Adelaide Hospital, Australia, llama a la capacidad de IA que los colaboradores descubrieron "la peor superpotencia". Él dice que a pesar del mecanismo desconocido, exige una respuesta inmediata de las personas que desarrollan o venden sistemas de IA para analizar escaneos médicos.
Una base de datos de algoritmos de inteligencia artificial mantenida por el Colegio Estadounidense de Radiología enumera docenas para analizar imágenes de tórax que han sido aprobadas por la Administración de Alimentos y Medicamentos. Muchos se desarrollaron utilizando conjuntos de datos estándar utilizados en el nuevo estudio que entrenó algoritmos para predecir la raza. Aunque la FDA recomienda que las empresas midan e informen el desempeño en diferentes grupos demográficos, estos datos rara vez se publican.
Oakden-Rayner dice que dichos controles y divulgaciones deberían convertirse en estándar. “Es casi seguro que los modelos comerciales pueden identificar la raza de los pacientes, por lo que las empresas deben asegurarse de que sus modelos no utilicen esa información para producir resultados desiguales”, dice.
Yi está de acuerdo y dice que el estudio es un recordatorio de que, si bien los algoritmos de aprendizaje automático pueden ayudar a los expertos humanos con problemas prácticos en la clínica, funcionan de manera diferente a las personas. “Las redes neuronales son algo así como sabios, son singularmente eficientes en una tarea”, dice. “Si entrena un modelo para detectar neumonía, encontrará una forma u otra de obtener la respuesta correcta, aprovechando todo lo que pueda encontrar en los datos”.