Problema 2951
Fondo
Estudios previos en imágenes médicas han mostrado capacidades dispares de inteligencia artificial (IA) para detectar la raza de una persona, sin embargo, no existe una correlación conocida para la raza en imágenes médicas que sería obvia para los expertos humanos al interpretar las imágenes. Nuestro objetivo era realizar una evaluación integral de la capacidad de la IA para reconocer la identidad racial de un paciente a partir de imágenes médicas.
Métodos
Usando conjuntos de datos privados (Emory CXR, Emory Chest CT, Emory Cervical Spine y Emory Mammogram) y públicos (MIMIC-CXR, CheXpert, National Lung Cancer Screening Trial, RSNA Pulmonary Embolism CT y Digital Hand Atlas), evaluamos, primero, cuantificación del rendimiento de los modelos de aprendizaje profundo en la detección de razas a partir de imágenes médicas, incluida la capacidad de estos modelos para generalizarse a entornos externos y en múltiples modalidades de imágenes. En segundo lugar, evaluamos la posible confusión de las características anatómicas y fenotípicas de la población mediante la evaluación de la capacidad de estos factores de confusión hipotéticos para detectar la raza de forma aislada mediante modelos de regresión, y al reevaluar los modelos de aprendizaje profundo probándolos en conjuntos de datos estratificados por estas variables de confusión hipotéticas. Por último, al explorar el efecto de las corrupciones de imagen en el rendimiento del modelo, investigamos el mecanismo subyacente por el cual los modelos de IA pueden reconocer la raza.
Recomendaciones
En nuestro estudio, mostramos que los modelos estándar de aprendizaje profundo de IA se pueden entrenar para predecir carreras a partir de imágenes médicas con alto rendimiento en múltiples modalidades de imágenes, que se mantuvo bajo condiciones de validación externa (imágenes de rayos X [área bajo la curva de características operativas del receptor (AUC) rango 0-91–0-99], tomografía computarizada de tórax [0-87–0-96] y mamografía [0-81]). También mostramos que esta detección no se debe a proxies o covariables sucedáneas relacionadas con las imágenes para la raza (p. ej., desempeño de posibles factores de confusión: índice de masa corporal [AUC 0-55], distribución de la enfermedad [0-61], y densidad mamaria [0-61]). Finalmente, brindamos evidencia para demostrar que la capacidad de los modelos de aprendizaje profundo de IA persistió en todas las regiones anatómicas y espectros de frecuencia de las imágenes, lo que sugiere que los esfuerzos para controlar este comportamiento cuando no es deseable serán un desafío y exigirán más estudios.
Interpretación
Los resultados de nuestro estudio enfatizan que la capacidad de los modelos de aprendizaje profundo de IA para predecir la raza autoinformada no es en sí misma un tema de importancia. Sin embargo, nuestro hallazgo de que la IA puede predecir con precisión la carrera autoinformada, incluso a partir de imágenes médicas corruptas, recortadas y ruidosas, a menudo cuando los expertos clínicos no pueden, crea un riesgo enorme para todas las implementaciones de modelos en imágenes médicas.