Report 1381

Google y nuevas empresas como Qure.ai, Aidoc y DarwinAI están desarrollando sistemas de inteligencia artificial y aprendizaje automático que clasifican las radiografías de tórax para ayudar a identificar afecciones como fracturas y pulmones colapsados. Varios hospitales, incluido Mount Sinai, han probado algoritmos de visión por computadora que analizan escaneos de pacientes con el nuevo coronavirus. Pero la investigación de la Universidad de Toronto, el Instituto Vector y el MIT revela que los conjuntos de datos de rayos X de tórax utilizados para entrenar modelos de diagnóstico muestran un desequilibrio, sesgándolos contra ciertos grupos de género, socioeconómicos y raciales.

En parte debido a la reticencia a publicar código, conjuntos de datos y técnicas, gran parte de los datos que se utilizan hoy en día para entrenar algoritmos de IA para diagnosticar enfermedades pueden perpetuar las desigualdades. Un equipo de científicos del Reino Unido descubrió que casi todos los conjuntos de datos de enfermedades oculares provienen de pacientes en América del Norte, Europa y China, lo que significa que es menos seguro que los algoritmos de diagnóstico de enfermedades oculares funcionen bien para grupos raciales de países subrepresentados. En otro estudio, los investigadores de la Universidad de Stanford afirmaron que la mayoría de los datos de EE. UU. para estudios que involucran usos médicos de la IA provienen de California, Nueva York y Massachusetts. Un estudio de un algoritmo de UnitedHealth Group determinó que podría subestimar a la mitad el número de pacientes negros que necesitan una mayor atención. Y un creciente cuerpo de trabajo sugiere que los algoritmos de detección de cáncer de piel tienden a ser menos precisos cuando se usan en pacientes negros, en parte porque los modelos de IA se entrenan principalmente en imágenes de pacientes de piel clara. Los coautores de este artículo más reciente buscaron determinar si Los clasificadores de IA de última generación capacitados en conjuntos de datos de imágenes médicas públicas fueron justos en los diferentes subgrupos de pacientes. Examinaron específicamente MIMIC-CXR (que contiene más de 370 000 imágenes), CheXpert de Stanford (más de 223 000 imágenes), Chest-Xray de los Institutos Nacionales de Salud de EE. UU. (más de 112 000 imágenes) y un conjunto de los tres, cuyas exploraciones de más de los pacientes combinados se etiquetan con el sexo y el rango de edad de cada paciente. MIMIC-CXR también tiene datos de carrera y tipo de seguro; excluyendo 100 000 imágenes, el conjunto de datos especifica si los pacientes son asiáticos, negros, hispanos, blancos, nativos americanos u otros y si tienen Medicare, Medicaid o un seguro privado. rendimiento de clasificación de última generación, que descartó la posibilidad de que cualquier disparidad simplemente reflejara un rendimiento general deficiente, los investigadores calcularon e identificaron las disparidades entre las etiquetas, los conjuntos de datos y los atributos. Descubrieron que los cuatro conjuntos de datos contenían patrones "significativos" de sesgo y desequilibrio, y las pacientes femeninas sufrían la mayor disparidad a pesar de que la proporción de mujeres era solo un poco menor que la de los hombres. Los pacientes blancos, la mayoría, con el 67,6 % de todas las imágenes de rayos X, fueron el subgrupo más favorecido, mientras que los pacientes hispanos fueron los menos favorecidos. Y existía un sesgo contra los pacientes con seguro de Medicaid, la población minoritaria con solo el 8,98% de las imágenes de rayos X. Los clasificadores a menudo proporcionaban diagnósticos incorrectos a los pacientes de Medicaid. Los investigadores señalan que su estudio tiene limitaciones derivadas de la naturaleza de las etiquetas en los conjuntos de datos. Cada etiqueta se extrajo de informes de radiología utilizando técnicas de procesamiento de lenguaje natural, lo que significa que una parte de ellos podría haber sido errónea. Los coautores también admiten que la calidad de los propios dispositivos de imágenes, la región de recopilación de datos y la demografía de los pacientes en cada sitio de recopilación podrían haber confundido los resultados.

Sin embargo, afirman que incluso la implicación del sesgo es suficiente para garantizar una mirada más cercana a los conjuntos de datos y cualquier modelo entrenado en ellos. “Los subgrupos con infradiagnóstico crónico son aquellos que experimentan más determinantes sociales negativos de la salud, específicamente, mujeres, minorías y personas de bajo nivel socioeconómico. Dichos pacientes pueden usar los servicios de atención médica menos que otros”, escribieron los investigadores. “Hay una serie de razones por las que los conjuntos de datos pueden inducir disparidades en los algoritmos, desde conjuntos de datos desequilibrados hasta diferencias en el ruido estadístico en cada grupo y diferencias en el acceso a la atención médica para pacientes de diferentes grupos... Aunque las técnicas de 'eliminación de sesgos' pueden reducir las disparidades, no debe ignorar los importantes sesgos inherentes a los grandes conjuntos de datos públicos existentes”. Más allá de los desafíos básicos de los conjuntos de datos, los clasificadores que carecen de suficiente revisión por pares pueden encontrar obstáculos imprevistos cuando se implementan en el mundo real. Los científicos de Harvard descubrieron que los algoritmos entrenados para reconocer y clasificar las tomografías computarizadas podrían sesgarse a los formatos de escaneo de ciertos fabricantes de máquinas de tomografía computarizada. Mientras tanto, un documento técnico publicado por Google reveló desafíos en la implementación de un sistema de predicción de enfermedades oculares en hospitales de Tailandia, incluidos problemas con la precisión del escaneo. Y los estudios realizados por empresas como Babylon Health, una startup de telemedicina bien financiada que afirma poder clasificar una variedad de enfermedades a partir de mensajes de texto, se han cuestionado repetidamente. Los investigadores de este estudio recomiendan que los profesionales apliquen una equidad "rigurosa". análisis antes de la implementación como una solución al sesgo. También sugieren que los descargos de responsabilidad claros sobre el proceso de recopilación de conjuntos de datos y el posible sesgo algorítmico resultante podrían mejorar las evaluaciones para uso clínico.

Problema 1381

Incidentes Asociados

Incidente 811 Reporte
Researchers find evidence of racial, gender, and socioeconomic bias in chest X-ray classifiers

Los investigadores encuentran evidencia de sesgo racial, de género y socioeconómico en los clasificadores de rayos X de tórax

Problema 1381

Incidentes Asociados

Incidente 811 ReporteResearchers find evidence of racial, gender, and socioeconomic bias in chest X-ray classifiers

Los investigadores encuentran evidencia de sesgo racial, de género y socioeconómico en los clasificadores de rayos X de tórax

Incidente 811 Reporte
Researchers find evidence of racial, gender, and socioeconomic bias in chest X-ray classifiers