Problème 2951
Arrière-plan
Des études antérieures en imagerie médicale ont montré des capacités disparates de l'intelligence artificielle (IA) pour détecter la race d'une personne, mais il n'y a pas de corrélation connue pour la race sur l'imagerie médicale qui serait évidente pour les experts humains lors de l'interprétation des images. Notre objectif était de mener une évaluation complète de la capacité de l'IA à reconnaître l'identité raciale d'un patient à partir d'images médicales.
Méthodes
À l'aide d'ensembles de données privés (Emory CXR, Emory Chest CT, Emory Cervical Spine et Emory Mammogram) et publics (MIMIC-CXR, CheXpert, National Lung Cancer Screening Trial, RSNA Pulmonary Embolism CT et Digital Hand Atlas), nous avons d'abord évalué, quantification des performances des modèles d'apprentissage en profondeur dans la détection de la race à partir d'images médicales, y compris la capacité de ces modèles à se généraliser à des environnements externes et à de multiples modalités d'imagerie. Deuxièmement, nous avons évalué la confusion possible des caractéristiques anatomiques et phénotypiques de la population en évaluant la capacité de ces facteurs de confusion hypothétiques à détecter la race de manière isolée à l'aide de modèles de régression, et en réévaluant les modèles d'apprentissage en profondeur en les testant sur des ensembles de données stratifiés par ces variables de confusion hypothétiques. Enfin, en explorant l'effet des corruptions d'images sur les performances des modèles, nous avons étudié le mécanisme sous-jacent par lequel les modèles d'IA peuvent reconnaître la race.
Résultats
Dans notre étude, nous montrons que les modèles standard d'apprentissage en profondeur de l'IA peuvent être entraînés pour prédire la race à partir d'images médicales avec des performances élevées dans plusieurs modalités d'imagerie, ce qui a été maintenu dans des conditions de validation externes (imagerie par rayons X [zone sous la courbe des caractéristiques de fonctionnement du récepteur (AUC) plage 0-91–0-99], imagerie thoracique CT [0-87–0-96] et mammographie [0-81]). Nous avons également montré que cette détection n'est pas due à des proxys ou à des covariables de substitution liées à l'imagerie pour la race (par exemple, la performance des facteurs de confusion possibles : indice de masse corporelle [AUC 0-55], distribution de la maladie [0-61], et densité mammaire [0-61]). Enfin, nous fournissons des preuves pour montrer que la capacité des modèles d'apprentissage en profondeur de l'IA a persisté dans toutes les régions anatomiques et les spectres de fréquences des images, ce qui suggère que les efforts pour contrôler ce comportement lorsqu'il est indésirable seront difficiles et nécessiteront une étude plus approfondie.
Interprétation
Les résultats de notre étude soulignent que la capacité des modèles d'apprentissage en profondeur de l'IA à prédire la race autodéclarée n'est pas en soi une question d'importance. Cependant, notre découverte selon laquelle l'IA peut prédire avec précision la race autodéclarée, même à partir d'images médicales corrompues, recadrées et bruyantes, souvent lorsque les experts cliniques ne le peuvent pas, crée un risque énorme pour tous les déploiements de modèles en imagerie médicale.