Report 2956

La course folle s'est accélérée aussi vite que la pandémie. Les chercheurs se sont précipités pour voir si l'intelligence artificielle pouvait percer les nombreux secrets de Covid-19 - et pour une bonne raison. Il y avait une pénurie de tests et de traitements pour un nombre croissant de patients. Peut-être que l'IA pourrait détecter la maladie plus tôt sur les images pulmonaires et prédire quels patients étaient les plus susceptibles de tomber gravement malades.

Des centaines d'études ont afflué sur les serveurs de prépublication et dans les revues médicales prétendant démontrer la capacité de l'IA à effectuer ces tâches avec une grande précision. Ce n'est que plusieurs mois plus tard qu'une équipe de recherche de l'Université de Cambridge en Angleterre a commencé à examiner les modèles - plus de 400 au total - et est parvenue à une [conclusion différente](https://www.nature.com/articles /s42256-021-00307-0): Chacun était fatalement défectueux.

"Ce fut une véritable révélation et assez surprenant le nombre de défauts méthodologiques qu'il y a eu", a déclaré Ian Selby, radiologue et membre de l'équipe de recherche. L'examen a révélé que les algorithmes étaient souvent formés sur de petits échantillons de données d'origine unique avec une diversité limitée ; certains ont même réutilisé les mêmes données pour la formation et les tests, un péché capital qui peut conduire à des performances trompeuses et impressionnantes. Selby, qui croit au potentiel à long terme de l'IA, a déclaré que l'omniprésence des erreurs et des ambiguïtés rend difficile la confiance dans les affirmations publiées.

"Vous vous retrouvez avec ce domaine de recherche assez pollué", a-t-il déclaré. "Vous lisez beaucoup de journaux et votre instinct naturel est de ne pas vouloir leur faire confiance."

Les problèmes ne se limitent pas à la recherche sur le Covid-19. L'apprentissage automatique, un sous-ensemble de l'IA qui génère des milliards de dollars d'investissements dans le domaine de la médecine, fait face à une crise de crédibilité. Une liste sans cesse croissante d'articles s'appuie sur des données limitées ou de mauvaise qualité, ne précise pas leur approche de formation et leurs méthodes statistiques, et ne teste pas s'ils fonctionneront pour des personnes de races, de sexes, d'âges et de géographies différents.

Ces lacunes découlent d'un éventail de défis systématiques dans la recherche sur l'apprentissage automatique. Une concurrence intense entraîne des délais de publication plus serrés, et les articles préimprimés fortement cités ne sont pas toujours soumis à un examen rigoureux par les pairs. Dans certains cas, comme ce fut le cas avec les modèles Covid-19, la demande de solutions rapides peut également limiter la rigueur des expériences.

Le problème de loin le plus gros - et le plus délicat à résoudre - pointe vers le Catch-22 de l'apprentissage automatique : il existe peu d'ensembles de données volumineux et diversifiés sur lesquels former et valider un nouvel outil, et bon nombre de ceux qui existent sont gardés confidentiels pour des raisons juridiques ou des raisons commerciales. Mais cela signifie que les chercheurs extérieurs n'ont aucune donnée à utiliser pour tester les affirmations d'un article ou le comparer à un travail similaire, une étape clé dans la vérification de toute recherche scientifique.

L'incapacité à tester les modèles d'IA sur des données provenant de différentes sources - un processus connu sous le nom de validation externe - est courante dans les études publiées sur les serveurs de préimpression et dans les principales revues médicales. Il en résulte souvent un algorithme qui semble très précis dans une étude, mais qui ne fonctionne pas au même niveau lorsqu'il est exposé aux variables du monde réel, telles que différents types de patients ou des scans d'imagerie obtenus avec différents appareils.

"Si les résultats de performance ne sont pas reproduits dans les soins cliniques selon la norme utilisée pendant [une étude], nous risquons d'approuver des algorithmes auxquels nous ne pouvons pas faire confiance", a déclaré Matthew McDermott, chercheur au Massachusetts Institute of Technology qui co -auteur d'un article récent sur ces problèmes. "Ils peuvent en fait finir par aggraver les soins aux patients."

Cela peut déjà se produire avec une large gamme de produits utilisés pour aider à traiter des maladies graves telles que les maladies cardiaques et le cancer. Une enquête récente de la STAT a révélé que seuls 73 des 161 produits d'IA approuvés par la Food and Drug Administration fédérale ont divulgué publiquement la quantité de données utilisées pour valider le produit, et seulement sept ont signalé la composition raciale de leurs populations d'étude. Même les sources des données n'ont presque jamais été données.

Ces conclusions ont été reprises dans un [article de chercheurs de Stanford](https://www.nature.com/articles/s41591-021-01312-x.epdf?sharing_token=8BNOnt1UUOf0iPsJ9yU0J9RgN0jAjWel9jnR3ZoTv0M6PlZXWQqbgCrdZtSbNOnPDQlhZJ-fPz8 LJ4JqCoxGYshqBh62049hIhMSEfJaE7pKaceG00AD1FUBHLZ5YShokEBQWoF6kBbZitEELPDqWu-9esaFE8DcbdQ1QAgRChw%3D) qui a souligné le manque de des études prospectives, ou des études qui examinent les résultats futurs, menées sur des produits d'IA à risque encore plus élevé approuvés par la FDA. Ils ont également noté que la plupart des appareils d'IA ont été évalués sur un petit nombre de sites et que seule une infime fraction a rapporté les performances de l'IA dans différents groupes démographiques.

"Nous aimerions que l'IA fonctionne de manière responsable et fiable pour différents patients dans différents hôpitaux", a déclaré James Zou, professeur de science des données biomédicales à Stanford et co-auteur de l'article. "Il est donc particulièrement important de pouvoir évaluer et tester l'algorithme sur ces divers types de données."

L'examen mené par l'Université de Cambridge a révélé que de nombreuses études manquaient non seulement de validation externe, mais négligeaient également de spécifier les sources de données utilisées ou les détails sur la façon dont leurs modèles d'IA ont été formés. Tous sauf 62 des plus de 400 articles n'ont pas réussi un examen de qualité initial basé sur ces omissions et autres lacunes.

Même ceux qui ont survécu à la sélection initiale souffraient de multiples lacunes : 55 de ces 62 articles présentaient un risque élevé de biais en raison de divers problèmes, notamment le recours à des ensembles de données publics où de nombreuses images soupçonnées de représenter le Covid-19 ne sont pas confirmées. être des cas positifs. Quelques modèles d'IA formés pour diagnostiquer les cas adultes de Covid-19 sur des radiographies pulmonaires ont été testés sur des images de patients pédiatriques atteints de pneumonie.

"Les [images pédiatriques] concernaient souvent des enfants de moins de 5 ans, qui présentent d'énormes différences anatomiques par rapport aux adultes, il n'est donc absolument pas surprenant que ces modèles aient eu de très bons résultats pour choisir Covid par rapport aux non-Covid", a déclaré Selby. . "Les patients avaient l'air complètement différents sur la radiographie pulmonaire, quel que soit le statut Covid."

Les chercheurs ont trouvé des failles importantes dans les articles publiés sur des serveurs de prépublication ainsi que dans ceux publiés dans des revues qui imposent un examen plus minutieux par le biais d'un examen par les pairs. Le processus d'examen par les pairs peut échouer pour diverses raisons, notamment le fait que les examinateurs manquent de connaissances approfondies sur la méthodologie d'apprentissage automatique ou les préjugés envers les institutions ou les entreprises de premier plan, ce qui entraîne des examens superficiels de leurs articles. Un problème plus important est le manque de normes consensuelles pour évaluer la recherche sur l'apprentissage automatique en médecine, bien que cela commence à changer. Les chercheurs de l'Université de Cambridge ont utilisé une liste de contrôle méthodologique connue sous le nom CLAIM, qui établit un ensemble commun de critères pour les auteurs et les examinateurs.

"Nous avons essayé dans notre article de souligner la nécessité des listes de contrôle", a déclaré Selby. "Cela amène les gens à se demander : 'Avons-nous abordé ce problème ? Avons-nous pensé à cela ?' Ils peuvent se rendre compte qu'ils pourraient construire un meilleur modèle avec un peu plus de réflexion et de temps."

Parmi les articles que Selby et ses collègues ont trouvés comme présentant un risque élevé de biais, il y en avait un publié dans Nature des chercheurs de l'Icahn School of Médecine au Mont Sinaï à New York.

L'article a révélé qu'un modèle d'IA pour diagnostiquer Covid-19 sur les tomodensitogrammes thoraciques fonctionnait bien sur une mesure de précision commune - aire sous la courbe de 0,92 - et égalait les performances d'un radiologue thoracique senior. Un [communiqué de presse](https://www.mountsinai.org/about/newsroom/2020/mount-sinai-first-in-us-to-use-artificial-intelligence-to-analyze-coronavirus-covid19-patients- pr) qui accompagnait la publication de l'article a déclaré que l'outil "pourrait aider les hôpitaux du monde entier à détecter rapidement le virus, à isoler les patients et à l'empêcher de se propager pendant cette pandémie".

Mais les chercheurs de l'Université de Cambridge ont signalé que l'article présentait un risque élevé de biais en raison de la petite taille de son échantillon de 424 patients positifs pour Covid répartis sur des ensembles de données utilisés pour former, régler et tester l'IA. Les données ont été obtenues auprès de 18 centres médicaux en Chine, mais il n'était pas clair quels centres fournissaient les données sur les cas positifs et négatifs, ce qui soulève la possibilité que l'IA puisse simplement détecter des différences dans les méthodes et l'équipement de numérisation, plutôt que dans la physiologie de les patients. Les chercheurs de Cambridge ont également noté que la performance n'a pas été testée sur un ensemble de données indépendant pour vérifier sa capacité à reconnaître de manière fiable la maladie dans différents groupes de patients.

Le document a reconnu la petite taille de l'échantillon de l'étude et le besoin de données supplémentaires pour tester l'IA dans différentes populations de patients, mais l'équipe de recherche n'a pas répondu à une demande de commentaire supplémentaire.

Les contraintes de temps peuvent expliquer, voire excuser, certains des problèmes rencontrés avec les modèles d'IA développés pour Covid-19. Mais des défauts méthodologiques similaires sont courants dans un large éventail de recherches sur l'apprentissage automatique. Souligner ces lacunes est devenu un sous-genre de la recherche médicale, avec de nombreux articles et éditoriaux appelant à de meilleurs modèles d'évaluation et exhortant chercheurs à être plus transparents sur leurs méthodes.

L'incapacité à reproduire les résultats est particulièrement problématique, érodant la confiance dans l'IA et sapant les efforts pour la déployer dans les soins cliniques.

Un examen récent de 511 études d'apprentissage automatique dans plusieurs domaines a révélé que celles produites dans le domaine des soins de santé étaient particulièrement difficiles à reproduire, car le code sous-jacent et les ensembles de données étaient rarement divulgués. L'examen, mené par des chercheurs du MIT, a révélé que seulement 23 % environ des études sur l'apprentissage automatique dans les soins de santé utilisaient plusieurs ensembles de données pour établir leurs résultats, contre 80 % dans le domaine adjacent de la vision par ordinateur et 58 % dans le traitement du langage naturel.

C'est une lacune compréhensible, compte tenu des restrictions en matière de confidentialité dans les soins de santé et de la difficulté d'accéder aux données qui couvrent plusieurs établissements. Mais cela rend néanmoins plus difficile pour les développeurs d'IA dans le domaine de la santé d'obtenir suffisamment de données pour développer des modèles significatifs en premier lieu, et rend encore plus difficile pour eux de divulguer publiquement leurs sources afin que les résultats puissent être reproduits.

Google a récemment annoncé une application qui utilise l'IA pour analyser les affections cutanées, mais a refusé de divulguer publiquement les sources de données utilisées pour créer le modèle. Un porte-parole a expliqué que certains des ensembles de données sont sous licence de tiers ou donnés par des utilisateurs, et que la société ne pouvait pas publier les données selon les termes de ses accords.

McDermott, le chercheur du MIT, a déclaré que ces barrières structurelles doivent être surmontées pour garantir que les effets de ces outils puissent être pleinement évalués et compris. Il a noté un certain nombre de façons de partager des données sans porter atteinte à la vie privée ou à la propriété intellectuelle, comme l'utilisation d'une méthode d'apprentissage fédéré dans laquelle les institutions peuvent développer conjointement des modèles sans échanger leurs données. D'autres utilisent également des données synthétiques - ou des données modélisées sur de vrais patients - pour aider à préserver la confidentialité.

McDermott a déclaré qu'un examen minutieux des outils d'apprentissage automatique et des données utilisées pour les former est particulièrement important car ils établissent des corrélations difficiles, voire impossibles, à vérifier de manière indépendante pour les humains.

Il est également important de tenir compte de la nature temporelle des modèles d'IA lors de leur évaluation. Un modèle formé sur un ensemble de données qui est ensuite déployé dans un monde en constante évolution n'est pas garanti de fonctionner de la même manière. Les effets des maladies sur les patients peuvent changer, tout comme les méthodes de traitement.

"Nous devrions intrinsèquement être plus sceptiques quant à toute affirmation de généralisabilité à long terme et de stabilité des résultats dans le temps", a déclaré McDermott. "Un paradigme réglementaire statique où nous disons:" OK, cet algorithme obtient un sceau d'approbation et maintenant vous pouvez en faire ce que vous voulez pour toujours et à jamais "- cela me semble dangereux."

Problème 2956

Incidents associés

Incident 5352 Rapports
COVID-19 Detection and Prognostication Models Allegedly Flagged for Methodological Flaws and Underlying Biases

L'apprentissage automatique est en plein essor en médecine. Il fait également face à une crise de crédibilité

Problème 2956

Incidents associés

Incident 5352 RapportsCOVID-19 Detection and Prognostication Models Allegedly Flagged for Methodological Flaws and Underlying Biases

L'apprentissage automatique est en plein essor en médecine. Il fait également face à une crise de crédibilité

Incident 5352 Rapports
COVID-19 Detection and Prognostication Models Allegedly Flagged for Methodological Flaws and Underlying Biases