Report 1551

Lorsque le covid-19 a frappé l'Europe en mars 2020, les hôpitaux ont été plongés dans une crise sanitaire encore mal comprise. "Les médecins ne savaient vraiment pas comment gérer ces patients", explique Laure Wynants, épidémiologiste à l'université de Maastricht aux Pays-Bas, qui étudie les outils prédictifs.

Mais il y avait des données en provenance de Chine, qui avait quatre mois d'avance dans la course pour vaincre la pandémie. Si des algorithmes d'apprentissage automatique pouvaient être formés sur ces données pour aider les médecins à comprendre ce qu'ils voyaient et à prendre des décisions, cela pourrait simplement sauver des vies. "Je me suis dit : 'S'il y a un moment où l'IA pourrait prouver son utilité, c'est maintenant'", déclare Wynants. "J'avais de l'espoir."

Cela ne s'est jamais produit, mais pas par manque d'effort. Des équipes de recherche du monde entier se sont mobilisées pour aider. La communauté de l'IA, en particulier, s'est empressée de développer un logiciel qui, selon beaucoup, permettrait aux hôpitaux de diagnostiquer ou de trier les patients plus rapidement, apportant un soutien indispensable aux premières lignes, en théorie.

Au final, plusieurs centaines d'outils prédictifs ont été développés. Aucun d'entre eux n'a fait une réelle différence, et certains étaient potentiellement nocifs.

C'est la conclusion accablante de plusieurs études publiées au cours des derniers mois. En juin, le Turing Institute, le centre national britannique pour la science des données et l'IA, a publié un rapport résumant les discussions lors d'une série d'ateliers qu'il a organisés fin 2020. Le consensus clair était que les outils d'IA avaient eu peu d'impact, voire aucun. dans la lutte contre le covid.

Ne convient pas à un usage clinique

Cela fait écho aux résultats de deux études majeures qui ont évalué des centaines d'outils prédictifs développés l'année dernière. Wynants est l'auteur principal de l'un d'entre eux, une revue dans le British Medical Journal qui est toujours mise à jour à mesure que de nouveaux outils sont publiés et que ceux existants sont testés. Elle et ses collègues ont examiné 232 algorithmes pour diagnostiquer les patients ou prédire à quel point les personnes atteintes de la maladie pourraient tomber malades. Ils ont constaté qu'aucun d'entre eux n'était adapté à un usage clinique. Seuls deux ont été désignés comme étant suffisamment prometteurs pour de futurs tests.

"C'est choquant", dit Wynants. "J'y suis allé avec quelques soucis, mais cela a dépassé mes craintes."

L'étude de Wynants est étayée par une autre grande étude réalisée par Derek Driggs, chercheur en apprentissage automatique à l'Université de Cambridge, et ses collègues, et publiée dans Nature Machine Intelligence. Cette équipe a zoomé sur des modèles d'apprentissage en profondeur pour diagnostiquer le covid et prédire le risque du patient à partir d'images médicales, telles que les radiographies thoraciques et les tomodensitogrammes thoraciques. Ils ont examiné 415 outils publiés et, comme Wynants et ses collègues, ont conclu qu'aucun n'était adapté à une utilisation clinique.

"Cette pandémie a été un grand test pour l'IA et la médecine", déclare Driggs, qui travaille lui-même sur un outil d'apprentissage automatique pour aider les médecins pendant la pandémie. "Cela aurait beaucoup contribué à mettre le public de notre côté", dit-il. "Mais je ne pense pas que nous ayons réussi ce test."

Les deux équipes ont constaté que les chercheurs répétaient les mêmes erreurs de base dans la manière dont ils formaient ou testaient leurs outils. Des hypothèses incorrectes sur les données signifiaient souvent que les modèles entraînés ne fonctionnaient pas comme prévu.

Wynants et Driggs croient toujours que l'IA a le potentiel d'aider. Mais ils craignent que cela puisse être nocif s'il est mal construit, car ils pourraient manquer des diagnostics ou sous-estimer le risque pour les patients vulnérables. "Il y a beaucoup de battage médiatique autour des modèles d'apprentissage automatique et de ce qu'ils peuvent faire aujourd'hui", déclare Driggs.

Des attentes irréalistes encouragent l'utilisation de ces outils avant qu'ils ne soient prêts. Wynants et Driggs disent tous deux que quelques-uns des algorithmes qu'ils ont examinés ont déjà été utilisés dans les hôpitaux, et certains sont commercialisés par des développeurs privés. "Je crains qu'ils n'aient pu nuire aux patients", déclare Wynants.

Alors qu'est-ce qui n'allait pas? Et comment comblons-nous cet écart? S'il y a un avantage, c'est que la pandémie a clairement fait comprendre à de nombreux chercheurs que la façon dont les outils d'IA sont construits doit changer. «La pandémie a mis en lumière des problèmes que nous traînons depuis un certain temps», déclare Wynants.

Qu'est ce qui ne s'est pas bien passé

Bon nombre des problèmes qui ont été découverts sont liés à la mauvaise qualité des données que les chercheurs ont utilisées pour développer leurs outils. Les informations sur les patients covid, y compris les analyses médicales, ont été collectées et partagées au milieu d'une pandémie mondiale, souvent par les médecins qui ont du mal à traiter ces patients. Les chercheurs voulaient aider rapidement, et c'étaient les seuls ensembles de données publiques disponibles. Mais cela signifiait que de nombreux outils étaient construits à partir de données mal étiquetées ou de données provenant de sources inconnues.

Driggs met en évidence le problème de ce qu'il appelle les ensembles de données de Frankenstein, qui sont assemblés à partir de plusieurs sources et peuvent contenir des doublons. Cela signifie que certains outils finissent par être testés sur les mêmes données sur lesquelles ils ont été formés, ce qui les rend plus précis qu'ils ne le sont.

Cela brouille également l'origine de certains ensembles de données. Cela peut signifier que les chercheurs manquent des fonctionnalités importantes qui faussent la formation de leurs modèles. Beaucoup ont involontairement utilisé un ensemble de données contenant des scanners thoraciques d'enfants qui n'avaient pas de covid comme exemples de ce à quoi ressemblaient des cas non covid. Mais en conséquence, les IA ont appris à identifier les enfants, pas le covid.

Le groupe de Driggs a formé son propre modèle à l'aide d'un ensemble de données contenant un mélange d'analyses prises lorsque les patients étaient allongés et debout. Parce que les patients scannés en position allongée étaient plus susceptibles d'être gravement malades, l'IA a appris à tort à prédire un risque grave de covid à partir de la position d'une personne.

Dans d'autres cas encore, certaines IA ont détecté la police de texte utilisée par certains hôpitaux pour étiqueter les scans. En conséquence, les polices des hôpitaux avec des charges de travail plus graves sont devenues des prédicteurs du risque de covid.

Des erreurs comme celles-ci semblent évidentes avec le recul. Ils peuvent également être corrigés en ajustant les modèles, si les chercheurs en ont connaissance. Il est possible de reconnaître les lacunes et de publier un modèle moins précis, mais moins trompeur. Mais de nombreux outils ont été développés soit par des chercheurs en IA qui n'avaient pas l'expertise médicale pour repérer les failles dans les données, soit par des chercheurs en médecine qui n'avaient pas les compétences mathématiques pour compenser ces failles.

Un problème plus subtil mis en évidence par Driggs est le biais d'incorporation, ou biais introduit au moment où un ensemble de données est étiqueté. Par exemple, de nombreux scanners médicaux ont été étiquetés selon que les radiologues qui les ont créés ont déclaré qu'ils montraient ou non du covid. Mais cela intègre, ou intègre, tous les préjugés de ce médecin particulier dans la vérité fondamentale d'un ensemble de données. Il serait bien préférable d'étiqueter un scan médical avec le résultat d'un test PCR plutôt que l'avis d'un médecin, dit Driggs. Mais il n'y a pas toujours de temps pour les subtilités statistiques dans les hôpitaux très fréquentés.

Cela n'a pas empêché certains de ces outils d'être précipités dans la pratique clinique. Wynants dit qu'il n'est pas clair lesquels sont utilisés ni comment. Les hôpitaux diront parfois qu'ils utilisent un outil uniquement à des fins de recherche, ce qui rend difficile d'évaluer à quel point les médecins comptent sur eux. «Il y a beaucoup de secret», dit-elle.

Wynants a demandé à une entreprise qui commercialisait des algorithmes d'apprentissage en profondeur de partager des informations sur son approche, mais n'a pas répondu. Elle a ensuite trouvé plusieurs modèles publiés par des chercheurs liés à cette société, tous présentant un risque élevé de biais. "Nous ne savons pas vraiment ce que l'entreprise a mis en place", dit-elle.

Selon Wynants, certains hôpitaux signent même des accords de non-divulgation avec des fournisseurs d'IA médicale. Lorsqu'elle a demandé aux médecins quels algorithmes ou logiciels ils utilisaient, ils lui ont parfois dit qu'ils n'étaient pas autorisés à le dire.

Comment le réparer

Quelle est la solution ? De meilleures données aideraient, mais en temps de crise, c'est une grande demande. Il est plus important de tirer le meilleur parti des ensembles de données dont nous disposons. La décision la plus simple serait que les équipes d'IA collaborent davantage avec les cliniciens, explique Driggs. Les chercheurs doivent également partager leurs modèles et divulguer comment ils ont été formés afin que d'autres puissent les tester et s'en inspirer. "Ce sont deux choses que nous pourrions faire aujourd'hui", dit-il. "Et ils résoudraient peut-être 50% des problèmes que nous avons identifiés."

Obtenir des données serait également plus facile si les formats étaient standardisés, explique Bilal Mateen, un médecin qui dirige l'équipe de technologie clinique du Wellcome Trust, une organisation caritative de recherche en santé mondiale basée à Londres.

Un autre problème identifié par Wynants, Driggs et Mateen est que la plupart des chercheurs se sont précipités pour développer leurs propres modèles, plutôt que de travailler ensemble ou d'améliorer ceux qui existent déjà. Le résultat a été que l'effort collectif des chercheurs du monde entier a produit des centaines d'outils médiocres, plutôt qu'une poignée d'outils correctement formés et testés.

"Les modèles sont si similaires - ils utilisent presque tous les mêmes techniques avec des ajustements mineurs, les mêmes entrées - et ils font tous les mêmes erreurs", explique Wynants. "Si toutes ces personnes qui fabriquent de nouveaux modèles testaient plutôt des modèles déjà disponibles, nous aurions peut-être quelque chose qui pourrait vraiment aider dans la clinique maintenant."

Dans un sens, c'est un vieux problème de recherche. Les chercheurs universitaires ont peu d'incitations à partager leur travail ou à valider les résultats existants. Il n'y a aucune récompense pour avoir parcouru le dernier kilomètre qui emmène la technologie du « banc de laboratoire au chevet du patient », déclare Mateen.

Pour résoudre ce problème, l'Organisation mondiale de la santé envisage un contrat de partage de données d'urgence qui entrerait en vigueur lors de crises sanitaires internationales. Cela permettrait aux chercheurs de déplacer plus facilement les données au-delà des frontières, explique Mateen. Avant le sommet du G7 au Royaume-Uni en juin, des groupes scientifiques de premier plan des pays participants ont également appelé à la "préparation des données" en vue de futures urgences sanitaires.

De telles initiatives semblent un peu vagues et les appels au changement ont toujours une bouffée de vœu pieux à leur sujet. Mais Mateen a ce qu'il appelle une vision "naïvement optimiste". Avant la pandémie, l'élan pour de telles initiatives était au point mort. "C'était comme si la montagne était trop haute pour faire de la randonnée et la vue n'en valait pas la peine", dit-il. "Covid a remis beaucoup de cela à l'ordre du jour."

"Tant que nous n'accepterons pas l'idée que nous devons régler les problèmes non sexy avant les problèmes sexy, nous sommes condamnés à répéter les mêmes erreurs", déclare Mateen. "C'est inacceptable si ça n'arrive pas. Oublier les leçons de cette pandémie est irrespectueux envers ceux qui sont décédés. »

Problème 1551

Incidents associés

Incident 1731 Rapport
AI Tools Failed to Sufficiently Predict COVID Patients, Some Potentially Harmful

Des centaines d'outils d'IA ont été conçus pour attraper le covid. Aucun d'eux n'a aidé.

Problème 1551

Incidents associés

Incident 1731 RapportAI Tools Failed to Sufficiently Predict COVID Patients, Some Potentially Harmful

Des centaines d'outils d'IA ont été conçus pour attraper le covid. Aucun d'eux n'a aidé.

Incident 1731 Rapport
AI Tools Failed to Sufficiently Predict COVID Patients, Some Potentially Harmful