Report 2413

Toronto a récemment utilisé un outil d'intelligence artificielle pour prédire quand une plage publique sera sûre. Cela a horriblement mal tourné.

Le développeur a affirmé que l'outil avait atteint une précision de plus de 90 % pour prédire quand les plages seraient sûres pour nager. Mais l'outil a fait bien pire : la majorité des jours où l'eau n'était en fait pas sûre, les plages sont restées ouvertes sur la base des évaluations de l'outil. . C'était moins précis que la méthode précédente consistant simplement à tester l'eau pour les bactéries chaque jour.

Nous ne trouvons pas cela surprenant. En fait, nous considérons qu'il s'agit de la situation par défaut lorsqu'un outil de prédiction des risques d'IA est déployé.

L'outil de Toronto impliquait un échec élémentaire d'évaluation des performances - les responsables de la ville n'ont jamais vérifié les performances du modèle déployé au cours de l'été - mais des échecs beaucoup plus subtils sont possibles. Peut-être que le modèle est généralement précis mais manque parfois même des niveaux de bactéries extrêmement élevés. Ou cela fonctionne bien sur la plupart des plages mais échoue totalement sur une plage en particulier. Il n'est pas réaliste de s'attendre à ce que des non-experts soient en mesure d'évaluer un modèle de manière exhaustive. À moins que le client d'un outil de prédiction des risques d'IA n'ait des experts internes, il achète l'outil sur la foi. Et s'ils ont leurs propres experts, il est généralement plus facile de créer l'outil en interne !

Lorsque les responsables ont été interrogés sur l'efficacité de l'outil, ils ont détourné les questions en disant que l'outil n'était jamais utilisé seul - un humain prenait toujours la décision finale. Mais ils n'ont pas répondu aux questions sur la fréquence à laquelle les décideurs humains ont outrepassé la recommandation de l'outil.

C'est aussi un modèle familier. Les fournisseurs d'IA utilisent souvent un appât et un commutateur lorsqu'il s'agit de la surveillance humaine. Les fournisseurs vendent ces outils sur la base de la promesse d'une automatisation complète et de la suppression d'emplois, mais lorsque des inquiétudes sont soulevées concernant les biais, les défaillances catastrophiques ou d'autres limitations bien connues de l'IA, ils se replient sur les petits caractères qui disent que l'outil devrait ' ne pas être utilisé seul. Leurs promesses conduisent à une sur-automatisation - les outils d'IA sont utilisés pour des tâches bien au-delà de leurs capacités.

Voici trois autres histoires d'échecs similaires des modèles de prévision des risques.

La débâcle de la prédiction de la septicémie d'Epic

Epic est une grande société de logiciels de santé. Il stocke les données de santé de plus de 300 millions de patients. En 2017, Epic a publié un modèle de prédiction de la septicémie. Au cours des années suivantes, il a été déployé dans des centaines d'hôpitaux à travers les États-Unis. Cependant, une étude de 2021 de chercheurs de l'Université du Michigan a révélé que Le modèle d'Epic a largement sous-performé par rapport aux affirmations du développeur.

Les entrées de l'outil comprenaient des informations indiquant si un patient avait reçu des antibiotiques. Mais si un patient reçoit des antibiotiques, il a déjà reçu un diagnostic de septicémie - ce qui fait la prédiction de l'outil inutile. Ces cas étaient toujours considérés comme des succès lorsque le développeur a évalué l'outil, ce qui a conduit à des affirmations exagérées sur ses performances. Ceci est un exemple de fuite de données, une erreur courante dans la création d'outils d'IA.

Dans une [réponse] de 2021(https://www.epic.com/epic/post/for-clinicians-by-clinicians-our-take-on-predictive-models), Epic a tenté de détourner les critiques en affirmant que leur IA les outils ne sont pas utilisés seuls : "Les flux de travail et les processus cliniques robustes qui entourent ces outils sont ce qui donne aux outils un but et permet d'obtenir de meilleurs résultats". Mais le contraire était vrai : 88 % des alertes de l'outil étaient de fausses alarmes , augmentant encore la charge de travail des travailleurs de la santé. Un an plus tard, Epic a cessé de vendre son modèle de prédiction de septicémie à taille unique .

Scandale des allocations familiales aux Pays-Bas

En 2013, les Pays-Bas ont déployé un algorithme pour détecter la fraude sociale par les bénéficiaires d'allocations de garde d'enfants. L'algorithme a trouvé des corrélations statistiques dans les données, mais ces corrélations ont été utilisées pour porter de sérieuses accusations de culpabilité, sans aucune autre preuve.

L'algorithme a été utilisé pour accuser à tort 30 000 parents. Cela en a envoyé beaucoup dans la ruine financière et mentale. Les personnes accusées par l'algorithme ont souvent été invitées à rembourser [des centaines de milliers d'euros](https://www.vice.com/en/article/jgq35d/how-a-discrimination-algorithm-wrongly-accused-thousands-of -familles-de-fraude). Dans de nombreux cas, l'accusation résultait de [données incorrectes sur les personnes](https://autoriteitpersoonsgegevens-nl.translate.goog/nl/nieuws/boete-belastingdienst-voor-zwarte-lijst-fsv?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en&_x_tr_pto =wapp) - mais ils n'avaient aucun moyen de le savoir.

Étonnamment, l'une des entrées de l'algorithme était de savoir si quelqu'un avait la double nationalité ; le simple fait d'avoir une nationalité turque, marocaine ou d'Europe de l'Est rendrait une personne plus susceptible d'être [signalée comme fraudeur](https://autoriteitpersoonsgegevens-nl.translate.goog/nl/nieuws/boete-belastingdienst-voor-zwarte- lijst-fsv?_x_tr_sl=auto&_x_tr_tl=fr&_x_tr_hl=fr&_x_tr_pto=wapp).

Pire, les accusés n'avaient aucun recours. Avant que l'algorithme ne soit développé, chaque cas était [examiné par des humains](https://www.vice.com/en/article/jgq35d/how-a-discrimination-algorithm-wrongly-accused-thousands-of-families -de-fraude). Après son déploiement, aucun humain n'était dans la boucle pour annuler les décisions erronées de l'algorithme.

Malgré ces problèmes, l'algorithme a été utilisé pendant plus de 6 ans.

Dans les retombées sur l'utilisation de l'algorithme, [le Premier ministre et l'ensemble de son cabinet ont démissionné](https://www.politico.eu/article/dutch-scandal-serves-as-a-warning-for-europe-over-risks -d'utiliser-des-algorithmes/). Les autorités fiscales qui ont déployé l'algorithme ont dû payer une amende de 3,7 millions d'euros pour les manquements survenus lors de la création du modèle. Il s'agissait de la amende la plus importante de ce type infligée dans la de campagne.

Cela sert d'exemple édifiant de sur-automatisation : un algorithme non testé a été déployé sans aucune surveillance et a causé un préjudice financier et émotionnel massif aux personnes pendant 6 ans avant d'être dissous.

Séparation familiale dans le comté d'Allegheny

En 2016, le comté d'Allegheny en Pennsylvanie a adopté l'outil de dépistage familial d'Allegheny (AFST) pour prédire quels enfants sont à risque de maltraitance. L'AFST est utilisé pour décider quelles familles doivent faire l'objet d'une enquête par les travailleurs sociaux. Dans ces enquêtes, les travailleurs sociaux peuvent retirer de force les enfants de leur famille et les placer en famille d'accueil, [même s'il n'y a aucune allégation d'abus](https://www.wired.com/story/excerpt-from-automating-inequality /)—seulement la négligence fondée sur la pauvreté.

Deux ans plus tard, il a été découvert que l'AFST souffrait de fuites de données, ce qui a conduit à des déclarations exagérées sur ses performances. De plus, l'outil était systématiquement biaisé contre les familles noires. Interrogés, les créateurs ont avancé la défense familière selon laquelle la [la décision finale est toujours prise par un décideur humain](https://www.wesa.fm/politics-government/2022-04-29/an-algorithm- qui-détecte-la-négligence-des-enfants-dans-le-comté-d'Allegheny-soulève-des-inquiétudes).

Il existe de nombreux autres exemples d'IA particulièrement mal adaptée à la prédiction des risques ; dans un article à venir, nous examinons 8 exemples consécutifs et constatons qu'ils sont tous susceptibles d'échouer de la même manière. Sans examen minutieux, tous ces outils sont suspects.

Bien sûr, lorsqu'on demande aux entreprises de partager leurs modèles pour examen, elles lèvent la main en criant au "secret commercial" - c'est arrivé avec Epic, [Northpointe](https://hdsr.mitpress.mit.edu/pub/ hzwo7ax4/release/3) (l'entreprise qui fabrique le infâme outil de prédiction de la récidive, COMPAS), et de nombreuses autres entreprises qui vendent de tels outils.

La conclusion est claire : il incombe à l'entreprise qui vend l'outil d'IA de justifier de manière proactive sa validité. Sans de telles preuves, nous devrions traiter tout outil d'évaluation des risques comme suspect. Et cela inclut la plupart des outils sur le marché aujourd'hui.

Lectures complémentaires

L'histoire ne se répète jamais, mais elle rime souvent. Au Michigan, un algorithme a été utilisé pour détecter les fraudes au chômage de 2013 à 2015. L'État a collecté à tort 21 millions de dollars auprès des résidents. Dans un autre scandale de détection de fraude, le gouvernement australien a volé [721 millions AUD à ses citoyens](https://www.vice.com/en/article/y3zkgb/the-story-of-how-the-australian-government-screwed -its-most-vulnerable-people-v27n3) de 2016 à 2020. Des citoyens ont été accusés de fraude à l'aide sociale à l'aide d'un algorithme ; c'est ce qu'on appelle souvent le scandale de la "robodebt".
J. Khadijah Abdurahman propose une interprétation incisive et déchirante de la séparation familiale et le rôle des outils d'IA, y compris AFST— en amplifiant ses méfaits.
Dans son livre Automating Inequality, Virginia Eubanks se penche sur l'AFST et sur la manière dont elle pénalise la pauvreté. Un extrait du chapitre sur l'AFST a été publié dans WIRED.
Madeleine Clare Elish et Elizabeth Anne Watkins étudient un autre algorithme de prédiction du sepsis—Sepsis Watch— qui a été déployé à l'Université Duke. Ils documentent le travail minutieux nécessaire aux cliniciens pour intégrer le modèle dans leurs flux de travail et leur contexte social spécifiques à l'hôpital. Cela a été facilité par le fait que l'outil a été développé en interne, contrairement à la représentation habituelle des outils d'IA en tant que plug-and-play.
Elish développe également le concept de zones de déformation morale : blâmer les opérateurs humains pour les décisions incorrectes prises à l'aide de systèmes automatisés sans demander s'ils peuvent fournir une surveillance raisonnable.
Ben Green soutient que la surveillance humaine est surestimée : elle légitime les outils défectueux, donne un faux sentiment de sécurité et ne peut pas résoudre les problèmes fondamentaux avec algorithmes.
Deb Raji et al. proposent une taxonomie des différents types de défaillances qui se sont produites dans les systèmes d'IA du monde réel au-delà de la prédiction des risques.

Les idées de cet article ont été développées au cours d'un projet de recherche avec [Angelina Wang](https://angelina-wang.github. io/) et Solon Barocas. Lien pour couvrir la source de l'image.

Problème 2413

Incidents associés

Incident 2903 Rapports
False Negatives for Water Quality-Associated Beach Closures

L'appât et l'interrupteur derrière les outils de prédiction des risques de l'IA

La débâcle de la prédiction de la septicémie d'Epic

Scandale des allocations familiales aux Pays-Bas

Séparation familiale dans le comté d'Allegheny

Lectures complémentaires

Problème 2413

Incidents associés

Incident 2903 RapportsFalse Negatives for Water Quality-Associated Beach Closures

L'appât et l'interrupteur derrière les outils de prédiction des risques de l'IA

La débâcle de la prédiction de la septicémie d'Epic

Scandale des allocations familiales aux Pays-Bas

Séparation familiale dans le comté d'Allegheny

Lectures complémentaires

Incident 2903 Rapports
False Negatives for Water Quality-Associated Beach Closures