Report 1372

En tant qu'enfant, vous développez un sens de ce que signifie « équité ». C'est un concept que vous apprenez très tôt lorsque vous vous adaptez au monde qui vous entoure. Quelque chose semble juste ou non.

Mais de plus en plus, les algorithmes ont commencé à arbitrer l'équité pour nous. Ils décident qui voit les annonces immobilières, qui est embauché ou licencié, et même qui est envoyé en prison. Par conséquent, les personnes qui les créent - les ingénieurs logiciels - sont invitées à articuler ce que signifie être juste dans leur code. C'est pourquoi les régulateurs du monde entier sont maintenant aux prises avec une question : comment pouvez-vous quantifier mathématiquement l'équité ?

Cette histoire tente d'offrir une réponse. Et pour ce faire, nous avons besoin de votre aide. Nous allons parcourir un véritable algorithme, celui utilisé pour décider qui est envoyé en prison, et vous demander de modifier ses différents paramètres pour rendre ses résultats plus équitables. (Ne vous inquiétez pas, cela n'impliquera pas de regarder le code !)

L'algorithme que nous examinons est connu sous le nom de COMPAS, et c'est l'un des nombreux outils "d'évaluation des risques" utilisés dans le système judiciaire pénal américain.

À un niveau élevé, COMPAS est censé aider les juges à déterminer si un accusé doit être maintenu en prison ou autorisé à sortir en attendant son procès. Il s'entraîne sur les données historiques des accusés pour trouver des corrélations entre des facteurs tels que l'âge et les antécédents d'une personne avec le système judiciaire pénal, et si la personne a été arrêtée ou non. Il utilise ensuite les corrélations pour prédire la probabilité qu'un accusé soit arrêté pour un nouveau crime pendant la période d'attente du procès.1

note de bas de page

Arrestations vs condamnations

Ce processus est très imparfait. Les outils utilisent les arrestations comme indicateur des crimes, mais il existe en fait de grandes différences entre les deux, car la police a l'habitude d'arrêter de manière disproportionnée des minorités raciales et de manipuler des données. De plus, les réarrestations sont souvent faites pour des infractions techniques, comme le fait de ne pas se présenter devant un tribunal, plutôt que pour des activités criminelles répétées. Dans cette histoire, nous simplifions à l'excès pour examiner ce qui se passerait si les arrestations correspondaient à des crimes réels.

Cette prédiction est connue sous le nom de «score de risque» de l'accusé et se veut une recommandation: les accusés «à haut risque» devraient être emprisonnés pour les empêcher de causer un préjudice potentiel à la société; les accusés « à faible risque » devraient être libérés avant leur procès. (En réalité, les juges ne suivent pas toujours ces recommandations, mais les évaluations des risques restent influentes.)

Les partisans des outils d'évaluation des risques soutiennent qu'ils rendent le système de justice pénale plus équitable. Ils remplacent l'intuition et les préjugés des juges - en particulier les préjugés raciaux - par une évaluation apparemment plus «objective». Ils peuvent également remplacer la pratique consistant à déposer une caution aux États-Unis, qui oblige les accusés à payer une somme d'argent pour leur libération. La caution discrimine les Américains pauvres et affecte de manière disproportionnée les accusés noirs, qui sont surreprésentés dans le système judiciaire pénal.

note de bas de page

La méthodologie de ProPublica

Pour les accusés emprisonnés avant le procès, ProPublica a examiné s'ils avaient été de nouveau arrêtés dans les deux ans suivant leur libération. Il a ensuite utilisé cela pour déterminer si les accusés auraient été de nouveau arrêtés avant le procès s'ils n'avaient pas été emprisonnés.

Comme l'exige la loi, COMPAS n'inclut pas la race dans le calcul de ses scores de risque. En 2016, cependant, une enquête de ProPublica a fait valoir que l'outil était toujours biaisé contre les Noirs. ProPublica a constaté que parmi les accusés qui n'ont jamais été de nouveau arrêtés, les accusés noirs étaient deux fois plus susceptibles que les accusés blancs d'avoir été étiquetés à haut risque par COMPAS.2

Donc, notre tâche est maintenant d'essayer d'améliorer COMPAS. Prêt?

Commençons par le même ensemble de données que ProPublica a utilisé dans son analyse. Il comprend tous les accusés notés par l'algorithme COMPAS dans le comté de Broward, en Floride, de 2013 à 2014. Au total, cela représente plus de 7 200 profils avec le nom, l'âge, la race et le score de risque COMPAS de chaque personne, en notant si la personne a finalement été de nouveau arrêtée soit après être libéré ou emprisonné avant le procès.

Pour rendre les données plus faciles à visualiser, nous avons échantillonné au hasard 500 accusés en noir et blanc de l'ensemble complet.

Nous avons représenté chaque accusé par un point.

N'oubliez pas : tous ces points représentent des personnes accusées (mais non condamnées) d'un crime. Certains seront emprisonnés avant le procès; d'autres seront libérés immédiatement. Certains seront de nouveau arrêtés après leur libération ; d'autres non. Nous voulons comparer deux choses : les prédictions (quels accusés ont reçu des scores de risque « élevés » contre « faibles ») et les résultats réels (quels accusés ont en fait été de nouveau arrêtés après avoir été libérés).

COMPAS note les accusés sur une échelle de 1 à 10, où 1 correspond approximativement à 10 % de chances de réarrestation, 2 à 20 %, etc.

Regardons comment COMPAS a marqué tout le monde.

note de bas de page

Les scores de COMPAS

COMPAS a été conçu pour faire des prédictions agrégées sur des groupes de personnes qui partagent des caractéristiques similaires, plutôt que des prédictions sur des individus spécifiques. La méthodologie derrière ses scores et les recommandations sur la façon de les utiliser sont plus compliquées que ce que nous avions la place de présenter ; vous pouvez lire à leur sujet sur le lien ci-dessus.

Bien que COMPAS ne puisse offrir qu'une probabilité statistique qu'un accusé soit de nouveau arrêté avant le procès, les juges, bien sûr, doivent prendre une décision de tout ou rien : s'il faut libérer ou détenir l'accusé. Pour les besoins de cette histoire, nous allons utiliser le seuil de « risque élevé » de COMPAS, un score de 7 ou plus, pour représenter une recommandation de détention d'un accusé.3

À partir de maintenant, vous êtes en charge. Votre mission est de repenser la dernière étape de cet algorithme en trouvant un endroit plus juste pour fixer le seuil de « risque élevé ».

Voici à quoi ressemblera votre seuil. Essayez de cliquer dessus et de le faire glisser.

Alors d'abord, imaginons le meilleur scénario : tous les accusés que votre algorithme attribue à un score de risque élevé sont arrêtés de nouveau, et tous les accusés qui obtiennent un score de risque faible ne le sont pas. Ci-dessous, notre graphique montre à quoi cela pourrait ressembler. Les cercles remplis sont des accusés qui ont été de nouveau arrêtés ; les cercles vides sont ceux qui ne l'étaient pas.

Déplacez maintenant le seuil pour rendre votre algorithme aussi juste que possible.

(En d'autres termes, seuls les accusés ré-arrêtés devraient être emprisonnés.)

Super! C'était facile. Votre seuil doit être fixé entre 6 et 7. Personne n'a été détenu inutilement, et personne qui a été libéré n'a ensuite été de nouveau arrêté.

Mais bien sûr, ce scénario idéal ne se produit jamais réellement. Il est impossible de prédire parfaitement le résultat pour chaque personne. Cela signifie que les points remplis et vides ne peuvent pas être aussi bien séparés.

Alors, voici qui est réellement arrêté de nouveau.

Maintenant, déplacez à nouveau le seuil pour rendre votre algorithme aussi juste que possible.

(Astuce : vous voulez maximiser sa précision.)

Vous remarquerez que peu importe où vous placez le seuil, ce n'est jamais parfait : nous emprisonnons toujours certains accusés qui ne sont pas ré-arrêtés (points vides à droite du seuil) et libérons certains accusés qui sont ré-arrêtés (points pleins à la gauche du seuil). C'est un compromis que notre système de justice pénale a toujours traité, et ce n'est pas différent lorsque nous utilisons un algorithme.

Pour rendre ces compromis plus clairs, voyons le pourcentage de prédictions incorrectes que COMPAS fait de chaque côté du seuil, au lieu de simplement mesurer la précision globale. Nous pourrons maintenant voir explicitement si notre seuil favorise le maintien inutile de personnes en prison ou la libération de personnes qui sont ensuite de nouveau arrêtées.4 Notez que le seuil par défaut de COMPAS favorise ce dernier.

note de bas de page

Définitions techniques

Ces deux pourcentages d'erreurs sont également connus sous le nom de "taux de faux négatifs" (que nous avons étiquetés "libérés mais réarrêtés") et de "taux de faux positifs" (que nous avons étiquetés "inutilement emprisonnés").

Comment devrions-nous équilibrer équitablement ce compromis? Il n'y a pas de réponse universelle, mais dans les années 1760, le juge anglais William Blackstone écrivait : « Il vaut mieux que dix coupables s'échappent qu'un innocent souffre.

Le ratio de Blackstone est toujours très influent aux États-Unis aujourd'hui. Alors profitons-en pour nous inspirer.

Déplacez le seuil jusqu'à ce que le pourcentage de « libérés mais ré-arrêtés » soit environ 10 fois le pourcentage de « inutilement emprisonnés ».

Vous pouvez déjà voir deux problèmes avec l'utilisation d'un algorithme comme COMPAS. La première est qu'une meilleure prédiction peut toujours aider à réduire les taux d'erreur à tous les niveaux, mais elle ne peut jamais les éliminer complètement. Peu importe la quantité de données que nous recueillons, deux personnes qui se ressemblent pour l'algorithme peuvent toujours finir par faire des choix différents.

Le deuxième problème est que même si vous suivez systématiquement les recommandations de COMPAS, quelqu'un - un humain - doit d'abord décider où se situe le seuil de "risque élevé", que ce soit en utilisant le ratio de Blackstone ou autre chose. Cela dépend de toutes sortes de considérations, politiques, économiques et sociales.

Nous allons maintenant aborder un troisième problème. C'est là que nos explorations de l'équité commencent à devenir intéressantes. Comment les taux d'erreur se comparent-ils entre différents groupes ? Y a-t-il certains types de personnes qui sont plus susceptibles d'être détenues inutilement ?

Voyons à quoi ressemblent nos données lorsque nous considérons la race des accusés.

Déplacez maintenant chaque seuil pour voir comment il affecte différemment les accusés noirs et blancs.

La race est un exemple de classe protégée aux États-Unis, ce qui signifie que la discrimination sur cette base est illégale. Les autres classes protégées incluent le sexe, l'âge et le handicap.

Maintenant que nous avons séparé les accusés noirs et blancs, nous avons découvert que même si la race n'est pas utilisée pour calculer les scores de risque COMPAS, les scores ont des taux d'erreur différents pour les deux groupes. Au seuil COMPAS par défaut entre 7 et 8, 16% des accusés noirs qui ne sont pas réarrêtés ont été inutilement emprisonnés, alors qu'il en va de même pour seulement 7% des accusés blancs. Cela ne semble pas juste du tout ! C'est exactement ce que ProPublica a mis en évidence dans son enquête.

Bon, alors corrigeons ça.

Déplacez chaque seuil pour que les accusés blancs et noirs soient inutilement emprisonnés à peu près au même rythme.

(Il existe plusieurs solutions. Nous en avons choisi une, mais vous pouvez essayer d'en trouver d'autres.)

Nous avons essayé d'atteindre à nouveau le ratio de Blackstone, nous sommes donc arrivés à la solution suivante : les accusés blancs ont un seuil entre 6 et 7, tandis que les accusés noirs ont un seuil entre 8 et 9. Maintenant, environ 9 % des accusés noirs et blancs qui n'ont pas qui ne sont pas de nouveau arrêtés sont emprisonnés inutilement, tandis que 75 % de ceux qui le sont sont de nouveau arrêtés après n'avoir pas passé de temps en prison. Bon travail! Votre algorithme semble beaucoup plus juste que COMPAS maintenant.

Mais attendez, n'est-ce pas ? En faisant correspondre les taux d'erreur entre les races, nous avons perdu quelque chose d'important : nos seuils pour chaque groupe se situent à des endroits différents, de sorte que nos scores de risque signifient des choses différentes pour les accusés blancs et noirs.

Les accusés blancs sont emprisonnés pour un score de risque de 7, mais les accusés noirs sont libérés pour le même score. Cela, encore une fois, ne semble pas juste. Deux personnes avec le même score de risque ont la même probabilité d'être à nouveau arrêtées, alors ne devraient-elles pas recevoir le même traitement ? Aux États-Unis, l'utilisation de seuils différents pour différentes races peut également soulever des problèmes juridiques complexes avec le 14e amendement, la clause de protection égale de la Constitution.

Essayons donc une fois de plus avec un seul seuil partagé entre les deux groupes.

Déplacez à nouveau le seuil pour que les accusés blancs et noirs soient inutilement emprisonnés au même rythme.

Si vous êtes frustré, il y a une bonne raison. Il n'y a pas de solution.

Nous vous avons donné deux définitions de l'équité : maintenir des taux d'erreur comparables entre les groupes et traiter de la même manière les personnes ayant les mêmes scores de risque. Ces deux définitions sont tout à fait défendables ! Mais satisfaire les deux en même temps est impossible.

La raison en est que les accusés noirs et blancs sont de nouveau arrêtés à des taux différents. Alors que 52% des accusés noirs ont été de nouveau arrêtés dans nos données du comté de Broward, seuls 39% des accusés blancs l'ont été. Il existe une différence similaire dans de nombreuses juridictions à travers les États-Unis, en partie à cause de l'histoire du pays où la police cible de manière disproportionnée les minorités (comme nous l'avons mentionné précédemment).

Les prédictions reflètent les données utilisées pour les faire, que ce soit par algorithme ou non. Si les accusés noirs sont arrêtés à un taux plus élevé que les accusés blancs dans le monde réel, ils auront également un taux d'arrestation prévu plus élevé. Cela signifie qu'ils auront également des scores de risque plus élevés en moyenne et qu'un plus grand pourcentage d'entre eux seront étiquetés à haut risque, à la fois correctement et incorrectement. Cela est vrai quel que soit l'algorithme utilisé, tant qu'il est conçu de manière à ce que chaque score de risque signifie la même chose, quelle que soit la race.

Cet étrange conflit de définitions d'équité ne se limite pas seulement aux algorithmes d'évaluation des risques dans le système judiciaire pénal. Les mêmes types de paradoxes s'appliquent aux algorithmes d'évaluation du crédit, d'assurance et d'embauche. Dans tout contexte où un système de prise de décision automatisé doit allouer des ressources ou des sanctions entre plusieurs groupes qui ont des résultats différents, différentes définitions de l'équité se révéleront inévitablement mutuellement exclusives.

Aucun algorithme ne peut résoudre ce problème ; ce n'est même pas un problème algorithmique, vraiment. Les juges humains font actuellement le même genre de compromis forcés - et l'ont fait tout au long de l'histoire.

Mais voici ce qu'un algorithme a changé. Bien que les juges ne soient pas toujours transparents sur la façon dont ils choisissent entre différentes notions d'équité, les gens peuvent contester leurs décisions. En revanche, COMPAS, qui est fabriqué par la société privée Northpointe, est un secret commercial qui ne peut être publiquement examiné ou interrogé. Les accusés ne peuvent plus remettre en question ses résultats et les agences gouvernementales perdent la capacité de contrôler le processus décisionnel. Il n'y a plus de responsabilité publique.

Alors que devraient faire les régulateurs ? Le projet de loi sur la responsabilité algorithmique de 2019 est un exemple de bon début, déclare Andrew Selbst, professeur de droit à l'Université de Californie, spécialisé dans l'IA et le droit. Le projet de loi, qui vise à réglementer les préjugés dans les systèmes de prise de décision automatisés, comporte deux caractéristiques notables qui servent de modèle pour la future législation. Premièrement, cela obligerait les entreprises à auditer leurs systèmes d'apprentissage automatique pour détecter les préjugés et la discrimination dans une «évaluation d'impact». Deuxièmement, il ne précise pas de définition de l'équité.

"Avec une évaluation d'impact, vous êtes très transparent sur la façon dont vous, en tant qu'entreprise, abordez la question de l'équité", déclare Selbst. Cela ramène la responsabilité publique dans le débat. Parce que «l'équité signifie différentes choses dans différents contextes», ajoute-t-il, éviter une définition spécifique permet cette flexibilité.

Mais si des algorithmes doivent être utilisés pour arbitrer l'équité en premier lieu est une question compliquée. Les algorithmes d'apprentissage automatique sont formés sur "des données produites à travers des histoires d'exclusion et de discrimination", écrit Ruha Benjamin, professeure associée à l'Université de Princeton, dans son livre Race After Technology. Les outils d'évaluation des risques ne sont pas différents. La plus grande question à propos de leur utilisation - ou de tout algorithme utilisé pour classer les gens - est de savoir s'ils réduisent les inégalités existantes ou les aggravent.

Selbst recommande de procéder avec prudence : "Chaque fois que vous transformez des notions philosophiques d'équité en expressions mathématiques, elles perdent leur nuance, leur flexibilité, leur malléabilité", dit-il. «Cela ne veut pas dire que certaines des économies réalisées ne seront finalement pas utiles. J'ai juste des doutes."

Problème 1372

Incidents associés

Incident 1115 Rapports
Northpointe Risk Models

Pouvez-vous rendre l'IA plus juste qu'un juge ? Jouez à notre jeu d'algorithme de salle d'audience

Problème 1372

Incidents associés

Incident 1115 RapportsNorthpointe Risk Models

Pouvez-vous rendre l'IA plus juste qu'un juge ? Jouez à notre jeu d'algorithme de salle d'audience

Incident 1115 Rapports
Northpointe Risk Models