Report 712

Le système de justice pénale américain ne pourrait pas être beaucoup moins juste. Dans tout le pays, quelque 1,5 million de personnes sont enfermées dans des prisons d'État et fédérales. Plus de 600 000 personnes, dont la grande majorité n'ont pas encore été reconnues coupables d'un crime, sont assises derrière les barreaux des prisons locales. Les Noirs représentent 40 % des personnes incarcérées, alors qu'ils ne représentent que 13 % de la population américaine.

Avec l'augmentation de la taille et du coût des prisons et des prisons, sans parler de l'injustice inhérente au système, les villes et les États du pays ont été attirés par des outils technologiques qui promettent de prédire si quelqu'un pourrait commettre un crime. Ces soi-disant algorithmes d'évaluation des risques, actuellement utilisés dans des États allant de la Californie au New Jersey, analysent des données sur l'histoire d'un accusé - des éléments tels que l'âge, le sexe et les condamnations antérieures - pour aider les tribunaux à décider qui obtient une caution, qui va en prison et qui devient libre.

Mais alors que les gouvernements locaux adoptent ces outils et s'appuient sur eux pour éclairer les décisions qui changent la vie, une question fondamentale demeure : et si ces algorithmes ne sont pas réellement meilleurs pour prédire la criminalité que les humains ? Et si la récidive n'était pas du tout prévisible ?

C'est la question à laquelle les chercheurs du Dartmouth College, Julia Dressel et Hany Farid, ont tenté de répondre dans un nouvel article publié aujourd'hui dans la revue Science Advances. Ils ont découvert qu'un algorithme populaire d'évaluation des risques, appelé Compas, prédit la récidive ainsi qu'un sondage aléatoire en ligne auprès de personnes qui n'ont aucune formation en justice pénale.

"Il n'y avait essentiellement aucune différence entre les personnes répondant à un sondage en ligne pour un dollar et ce logiciel commercial utilisé dans les tribunaux", explique Farid, qui enseigne l'informatique à Dartmouth. "Si ce logiciel est seulement aussi précis que des personnes non formées répondant à un sondage en ligne, je pense que les tribunaux devraient en tenir compte lorsqu'ils essaient de décider du poids à leur accorder dans la prise de décisions."

L'homme contre la machine

Alors qu'elle était encore étudiante à Dartmouth avec une spécialisation en informatique et en études de genre, Dressel est tombée sur une enquête de ProPublica qui a montré à quel point ces algorithmes peuvent être biaisés. Ce rapport a analysé les prédictions de Compas pour quelque 7 000 accusés dans le comté de Broward, en Floride, et a constaté que l'algorithme était plus susceptible de classer à tort les accusés noirs comme ayant un risque élevé de récidive. Il était également plus susceptible de classer à tort les accusés blancs comme étant à faible risque.

C'était assez alarmant. Mais Dressel ne semblait pas non plus trouver de recherche étudiant si ces algorithmes amélioraient réellement les évaluations humaines.

"Il n'y avait essentiellement aucune différence entre les personnes répondant à un sondage en ligne pour un dollar et ce logiciel commercial utilisé dans les tribunaux." Hany Farid, Collège Dartmouth

"Sous-jacente à toute la conversation sur les algorithmes, il y avait cette hypothèse selon laquelle la prédiction algorithmique était intrinsèquement supérieure à la prédiction humaine", dit-elle. Mais peu de preuves étayaient cette hypothèse ; cette industrie naissante est notoirement secrète sur le développement de ces modèles. Alors Dressel et son professeur, Farid, ont conçu une expérience pour tester Compas par eux-mêmes.

En utilisant Amazon Mechanical Turk, un marché en ligne où les gens reçoivent de petites sommes pour effectuer des tâches simples, les chercheurs ont demandé à environ 400 participants de décider si un accusé donné était susceptible de récidiver sur la base de seulement sept éléments de données, sans compter la race de cette personne. L'échantillon comprenait 1 000 vrais accusés du comté de Broward, car ProPublica avait déjà rendu publiques ses données sur ces personnes, ainsi que des informations sur leur récidive.

Ils ont divisé les participants en groupes, de sorte que chaque turc a évalué 50 accusés, et a donné la brève description suivante :

L'accusé est un [SEXE] âgé de [AGE]. Ils ont été accusés de : [CHARGE DE CRIME]. Ce crime est classé comme un [DEGRE CRIMINEL]. Ils ont été reconnus coupables de [COMTE ANTÉRIEUR NON JUVÉNILE] crimes antérieurs. Ils ont [COMTE DE JUVÉNILE- COUP D'ŒIL] pour crime juvénile et [COMTE DE DÉLIT JUVÉNILE] pour délit juvénile à leur dossier.

Ce ne sont que sept points de données, comparés aux 137 que Compas accumule grâce à son questionnaire à l'accusé. Dans un communiqué, Equivant indique qu'il n'utilise que six de ces points de données pour faire ses prédictions. Pourtant, ces travailleurs en ligne non formés étaient à peu près aussi précis dans leurs prédictions que Compas.

Dans l'ensemble, les Turcs ont prédit la récidive avec une précision de 67 %, contre 65 % pour Compas. Même sans accès à la race d'un accusé, ils ont également prédit à tort que les accusés noirs récidiveraient plus souvent qu'ils n'avaient prédit à tort que les accusés blancs récidivent, ce que l'on appelle un taux de faux positifs. Cela indique que même lorsque les données raciales ne sont pas disponibles, certains points de données, comme le nombre de condamnations, peuvent devenir des indicateurs de race, un problème central avec l'élimination des biais dans ces algorithmes. Le taux de faux positifs des chercheurs de Dartmouth pour les accusés noirs était de 37 %, contre 27 % pour

Problème 712

Les algorithmes de prédiction de la criminalité peuvent ne pas s'en sortir beaucoup mieux que les humains non formés