Report 702

Les algorithmes qui évaluent la probabilité de récidive dans le cadre du processus de mise en liberté sous caution dans les affaires pénales sont, pour être franc, vraiment effrayants.

Nous ne savons pas grand-chose sur leur fonctionnement - les entreprises qui les fabriquent sont extrêmement secrètes sur ce qui fait fonctionner leurs produits - et des études ont suggéré qu'ils peuvent abriter des préjugés raciaux. Pourtant, ces algorithmes fournissent aux juges des informations qui sont utilisées pour décider du cours de la vie de quelqu'un.

Maintenant, une nouvelle étude publiée mercredi dans Science Advances du professeur d'informatique Hany Farid du Dartmouth College et de l'ancienne étudiante Julia Dressel prétend "jeter un doute important sur l'ensemble de l'effort de prédiction algorithmique de la récidive", écrivent les auteurs. En bref, les algorithmes de mise en liberté sous caution ne semblent pas plus performants que les êtres humains.

Selon leur étude, COMPAS - l'un des algorithmes les plus populaires utilisés par les tribunaux aux États-Unis et ailleurs pour prédire la récidive - n'est pas plus précis que 20 personnes interrogées pour estimer la probabilité de récidive dans une enquête en ligne. De plus, COMPAS n'a pas surpassé un simple algorithme de prédiction linéaire armé de seulement deux entrées : l'âge et le nombre de crimes commis. COMPAS, en revanche, utilise 137 entrées uniques pour prendre des décisions, écrivent les auteurs de l'étude.

Dans une déclaration publiée après la publication de l'étude, Equivant - la société à l'origine de COMPAS - a fait valoir que COMPAS n'utilisait en fait que six entrées et que les autres étaient "des facteurs de besoins qui ne sont PAS utilisés comme prédicteurs dans l'évaluation des risques de COMPAS". En réponse, les auteurs m'ont écrit dans un e-mail que "quel que soit le nombre de fonctionnalités utilisées par COMPAS, le fait est qu'un simple prédicteur avec seulement deux fonctionnalités et les personnes répondant à une enquête en ligne sont aussi précis que COMPAS".

"Notre point n'est pas que c'est bon ou mauvais", a déclaré le co-auteur Farid au téléphone. "Mais nous aimerions que les tribunaux comprennent que le poids qu'ils accordent à ces évaluations des risques doit être basé sur la compréhension que l'exactitude de ce logiciel commercial de boîte noire est exactement la même que celle de demander à un groupe de personnes de répondre à une enquête en ligne."

La précision de base des répondants en ligne estimant la récidive dans les deux ans était de 63 %, rapportent les auteurs, tandis que COMPAS est de 65 % (résultat basé sur un ensemble de données couvrant son utilisation dans le comté de Broward, en Floride, entre 2013 et 2014). L'algorithme linéaire simple avec seulement deux entrées avait une précision de 66 %. Il convient de noter que de nombreux chercheurs préfèrent évaluer la précision avec une mesure statistique différente connue sous le nom d'AUC-ROC. Même en utilisant cette mesure, cependant, les répondants à l'enquête en ligne ont réussi une valeur AUC-ROC de 0,71, tandis que COMPAS atteint 0,70.

"Les résultats de" précision prédictive pratiquement égale "dans cette étude, au lieu d'être une critique de l'évaluation COMPAS", a écrit Equivant dans une déclaration en ligne, "s'ajoutent en fait à un nombre croissant d'études indépendantes qui ont confirmé que COMPAS atteint une bonne prévisibilité et correspond à la norme AUC de 0,70, de plus en plus acceptée, pour les outils d'évaluation des risques bien conçus utilisés dans la justice pénale."

En réponse, les auteurs m'ont écrit que .70 AUC est en effet la norme de l'industrie, mais ont noté que leurs participants à l'étude ont néanmoins réussi .71. "Par conséquent, quelle que soit la mesure préférée des performances prédictives, COMPAS et les participants humains sont indiscernables", ont-ils écrit.

Selon les auteurs de l'étude, leur travail suggère un plafond sur l'exactitude des prédictions sur l'avenir des gens sur la base de données historiques, que les prédictions soient faites par des personnes ou des machines. En effet, l'idée de prédire le comportement de quelqu'un dans deux ans peut être erronée, a déclaré Fahid. Quoi qu'il en soit, le point général est que ces techniques automatisées ne sont pas meilleures que les humains.

Une mise en garde potentielle, cependant : selon Sam Corbett-Davies, un étudiant au doctorat de Stanford qui a effectué des recherches sur les risques posés par les algorithmes de mise en liberté sous caution, les prévisions basées uniquement sur certaines données historiques (qu'elles soient effectuées par des algorithmes ou non) sont souvent encore plus précises. que ceux qui incluent des facteurs plus subjectifs comme ce qu'un juge pense des tatouages.

"Les juges sont exposés à beaucoup plus d'informations : ils peuvent parler aux accusés, évaluer leur comportement, voir leurs tatouages et poser des questions sur leur éducation ou leur vie de famille", m'a écrit Corbett-Davies dans un e-mail. "Tous ces facteurs supplémentaires sont pour la plupart inutiles. , mais ils permettent aux préjugés humains de s'infiltrer dans les décisions des juges. Plusieurs études ont examiné des milliers de décisions de juges et ont constaté que des algorithmes basés sur très peu de facteurs peuvent nettement surpasser les juges.

En d'autres termes, "l'intuition" humaine basée sur un sac de facteurs subjectifs peut encore être moins précise que les algorithmes (ou même les humains) qui se contentent de regarder certaines informations historiques sur une personne.

Pourtant, les découvertes de Fahid et Dressel sont, à tout le moins, une mise en accusation de la façon dont les entreprises armées de publicités flashy et d'un refus catégorique de révéler leur sauce secrète ont réussi à inonder le système de justice pénale d'algorithmes qui aident à décider de l'avenir des gens sans avoir été publiquement approuvés. preuve de leur exactitude.

En effet, la co-auteure de l'étude, Julia Dressel, m'a dit au téléphone que la dernière étude publiée comparant spécifiquement la précision des algorithmes à celle des humains pour prédire la récidive (qu'ils ont pu trouver, de toute façon) a été réalisée au Canada en 1984. ont changé depuis lors.

"Les entreprises devraient avoir à prouver que ces algorithmes sont réellement précis et efficaces", m'a dit Dressel au téléphone. "Je pense que le principal pas en avant consiste à reconnaître que nous devons nous méfier un peu de l'apprentissage automatique et de l'intelligence artificielle. Et bien que ces mots semblent impressionnants et qu'ils puissent faire de très grandes choses, nous devons maintenir ces technologies à un niveau élevé.

MISE À JOUR : Equivant n'a initialement pas répondu à la demande de commentaire de Motherboard, mais après la publication, il a publié une déclaration critiquant l'étude publiée dans Science Advances par Hany Farid et Julia Dressel. La société a affirmé que les chercheurs avaient mal indiqué le nombre d'entrées utilisées par COMPAS et ont remis en question leur méthodologie. Nous avons demandé à Equivant plus de détails, mais il a refusé. L'histoire a été mise à jour avec la réponse d'Equivant et des commentaires supplémentaires des auteurs défendant leur travail.

Problème 702

Incidents associés

Incident 4021 Rapports
COMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction

Les algorithmes de mise en liberté sous caution sont aussi précis que des personnes aléatoires faisant un sondage en ligne

Problème 702

Incidents associés

Incident 4021 RapportsCOMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction

Les algorithmes de mise en liberté sous caution sont aussi précis que des personnes aléatoires faisant un sondage en ligne

Incident 4021 Rapports
COMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction