Incidents associés

La prudence est en effet de mise, selon Julia Dressel et Hany Farid du Dartmouth College. Dans une nouvelle étude, ils ont montré que COMPAS n'est pas meilleur pour prédire le risque de récidive d'un individu que des volontaires aléatoires recrutés sur Internet.
« Imaginez que vous êtes un juge et que votre tribunal a acheté ce logiciel ; les gens derrière cela disent qu'ils ont des mégadonnées et des algorithmes, et leur logiciel dit que l'accusé est à haut risque », explique Farid. "Maintenant, imaginez que je dise : Hé, j'ai demandé à 20 personnes au hasard en ligne si cette personne allait récidiver et elles ont dit oui. Comment pondéreriez-vous ces deux données ? Je parie que vous les pondéreriez différemment. Mais ce que nous avons montré devrait faire réfléchir les tribunaux. (Un porte-parole d'Equivant a refusé une demande d'interview.)
COMPAS a déjà suscité la controverse. En 2016, la journaliste technologique Julia Angwin et ses collègues de ProPublica ont analysé les évaluations COMPAS de plus de 7 000 personnes arrêtées dans le comté de Broward, en Floride, et ont publié une enquête affirmant que l'algorithme était biaisé contre les Afro-Américains. Les problèmes, ont-ils dit, résidaient dans les erreurs de l'algorithme. "Les Noirs sont presque deux fois plus susceptibles que les Blancs d'être étiquetés comme présentant un risque plus élevé mais de ne pas récidiver", a écrit l'équipe. Et COMPAS "fait l'erreur inverse chez les Blancs : ils sont beaucoup plus susceptibles que les Noirs d'être étiquetés à faible risque, mais continuent à commettre d'autres crimes".
Northpointe a remis en question l'analyse de ProPublica, tout comme divers universitaires. Ils ont noté, entre autres réfutations, que le programme prédisait correctement la récidive chez les accusés blancs et noirs à des taux similaires. Pour un score donné sur l'échelle de 10 points de COMPAS, les Blancs et les Noirs sont tout aussi susceptibles de récidiver les uns que les autres. D'autres ont noté que ce débat dépend de la définition de l'équité et qu'il est mathématiquement impossible de satisfaire aux normes établies par Northpointe et ProPublica - un article du Washington Post explique clairement pourquoi.
Le débat se poursuit, mais quand Dressel a lu à ce sujet, elle s'est rendu compte que cela masquait un problème différent. "Il y avait cette hypothèse sous-jacente dans la conversation selon laquelle les prédictions de l'algorithme étaient intrinsèquement meilleures que celles des humains", dit-elle, "mais je n'ai trouvé aucune recherche le prouvant." Alors elle et Farid ont fait le leur.
Ils ont recruté 400 volontaires via un site de crowdsourcing. Chaque personne a vu de courtes descriptions des accusés de l'enquête de ProPublica, mettant en évidence sept éléments d'information. Sur cette base, ils devaient deviner si l'accusé commettrait un autre crime dans les deux ans.
En moyenne, ils ont obtenu la bonne réponse 63 % de leur temps, et la précision du groupe est passée à 67 % si leurs réponses étaient regroupées. COMPAS, en revanche, a une précision de 65 %. C'est à peine mieux que des devinettes individuelles, et pas mieux qu'une foule. "Ce ne sont pas des experts, répondant à une enquête en ligne avec une fraction de la quantité d'informations dont dispose le logiciel", explique Farid. "Alors, que fait exactement un logiciel comme COMPAS ?"