Report 1498

Je suis chez moi en train de jouer à un jeu vidéo sur mon ordinateur. Mon travail consiste à gonfler un ballon à la fois et à gagner le plus d'argent possible. Chaque fois que je clique sur "Pump", le ballon se dilate et je reçois cinq centimes virtuels. Mais si le ballon éclate avant que j'appuie sur "Collect", tous mes gains numériques disparaissent.

Après avoir rempli 39 ballons, j'ai gagné 14,40 $. Un message apparaît à l'écran : « Vous vous en tenez à une approche cohérente dans les situations à haut risque. Caractéristique mesurée : Risque.

Ce jeu fait partie d'une série réalisée par une société appelée Pymetrics, que de nombreuses grandes entreprises américaines embauchent pour sélectionner les candidats à un emploi. Si vous postulez chez McDonald's, Boston Consulting Group, Kraft Heinz ou Colgate-Palmolive, il se peut que l'on vous demande de jouer aux jeux de Pymetrics.

Pendant que je joue, un système d'intelligence artificielle mesure des traits tels que la générosité, l'équité et l'attention. Si je postulais réellement pour un poste, le système comparerait mes scores avec ceux des employés qui occupaient déjà ce poste. Si mon profil de personnalité reflétait les traits les plus spécifiques aux personnes qui réussissent dans le rôle, je passerais à l'étape d'embauche suivante.

De plus en plus d'entreprises utilisent des outils de recrutement basés sur l'IA comme ceux-ci pour gérer le flot de candidatures qu'elles reçoivent, surtout maintenant qu'il y a environ deux fois plus de chômeurs aux États-Unis qu'avant la pandémie. Une enquête menée auprès de plus de 7 300 responsables des ressources humaines dans le monde par Mercer, une société de gestion d'actifs, a révélé que la proportion de ceux qui ont déclaré que leur service utilise l'analyse prédictive est passée de 10 % en 2016 à 39 % en 2020.

Cependant, comme pour d'autres applications d'IA, les chercheurs ont découvert que certains outils d'embauche produisaient des résultats biaisés, favorisant par inadvertance les hommes ou les personnes de certains milieux socio-économiques, par exemple. Beaucoup plaident maintenant pour une plus grande transparence et plus de réglementation. Une solution en particulier est constamment proposée : les audits IA.

L'année dernière, Pymetrics a payé une équipe d'informaticiens de la Northeastern University pour auditer son algorithme d'embauche. C'était l'une des premières fois qu'une telle entreprise demandait un audit tiers de son propre outil. La PDG Frida Polli m'a dit qu'elle pensait que l'expérience pourrait être un modèle de conformité à un projet de loi exigeant de tels audits pour les entreprises de New York, où Pymetrics est basée.

"Ce que fait Pymetrics, qui fait appel à un tiers neutre pour auditer, est une très bonne direction dans laquelle aller", déclare Pauline Kim, professeur de droit à l'Université de Washington à St. Louis, qui possède une expertise en droit du travail. et l'intelligence artificielle. "S'ils peuvent pousser l'industrie à être plus transparente, c'est un pas en avant vraiment positif."

Cependant, malgré toute l'attention que les audits d'IA ont reçue, leur capacité à détecter et à protéger contre les biais reste à prouver. Le terme « audit IA » peut signifier beaucoup de choses différentes, ce qui rend difficile la confiance dans les résultats des audits en général. Les audits les plus rigoureux peuvent encore avoir une portée limitée. Et même avec un accès illimité aux entrailles d'un algorithme, il peut être étonnamment difficile de dire avec certitude s'il traite les candidats équitablement. Au mieux, les audits donnent une image incomplète, et au pire, ils pourraient aider les entreprises à dissimuler des pratiques problématiques ou controversées derrière l'approbation d'un auditeur.

À l'intérieur d'un audit d'IA

De nombreux types d'outils de recrutement IA sont déjà utilisés aujourd'hui. Ils comprennent des logiciels qui analysent les expressions faciales, le ton et le langage d'un candidat lors d'entretiens vidéo, ainsi que des programmes qui analysent les CV, prédisent la personnalité ou enquêtent sur l'activité d'un candidat sur les réseaux sociaux.

Quel que soit le type d'outil qu'ils vendent, les fournisseurs de recrutement d'IA promettent généralement que ces technologies trouveront des candidats mieux qualifiés et plus diversifiés à moindre coût et en moins de temps que les services RH traditionnels. Cependant, il y a très peu de preuves qu'ils le font, et en tout cas ce n'est pas ce que l'audit AI de l'algorithme de Pymetrics a testé. Au lieu de cela, il visait à déterminer si un outil de recrutement particulier discriminait grossièrement les candidats sur la base de la race ou du sexe.

Christo Wilson de Northeastern avait déjà examiné les algorithmes, y compris ceux qui entraînent la hausse des prix d'Uber et le moteur de recherche de Google. Mais jusqu'à ce que Pymetrics l'appelle, il n'avait jamais travaillé directement avec une entreprise sur laquelle il enquêtait.

L'équipe de Wilson, qui comprenait son collègue Alan Mislove et deux étudiants diplômés, s'est appuyée sur les données de Pymetrics et a eu accès aux data scientists de l'entreprise. Les auditeurs étaient indépendants sur le plan éditorial, mais ont accepté d'informer Pymetrics de tout résultat négatif avant la publication. La société a versé à Northeastern 104 465 $ via une subvention, dont 64 813 $ destinés aux salaires de Wilson et de son équipe.

Le produit principal de Pymetrics est une suite de 12 jeux qui, selon lui, sont principalement basés sur des expériences de sciences cognitives. Les jeux ne sont pas destinés à être gagnés ou perdus; ils sont conçus pour discerner les attributs cognitifs, sociaux et émotionnels d'un candidat, y compris la tolérance au risque et la capacité d'apprentissage. Pymetrics commercialise son logiciel comme « entièrement sans biais ». Pymetrics et Wilson ont décidé que les auditeurs se concentreraient étroitement sur une question spécifique : les modèles de l'entreprise sont-ils équitables ?

Ils ont fondé la définition de l'équité sur ce que l'on appelle familièrement la règle des quatre cinquièmes, qui est devenue une norme d'embauche informelle aux États-Unis. La Commission pour l'égalité des chances en matière d'emploi (EEOC) a publié des directives en 1978 indiquant que les procédures d'embauche devraient sélectionner à peu près la même proportion d'hommes et de femmes, et de personnes de différents groupes raciaux. Selon la règle des quatre cinquièmes, explique Kim, "si les hommes passaient 100% du temps à l'étape suivante du processus d'embauche, les femmes devaient passer au moins 80% du temps".

Si les outils d'embauche d'une entreprise enfreignent la règle des quatre cinquièmes, l'EEOC pourrait examiner de plus près ses pratiques. "Pour un employeur, ce n'est pas un chèque sans provision", dit Kim. "Si les employeurs s'assurent que ces outils ne sont pas grossièrement discriminatoires, ils n'attireront probablement pas l'attention des régulateurs fédéraux."

Pour déterminer si le logiciel de Pymetrics a franchi cette barre, l'équipe de Northeastern a d'abord dû essayer de comprendre le fonctionnement de l'outil.

Lorsqu'un nouveau client s'inscrit chez Pymetrics, il doit sélectionner au moins 50 employés qui ont réussi dans le rôle qu'il souhaite pourvoir. Ces employés jouent aux jeux de Pymetrics pour générer des données de formation. Ensuite, le système de Pymetrics compare les données de ces 50 employés avec les données de jeu de plus de 10 000 personnes sélectionnées au hasard parmi plus de deux millions. Le système construit ensuite un modèle qui identifie et classe les compétences les plus spécifiques aux employés performants du client.

Pour vérifier les biais, Pymetrics exécute ce modèle sur un autre ensemble de données d'environ 12 000 personnes (sélectionnées au hasard parmi plus de 500 000) qui ont non seulement joué aux jeux, mais également divulgué leurs données démographiques dans une enquête. L'idée est de déterminer si le modèle passerait le test des quatre cinquièmes s'il évaluait ces 12 000 personnes.

Si le système détecte un biais, il construit et teste d'autres modèles jusqu'à ce qu'il en trouve un qui à la fois prédise le succès et produise à peu près les mêmes taux de réussite pour les hommes et les femmes et pour les membres de tous les groupes raciaux. En théorie, donc, même si la plupart des employés qui réussissent d'un client sont des hommes blancs, Pymetrics peut corriger les biais en comparant les données de jeu de ces hommes avec les données des femmes et des personnes d'autres groupes raciaux. Ce qu'il recherche, ce sont des points de données prédisant des traits qui ne sont pas en corrélation avec la race ou le sexe, mais qui distinguent les employés qui réussissent.

Wilson et son équipe d'auditeurs ont voulu déterminer si le mécanisme anti-biais de Pymetrics prévient effectivement les biais et s'il peut être trompé. Pour ce faire, ils ont essentiellement essayé de déjouer le système, par exemple en dupliquant plusieurs fois les données de jeu du même homme blanc et en essayant de les utiliser pour créer un modèle. Le résultat était toujours le même : "La façon dont leur code est en quelque sorte présenté et la façon dont les scientifiques des données utilisent l'outil, il n'y avait aucun moyen évident de les inciter à produire quelque chose qui était biaisé et à le faire effacer", déclare Wilson. .

L'automne dernier, les auditeurs ont partagé leurs conclusions avec l'entreprise : le système de Pymetrics satisfait à la règle des quatre cinquièmes. L'équipe Northeastern a récemment publié l'étude de l'algorithme en ligne et présentera un rapport sur les travaux en mars lors de la conférence sur la responsabilité algorithmique FAccT.

"Le gros point à retenir est que Pymetrics fait en fait un très bon travail", déclare Wilson.

Une solution imparfaite

Mais bien que le logiciel de Pymetrics respecte la règle des quatre cinquièmes, l'audit n'a pas prouvé que l'outil est exempt de tout parti pris, ni qu'il sélectionne réellement les candidats les plus qualifiés pour n'importe quel emploi.

"En fait, on avait l'impression que la question posée était plus" Est-ce que Pymetrics fait ce qu'il dit qu'il fait? "par opposition à" Est-ce qu'ils font la bonne chose ou la bonne chose? , qui a publié de nombreux articles sur l'intelligence artificielle et l'embauche.

Par exemple, la règle des quatre cinquièmes exige uniquement que les personnes de sexes et de groupes raciaux différents passent au tour suivant du processus d'embauche à peu près aux mêmes taux. Un outil d'embauche basé sur l'IA pourrait satisfaire à cette exigence et être encore extrêmement incohérent pour prédire dans quelle mesure les personnes de différents groupes réussissent réellement dans le travail une fois qu'elles sont embauchées. Et si un outil prédit le succès avec plus de précision pour les hommes que pour les femmes, par exemple, cela signifierait qu'il n'identifie pas réellement les femmes les plus qualifiées, de sorte que les femmes qui sont embauchées "ne réussiront peut-être pas aussi bien au travail", explique Kim.

Un autre problème que ni la règle des quatre cinquièmes ni l'audit de Pymetrics ne résout est l'intersectionnalité. La règle compare les hommes avec les femmes et un groupe racial avec un autre pour voir s'ils réussissent aux mêmes taux, mais elle ne compare pas, disons, les hommes blancs avec les hommes asiatiques ou les femmes noires. "Vous pourriez avoir quelque chose qui satisfait la règle des quatre cinquièmes [pour] les hommes contre les femmes, les Noirs contre les Blancs, mais cela pourrait masquer un préjugé contre les femmes noires", dit Kim.

Pymetrics n'est pas la seule entreprise à faire auditer son IA. HireVue, un autre grand fournisseur de logiciels de recrutement d'IA, a demandé à une société appelée O'Neil Risk Consulting and Algorithmic Auditing (ORCAA) d'évaluer l'un de ses algorithmes. Cette entreprise appartient à Cathy O'Neil, une scientifique des données et l'auteur de Weapons of Math Destruction, l'un des livres populaires fondateurs sur le biais de l'IA, qui plaide depuis des années pour les audits de l'IA.

ORCAA et HireVue ont concentré leur audit sur un seul produit : les évaluations d'embauche de HireVue, que de nombreuses entreprises utilisent pour évaluer les récents diplômés universitaires. Dans ce cas, ORCAA n'a pas évalué la conception technique de l'outil lui-même. Au lieu de cela, l'entreprise a interrogé les parties prenantes (y compris un candidat à un emploi, un éthicien de l'IA et plusieurs organisations à but non lucratif) sur les problèmes potentiels avec les outils et a donné des recommandations à HireVue pour les améliorer. Le rapport final est publié sur le site Web de HireVue mais ne peut être lu qu'après la signature d'un accord de non-divulgation.

Alex Engler, un boursier de la Brookings Institution qui a étudié les outils d'embauche d'IA et qui connaît bien les deux audits, pense que celui de Pymetrics est le meilleur : "Il y a une grande différence dans la profondeur de l'analyse qui a été activée", dit-il. Mais encore une fois, aucun audit n'a porté sur la question de savoir si les produits aidaient vraiment les entreprises à faire de meilleurs choix d'embauche. Et les deux ont été financés par les entreprises auditées, ce qui crée "un petit risque que l'auditeur soit influencé par le fait qu'il s'agit d'un client", explique Kim.

Pour ces raisons, disent les critiques, les audits volontaires ne suffisent pas. Les scientifiques des données et les experts en responsabilité font désormais pression pour une réglementation plus large des outils de recrutement de l'IA, ainsi que des normes pour les auditer.

Combler les lacunes

Certaines de ces mesures commencent à apparaître aux États-Unis. En 2019, les sénateurs Cory Booker et Ron Wyden et la représentante Yvette Clarke ont présenté la loi sur la responsabilité algorithmique pour rendre les audits biaisés obligatoires pour toutes les grandes entreprises utilisant l'IA, bien que le projet de loi n'ait pas été ratifié.

Pendant ce temps, il y a du mouvement au niveau de l'État. L'AI Video Interview Act dans l'Illinois, qui est entré en vigueur en janvier 2020, oblige les entreprises à informer les candidats lorsqu'ils utilisent l'IA dans les entretiens vidéo. Les villes agissent également - à Los Angeles, le membre du conseil municipal Joe Buscaino a proposé en novembre une motion d'embauche équitable pour les systèmes automatisés.

Le projet de loi de New York en particulier pourrait servir de modèle aux villes et aux États du pays. Cela rendrait les audits annuels obligatoires pour les fournisseurs d'outils d'embauche automatisés. Cela obligerait également les entreprises qui utilisent les outils à indiquer aux candidats quelles caractéristiques leur système a utilisées pour prendre une décision.

Mais la question de savoir à quoi ressembleraient réellement ces audits annuels reste ouverte. Pour de nombreux experts, un audit du type de ce que Pymetrics a fait n'irait pas très loin pour déterminer si ces systèmes sont discriminatoires, car cet audit n'a pas vérifié l'intersectionnalité ni évalué la capacité de l'outil à mesurer avec précision les traits qu'il prétend mesurer pour personnes de races et de sexes différents.

Et de nombreux critiques aimeraient voir l'audit effectué par le gouvernement plutôt que par des entreprises privées, pour éviter les conflits d'intérêts. "Il devrait y avoir une réglementation préventive afin qu'avant d'utiliser l'un de ces systèmes, la Commission pour l'égalité des chances en matière d'emploi doive l'examiner, puis l'autoriser", déclare Frank Pasquale, professeur à la Brooklyn Law School et expert en responsabilité algorithmique. Il a en tête un processus de pré-approbation pour les outils d'embauche algorithmiques similaires à ceux que la Food and Drug Administration utilise avec les médicaments.

Jusqu'à présent, l'EEOC n'a même pas publié de directives claires concernant les algorithmes d'embauche déjà utilisés. Mais les choses pourraient commencer à changer bientôt. En décembre, 10 sénateurs ont envoyé une lettre à l'EEOC demandant s'il avait le pouvoir de commencer à surveiller les systèmes d'embauche d'IA pour prévenir la discrimination contre les personnes de couleur, qui ont déjà été touchées de manière disproportionnée par les pertes d'emplois pendant la pandémie.

Problème 1498

Incidents associés

Incident 3734 Rapports
Amazon’s Experimental Hiring Tool Allegedly Displayed Gender Bias in Candidate Rankings

Les auditeurs testent les algorithmes d'embauche pour détecter les biais, mais il n'y a pas de solution simple

Problème 1498

Incidents associés

Incident 3734 RapportsAmazon’s Experimental Hiring Tool Allegedly Displayed Gender Bias in Candidate Rankings

Les auditeurs testent les algorithmes d'embauche pour détecter les biais, mais il n'y a pas de solution simple

Incident 3734 Rapports
Amazon’s Experimental Hiring Tool Allegedly Displayed Gender Bias in Candidate Rankings