Incidents associés
Les régulateurs américains enquêtent pour savoir si la carte de crédit d'Apple, lancée en août, est [biaisée contre les femmes](https://qz.com/1746446/the-real-hero-of-the-sexist-applecard-saga-has-issued- une déclaration/). L'ingénieur logiciel David Heinemeier Hansson a rapporté sur les réseaux sociaux qu'Apple lui avait proposé une limite de dépenses 20 fois supérieure à celle de sa femme, Jamie Heinemeier Hansson. Lorsque Jamie a parlé au service client de Goldman Sachs, la banque à l'origine de la carte Apple, on lui a dit que sa limite de crédit était déterminée par un algorithme, et les représentants de la banque n'ont pas pu expliquer pourquoi elle en était arrivée à la conclusion.
Un porte-parole de Goldman a déclaré à Bloomberg : "Nos décisions de crédit sont basées sur la solvabilité d'un client et non sur des facteurs tels que le sexe, la race, l'âge, l'orientation sexuelle ou toute autre base interdite par la loi". Apple et Goldman prétendent utiliser le pointage de crédit des candidats, les informations contenues dans leur dossier de crédit et leurs revenus pour établir des limites de crédit.
Rien ne prouve encore que l'algorithme soit sexiste, au-delà de ces anecdotes. Mais le manque de transparence est un thème récurrent. Goldman n'a pas répondu aux questions de Quartz sur les mécanismes exacts utilisés pour déterminer la limite de crédit de Jamie Heinemeier Hansson. De plus amples informations sur les mesures quantitatives utilisées dans ce processus—un apprentissage automatique de grande puissance ? L'algèbre de huitième année ? - pourrait offrir des indices sur ce qui, le cas échéant, s'est mal passé ici.
Par exemple, en 2018, lorsque Goldman a voulu montrer ses prouesses quantitatives en pronostiquant le vainqueur de la Coupe du monde de football, ses chercheurs se sont tournés vers l'apprentissage automatique. Ils auraient pu utiliser des statistiques de base, mais cela n'aurait pas été aussi précis. Les quants de Goldman ont déclaré une méthode de prédiction qui exploitait des méthodes d'apprentissage automatique (telles que forêt aléatoire, la régression de la crête bayésienne et une machine à gradient boosté) était cinq fois plus précise que l'utilisation d'une régression statistique plus simple.
Le problème avec l'utilisation d'une méthode d'apprentissage automatique est qu'il est difficile d'expliquer comment fonctionne une prédiction. Les outils d'apprentissage automatique sont, pour la plupart, des boîtes noires : pour ce qu'ils promettent en termes de précision, les scientifiques des données qui les utilisent perdent la capacité de comprendre à quel point chaque facteur est important pour le résultat final d'une prédiction (en statistiques, cela s'appelle "l'inférence ”).
Pour la Coupe du monde, les chercheurs de Goldman savaient que les variables de la force de l'équipe, de la force individuelle des joueurs et des performances récentes étaient des prédicteurs importants, mais il était impossible de quantifier précisément à quel point chacun comptait pour le résultat d'un match. Alors qu'un modèle basé sur la régression aurait été un outil plus brutal, il aurait permis aux chercheurs d'indiquer clairement l'effet de chaque variable sur leur prédiction. Fondamentalement, cela aurait été mieux sur la transparence, mais moins bon sur les prévisions.
Et à la fin, l'algorithme fantaisiste de Goldman a fait [un travail plutôt médiocre](https://www.bloomberg.com/opinion/articles/2018-07-14/world-cup-goldman-sachs-gs-model-got- tout-faux) de prédire la Coupe du monde de toute façon. Un modèle au moins plus facile à expliquer aurait peut-être été plus utile.
Dans le cas de la carte Apple, nous ne savons pas avec certitude si Goldman a utilisé l'apprentissage automatique pour informer son système de calcul des limites de crédit, mais il semble probable qu'il l'ait fait, et ce faisant, il a peut-être mis la priorité sur la précision avant tout. En tant que mathématicienne Cathy O'Neal l'a récemment dit à Slate, lorsque les entreprises choisissent d'utiliser des algorithmes, "[t]ils regardent l'avantage - qui est une prise de décision plus rapide, évolutive et rapide - et ils ignorent l'inconvénient, c'est-à-dire qu'ils prennent beaucoup de risques."
La science des données, en tant que domaine, a tendance à se concentrer sur la réalisation de prédictions. Cet objectif étroit peut éloigner davantage les entreprises de la réflexion sur les préjugés ou sur la manière dont elles peuvent expliquer les méthodologies de prise de décision aux régulateurs et au grand public. Cela peut également conduire à moins prendre en compte les lacunes des données introduites dans les modèles algorithmiques - certaines recherches suggèrent que la notation du crédit est discriminatoire, et tout modèle incorporant ces données reflétera ce biais. Mais dans de nombreux cas, dans la science des données moderne, si le modèle rend une prévision « meilleure » en termes statistiques, ses autres effets peuvent être négligés.