Incidents associés
L'expérience Big Data de la Fondation Gates n'a pas été qu'un échec. Cela a fait un vrai mal.
La Fondation Gates mérite d'être félicitée pour avoir embauché une entreprise indépendante pour évaluer son programme de 575 millions de dollars visant à rendre les enseignants des écoles publiques plus efficaces. Maintenant que les résultats sont connus, il doit être tout aussi ouvert en reconnaissant à quel point le programme a été inutile et dommageable.
L'initiative, connue sous le nom de Partenariats intensifs pour un enseignement efficace, visait à améliorer l'éducation des élèves des minorités à faible revenu, en grande partie en recueillant des données et en utilisant un algorithme pour évaluer les performances des enseignants. Il s'est concentré sur des mesures telles que les résultats aux tests, les observations des directeurs d'école et les évaluations des élèves et des parents pour déterminer si les enseignants apportaient une valeur ajoutée. L'objectif : Récompenser les bons enseignants, éliminer les mauvais et réduire l'écart de réussite.
Aussi louable que l'intention ait pu être, cela n'a pas fonctionné. Comme l'indique l'évaluation indépendante, produite par la Rand Corporation : « L'initiative n'a pas atteint ses objectifs en matière de réussite scolaire ou d'obtention de diplôme », en particulier pour les étudiants issus de minorités à faible revenu. Le rapport, cependant, s'arrête avant de tirer ce que je considère comme la conclusion la plus importante : l'approche que le programme Gates incarne a en fait fait des dégâts. Il a injustement ruiné des carrières, chassant les enseignants de la profession au milieu d'une pénurie à l'échelle nationale. Et son utilisation erronée des métriques a sapé la science.
L'hypothèse sous-jacente du programme, courante dans le monde des « mégadonnées », est que les données sont bonnes et que plus de données, c'est mieux. À cette fin, de véritables efforts ont été faits pour recueillir autant d'informations potentiellement pertinentes que possible. Dans l'état actuel de ces programmes, c'était le meilleur scénario.
Pourtant, pour un statisticien, les problèmes sont apparents. Les directeurs d'école ont tendance à donner à presque tous les enseignants d'excellentes notes - un défaut que le rapport Rand a trouvé de plus en plus vrai dans les derniers cadres d'observation, même si certains enseignants les ont trouvés utiles. Les modèles à valeur ajoutée utilisés pour évaluer les enseignants - généralement des boîtes noires dont le fonctionnement interne est gardé secret - sont connus pour être un peu meilleurs que les générateurs de nombres aléatoires, et ceux utilisés dans le programme Gates ne faisaient pas exception. La meilleure défense des modèles était que l'ajout d'autres mesures pourrait atténuer leurs défauts - une recommandation terrible pour un instrument soi-disant scientifique. Ces autres mesures, telles que les sondages auprès des parents et des élèves, sont également biaisées : comme tous les sondeurs le savent, la réponse dépend de la façon dont vous formulez la question.
Compte tenu des échecs du programme - et de tout le temps et de l'argent gaspillés, et des souffrances infligées aux éducateurs qui travaillent dur - les recommandations du rapport sont étonnamment faibles. Cela permet même la possibilité qu'essayer à nouveau ou plus longtemps produise un meilleur résultat, comme s'il n'y avait aucun coût à soumettre des personnes réelles et vivantes à des années d'expérimentation avec des conséquences potentiellement néfastes. Je vais donc compenser l'omission en proposant mes propres recommandations.
-
Les modèles à valeur ajoutée (et les modèles associés de « centile de croissance des élèves ») sont statistiquement faibles et ne doivent pas être utilisés pour des décisions à enjeux élevés telles que la promotion ou le licenciement d'enseignants.
-
Garder les formules d'évaluation secrètes est une mauvaise idée, car cela empêche les experts de voir leurs défauts avant qu'ils ne causent des dommages.
-
Les enquêtes auprès des parents sont biaisées et ne doivent pas être utilisées pour des décisions à enjeux élevés.
-
Les principales observations peuvent aider les enseignants à s'améliorer, mais ne peuvent pas identifier les mauvaises. Ils ne doivent pas être utilisés pour des décisions à enjeux élevés.
-
Les mégadonnées ne sont tout simplement pas encore capables de fournir un « audit scientifique » de la profession enseignante. Ce ne sera peut-être jamais le cas.
Permettez-moi de souligner que déclencher de telles expériences sur des personnes est la manière la plus inutile de faire de la science. Alors que nous introduisons l'intelligence artificielle dans une myriade de domaines - assurance, crédit, ressources humaines, administration des collèges - exigerons-nous que les personnes concernées fassent confiance à l'algorithme jusqu'à ce que, des décennies plus tard, il se révèle horriblement faux ? Combien de fois devons-nous faire cette erreur avant d'exiger plus de tests scientifiques au préalable ?
Je ne suis pas un observateur entièrement désintéressé. J'ai une entreprise qui propose des services de test d'algorithmes. Mais je me suis lancé dans l'entreprise précisément parce que je voulais éviter des catastrophes comme celle-ci. Il ne suffit pas de glaner quelques leçons, de faire des ajustements et de passer à autre chose. Pour le bien de la science des données et pour le bien des étudiants défavorisés, il est crucial que la Fondation Gates reconnaisse publiquement à quel point cela a mal tourné.