À la fin de la semaine dernière et au cours du week-end, les journaux de New York, dont le New York Times et le Wall Street Journal, ont publié les scores à valeur ajoutée (rapports sur les données des enseignants) pour des milliers d'enseignants de la ville. Avant ce communiqué, d'autres et moi-même avons fait valoir que les journaux devraient présenter des marges d'erreur avec les estimations. À leur crédit, les deux journaux l'ont fait.
Dans la version du Times, par exemple, le score de valeur ajoutée de chaque enseignant (converti en un rang centile) est présenté graphiquement, pour les mathématiques et la lecture, en 2010 et au cours de la « carrière » d'un enseignant (moyenne sur les années précédentes), ainsi que avec les marges d'erreur. En outre, les deux articles ont fourni des descriptions et des avertissements concernant l'imprécision des résultats. Ainsi, alors que la décision de publier était toujours, à mon avis, une terrible erreur, les journaux tentent au moins de bonne foi de mettre en évidence l'imprécision.
Cela dit, ils ont également publié des données de la ville qui utilisent les scores à valeur ajoutée des enseignants pour les classer dans l'une des cinq catégories suivantes : faible, inférieur à la moyenne, moyen, supérieur à la moyenne ou élevé. Le Times n'a fait cela qu'au niveau de l'école (c'est-à-dire le pourcentage d'enseignants de chaque école qui sont "au-dessus de la moyenne" ou "élevé"), tandis que le Journal a en fait étiqueté chaque enseignant individuellement. Vraisemblablement, la plupart des personnes qui consultent les bases de données, en particulier celles du Journal, s'appuieront fortement sur ces évaluations catégorielles, car elles sont plus faciles à comprendre que les classements centiles entourés de marges d'erreur. Les problèmes inhérents à ces notations sont ce dont j'aimerais discuter, car ils illustrent des concepts importants sur l'erreur d'estimation et ce qui peut être fait à ce sujet.
Tout d'abord, résumons rapidement l'imprécision associée aux scores de valeur ajoutée de NYC, en utilisant les ensembles de données brutes de la ville. Il a été largement rapporté que l'intervalle de confiance moyen pour ces estimations - la fourchette dans laquelle nous pouvons être sûrs que la «véritable estimation» se situe - est de 35 points centiles en mathématiques et de 53 en anglais Language Arts (ELA). Mais cela simplifie quelque peu la situation, car la moyenne globale masque une certaine variation en fonction de la disponibilité des données. Jetez un œil au graphique ci-dessous, qui montre comment l'intervalle de confiance moyen varie en fonction du nombre d'années de données disponibles, ce qui n'est en fait qu'une approximation de la taille de l'échantillon (voir les notes de la figure).
Lorsque vous regardez les estimations des enseignants sur une seule année (dans ce cas, pour 2009-2010), l'écart moyen est assez frappant de 46 points centiles en mathématiques et de 62 en ELA. De plus, même avec cinq années de données, les intervalles sont encore assez grands - environ 30 points en mathématiques et 48 en ELA. (Il y a cependant une certaine amélioration avec des années supplémentaires. Les plages sont réduites d'environ 25 % chez les deux sujets lorsque vous utilisez des données sur cinq ans par rapport à un.)
Or, les opposants à la valeur ajoutée ont exprimé une grande indignation face à ces niveaux élevés d'imprécision, et ils sont en effet extrêmement larges - ce qui est l'une des principales raisons pour lesquelles ces estimations n'ont absolument aucun intérêt à être publiées dans une base de données en ligne. Mais, comme je l'ai déjà dit, un point majeur et souvent ignoré à propos de l'erreur - que ce soit dans un journal ou un système d'évaluation - est que le problème réside moins dans la quantité que dans la façon dont vous vous y prenez.
Il est vrai que, même avec plusieurs années de données, les estimations sont encore très imprécises. Mais, quelle que soit la quantité de données dont vous disposez, si vous faites attention aux marges d'erreur, vous pouvez, au moins dans une certaine mesure, utiliser ces informations pour vous assurer que vous tirez des conclusions défendables sur la base des informations disponibles. Si vous ne le faites pas, vous ne pouvez pas.
Cela peut être illustré en examinant les catégories que la ville (et le Journal) utilisent pour étiqueter les enseignants (ou, dans le cas du Times, les écoles).
Voici comment les enseignants sont notés : faible (0-4e centile) ; en dessous de la moyenne (5-24); moyenne (25-74); au-dessus de la moyenne (75-94); et élevé (95-99).
Pour comprendre la relation difficile entre les marges d'erreur à valeur ajoutée et ces catégories, jetez d'abord un coup d'œil à l'"exemple de graphique" du Times ci-dessous.
Ceci est censé être un échantillon des résultats d'un enseignant. Le score de valeur ajoutée de cet enseignant hypothétique particulier se situait au 50e centile, avec une marge d'erreur de plus ou moins environ 30 points centiles. Ce que cela vous dit, c'est que nous pouvons avoir un niveau élevé de confiance que la «véritable estimation» de cet enseignant se situe quelque part entre le 20e et le 80e centile (c'est l'intervalle de confiance pour cet enseignant), bien qu'il soit plus susceptible d'être plus proche de 50 que 20 ou 80.
Une façon abrégée de voir si les scores des enseignants sont, compte tenu de l'erreur, moyens, supérieurs à la moyenne ou inférieurs à la moyenne est de voir si leurs intervalles de confiance se chevauchent avec la moyenne (50e centile, qui est en fait la médiane, mais c'est un point sémantique dans ces données ).
Disons que nous avons un enseignant avec un score de valeur ajoutée au 60e centile, plus ou moins 20 points, ce qui donne un intervalle de confiance de 40-80. Cela franchit la "frontière" moyenne/médiane, si