Report 1334

A fines de la semana pasada y durante el fin de semana, los periódicos de la ciudad de Nueva York, incluidos el New York Times y el Wall Street Journal, publicaron los puntajes de valor agregado (informes de datos de maestros) de miles de maestros de la ciudad. Antes de este comunicado, otros y yo argumentamos que los periódicos deberían presentar márgenes de error junto con las estimaciones. Para su crédito, ambos periódicos lo hicieron.

En la versión del Times, por ejemplo, el puntaje de valor agregado de cada maestro individual (convertido a un rango percentil) se presenta gráficamente, para matemáticas y lectura, tanto en 2010 como a lo largo de la "carrera" de un maestro (promedio de años anteriores), junto con con los márgenes de error. Además, ambos artículos proporcionaron descripciones y advertencias sobre la imprecisión de los resultados. Entonces, si bien la decisión de publicar todavía fue, en mi opinión personal, un terrible error, los periódicos al menos intentan de buena fe resaltar la imprecisión.

Dicho esto, también publicaron datos de la ciudad que utilizan los puntajes de valor agregado de los maestros para clasificarlos en una de cinco categorías: bajo, por debajo del promedio, promedio, por encima del promedio o alto. The Times hizo esto solo a nivel de escuela (es decir, el porcentaje de maestros de cada escuela que están "por encima del promedio" o "alto"), mientras que el Journal en realidad etiquetó a cada maestro individual. Presumiblemente, la mayoría de las personas que consultan las bases de datos, particularmente la del Journal, se basarán en gran medida en estas clasificaciones categóricas, ya que son más fáciles de entender que los rangos de percentiles rodeados de márgenes de error. Me gustaría discutir los problemas inherentes a estas calificaciones, ya que ilustran conceptos importantes sobre el error de estimación y lo que se puede hacer al respecto.

Primero, resumamos rápidamente la imprecisión asociada con los puntajes de valor agregado de la ciudad de Nueva York, utilizando los conjuntos de datos sin procesar de la ciudad. Se ha informado mucho que el intervalo de confianza promedio para estas estimaciones, el rango dentro del cual podemos estar seguros de que cae la "estimación verdadera", es de 35 puntos porcentuales en matemáticas y 53 en artes del lenguaje inglés (ELA). Pero esto simplifica un poco la situación, ya que el promedio general enmascara bastante variación por la disponibilidad de datos. Mire el gráfico a continuación, que muestra cómo el intervalo de confianza promedio varía según la cantidad de años de datos disponibles, que en realidad es solo un indicador del tamaño de la muestra (consulte las notas de la figura).

Cuando observa las estimaciones de maestros de un solo año (en este caso, para 2009-10), la distribución promedio es bastante sorprendente: 46 puntos percentiles en matemáticas y 62 en ELA. Además, incluso con cinco años de datos, los intervalos siguen siendo bastante grandes: alrededor de 30 puntos en matemáticas y 48 en ELA. (Sin embargo, hay bastante mejora con años adicionales. Los rangos se reducen en alrededor de un 25 por ciento en ambos sujetos cuando se usan datos de cinco años en comparación con uno).

Ahora, los opositores al valor agregado han expresado una gran indignación por estos altos niveles de imprecisión y, de hecho, son extremadamente amplios, lo cual es una de las principales razones por las que estas estimaciones no tienen absolutamente nada que ver con la publicación en una base de datos en línea. Pero, como he discutido antes, un punto importante, frecuentemente ignorado sobre el error, ya sea en un periódico o en un sistema de evaluación, es que el problema radica menos en cuánto hay que en cómo abordarlo.

Es cierto que, incluso con varios años de datos, las estimaciones siguen siendo muy imprecisas. Pero, sin importar cuántos datos tenga, si presta atención a los márgenes de error, puede, al menos hasta cierto punto, usar esta información para asegurarse de que está sacando conclusiones defendibles basadas en la información disponible. Si no lo haces, no puedes.

Esto se puede ilustrar echando un vistazo a las categorías que la ciudad (y el Journal) usan para etiquetar a los maestros (o, en el caso del Times, a las escuelas).

Así es como se califica a los maestros: bajo (percentil 0-4); por debajo del promedio (5-24); promedio (25-74); por encima del promedio (75-94); y alta (95-99).

Para comprender la difícil relación entre los márgenes de error de valor agregado y estas categorías, primero eche un vistazo al "gráfico de muestra" del Times a continuación.

Se supone que esto es una muestra de los resultados de un maestro. El puntaje de valor agregado de este maestro hipotético en particular estaba en el percentil 50, con un margen de error de más o menos aproximadamente 30 puntos percentiles. Lo que esto le dice es que podemos tener un alto nivel de confianza de que la "estimación real" de este maestro está en algún lugar entre el percentil 20 y el 80 (ese es el intervalo de confianza para este maestro), aunque es más probable que esté más cerca de 50 que 20 u 80.

Una forma abreviada de ver si los puntajes de los maestros están, teniendo en cuenta el error, en el promedio, por encima del promedio o por debajo del promedio es ver si sus intervalos de confianza se superponen con el promedio (percentil 50, que en realidad es la mediana, pero ese es un punto semántico en estos datos ).

Digamos que tenemos un maestro con un puntaje de valor agregado en el percentil 60, más o menos 20 puntos, lo que genera un intervalo de confianza de 40-80. Esto cruza el "límite" promedio/mediano, si

Problema 1334

Incidentes Asociados

Incidente 96 Reportes
NY City School Teacher Evaluation Algorithm Contested

Reinado del error: la publicación de informes de datos de maestros en la ciudad de Nueva York

Problema 1334

Incidentes Asociados

Incidente 96 ReportesNY City School Teacher Evaluation Algorithm Contested

Reinado del error: la publicación de informes de datos de maestros en la ciudad de Nueva York

Incidente 96 Reportes
NY City School Teacher Evaluation Algorithm Contested