Report 1764

El experimento de big data de la Fundación Gates no fue solo un fracaso. Hizo mucho daño.

La Fundación Gates merece crédito por contratar una firma independiente para evaluar su programa de $575 millones para hacer que los maestros de las escuelas públicas sean más efectivos. Ahora que los resultados están disponibles, no debe ser menos abierto al reconocer cuán derrochador y dañino ha sido el programa.

La iniciativa, conocida como Asociaciones Intensivas para la Enseñanza Efectiva, buscó mejorar la educación de los estudiantes de minorías de bajos ingresos, en gran parte mediante la recopilación de datos y el uso de un algoritmo para evaluar el desempeño de los maestros. Se centró en medidas como los puntajes de las pruebas, las observaciones de los directores de las escuelas y las evaluaciones de los estudiantes y los padres para determinar si los maestros estaban agregando valor. El objetivo: recompensar a los buenos maestros, deshacerse de los malos y reducir la brecha de logros.

Por loable que haya sido la intención, no funcionó. Como lo expresó la evaluación independiente, producida por Rand Corporation: “La iniciativa no logró sus objetivos de rendimiento o graduación de los estudiantes”, particularmente para los estudiantes de minorías de bajos ingresos. El informe, sin embargo, no llega a sacar lo que considero la conclusión más importante: el enfoque que personifica el programa Gates en realidad ha hecho daño. Ha arruinado carreras injustamente, expulsando a los maestros de la profesión en medio de una escasez a nivel nacional. Y su uso defectuoso de las métricas ha socavado la ciencia.

La suposición subyacente del programa, común en el mundo de los "grandes datos", es que los datos son buenos y más datos son mejores. Con ese fin, se hicieron esfuerzos genuinos para recopilar la mayor cantidad posible de información potencialmente relevante. A medida que avanzan estos programas, este era el mejor de los casos.

Aún así, para un estadístico, los problemas son evidentes. Los directores tienden a otorgar calificaciones excelentes a casi todos los maestros, una falla que el informe Rand encontró cada vez más cierta en los marcos de observación más recientes, a pesar de que algunos maestros los encontraron útiles. Se sabe que los modelos de valor agregado que se usan para calificar a los maestros, generalmente cajas negras cuyo funcionamiento interno se mantiene en secreto, son poco mejores que los generadores de números aleatorios, y los que se usaron en el programa Gates no fueron una excepción. La mejor defensa de los modelos fue que la adición de otras medidas podría mitigar sus fallas, una recomendación terrible para un instrumento supuestamente científico. Esas otras medidas, como las encuestas de padres y estudiantes, también están sesgadas: como todo encuestador sabe, la respuesta depende de cómo enmarque la pregunta.

Teniendo en cuenta los fracasos del programa, y todo el tiempo y el dinero desperdiciados, y el sufrimiento de los educadores que trabajan arduamente, las recomendaciones del informe son sorprendentemente débiles. Incluso permite la posibilidad de que intentarlo de nuevo o durante más tiempo produzca un mejor resultado, como si someter a personas reales y vivas a años de experimentación con consecuencias potencialmente adversas no tuviera ningún costo. Así que compensaré la omisión ofreciendo algunas recomendaciones propias.

Los modelos de valor agregado (y los modelos relacionados de "percentil de crecimiento estudiantil") son estadísticamente débiles y no deben usarse para decisiones de alto riesgo, como la promoción o el despido de maestros.
Mantener en secreto las fórmulas de evaluación es una idea terrible, porque impide que los expertos vean sus fallas antes de que causen daño.
Las encuestas de padres están sesgadas y no deben usarse para decisiones de alto riesgo.
Las observaciones del director pueden ayudar a los maestros a mejorar, pero no pueden identificar a los malos. No deben usarse para decisiones de alto riesgo.
Big data simplemente aún no es capaz de proporcionar una "auditoría científica" de la profesión docente. Puede que nunca lo sea.

Permítanme enfatizar que desencadenar tales experimentos en personas es la forma más derrochadora posible de hacer ciencia. A medida que introducimos la inteligencia artificial en innumerables áreas (seguros, crédito, recursos humanos, administración universitaria), ¿exigiremos a las personas afectadas que confíen en el algoritmo hasta que, décadas más tarde, se demuestre que está terriblemente equivocado? ¿Cuántas veces debemos cometer este error antes de exigir más pruebas científicas de antemano?

No soy un observador completamente desinteresado. Tengo una empresa que ofrece servicios de pruebas de algoritmos. Pero entré en el negocio precisamente porque quería evitar desastres como este. No es suficiente aprender algunas lecciones, hacer ajustes y seguir adelante. Por el bien de la ciencia de datos y por el bien de los estudiantes desfavorecidos, es crucial que la Fundación Gates reconozca públicamente lo mal que salió.

Problema 1764

Incidentes Asociados

Incidente 2391 Reporte
Algorithmic Teacher Evaluation Program Failed Student Outcome Goals and Allegedly Caused Harm Against Teachers

He aquí cómo no mejorar las escuelas públicas

Problema 1764

Incidentes Asociados

Incidente 2391 ReporteAlgorithmic Teacher Evaluation Program Failed Student Outcome Goals and Allegedly Caused Harm Against Teachers

He aquí cómo no mejorar las escuelas públicas

Incidente 2391 Reporte
Algorithmic Teacher Evaluation Program Failed Student Outcome Goals and Allegedly Caused Harm Against Teachers