Report 1470

La U de Texas en Austin ha dejado de usar un sistema de aprendizaje automático para evaluar a los solicitantes de su doctorado. en informática. Los críticos dicen que el sistema exacerba la desigualdad existente en el campo.

En 2013, el departamento de ciencias de la computación de la Universidad de Texas en Austin comenzó a usar un sistema de aprendizaje automático llamado GRADE para ayudar a tomar decisiones sobre quién ingresa a su doctorado. programa, y quién no. Este año, el departamento lo abandonó.

Antes del anuncio, que el departamento publicó en forma de respuesta en Twitter, pocos habían oído hablar del programa. Ahora, sus críticos, preocupados por la diversidad, la equidad y la justicia en las admisiones, dicen que nunca debería haberse utilizado en primer lugar.

“Los humanos codifican estos sistemas. Los humanos están codificando sus propios sesgos en estos algoritmos”, dijo Yasmeen Musthafa, Ph.D. estudiante de física de plasma en la Universidad de California, Irvine, quien hizo sonar las alarmas sobre el sistema en Twitter. “¿Cómo habría sido el departamento CS de UT Austin sin GRADE? Nunca sabremos."

GRADE (que significa GRaduate ADmissions Evaluator) fue creado por un miembro de la facultad de UT y un estudiante de posgrado en ciencias de la computación, originalmente para ayudar al comité de admisiones de posgrado en el departamento a ahorrar tiempo. GRADE predice la probabilidad de que el comité de admisiones apruebe a un solicitante y expresa esa predicción como una puntuación numérica de cinco. El sistema también explica qué factores afectaron más su decisión.

Los investigadores de la UT que hicieron GRADE lo entrenaron en una base de datos de decisiones de admisión pasadas. El sistema utiliza patrones de esas decisiones para calcular las puntuaciones de los candidatos.

Por ejemplo, cartas de recomendación que contengan las palabras "mejor", "premio", "investigación" o "doctorado". predicen la admisión, y pueden conducir a una puntuación más alta, mientras que las letras que contienen las palabras "bueno", "clase", "programación" o "tecnología" predicen el rechazo. Un promedio de calificaciones más alto significa que es más probable que un solicitante sea aceptado, al igual que el nombre de un colegio o universidad de élite en el currículum. Dentro del sistema, las instituciones se codificaron en las categorías "élite", "buenas" y "otras", según una encuesta de la facultad de informática de UT.

Cada aplicación calificada por GRADE durante los siete años que estuvo en uso aún fue revisada por al menos un miembro del comité humano, dijo UT Austin, pero a veces solo uno. Antes de GRADE, los profesores hacían varias pasadas de revisión sobre la piscina. El sistema le ahorró tiempo al comité, según sus desarrolladores, al permitir que los docentes se concentraran en los solicitantes que se encontraban en la cúspide de la admisión o el rechazo y los revisaran en orden descendente de calidad.

Por lo que vale, GRADE pareció ahorrarle tiempo al comité. En las temporadas de solicitud de 2012 y 2013, los desarrolladores dijeron en un documento sobre su trabajo, redujeron la cantidad de revisiones completas por candidato en un 71 por ciento y redujeron el tiempo total de revisión de archivos en un 74 por ciento. (Una revisión completa generalmente toma de 10 a 30 minutos). Entre los años 2000 y 2012, las solicitudes para el doctorado en ciencias de la computación. El programa creció de alrededor de 250 a casi 650, aunque la cantidad de profesores capaces de revisar esas solicitudes se mantuvo prácticamente constante. En los años transcurridos desde 2012, el número de solicitudes ha superado las 1.200.

El uso de la tecnología por parte de la universidad escapó a la atención durante varios años, hasta este mes, cuando el departamento de física de la Universidad de Maryland en College Park celebró una charla de coloquio con los dos creadores de GRADE.

La charla llamó la atención en Twitter cuando los estudiantes de posgrado acusaron a los creadores de GRADE de perjudicar aún más a los grupos subrepresentados en el proceso de admisión de ciencias de la computación.

“Ponemos cartas de recomendación para tratar de animar a las personas que quizás no tengan un gran GPA. Pusimos una declaración personal en el proceso de solicitud de posgrado para tratar de dar a las personas marginadas la oportunidad de que se escuche su voz”, dijo Musthafa, quien también es miembro de la Coalición Antirracismo de Física y Astronomía. “La peor parte de GRADE es que descarta eso por completo”.

Los defensores han estado preocupados durante mucho tiempo por la posibilidad de que los algoritmos de aprendizaje automático incorporen o exacerben los sesgos humanos. Los algoritmos se entrenan en datos. Cuando se trata de personas, el aspecto de esos datos es el resultado de una inequidad histórica. Las preferencias por un tipo de persona sobre otro a menudo son el resultado de prejuicios conscientes o inconscientes.

Eso no ha impedido que las instituciones utilicen sistemas de aprendizaje automático en la contratación, vigilancia y sentencias de prisión durante varios años, a menudo con gran controversia.

“Cada proceso va a cometer algunos errores. La pregunta es, ¿dónde es probable que se cometan esos errores y quién es probable que sufra como resultado de ellos? dijo Manish Raghavan, un Ph.D. en ciencias de la computación. candidato de la Universidad de Cornell que ha investigado y escrito sobre el sesgo en los algoritmos. “Probablemente aquellos de grupos subrepresentados o personas que no tienen los recursos para asistir a instituciones de élite”.

Aunque muchas mujeres y personas negras y latinas han tenido carreras exitosas en informática, esos grupos están subrepresentados en el campo en general. En 2017, blancos, asiáticos y extranjeros no residentes recibieron el 84 por ciento de los títulos otorgados en informática en los Estados Unidos.

En UT, casi el 80 por ciento de los estudiantes universitarios en informática en 2017 eran hombres.

Raghavan dijo que estaba sorprendido de que no pareciera haber ningún esfuerzo para auditar los impactos de GRADE, como por ejemplo, cómo difieren los puntajes entre los grupos demográficos.

Los creadores de GRADE han dicho que el sistema solo está programado para replicar lo que estaba haciendo el comité de admisiones antes de 2013, no para tomar mejores decisiones que las que podrían tomar los humanos. El sistema no está programado para usar la raza o el género para hacer sus predicciones, dijeron. De hecho, cuando se le dan esas características como opciones para ayudar a hacer sus predicciones, elige darles peso cero. Los creadores de GRADE han dicho que esto es evidencia de que las decisiones del comité son neutrales en cuanto a género y raza.

Los detractores han contrarrestado esto, argumentando que la raza y el género se pueden codificar en otras funciones de la aplicación que utiliza el sistema. Los colegios universitarios de mujeres y las universidades históricamente negras pueden estar infravaloradas por el algoritmo, dijeron. Se sabe que las cartas de recomendación reflejan un sesgo de género, ya que es más probable que los recomendadores describan a las estudiantes como "atentas" en lugar de "asertivas" o "pioneras".

En la charla de Maryland, la facultad planteó sus propias preocupaciones. Lo que busca un comité puede cambiar cada año. Las cartas de recomendación y las declaraciones personales deben considerarse cuidadosamente, no convertirse en una bolsa de palabras, dijeron.

“Estoy un poco sorprendido de que hayas hecho este experimento con tus estudiantes”, dijo Steve Rolston, presidente del departamento de física de Maryland, durante la charla. “Parece haber construido un modelo que se basa en cualquier sesgo que tuviera su comité en 2013 y lo ha estado usando desde entonces”.

En una entrevista, Rolston dijo que las admisiones de posgrado ciertamente pueden ser un desafío. Su departamento recibe más de 800 solicitudes de posgrado por año, lo que requiere mucho tiempo para que los docentes evalúen. Pero, dijo, su departamento nunca usaría una herramienta como esta.

“Si te pido que hagas un clasificador de imágenes y estás buscando perros, puedo comprobar después que sí identificó correctamente a los perros”, dijo. “Pero cuando pido decisiones sobre personas, ya sea admisión de graduados, contratación o sentencias de prisión, no hay una respuesta correcta obvia. Lo entrenas, pero no sabes lo que realmente te está diciendo el resultado”.

Rolston dijo que tener al menos un miembro de la facultad revisando cada solicitud no era una garantía convincente.

“Si le doy un archivo y digo: 'Bueno, el algoritmo dijo que esta persona no debería ser aceptada', eso inevitablemente sesgará la forma en que lo mire”, dijo.

UT Austin ha dicho que GRADE se usó para organizar las decisiones de admisión, en lugar de tomarlas.

"Nunca se usó para tomar decisiones sobre la admisión o el rechazo de posibles estudiantes, ya que al menos un miembro de la facultad evalúa directamente a los solicitantes en cada etapa del proceso de revisión", dijo un portavoz de la Escuela de Graduados por correo electrónico.

A pesar de las críticas en torno a la diversidad y la equidad, UT Austin ha dicho que GRADE se está eliminando gradualmente porque es demasiado difícil de mantener.

“Los cambios en el entorno de datos y software hicieron que el sistema fuera cada vez más difícil de mantener y se suspendió su uso”, dijo el portavoz por correo electrónico. “La Escuela de Posgrado trabaja con programas de posgrado y profesores de todo el campus para promover la revisión holística de solicitudes y reducir el sesgo en las decisiones de admisión”.

Para Musthafa, el hecho de que GRADE pueda desaparecer definitivamente no afecta la inequidad existente en las admisiones de posgrado.

“Todo el sistema está impregnado de racismo, sexismo y capacitismo”, dijeron. "¿Cuántos años de estudiantes de ciencias de la computación de POC fueron negados [debido a esto]?"

Abordar esa inequidad, así como la competitividad que condujo a la creación de GRADE, puede significar expandir los comités, pagar a las personas por su tiempo y darles a los estudiantes graduados negros y latinos una voz en esas decisiones, dijeron. Pero la automatización no puede ser parte de esa toma de decisiones.

“Si automatizamos esto en alguna medida, simplemente dejará a las personas fuera de la academia”, dijo Musthafa. “El racismo de hoy está siendo inmortalizado en los algoritmos del mañana”.

Problema 1470

Incidentes Asociados

Incidente 1352 Reportes
UT Austin GRADE Algorithm Allegedly Reinforced Historical Inequalities

La muerte y la vida de un algoritmo de admisión

Problema 1470

Incidentes Asociados

Incidente 1352 ReportesUT Austin GRADE Algorithm Allegedly Reinforced Historical Inequalities

La muerte y la vida de un algoritmo de admisión

Incidente 1352 Reportes
UT Austin GRADE Algorithm Allegedly Reinforced Historical Inequalities