Incidentes Asociados

De hecho, se justifica la precaución, según Julia Dressel y Hany Farid de Dartmouth College. En un nuevo estudio, demostraron que COMPAS no es mejor para predecir el riesgo de reincidencia de un individuo que los voluntarios reclutados al azar de Internet.
“Imagínese que es un juez y su tribunal ha comprado este software; las personas detrás de esto dicen que tienen grandes datos y algoritmos, y su software dice que el acusado es de alto riesgo”, dice Farid. “Ahora imagina que dije: Oye, le pregunté a 20 personas al azar en línea si esta persona reincidirá y dijeron que sí. ¿Cómo ponderarías esos dos datos? Apuesto a que los ponderarías de manera diferente. Pero lo que hemos mostrado debería dar a los tribunales una pausa”. (Un portavoz de Equivant rechazó una solicitud de entrevista).
COMPAS ha suscitado controversia anteriormente. En 2016, la reportera de tecnología Julia Angwin y sus colegas de ProPublica analizaron las evaluaciones COMPAS de más de 7000 arrestados en el condado de Broward, Florida, y publicaron una investigación que afirmaba que el algoritmo estaba sesgado contra los afroamericanos. Los problemas, dijeron, radican en los errores del algoritmo. “Los negros tienen casi el doble de probabilidades que los blancos de ser etiquetados como de mayor riesgo, pero en realidad no reinciden”, escribió el equipo. Y COMPAS “comete el error opuesto entre los blancos: tienen muchas más probabilidades que los negros de ser etiquetados como de menor riesgo pero cometen otros delitos”.
Northpointe cuestionó el análisis de ProPublica, al igual que varios académicos. Señalaron, entre otras refutaciones, que el programa predijo correctamente la reincidencia en los acusados blancos y negros a tasas similares. Para cualquier puntaje dado en la escala de 10 puntos de COMPAS, las personas blancas y negras tienen la misma probabilidad de reincidir entre sí. Otros han señalado que este debate depende de la definición de justicia de uno, y que es matemáticamente imposible satisfacer los estándares establecidos tanto por Northpointe como por ProPublica; una historia en The Washington Post explica claramente por qué.
El debate continúa, pero cuando Dressel lo leyó, se dio cuenta de que ocultaba un problema diferente. "Había esta suposición subyacente en la conversación de que las predicciones del algoritmo eran intrínsecamente mejores que las humanas", dice, "pero no pude encontrar ninguna investigación que lo probara". Así que ella y Farid hicieron lo suyo.
Reclutaron a 400 voluntarios a través de un sitio de crowdsourcing. Cada persona vio breves descripciones de los acusados de la investigación de ProPublica, destacando siete piezas de información. En base a eso, tenían que adivinar si el acusado cometería otro delito dentro de dos años.
En promedio, obtuvieron la respuesta correcta el 63 por ciento de su tiempo, y la precisión del grupo aumentó al 67 por ciento si se combinaron sus respuestas. COMPAS, por el contrario, tiene una precisión del 65 por ciento. Es apenas mejor que los adivinos individuales, y no mejor que una multitud. “Estos no son expertos y responden a una encuesta en línea con una fracción de la cantidad de información que tiene el software”, dice Farid. “Entonces, ¿qué hace exactamente un software como COMPAS?”