Report 709

Nuestros algoritmos de predicción de delitos más sofisticados pueden no ser tan buenos como pensábamos. Un estudio publicado hoy en Science Advances analiza el popular algoritmo COMPAS, utilizado para evaluar la probabilidad de que un acusado reincida, y encuentra que el algoritmo no es más preciso que la suposición de la persona promedio. Si los hallazgos se mantienen, serían un ojo morado para los algoritmos de sentencia en general, lo que indica que es posible que simplemente no tengamos las herramientas para predecir con precisión si un acusado cometerá más delitos.

Desarrollado por Equivant (anteriormente Northpointe), el algoritmo COMPAS examina los antecedentes penales de un acusado junto con una serie de otros factores para evaluar la probabilidad de que sea arrestado nuevamente en los próximos dos años. La evaluación de riesgos de COMPAS puede luego informar las decisiones de un juez sobre la libertad bajo fianza o incluso la sentencia. Si el algoritmo es inexacto, el resultado podría ser una sentencia más larga para un acusado de bajo riesgo, un daño significativo para cualquier persona afectada.

Alcanzado por The Verge, Equivant cuestionó la precisión del documento en una larga declaración, calificando el trabajo de "altamente engañoso".

“El techo del poder predictivo es más bajo de lo que pensaba”

COMPAS ha sido criticado por ProPublica por sesgo racial (un reclamo que algunos estadísticos cuestionan), pero el nuevo artículo, de Hany Farid y Julia Dressel de Dartmouth, aborda una pregunta más fundamental: ¿son buenas las predicciones de COMPAS? Basándose en los datos de ProPublica, Farid y Dressel encontraron que el algoritmo predecía reincidencias aproximadamente el 65 por ciento de las veces, una vara baja, dado que aproximadamente el 45 por ciento de los acusados reinciden.

Sin embargo, en su declaración, Equivant argumenta que ha superado el estándar de AUC del 70 por ciento para las herramientas de evaluación de riesgos.

Los resultados más sorprendentes se produjeron cuando los investigadores compararon COMPAS con otros tipos de predicción. Farid y Dressel reclutaron a 462 trabajadores al azar a través de la plataforma Mechanical Turk de Amazon y les pidieron a los turcos que "lean algunas oraciones sobre una persona real y predigan si cometerá un delito en el futuro". Se les pagó un dólar por completar la tarea, con una bonificación de cinco dólares si su precisión superaba el 65 por ciento. Sorprendentemente, el Turker promedio terminó dos puntos mejor que COMPAS, registrando una precisión del 67 por ciento.

La profesora de derecho de la Universidad George Mason, Megan Stevenson, realizó una investigación igualmente pesimista sobre los programas de evaluación de riesgos en Kentucky, y dice que le sorprendió lo malo que fue el hallazgo para COMPAS. El tamaño de la muestra es pequeño, por lo que es difícil estar seguro de que la desventaja de COMPAS se mantendrá en pruebas posteriores, pero es suficiente que COMPAS se encuentre en el mismo rango general que un sistema ad hoc de este tipo.

“El documento definitivamente me hace pensar que el techo en el poder predictivo es más bajo de lo que había pensado”, dijo Stevenson a The Verge, “y no pensé que fuera tan alto para empezar”.

Los investigadores también superaron a COMPAS con un algoritmo lineal más simple, que analizaba solo la edad y los antecedentes penales del acusado. Ese algoritmo también superó a COMPAS, un hallazgo que sorprendió incluso a los investigadores, dados los 137 factores involucrados en una evaluación de COMPAS. “Por lo general, esperaríamos que a medida que agregamos más datos a un clasificador y/o aumentamos la complejidad del clasificador, la precisión de la clasificación mejoraría”, dijo Farid a The Verge. “Descubrimos que este no es el caso”.

Equivant también cuestionó este hallazgo, argumentando que la pequeña muestra de datos había llevado a los investigadores a sobreajustar su algoritmo. Además, la empresa minimizó la cantidad de factores diferentes que realmente determinan una evaluación de riesgo dada. “De hecho, la gran cantidad de estos 137 son factores de necesidad y no se utilizan como predictores en la evaluación de riesgos de COMPAS”, dijo la compañía. “La evaluación de riesgos de COMPAS tiene solo seis entradas”.

Los puntajes de evaluación de riesgos se han convertido en una característica cada vez más común del sistema de justicia de EE. UU., con productos similares que a menudo se usan para decisiones sobre la detención preventiva. De manera controvertida, los detalles específicos del algoritmo a menudo se tratan como un secreto comercial, lo que dificulta que los abogados impugnen los resultados. El año pasado, la Corte Suprema se negó a escuchar un caso que impugnaba la legalidad del sistema COMPAS, que argumentaba que mantener el algoritmo en secreto violaba los derechos constitucionales del acusado.

En particular, ambos sistemas mantuvieron aproximadamente el mismo perfil de sesgo que COMPAS, manteniendo la paridad predictiva entre razas pero distribuyendo el error de manera desproporcionada, con mayor probabilidad de falsos positivos entre los acusados negros.

La mayor debilidad del estudio son los datos en sí. Los registros judiciales son notoriamente desordenados y los datos se extraen de solo dos años en un condado específico, lo que podría limitar su poder predictivo. Los estudios de reincidencia también enfrentan un problema de larga data para medir de manera confiable los falsos positivos, ya que una sentencia de prisión más larga puede evitar que una persona reincida mientras está encarcelada.

Aún así, los investigadores esperan que ya se estén realizando muchos estudios de confirmación. “Supongo que habrá una gran cantidad de documentos en camino

Problema 709

Incidentes Asociados

Incidente 4021 Reportes
COMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction

Mechanical Turkers superó a COMPAS, un importante algoritmo judicial

Problema 709

Incidentes Asociados

Incidente 4021 ReportesCOMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction

Mechanical Turkers superó a COMPAS, un importante algoritmo judicial

Incidente 4021 Reportes
COMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction