Report 702

Los algoritmos que evalúan la probabilidad de que las personas vuelvan a delinquir como parte del proceso de fijación de fianzas en casos penales son, para ser sinceros, realmente aterradores.

No sabemos mucho acerca de cómo funcionan, las empresas que los fabrican guardan un gran secreto sobre lo que hace que sus productos funcionen, y los estudios han sugerido que pueden albergar prejuicios raciales. Sin embargo, estos algoritmos brindan a los jueces información que se utiliza para decidir el curso de la vida de alguien.

Ahora, un nuevo estudio publicado el miércoles en Science Advances del profesor de informática de Dartmouth College, Hany Farid, y la ex alumna Julia Dressel, afirman “arrojar dudas significativas sobre todo el esfuerzo de predicción algorítmica de reincidencia”, escriben los autores. En resumen, los algoritmos de fianza no parecen funcionar mejor que los seres humanos.

Según su estudio, COMPAS, uno de los algoritmos más populares utilizados por los tribunales de EE. UU. y otros lugares para predecir la reincidencia, no es más preciso que 20 personas a las que se les pide que calculen la probabilidad de reincidencia en una encuesta en línea. Además, COMPAS no superó a un algoritmo de predicción lineal simple armado con solo dos entradas: edad y número de delitos cometidos. COMPAS, por el contrario, utiliza 137 entradas únicas para tomar decisiones, escriben los autores del estudio.

En un comunicado emitido después de la publicación del estudio, Equivant, la compañía detrás de COMPAS, argumentó que COMPAS, de hecho, solo usa seis entradas y que el resto son "factores necesarios que NO se usan como predictores en la evaluación de riesgos de COMPAS". En respuesta, los autores me escribieron en un correo electrónico que "independientemente de cuántas funciones utilice COMPAS, el hecho es que un predictor simple con solo dos funciones y las personas que responden a una encuesta en línea son tan precisos como COMPAS".

“Nuestro punto no es que sea bueno o malo”, dijo el coautor Farid por teléfono. “Pero nos gustaría que los tribunales comprendieran que el peso que le dan a estas evaluaciones de riesgo debe basarse en el entendimiento de que la precisión de este software comercial de caja negra es exactamente la misma que pedirle a un grupo de personas que responda una encuesta en línea”.

La precisión de referencia de los encuestados en línea que estimaron la reincidencia dentro de dos años fue del 63 por ciento, informan los autores, mientras que COMPAS es del 65 por ciento (un hallazgo basado en un conjunto de datos que cubre su uso en el condado de Broward, Florida, entre 2013 y 2014). El algoritmo lineal simple con solo dos entradas tuvo una precisión del 66 por ciento. Vale la pena señalar que muchos investigadores prefieren medir la precisión con una medida estadística diferente conocida como AUC-ROC; sin embargo, incluso usando esta medida, los encuestados en línea lograron un valor AUC-ROC de .71, mientras que COMPAS logra .70.

"Los hallazgos de 'precisión predictiva virtualmente igual' en este estudio, en lugar de ser una crítica a la evaluación de COMPAS", escribió Equivant en una declaración en línea, "en realidad se suma a un número creciente de estudios independientes que han confirmado que COMPAS logra una buena previsibilidad y coincide con el estándar AUC cada vez más aceptado de 0,70 para herramientas de evaluación de riesgos bien diseñadas que se utilizan en la justicia penal".

En respuesta, los autores me escribieron que .70 AUC es de hecho el estándar de la industria, pero señalaron que, no obstante, los participantes de su estudio lograron .71. "Por lo tanto, independientemente de la medida preferida de desempeño predictivo, COMPAS y los participantes humanos son indistinguibles", escribieron.

Según los autores del estudio, su trabajo sugiere un límite en la precisión de las predicciones sobre el futuro de las personas basadas en datos históricos, ya sea que las predicciones sean hechas por personas o máquinas. De hecho, la idea de predecir el comportamiento de alguien dentro de dos años puede ser equivocada, dijo Fahid. Independientemente, el punto general es que estas técnicas automatizadas no son mejores que los humanos.

Sin embargo, una advertencia potencial: según Sam Corbett-Davies, un estudiante de doctorado de Stanford que ha investigado los riesgos que plantean los algoritmos de fianza, las predicciones basadas únicamente en datos históricos seleccionados (ya sea que se realicen mediante algoritmos o no) a menudo son aún más precisas. que aquellos que incluyen factores más subjetivos como cómo se siente un juez acerca de los tatuajes.

“Los jueces están expuestos a mucha más información: pueden hablar con los acusados, evaluar su comportamiento, ver sus tatuajes y preguntar sobre su educación o su vida familiar”, me escribió Corbett-Davies en un correo electrónico. “Todos estos factores adicionales son en su mayoría inútiles. , pero permiten que los sesgos humanos se filtren en las decisiones de los jueces. Múltiples estudios han analizado miles de decisiones de jueces y han encontrado que los algoritmos basados en muy pocos factores pueden superar significativamente a los jueces".

En otras palabras, la "intuición" humana basada en una bolsa de sorpresas de factores subjetivos aún puede ser menos precisa que los algoritmos (o incluso los humanos) que solo buscan información histórica seleccionada sobre una persona.

Aún así, los hallazgos de Fahid y Dressel son, como mínimo, una acusación de cómo las empresas armadas con publicidad llamativa y una firme negativa a revelar su salsa secreta han logrado inundar el sistema de justicia penal con algoritmos que ayudan a decidir el futuro de las personas sin una investigación pública. evidencia de su exactitud.

De hecho, la coautora del estudio, Julia Dressel, me dijo por teléfono que el último estudio publicado que comparó específicamente la precisión de los algoritmos con la de los humanos para predecir la reincidencia (que de todos modos pudieron encontrar) se realizó en Canadá en 1984. Algunas cosas han cambiado desde entonces.

“Las empresas deberían tener que demostrar que estos algoritmos son realmente precisos y efectivos”, me dijo Dressel por teléfono. “Creo que el principal paso adelante es reconocer que debemos ser un poco cautelosos con el aprendizaje automático y la inteligencia artificial. Y aunque estas palabras suenan impresionantes y pueden hacer cosas realmente grandiosas, tenemos que mantener estas tecnologías en un nivel alto”.

ACTUALIZACIÓN: Equivant inicialmente no respondió a la solicitud de comentarios de Motherboard, pero después de la publicación emitió un comunicado que criticaba el estudio publicado en Science Advances por Hany Farid y Julia Dressel. La empresa afirmó que los investigadores expresaron erróneamente la cantidad de insumos que utiliza COMPAS y cuestionaron su metodología. Le pedimos a Equivant más detalles, pero se negó. La historia ha sido actualizada con la respuesta de Equivant y comentarios adicionales de los autores que defienden su trabajo.

Problema 702

Incidentes Asociados

Incidente 4021 Reportes
COMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction

Los algoritmos de fianza son tan precisos como personas aleatorias que realizan una encuesta en línea

Problema 702

Incidentes Asociados

Incidente 4021 ReportesCOMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction

Los algoritmos de fianza son tan precisos como personas aleatorias que realizan una encuesta en línea

Incidente 4021 Reportes
COMPAS Algorithm Reportedly Performs Poorly in Crime Recidivism Prediction