Problema 712

El sistema de justicia penal estadounidense no podría ser menos justo. En todo el país, alrededor de 1,5 millones de personas están encerradas en prisiones estatales y federales. Más de 600.000 personas, la gran mayoría de las cuales aún no han sido condenadas por ningún delito, están tras las rejas en las cárceles locales. Los negros representan el 40 por ciento de los encarcelados, a pesar de que representan solo el 13 por ciento de la población de EE. UU.
Con el aumento del tamaño y el costo de las cárceles y prisiones, sin mencionar la injusticia inherente del sistema, las ciudades y estados de todo el país se han visto atraídos por herramientas tecnológicas que prometen predecir si alguien podría cometer un delito. Estos denominados algoritmos de evaluación de riesgos, actualmente utilizados en estados desde California hasta Nueva Jersey, procesan datos sobre el historial de un acusado (como edad, sexo y condenas anteriores) para ayudar a los tribunales a decidir quién obtiene la fianza, quién va a la cárcel y quién. va gratis
Pero a medida que los gobiernos locales adoptan estas herramientas y se apoyan en ellas para informar decisiones que cambian la vida, queda una pregunta fundamental: ¿Qué pasa si estos algoritmos no son en realidad mejores que los humanos para predecir el crimen? ¿Qué pasa si la reincidencia no es en realidad tan predecible?
Esa es la pregunta que los investigadores del Dartmouth College, Julia Dressel y Hany Farid, se propusieron responder en un nuevo artículo publicado hoy en la revista Science Advances. Descubrieron que un algoritmo popular de evaluación de riesgos, llamado Compas, predice la reincidencia tan bien como una encuesta aleatoria en línea de personas que no tienen ningún tipo de capacitación en justicia penal.
"Esencialmente, no hubo diferencia entre las personas que respondieron una encuesta en línea por un dólar y este software comercial que se usa en los tribunales", dice Farid, quien enseña ciencias de la computación en Dartmouth. "Si este software es tan preciso como las personas no capacitadas que responden a una encuesta en línea, creo que los tribunales deberían considerar eso al tratar de decidir cuánto peso ponerles en la toma de decisiones".
Hombre contra máquina
Cuando todavía era estudiante en Dartmouth y se especializaba en ciencias de la computación y estudios de género, Dressel se encontró con una investigación de ProPublica que mostraba cuán sesgados pueden ser estos algoritmos. Ese informe analizó las predicciones de Compas para unos 7000 acusados en el condado de Broward, Florida, y descubrió que era más probable que el algoritmo categorizara incorrectamente a los acusados negros como de alto riesgo de reincidencia. También era más probable que clasificara incorrectamente a los acusados blancos como de bajo riesgo.
Eso fue lo suficientemente alarmante. Pero Dressel tampoco pareció encontrar ninguna investigación que estudiara si estos algoritmos realmente mejoraron las evaluaciones humanas.
"Esencialmente, no hubo diferencia entre las personas que respondieron a una encuesta en línea por un dólar y este software comercial que se usa en los tribunales". Hany Farid, Universidad de Dartmouth
"Detrás de toda la conversación sobre los algoritmos estaba la suposición de que la predicción algorítmica era intrínsecamente superior a la predicción humana", dice. Pero pocas pruebas respaldaron esa suposición; esta industria naciente es notoriamente reservada sobre el desarrollo de estos modelos. Así que Dressel y su profesor, Farid, diseñaron un experimento para probar Compas por su cuenta.
Usando Amazon Mechanical Turk, un mercado en línea donde a las personas se les paga pequeñas cantidades para completar tareas simples, los investigadores pidieron a unos 400 participantes que decidieran si un acusado determinado era probable que reincidiera basándose en solo siete datos, sin incluir la raza de esa persona. La muestra incluyó 1,000 acusados reales del condado de Broward, porque ProPublica ya había hecho públicos sus datos sobre esas personas, así como información sobre si en realidad reincidieron.
Dividieron a los participantes en grupos, de modo que cada turco evaluó a 50 acusados y dieron la siguiente breve descripción:
El acusado es un [SEXO] mayor de [EDAD]. Han sido acusados de: [CARGO DEL DELITO]. Este delito está tipificado como [GRADO CRIMINAL]. Han sido condenados por [CUENTA PREVIA NO JUVENIL] delitos anteriores. Ellos tienen [CUENTA DE DELITOS MENORES JUVENILES] cargos de delitos graves juveniles y [DELMIDO DE DELITOS MENORES JUVENILES] cargos de delitos menores juveniles en su expediente.
Son solo siete puntos de datos, en comparación con los 137 que Compas acumula a través de su cuestionario para acusados. En un comunicado, Equivant dice que solo usa seis de esos puntos de datos para hacer sus predicciones. Aún así, estos trabajadores en línea no capacitados fueron aproximadamente tan precisos en sus predicciones como Compas.
En general, los turcos predijeron la reincidencia con un 67 por ciento de precisión, en comparación con el 65 por ciento de Compas. Incluso sin tener acceso a la raza del acusado, también predijeron incorrectamente que los acusados negros reincidirían con más frecuencia de lo que predijeron incorrectamente que los acusados blancos reincidirían, lo que se conoce como tasa de falsos positivos. Eso indica que incluso cuando los datos raciales no están disponibles, ciertos puntos de datos, como el número de condenas, pueden convertirse en representantes de la raza, un problema central para erradicar el sesgo en estos algoritmos. La tasa de falsos positivos de los investigadores de Dartmouth para los acusados negros fue del 37 por ciento, en comparación con el 27 por ciento de