Report 1372

De niño, desarrollas un sentido de lo que significa “justicia”. Es un concepto que aprendes desde el principio a medida que aceptas el mundo que te rodea. Algo se siente justo o no.

Pero cada vez más, los algoritmos han comenzado a arbitrar la justicia por nosotros. Ellos deciden quién ve anuncios de viviendas, quién es contratado o despedido, e incluso quién es enviado a la cárcel. En consecuencia, a las personas que los crean (ingenieros de software) se les pide que articulen lo que significa ser justos en su código. Esta es la razón por la cual los reguladores de todo el mundo ahora están lidiando con una pregunta: ¿Cómo se puede cuantificar matemáticamente la equidad?

Esta historia intenta ofrecer una respuesta. Y para hacerlo, necesitamos tu ayuda. Vamos a recorrer un algoritmo real, uno que se usa para decidir quién va a la cárcel, y le pediremos que modifique sus diversos parámetros para que sus resultados sean más justos. (No se preocupe, ¡esto no implicará mirar el código!)

El algoritmo que estamos examinando se conoce como COMPAS, y es una de varias herramientas diferentes de "evaluación de riesgos" que se utilizan en el sistema legal penal de los EE. UU.

A un alto nivel, se supone que COMPAS ayude a los jueces a determinar si un acusado debe permanecer en la cárcel o debe salir mientras espera el juicio. Se entrena con datos históricos de acusados para encontrar correlaciones entre factores como la edad y el historial de alguien con el sistema legal penal, y si la persona fue arrestada nuevamente o no. Luego usa las correlaciones para predecir la probabilidad de que un acusado sea arrestado por un nuevo delito durante el período de espera del juicio.1

Nota

Arrestos versus condenas

Este proceso es muy imperfecto. Las herramientas utilizan los arrestos como representación de los delitos, pero en realidad hay grandes discrepancias entre los dos porque la policía tiene un historial de arrestos desproporcionados de minorías raciales y de manipulación de datos. Las nuevas detenciones, además, a menudo se realizan por infracciones técnicas, como no comparecer ante el tribunal, en lugar de repetir la actividad delictiva. En esta historia, simplificamos demasiado para examinar qué sucedería si los arrestos correspondieran a delitos reales.

Esta predicción se conoce como la "puntuación de riesgo" del acusado y pretende ser una recomendación: los acusados de "alto riesgo" deben ser encarcelados para evitar que causen un daño potencial a la sociedad; Los acusados de “bajo riesgo” deben ser liberados antes de su juicio. (En realidad, los jueces no siempre siguen estas recomendaciones, pero las evaluaciones de riesgo siguen siendo influyentes).

Los defensores de las herramientas de evaluación de riesgos argumentan que hacen que el sistema legal penal sea más justo. Reemplazan la intuición y el sesgo de los jueces, en particular, el sesgo racial, con una evaluación aparentemente más “objetiva”. También pueden reemplazar la práctica de pagar una fianza en los EE. UU., que requiere que los acusados paguen una suma de dinero para su liberación. La fianza discrimina a los estadounidenses pobres y afecta de manera desproporcionada a los acusados negros, que están sobrerrepresentados en el sistema legal penal.

Nota

Metodología de ProPublica

Para los acusados que fueron encarcelados antes del juicio, ProPublica analizó si fueron arrestados nuevamente dentro de los dos años posteriores a su liberación. Luego usó eso para estimar si los acusados habrían sido arrestados nuevamente antes del juicio si no hubieran sido encarcelados.

Como lo exige la ley, COMPAS no incluye la raza en el cálculo de sus puntajes de riesgo. Sin embargo, en 2016, una investigación de ProPublica argumentó que la herramienta todavía estaba sesgada contra los negros. ProPublica descubrió que, entre los acusados que nunca volvieron a ser arrestados, los acusados negros tenían el doble de probabilidades que los blancos de haber sido clasificados como de alto riesgo por COMPAS.2

Así que nuestra tarea ahora es tratar de mejorar COMPAS. ¿Listo?

Comencemos con el mismo conjunto de datos que ProPublica usó en su análisis. Incluye a todos los acusados calificados por el algoritmo COMPAS en el condado de Broward, Florida, desde 2013 hasta 2014. En total, son más de 7200 perfiles con el nombre, la edad, la raza y el puntaje de riesgo COMPAS de cada persona, indicando si la persona fue finalmente arrestada nuevamente después de ser liberado o encarcelado antes del juicio.

Para que los datos sean más fáciles de visualizar, hemos seleccionado aleatoriamente 500 acusados en blanco y negro del conjunto completo.

Hemos representado a cada acusado como un punto.

Recuerde: todos estos puntos son personas acusadas (pero no condenadas) de un delito. Algunos serán encarcelados antes del juicio; otros serán liberados inmediatamente. Algunos volverán a ser arrestados después de su liberación; otros no lo harán. Queremos comparar dos cosas: las predicciones (qué acusados recibieron puntuaciones de riesgo "altas" y "bajas") y los resultados del mundo real (qué acusados fueron arrestados nuevamente después de ser liberados).

COMPAS califica a los acusados en una escala del 1 al 10, donde 1 corresponde aproximadamente a un 10 % de probabilidad de que lo vuelvan a arrestar, 2 a 20 %, y así sucesivamente.

Veamos cómo COMPAS calificó a todos.

Nota

Puntuaciones de COMPAS

COMPAS fue diseñado para hacer predicciones agregadas sobre grupos de personas que comparten características similares, en lugar de predicciones sobre individuos específicos. La metodología detrás de sus puntuaciones y las recomendaciones sobre cómo usarlas son más complicadas de lo que teníamos espacio para presentar; Puedes leer sobre ellos en el enlace de arriba.

Aunque COMPAS solo puede ofrecer una probabilidad estadística de que un acusado vuelva a ser arrestado antes del juicio, los jueces, por supuesto, tienen que tomar una decisión de todo o nada: liberar o detener al acusado. Para los propósitos de esta historia, vamos a utilizar el umbral de “alto riesgo” de COMPAS, una puntuación de 7 o más, para representar una recomendación de que se detenga a un acusado.3

De ahora en adelante, usted está a cargo. Su misión es rediseñar la última etapa de este algoritmo encontrando un lugar más justo para establecer el umbral de "alto riesgo".

Así es como se verá su umbral. Intenta hacer clic en él y arrastrarlo.

Entonces, primero, imaginemos el mejor de los casos: todos los acusados que su algoritmo etiqueta con una puntuación de alto riesgo vuelven a ser arrestados, y todos los acusados que obtienen una puntuación de bajo riesgo no. A continuación, nuestro gráfico muestra cómo se vería esto. Los círculos rellenos son los acusados que fueron arrestados nuevamente; los círculos vacíos son los que no lo fueron.

Ahora mueva el umbral para que su algoritmo sea lo más justo posible.

(En otras palabras, solo los acusados arrestados nuevamente deben ser encarcelados).

¡Excelente! Eso fue fácil. Su umbral debe establecerse entre 6 y 7. Nadie fue detenido innecesariamente, y nadie que fue liberado fue arrestado nuevamente.

Pero, por supuesto, este escenario ideal en realidad nunca sucede. Es imposible predecir perfectamente el resultado para cada persona. Esto significa que los puntos llenos y vacíos no se pueden separar tan claramente.

Así que aquí está quién es realmente arrestado de nuevo.

Ahora mueva el umbral nuevamente para que su algoritmo sea lo más justo posible.

(Sugerencia: desea maximizar su precisión).

Notará que no importa dónde coloque el umbral, nunca es perfecto: siempre encarcelamos a algunos acusados que no vuelven a ser arrestados (puntos vacíos a la derecha del umbral) y liberamos a algunos acusados que sí son arrestados nuevamente (puntos llenos a la izquierda del umbral). Esta es una compensación con la que nuestro sistema legal penal siempre se ha enfrentado, y no es diferente cuando usamos un algoritmo.

Para que estas compensaciones sean más claras, veamos el porcentaje de predicciones incorrectas que hace COMPAS en cada lado del umbral, en lugar de solo medir la precisión general. Ahora podremos ver explícitamente si nuestro umbral favorece mantener innecesariamente a las personas en la cárcel o liberar a las personas que luego son arrestadas de nuevo.4 Observe que el umbral predeterminado de COMPAS favorece lo último.

Nota

Definiciones técnicas

Estos dos porcentajes de error también se conocen como "tasa de falsos negativos" (que hemos etiquetado como "liberados pero arrestados nuevamente") y "tasa de falsos positivos" (que hemos etiquetado como "encarcelados innecesariamente").

¿Cómo debemos equilibrar de manera justa esta compensación? No existe una respuesta universal, pero en la década de 1760, el juez inglés William Blackstone escribió: “Es mejor que escapen diez culpables que que sufra un inocente”.

La proporción de Blackstone sigue siendo muy influyente en los EE. UU. en la actualidad. Así que usémoslo como inspiración.

Mueva el umbral a donde el porcentaje de "liberados pero vueltos a arrestar" sea aproximadamente 10 veces el porcentaje de "encarcelados innecesariamente".

Ya puede ver dos problemas con el uso de un algoritmo como COMPAS. La primera es que una mejor predicción siempre puede ayudar a reducir las tasas de error en general, pero nunca puede eliminarlas por completo. No importa cuántos datos recolectemos, dos personas que parecen iguales para el algoritmo siempre pueden terminar tomando decisiones diferentes.

El segundo problema es que incluso si sigue las recomendaciones de COMPAS de manera constante, alguien, un ser humano, primero tiene que decidir dónde debe estar el umbral de "alto riesgo", ya sea utilizando la proporción de Blackstone o algo más. Eso depende de todo tipo de consideraciones: políticas, económicas y sociales.

Ahora llegaremos a un tercer problema. Aquí es donde nuestras exploraciones de justicia comienzan a ser interesantes. ¿Cómo se comparan las tasas de error entre los diferentes grupos? ¿Hay ciertos tipos de personas que tienen más probabilidades de ser detenidas innecesariamente?

Veamos cómo se ven nuestros datos cuando consideramos la raza de los acusados.

Ahora mueva cada umbral para ver cómo afecta de manera diferente a los acusados blancos y negros.

La raza es un ejemplo de una clase protegida en los EE. UU., lo que significa que la discriminación por ese motivo es ilegal. Otras clases protegidas incluyen género, edad y discapacidad.

Ahora que hemos separado a los acusados blancos y negros, hemos descubierto que aunque la raza no se usa para calcular los puntajes de riesgo de COMPAS, los puntajes tienen diferentes tasas de error para los dos grupos. En el umbral predeterminado de COMPAS entre 7 y 8, el 16 % de los acusados negros que no vuelven a ser arrestados han sido encarcelados innecesariamente, mientras que lo mismo ocurre con solo el 7 % de los acusados blancos. ¡Eso no parece justo en absoluto! Esto es exactamente lo que destacó ProPublica en su investigación.

Bien, entonces arreglemos esto.

Mueva cada umbral para que los acusados blancos y negros sean encarcelados innecesariamente aproximadamente al mismo ritmo.

(Hay varias soluciones. Hemos elegido una, pero puede intentar encontrar otras).

Intentamos volver a alcanzar la proporción de Blackstone, por lo que llegamos a la siguiente solución: los acusados blancos tienen un umbral entre 6 y 7, mientras que los acusados negros tienen un umbral entre 8 y 9. Ahora, aproximadamente el 9 % de los acusados blancos y negros que no Los que no vuelven a ser arrestados son encarcelados innecesariamente, mientras que el 75% de los que lo hacen son arrestados nuevamente después de no pasar tiempo en la cárcel. ¡Buen trabajo! Su algoritmo parece mucho más justo que COMPAS ahora.

Pero espera, ¿lo es? En el proceso de equiparar las tasas de error entre razas, perdimos algo importante: nuestros umbrales para cada grupo están en lugares diferentes, por lo que nuestros puntajes de riesgo significan cosas diferentes para los acusados blancos y negros.

Los acusados blancos son encarcelados por un puntaje de riesgo de 7, pero los acusados negros son liberados por el mismo puntaje. Esto, una vez más, no parece justo. Dos personas con la misma puntuación de riesgo tienen la misma probabilidad de ser arrestadas nuevamente, entonces, ¿no deberían recibir el mismo trato? En los EE. UU., el uso de diferentes umbrales para diferentes razas también puede generar problemas legales complicados con la Enmienda 14, la cláusula de igual protección de la Constitución.

Así que intentemos esto una vez más con un umbral único compartido entre ambos grupos.

Mueva el umbral nuevamente para que los acusados blancos y negros sean encarcelados innecesariamente al mismo ritmo.

Si te sientes frustrado, hay una buena razón. No hay solución.

Le dimos dos definiciones de equidad: mantener las tasas de error comparables entre grupos y tratar a las personas con las mismas puntuaciones de riesgo de la misma manera. ¡Ambas definiciones son totalmente defendibles! Pero satisfacer ambos al mismo tiempo es imposible.

La razón es que los acusados negros y blancos son arrestados de nuevo a diferentes ritmos. Mientras que el 52 % de los acusados negros fueron arrestados nuevamente en nuestros datos del condado de Broward, solo el 39 % de los acusados blancos lo fueron. Hay una diferencia similar en muchas jurisdicciones de los EE. UU., en parte debido a la historia del país de policías que atacan desproporcionadamente a las minorías (como mencionamos anteriormente).

Las predicciones reflejan los datos utilizados para hacerlas, ya sea por algoritmo o no. Si los acusados negros son arrestados a una tasa más alta que los acusados blancos en el mundo real, también tendrán una tasa más alta de arrestos previstos. Esto significa que también tendrán puntajes de riesgo más altos en promedio, y un mayor porcentaje de ellos serán etiquetados como de alto riesgo, tanto correcta como incorrectamente. Esto es cierto sin importar qué algoritmo se use, siempre que esté diseñado para que cada puntaje de riesgo signifique lo mismo independientemente de la raza.

Este extraño conflicto de definiciones de equidad no se limita solo a los algoritmos de evaluación de riesgos en el sistema legal penal. Los mismos tipos de paradojas son válidos para los algoritmos de puntuación de crédito, seguros y contratación. En cualquier contexto en el que un sistema automatizado de toma de decisiones deba asignar recursos o castigos entre múltiples grupos que tienen diferentes resultados, las diferentes definiciones de equidad inevitablemente resultarán mutuamente excluyentes.

No existe un algoritmo que pueda solucionar esto; esto ni siquiera es un problema algorítmico, en realidad. Los jueces humanos están haciendo actualmente el mismo tipo de compensaciones forzadas, y lo han hecho a lo largo de la historia.

Pero esto es lo que ha cambiado un algoritmo. Aunque es posible que los jueces no siempre sean transparentes sobre cómo eligen entre las diferentes nociones de equidad, las personas pueden impugnar sus decisiones. Por el contrario, COMPAS, fabricado por la empresa privada Northpointe, es un secreto comercial que no se puede revisar ni cuestionar públicamente. Los acusados ya no pueden cuestionar sus resultados y las agencias gubernamentales pierden la capacidad de examinar el proceso de toma de decisiones. Ya no hay responsabilidad pública.

Entonces, ¿qué deberían hacer los reguladores? La Ley de responsabilidad algorítmica propuesta de 2019 es un ejemplo de un buen comienzo, dice Andrew Selbst, profesor de derecho de la Universidad de California que se especializa en inteligencia artificial y derecho. El proyecto de ley, que busca regular el sesgo en los sistemas automatizados de toma de decisiones, tiene dos características notables que sirven como modelo para la legislación futura. Primero, requeriría que las empresas auditaran sus sistemas de aprendizaje automático en busca de sesgo y discriminación en una "evaluación de impacto". En segundo lugar, no especifica una definición de equidad.

“Con una evaluación de impacto, está siendo muy transparente acerca de cómo usted, como empresa, aborda la cuestión de la equidad”, dice Selbst. Eso trae de nuevo la responsabilidad pública al debate. Debido a que “la equidad significa diferentes cosas en diferentes contextos”, agrega, evitar una definición específica permite esa flexibilidad.

Pero si los algoritmos deben usarse para arbitrar la equidad en primer lugar es una pregunta complicada. Los algoritmos de aprendizaje automático se entrenan con "datos producidos a través de historias de exclusión y discriminación", escribe Ruha Benjamin, profesora asociada de la Universidad de Princeton, en su libro Race After Technology. Las herramientas de evaluación de riesgos no son diferentes. La pregunta más importante sobre su uso, o cualquier algoritmo utilizado para clasificar a las personas, es si reducen las desigualdades existentes o las empeoran.

Selbst recomienda proceder con cautela: “Cada vez que conviertes las nociones filosóficas de equidad en expresiones matemáticas, pierden su matiz, su flexibilidad, su maleabilidad”, dice. “Eso no quiere decir que algunas de las eficiencias de hacerlo eventualmente no valdrán la pena. Solo tengo mis dudas”.

Problema 1372

Incidentes Asociados

Incidente 1115 Reportes
Northpointe Risk Models

¿Puedes hacer que la IA sea más justa que un juez? Juega nuestro juego de algoritmos judiciales

Problema 1372

Incidentes Asociados

Incidente 1115 ReportesNorthpointe Risk Models

¿Puedes hacer que la IA sea más justa que un juez? Juega nuestro juego de algoritmos judiciales

Incidente 1115 Reportes
Northpointe Risk Models