Report 2413

Toronto utilizó recientemente una herramienta de inteligencia artificial para predecir cuándo una playa pública será segura. Salió terriblemente mal.

El desarrollador afirmó que la herramienta logró más del 90 % de precisión al predecir cuándo sería seguro nadar en las playas. Pero la herramienta lo hizo mucho peor: en la mayoría de los días en que el agua no era segura, las playas permanecieron abiertas según las evaluaciones de la herramienta. . Era menos preciso que el método anterior de simplemente analizar el agua en busca de bacterias todos los días.

Esto no nos sorprende. De hecho, consideramos que este es el estado de cosas predeterminado cuando se implementa una herramienta de predicción de riesgos de IA.

La herramienta de Toronto involucró una falla elemental en la evaluación del desempeño (los funcionarios de la ciudad nunca verificaron el desempeño del modelo implementado durante el verano), pero es posible que haya fallas mucho más sutiles. Quizás el modelo es generalmente preciso, pero ocasionalmente pasa por alto incluso niveles extremadamente altos de bacterias. O funciona bien en la mayoría de las playas pero falla totalmente en una playa en particular. No es realista esperar que los no expertos puedan evaluar un modelo de manera integral. A menos que el cliente de una herramienta de predicción de riesgos de IA tenga expertos internos, está comprando la herramienta con confianza. Y si tienen sus propios expertos, ¡generalmente es más fácil construir la herramienta internamente!

Cuando se preguntó a los funcionarios sobre la eficacia de la herramienta, desviaron las preguntas diciendo que la herramienta nunca se usó por sí sola: un ser humano siempre tomaba la decisión final. Pero no respondieron preguntas sobre la frecuencia con la que los tomadores de decisiones humanos ignoraron la recomendación de la herramienta.

Este también es un patrón familiar. Los proveedores de IA a menudo usan un cebo y un cambio cuando se trata de supervisión humana. Los proveedores venden estas herramientas con la promesa de una automatización completa y la eliminación de trabajos, pero cuando surgen preocupaciones sobre sesgos, fallas catastróficas u otras limitaciones conocidas de la IA, se retiran a la letra pequeña que dice que la [herramienta no debería no se puede usar solo] (https://doaj.org/article/97ff6743ea7a44a5ade2a04fd2c57a3c). Sus promesas conducen a un exceso de automatización: las herramientas de IA se utilizan para tareas que van mucho más allá de sus capacidades.

Aquí hay otras tres historias de fallas similares de modelos de predicción de riesgos.

Debacle de predicción de sepsis de Epic

Epic es una gran empresa de software para el cuidado de la salud. Almacena datos de salud de más de 300 millones de pacientes. En 2017, Epic lanzó un modelo de predicción de sepsis. Durante los siguientes años, se implementó en cientos de hospitales en los EE. UU. Sin embargo, un estudio de 2021 de investigadores de la Universidad de Michigan encontró que El modelo de Epic tuvo un rendimiento muy inferior al de las afirmaciones del desarrollador.

Las entradas de la herramienta incluían información sobre si un paciente recibió antibióticos. Pero si a un paciente se le administran antibióticos, ya se le ha diagnosticado sepsis, lo que hace la predicción de la herramienta inútil. Estos casos aún se contaban como éxitos cuando el desarrollador evaluó la herramienta, lo que generó afirmaciones exageradas sobre su desempeño. Este es un ejemplo de fuga de datos, un error común en la creación de herramientas de IA.

En una [respuesta] de 2021 (https://www.epic.com/epic/post/for-clinicians-by-clinicians-our-take-on-predictive-models), Epic trató de desviar las críticas afirmando que su IA las herramientas no se utilizan por sí solas: "Los sólidos flujos de trabajo clínicos y los procesos que rodean a estas herramientas son lo que les da un propósito y permiten mejores resultados". Pero ocurrió lo contrario: 88 % de las alertas de la herramienta eran falsas alarmas , aumentando aún más la carga de trabajo de los trabajadores sanitarios. Un año después, Epic dejó de vender su modelo de predicción de sepsis de talla única .

Escándalo de las prestaciones por cuidado de niños holandeses

En 2013, los Países Bajos implementaron un algoritmo para detectar el fraude de asistencia social por parte de las personas que reciben beneficios de cuidado infantil. El algoritmo encontró correlaciones estadísticas en los datos, pero estas correlaciones se utilizaron para hacer acusaciones graves de culpabilidad, sin ninguna otra evidencia.

El algoritmo se utilizó para acusar erróneamente a 30.000 padres. Envió a muchos a la ruina financiera y mental. A las personas acusadas por el algoritmo a menudo se les pedía que devolvieran [cientos de miles de euros](https://www.vice.com/en/article/jgq35d/how-a-discriminatory-algorithm-wrongly-accused-thousands-of -familias-de-fraude). En muchos casos, la acusación se debió a [datos incorrectos sobre personas](https://autoriteitpersoonsgegevens-nl.translate.goog/nl/nieuws/boete-belastingdienst-voor-zwarte-lijst-fsv?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en&_x_tr_pto =wapp), pero no tenían forma de averiguarlo.

Sorprendentemente, una de las entradas del algoritmo era si alguien tenía doble nacionalidad; el simple hecho de tener una nacionalidad turca, marroquí o de Europa del Este haría que una persona sea más propensa a ser [marcada como estafador](https://autoriteitpersoonsgegevens-nl.translate.goog/nl/nieuws/boete-belastingdienst-voor-zwarte- lijst-fsv?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en&_x_tr_pto=wapp).

Peor aún, los acusados no tenían recurso. Antes de que se desarrollara el algoritmo, cada caso solía ser [revisado por humanos](https://www.vice.com/en/article/jgq35d/how-a-discriminatory-algorithm-wrongly-accused-thousand-of-families -de-fraude). Después de su implementación, ningún humano estaba al tanto para anular las decisiones defectuosas del algoritmo.

A pesar de estos problemas, el algoritmo se utilizó durante más de 6 años.

Como consecuencia del uso del algoritmo, [el primer ministro y todo su gabinete dimitieron](https://www.politico.eu/article/dutch-scandal-serves-as-a-warning-for-europe-over-risks -de-usar-algoritmos/). Las autoridades fiscales que implementaron el algoritmo tuvieron que pagar una multa de 3,7 millones de euros por los lapsus ocurridos durante la creación del modelo. Esta fue la mayor multa de este tipo impuesta en el país.

Esto sirve como un ejemplo de advertencia de exceso de automatización: se implementó un algoritmo no probado sin supervisión y causó un daño financiero y emocional masivo a las personas durante 6 años antes de que se disolviera.

Separación familiar en el condado de Allegheny

En 2016, el condado de Allegheny en Pensilvania adoptó la Herramienta de detección familiar de Allegheny (AFST) para predecir qué niños corren el riesgo de maltrato. AFST se utiliza para decidir qué familias deben ser investigadas por los trabajadores sociales. En estas investigaciones, los trabajadores sociales pueden sacar a la fuerza a los niños de sus familias y colocarlos en hogares de guarda, [incluso si no hay denuncias de abuso](https://www.wired.com/story/excerpt-from-automating-inequality /)—solo abandono basado en la pobreza.

Dos años más tarde, se descubrió que AFST sufrió una fuga de datos, lo que generó afirmaciones exageradas sobre su rendimiento. Además, la herramienta estaba sesgada sistemáticamente contra las familias negras. Cuando se les preguntó, los creadores sacaron a relucir la defensa familiar de que [la decisión final siempre la toma un tomador de decisiones humano](https://www.wesa.fm/politics-government/2022-04-29/an-algorithm- que-detecta-la-negligencia-infantil-en-el-condado-de-allegheny-plantea-inquietudes).

Hay muchos otros ejemplos de IA que son particularmente inadecuadas para la predicción de riesgos; en un próximo artículo, observamos 8 ejemplos consecuentes y descubrimos que todos son propensos a fallar de manera similar. Sin escrutinio, todas esas herramientas son sospechosas.

Por supuesto, cuando se les pide a las empresas que compartan sus modelos para el escrutinio, levantan la mano con gritos de "secreto comercial"; esto sucedió con Epic, [Northpointe](https://hdsr.mitpress.mit.edu/pub/ hzwo7ax4/release/3) (la empresa que fabrica la infame herramienta de predicción de reincidencia, COMPAS), y muchas otras empresas que venden este tipo de herramientas.

La conclusión es clara: la responsabilidad debe recaer en la empresa que vende la herramienta de IA para justificar proactivamente su validez. Sin tal evidencia, deberíamos tratar cualquier herramienta de evaluación de riesgos como sospechosa. Y eso incluye la mayoría de las herramientas en el mercado actual.

Otras lecturas

La historia nunca se repite, pero a menudo rima. En Michigan, se utilizó un algoritmo para detectar el fraude de desempleo entre 2013 y 2015. El estado recolectó incorrectamente USD 21 millones de los residentes. En otro escándalo de detección de fraude, el gobierno australiano robó [721 millones de dólares australianos de sus ciudadanos](https://www.vice.com/en/article/y3zkgb/the-story-of-how-the-australian-government-joined -sus-personas-más-vulnerables-v27n3) de 2016 a 2020. Los ciudadanos fueron acusados de fraude de asistencia social utilizando un algoritmo; esto a menudo se llama el escándalo "robodebt".
J. Khadijah Abdurahman ofrece una interpretación incisiva y desgarradora de la separación familiar y el papel de las herramientas de IA, incluido AFST, en la amplificación de sus daños.
En su libro Automatización de la desigualdad, Virginia Eubanks se sumerge en AFST y cómo penaliza la pobreza. Un extracto del capítulo sobre AFST fue publicado en WIRED.
Madeleine Clare Elish y Elizabeth Anne Watkins estudian otro algoritmo de predicción de sepsis—Sepsis Watch— que se implementó en la Universidad de Duke. Documentan el trabajo minucioso que necesitan los médicos para incorporar el modelo en sus flujos de trabajo y contexto social específicos del hospital. Esto se vio favorecido por el hecho de que la herramienta se desarrolló internamente, en contraste con la representación habitual de las herramientas de IA como plug-and-play.
Elish también desarrolla el concepto de zonas de deformación moral: culpar a los operadores humanos de las decisiones incorrectas tomadas con sistemas automatizados sin preguntarles si pueden proporcionar una supervisión razonable.
Ben Green argumenta que la supervisión humana está sobrevalorada: legitima herramientas defectuosas, proporciona una falsa sensación de seguridad y no puede abordar los problemas fundamentales con algoritmos
Deb Raji et al. ofrecen una taxonomía de los diferentes tipos de fallas que han ocurrido en los sistemas de IA del mundo real más allá de la predicción de riesgos.

Las ideas de esta publicación se desarrollaron durante un proyecto de investigación con [Angelina Wang](https://angelina-wang.github. io/) y Solon Barocas. Enlace para cubrir la fuente de la imagen.

Problema 2413

Incidentes Asociados

Incidente 2903 Reportes
False Negatives for Water Quality-Associated Beach Closures

El cebo y el interruptor detrás de las herramientas de predicción de riesgos de IA

Debacle de predicción de sepsis de Epic

Escándalo de las prestaciones por cuidado de niños holandeses

Separación familiar en el condado de Allegheny

Otras lecturas

Problema 2413

Incidentes Asociados

Incidente 2903 ReportesFalse Negatives for Water Quality-Associated Beach Closures

El cebo y el interruptor detrás de las herramientas de predicción de riesgos de IA

Debacle de predicción de sepsis de Epic

Escándalo de las prestaciones por cuidado de niños holandeses

Separación familiar en el condado de Allegheny

Otras lecturas

Incidente 2903 Reportes
False Negatives for Water Quality-Associated Beach Closures