Incidentes Asociados

Estoy en casa jugando un videojuego en mi computadora. Mi trabajo es inflar un globo a la vez y ganar la mayor cantidad de dinero posible. Cada vez que hago clic en "Pump", el globo se expande y recibo cinco centavos virtuales. Pero si el globo revienta antes de que presione "Cobrar", todas mis ganancias digitales desaparecen.
Después de llenar 39 globos, gané $14.40. Aparece un mensaje en la pantalla: “Se adhiere a un enfoque consistente en situaciones de alto riesgo. Rasgo medido: Riesgo.”
Este juego es uno de una serie creada por una empresa llamada Pymetrics, que muchas grandes empresas estadounidenses contratan para evaluar a los solicitantes de empleo. Si presenta una solicitud para McDonald's, Boston Consulting Group, Kraft Heinz o Colgate-Palmolive, es posible que se le pida que participe en los juegos de Pymetrics.
Mientras juego, un sistema de inteligencia artificial mide rasgos que incluyen la generosidad, la equidad y la atención. Si realmente estuviera solicitando un puesto, el sistema compararía mis puntajes con los de los empleados que ya trabajan en ese puesto. Si mi perfil de personalidad reflejara los rasgos más específicos de las personas que tienen éxito en el puesto, avanzaría a la siguiente etapa de contratación.
Cada vez más empresas utilizan herramientas de contratación basadas en IA como estas para administrar la avalancha de solicitudes que reciben, especialmente ahora que hay aproximadamente el doble de trabajadores desempleados en los EE. UU. que antes de la pandemia. Una encuesta de más de 7300 gerentes de recursos humanos en todo el mundo realizada por Mercer, una empresa de gestión de activos, encontró que la proporción que dijo que su departamento utiliza análisis predictivos aumentó del 10 % en 2016 al 39 % en 2020.
Sin embargo, al igual que con otras aplicaciones de IA, los investigadores han descubierto que algunas herramientas de contratación producen resultados sesgados, por ejemplo, favoreciendo inadvertidamente a hombres o personas de ciertos entornos socioeconómicos. Muchos ahora abogan por una mayor transparencia y más regulación. Una solución en particular se propone una y otra vez: las auditorías de IA.
El año pasado, Pymetrics pagó a un equipo de informáticos de la Universidad Northeastern para auditar su algoritmo de contratación. Fue una de las primeras veces que una empresa de este tipo solicitó una auditoría de terceros de su propia herramienta. La directora ejecutiva Frida Polli me dijo que pensó que la experiencia podría ser un modelo para el cumplimiento de una ley propuesta que exige tales auditorías para las empresas en la ciudad de Nueva York, donde tiene su sede Pymetrics.
“Lo que Pymetrics está haciendo, que está incorporando a un tercero neutral para auditar, es una muy buena dirección en la que avanzar”, dice Pauline Kim, profesora de derecho en la Universidad de Washington en St. Louis, que tiene experiencia en derecho laboral. e inteligencia artificial. “Si pueden impulsar a la industria a ser más transparente, ese es un paso adelante realmente positivo”.
Sin embargo, a pesar de toda la atención que han recibido las auditorías de IA, su capacidad para detectar y protegerse contra el sesgo sigue sin probarse. El término "auditoría de IA" puede significar muchas cosas diferentes, lo que dificulta confiar en los resultados de las auditorías en general. Las auditorías más rigurosas aún pueden tener un alcance limitado. E incluso con acceso ilimitado a las entrañas de un algoritmo, puede ser sorprendentemente difícil decir con certeza si trata a los solicitantes de manera justa. En el mejor de los casos, las auditorías brindan una imagen incompleta y, en el peor de los casos, podrían ayudar a las empresas a ocultar prácticas problemáticas o controvertidas detrás del sello de aprobación de un auditor.
Dentro de una auditoría de IA
Muchos tipos de herramientas de contratación de IA ya están en uso hoy en día. Incluyen software que analiza las expresiones faciales, el tono y el lenguaje de un candidato durante las entrevistas en video, así como programas que escanean currículums, predicen la personalidad o investigan la actividad en las redes sociales de un candidato.
Independientemente del tipo de herramienta que vendan, los proveedores de contratación de IA generalmente prometen que estas tecnologías encontrarán candidatos mejor calificados y más diversos a un costo más bajo y en menos tiempo que los departamentos de recursos humanos tradicionales. Sin embargo, hay muy poca evidencia de que lo hagan y, en cualquier caso, eso no es lo que probó la auditoría de IA del algoritmo de Pymetrics. En cambio, tenía como objetivo determinar si una herramienta de contratación en particular discrimina gravemente a los candidatos por motivos de raza o género.
Christo Wilson de Northeastern había analizado algoritmos antes, incluidos los que impulsan el aumento de precios de Uber y el motor de búsqueda de Google. Pero hasta que llamó Pymetrics, nunca había trabajado directamente con una empresa que estaba investigando.
El equipo de Wilson, que incluía a su colega Alan Mislove y dos estudiantes graduados, se basó en datos de Pymetrics y tuvo acceso a los científicos de datos de la empresa. Los auditores fueron editorialmente independientes, pero acordaron notificar a Pymetrics sobre cualquier hallazgo negativo antes de la publicación. La compañía pagó a Northeastern $104,465 a través de una subvención, incluidos $64,813 que se destinaron a los salarios de Wilson y su equipo.
El producto principal de Pymetrics es un conjunto de 12 juegos que, según dice, se basan principalmente en experimentos de ciencia cognitiva. Los juegos no están destinados a ser ganados o perdidos; están diseñados para discernir los atributos cognitivos, sociales y emocionales de un solicitante, incluida la tolerancia al riesgo y la capacidad de aprendizaje. Pymetrics comercializa su software como "totalmente libre de prejuicios". Pymetrics y Wilson decidieron que los auditores se centrarían estrictamente en una pregunta específica: ¿Son justos los modelos de la empresa?
Basaron la definición de equidad en lo que se conoce coloquialmente como la regla de los cuatro quintos, que se ha convertido en un estándar de contratación informal en los Estados Unidos. La Comisión de Igualdad de Oportunidades en el Empleo (EEOC, por sus siglas en inglés) publicó pautas en 1978 que establecen que los procedimientos de contratación deben seleccionar aproximadamente la misma proporción de hombres y mujeres, y de personas de diferentes grupos raciales. Según la regla de los cuatro quintos, explica Kim, “si los hombres pasan el 100 % del tiempo al siguiente paso en el proceso de contratación, las mujeres deben pasar al menos el 80 % del tiempo”.
Si las herramientas de contratación de una empresa violan la regla de los cuatro quintos, la EEOC podría examinar más de cerca sus prácticas. “Para un empleador, no es un cheque sin fondos”, dice Kim. “Si los empleadores se aseguran de que estas herramientas no sean extremadamente discriminatorias, con toda probabilidad no llamarán la atención de los reguladores federales”.
Para averiguar si el software de Pymetrics superó esta barra, el equipo de Northeastern primero tuvo que tratar de entender cómo funciona la herramienta.
Cuando un nuevo cliente se registra en Pymetrics, debe seleccionar al menos 50 empleados que hayan tenido éxito en el puesto que desea desempeñar. Estos empleados juegan los juegos de Pymetrics para generar datos de capacitación. A continuación, el sistema de Pymetrics compara los datos de esos 50 empleados con los datos del juego de más de 10 000 personas seleccionadas al azar entre más de dos millones. Luego, el sistema crea un modelo que identifica y clasifica las habilidades más específicas de los empleados exitosos del cliente.
Para verificar el sesgo, Pymetrics ejecuta este modelo contra otro conjunto de datos de aproximadamente 12,000 personas (seleccionadas al azar de más de 500,000) que no solo jugaron los juegos sino que también revelaron su demografía en una encuesta. La idea es determinar si el modelo pasaría la prueba de los cuatro quintos si evaluara a estas 12.000 personas.
Si el sistema detecta algún sesgo, construye y prueba más modelos hasta que encuentra uno que predice el éxito y produce aproximadamente las mismas tasas de aprobación para hombres y mujeres y para miembros de todos los grupos raciales. Entonces, en teoría, incluso si la mayoría de los empleados exitosos de un cliente son hombres blancos, Pymetrics puede corregir el sesgo al comparar los datos del juego de esos hombres con datos de mujeres y personas de otros grupos raciales. Lo que busca son puntos de datos que predicen rasgos que no se correlacionan con la raza o el género, pero que distinguen a los empleados exitosos.
Wilson y su equipo de auditores querían averiguar si el mecanismo antisesgo de Pymetrics de hecho previene el sesgo y si se puede engañar. Para hacer eso, básicamente intentaron jugar con el sistema, por ejemplo, duplicando los datos del juego del mismo hombre blanco muchas veces e intentando usarlos para construir un modelo. El resultado siempre fue el mismo: "La forma en que se presenta su código y la forma en que los científicos de datos usan la herramienta, no había una forma obvia de engañarlos esencialmente para que produjeran algo que estaba sesgado y se aclarara", dice Wilson. .
El otoño pasado, los auditores compartieron sus hallazgos con la empresa: el sistema de Pymetrics cumple con la regla de los cuatro quintos. El equipo de Northeastern publicó recientemente el estudio del algoritmo en línea y presentará un informe sobre el trabajo en marzo en la conferencia de responsabilidad algorítmica FAccT.
“Lo importante es que Pymetrics está haciendo un muy buen trabajo”, dice Wilson.
Una solución imperfecta
Pero aunque el software de Pymetrics cumple con la regla de los cuatro quintos, la auditoría no demostró que la herramienta esté libre de sesgo alguno, ni que en realidad elija a los candidatos más calificados para cualquier trabajo.
"Efectivamente, parecía que la pregunta que se hacía era más '¿Pymetrics está haciendo lo que dice que hace?' en lugar de '¿Están haciendo lo correcto o correcto?'", dice Manish Raghavan, estudiante de doctorado en informática en la Universidad de Cornell. , quien ha publicado extensamente sobre inteligencia artificial y contratación.
Por ejemplo, la regla de los cuatro quintos solo requiere que las personas de diferentes géneros y grupos raciales pasen a la siguiente ronda del proceso de contratación con aproximadamente las mismas tasas. Una herramienta de contratación de IA podría satisfacer ese requisito y aún así ser muy inconsistente al predecir qué tan bien las personas de diferentes grupos realmente tienen éxito en el trabajo una vez que son contratadas. Y si una herramienta predice el éxito con mayor precisión para los hombres que para las mujeres, por ejemplo, eso significaría que en realidad no está identificando a las mujeres mejor calificadas, por lo que las mujeres contratadas "pueden no tener tanto éxito en el trabajo", dice Kim.
Otro problema que ni la regla de los cuatro quintos ni la auditoría de Pymetrics abordan es la interseccionalidad. La regla compara hombres con mujeres y un grupo racial con otro para ver si aprueban en las mismas tasas, pero no compara, digamos, hombres blancos con hombres asiáticos o mujeres negras. “Podrías tener algo que satisficiera la regla de los cuatro quintos [para] hombres versus mujeres, negros versus blancos, pero podría disfrazar un sesgo contra las mujeres negras”, dice Kim.
Pymetrics no es la única empresa que tiene su IA auditada. HireVue, otro gran proveedor de software de contratación de IA, hizo que una empresa llamada O'Neil Risk Consulting and Algorithmic Auditing (ORCAA) evaluara uno de sus algoritmos. Esa empresa es propiedad de Cathy O'Neil, científica de datos y autora de Weapons of Math Destruction, uno de los libros más populares sobre el sesgo de la IA, que ha abogado por las auditorías de la IA durante años.
ORCAA y HireVue centraron su auditoría en un producto: las evaluaciones de contratación de HireVue, que muchas empresas utilizan para evaluar a los recién graduados universitarios. En este caso, ORCAA no evaluó el diseño técnico de la herramienta en sí. En cambio, la empresa entrevistó a las partes interesadas (incluido un solicitante de empleo, un experto en ética de la IA y varias organizaciones sin fines de lucro) sobre los posibles problemas con las herramientas y le dio a HireVue recomendaciones para mejorarlas. El informe final se publica en el sitio web de HireVue, pero solo se puede leer después de firmar un acuerdo de confidencialidad.
Alex Engler, miembro de Brookings Institution que ha estudiado herramientas de contratación de IA y que está familiarizado con ambas auditorías, cree que Pymetrics es la mejor: "Hay una gran diferencia en la profundidad del análisis que se habilitó", dice. Pero una vez más, ninguna auditoría abordó si los productos realmente ayudan a las empresas a tomar mejores decisiones de contratación. Y ambos fueron financiados por las empresas auditadas, lo que crea "un pequeño riesgo de que el auditor se vea influenciado por el hecho de que se trata de un cliente", dice Kim.
Por estas razones, dicen los críticos, las auditorías voluntarias no son suficientes. Los científicos de datos y los expertos en responsabilidad ahora están presionando por una regulación más amplia de las herramientas de contratación de IA, así como estándares para auditarlas.
llenando los huecos
Algunas de estas medidas están comenzando a surgir en los EE. UU. En 2019, los senadores Cory Booker y Ron Wyden y la representante Yvette Clarke introdujeron la Ley de Responsabilidad Algorítmica para hacer que las auditorías de sesgo sean obligatorias para cualquier gran empresa que use IA, aunque el proyecto de ley no ha sido ratificado.
Mientras tanto, hay cierto movimiento a nivel estatal. La Ley de entrevistas en video de IA en Illinois, que entró en vigencia en enero de 2020, requiere que las empresas informen a los candidatos cuando usan IA en entrevistas en video. Las ciudades también están tomando medidas: en Los Ángeles, el concejal Joe Buscaino propuso una moción de contratación justa para sistemas automatizados en noviembre.
El proyecto de ley de la ciudad de Nueva York, en particular, podría servir como modelo para ciudades y estados de todo el país. Haría que las auditorías anuales sean obligatorias para los proveedores de herramientas de contratación automatizadas. También requeriría que las empresas que usan las herramientas informen a los solicitantes qué características usó su sistema para tomar una decisión.
Pero la cuestión de cómo serían realmente esas auditorías anuales permanece abierta. Para muchos expertos, una auditoría en la línea de lo que hizo Pymetrics no iría muy lejos para determinar si estos sistemas discriminan, ya que esa auditoría no verificó la interseccionalidad ni evaluó la capacidad de la herramienta para medir con precisión los rasgos que dice medir. personas de diferentes razas y géneros.
Y a muchos críticos les gustaría que las auditorías fueran realizadas por el gobierno en lugar de empresas privadas, para evitar conflictos de intereses. “Debe haber una regulación preventiva para que antes de usar cualquiera de estos sistemas, la Comisión de Igualdad de Oportunidades en el Empleo deba revisarlo y luego otorgar la licencia”, dice Frank Pasquale, profesor de la Facultad de Derecho de Brooklyn y experto en rendición de cuentas algorítmica. Tiene en mente un proceso de aprobación previa para herramientas de contratación algorítmica similar al que usa la Administración de Drogas y Alimentos con las drogas.
Hasta ahora, la EEOC ni siquiera ha emitido pautas claras sobre los algoritmos de contratación que ya están en uso. Pero las cosas podrían empezar a cambiar pronto. En diciembre, 10 senadores enviaron una carta a la EEOC preguntando si tiene la autoridad para comenzar a vigilar los sistemas de contratación de IA para evitar la discriminación contra las personas de color, que ya se han visto afectadas de manera desproporcionada por la pérdida de empleos durante la pandemia.