Report 2657

Cuando Google Translate convierte artículos de noticias escritos en español a inglés, las frases que se refieren a mujeres a menudo se convierten en "él dijo" o "él escribió". El software diseñado para advertir a las personas que usan cámaras Nikon cuando la persona que están fotografiando parece estar parpadeando tiende a interpretar a los asiáticos como si estuvieran siempre parpadeando. La incrustación de palabras, un algoritmo popular que se usa para procesar y analizar grandes cantidades de datos en lenguaje natural, caracteriza los nombres europeos estadounidenses como agradables y los afroamericanos como desagradables.

Estos son solo algunos de los muchos ejemplos descubiertos hasta ahora de aplicaciones de inteligencia artificial (IA) que discriminan sistemáticamente a poblaciones específicas.

La toma de decisiones sesgada no es exclusiva de la IA, pero como [han señalado muchos investigadores] (https://www.nature.com/news/there-is-a-blind-spot-in-ai-research-1.20805), el creciente alcance de la IA hace que sea particularmente importante abordarlo. De hecho, la naturaleza ubicua del problema significa que necesitamos soluciones sistemáticas. Aquí trazamos varias estrategias posibles.

datos sesgados

Tanto en la academia como en la industria, los informáticos tienden a recibir elogios (desde publicaciones hasta cobertura de los medios) por entrenar algoritmos cada vez más sofisticados. Se presta relativamente poca atención a cómo se recopilan, procesan y organizan los datos.

Un factor importante de sesgo en la IA son los datos de entrenamiento. La mayoría de las tareas de aprendizaje automático se entrenan en grandes conjuntos de datos anotados. Las redes neuronales profundas para la clasificación de imágenes, por ejemplo, a menudo se entrenan en ImageNet, un conjunto de más de 14 millones de imágenes etiquetadas. En el procesamiento del lenguaje natural, los algoritmos estándar se entrenan en corpus que consisten en miles de millones de palabras. Los investigadores suelen construir estos conjuntos de datos extrayendo sitios web, como Google Images y Google News, utilizando términos de consulta específicos o agregando información de fácil acceso de fuentes como Wikipedia. Luego, estos conjuntos de datos son anotados, a menudo por estudiantes graduados o a través de plataformas de crowdsourcing como Amazon Mechanical Turk.

Dichos métodos pueden producir involuntariamente datos que codifican sesgos de género, étnicos y culturales.

Con frecuencia, algunos grupos están sobrerrepresentados y otros subrepresentados. Más del 45 % de los datos de ImageNet, que alimenta la investigación en visión por computadora, proviene de los Estados Unidos, donde vive solo el 4 % de la población mundial. Por el contrario, China e India juntas aportan solo el 3 % de los datos de ImageNet, a pesar de que estos países representan el 36 % de la población mundial. Esta falta de geodiversidad explica en parte por qué los algoritmos de visión por computadora etiquetan una fotografía de una novia estadounidense tradicional vestida de blanco como 'novia', 'vestido', 'mujer', 'boda', pero una fotografía de una novia del norte de la India como 'arte escénico'. ' y 'disfraz'.

En medicina, los predictores de aprendizaje automático pueden ser particularmente vulnerables a conjuntos de entrenamiento sesgados, porque los datos médicos son especialmente costosos de producir y etiquetar. El año pasado, los investigadores utilizaron el aprendizaje profundo para identificar el cáncer de piel a partir de fotografías. Entrenaron su modelo en un conjunto de datos de 129 450 imágenes, el 60 % de las cuales fueron extraídas de Google Images. Pero menos del 5% de estas imágenes son de personas de piel oscura y el algoritmo no se probó en personas de piel oscura. Por lo tanto, el rendimiento del clasificador podría variar sustancialmente entre diferentes poblaciones.

Otra fuente de sesgo se puede rastrear hasta los propios algoritmos.

Un programa típico de aprendizaje automático intentará maximizar la precisión general de la predicción para los datos de entrenamiento. Si un grupo específico de personas aparece con más frecuencia que otros en los datos de entrenamiento, el programa optimizará para esas personas porque esto aumenta la precisión general. Los científicos informáticos evalúan algoritmos en conjuntos de datos de "prueba", pero generalmente se trata de submuestras aleatorias del conjunto de entrenamiento original y, por lo tanto, es probable que contengan los mismos sesgos.

Los algoritmos defectuosos pueden amplificar los sesgos a través de bucles de retroalimentación. Considere el caso de sistemas entrenados estadísticamente como Google Translate que usa por defecto el pronombre masculino. Este patrón está impulsado por la proporción de pronombres masculinos y pronombres femeninos en los corpus ingleses de 2:1. Peor aún, cada vez que un programa de traducción utiliza de forma predeterminada "él dijo", aumenta la frecuencia relativa del pronombre masculino en la web, lo que podría revertir los avances logrados con tanto esfuerzo hacia la equidad4. La proporción de pronombres masculinos y femeninos se redujo de 4:1 en la década de 1960, gracias a las transformaciones sociales a gran escala.

Inclinando la balanza

Los sesgos en los datos a menudo reflejan desequilibrios profundos y ocultos en las infraestructuras institucionales y las relaciones sociales de poder. Wikipedia, por ejemplo, parece una fuente de datos rica y diversa. Pero menos del 18% de las entradas biográficas del sitio son sobre mujeres. Los artículos sobre mujeres enlazan con artículos sobre hombres con más frecuencia que viceversa, lo que hace que los hombres sean más visibles para los motores de búsqueda. También incluyen más menciones de parejas románticas y familiares.

Por lo tanto, la atención técnica y la conciencia social deben incorporarse a la construcción de conjuntos de datos para la capacitación. Específicamente, se deben tomar medidas para garantizar que dichos conjuntos de datos sean diversos y no subrepresentan a grupos particulares. Esto significa ir más allá de las clasificaciones convenientes —“mujer/hombre”, “negro/blanco”, etc.— que no captan las complejidades de las identidades étnicas y de género.

Algunos investigadores ya están comenzando a trabajar en esto (ver Nature 558, 357–360; 2018). Por ejemplo, los científicos informáticos revelaron recientemente que los sistemas comerciales de reconocimiento facial clasifican erróneamente el género con mucha más frecuencia cuando se presentan con mujeres de piel más oscura en comparación con hombres de piel más clara, con una tasa de error del 35 % frente al 0,8 %. Para abordar esto, los investigadores seleccionaron un nuevo conjunto de datos de imágenes compuesto por 1270 personas, equilibradas en género y etnia. Volver a entrenar y ajustar los algoritmos de clasificación de rostros existentes utilizando estos datos debería mejorar su precisión.

Para ayudar a identificar las fuentes de sesgo, recomendamos que los anotadores etiqueten sistemáticamente el contenido de los conjuntos de datos de entrenamiento con metadatos estandarizados. Varios grupos de investigación ya están diseñando "hojas de datos" que contienen metadatos y "etiquetas nutricionales" para conjuntos de datos de aprendizaje automático (http://datanutrition.media.mit.edu/).

Cada conjunto de datos de entrenamiento debe ir acompañado de información sobre cómo se recopilaron y anotaron los datos. Si los datos contienen información sobre personas, se deben proporcionar estadísticas resumidas sobre la geografía, el género, el origen étnico y otra información demográfica (ver "Poder de la imagen"). Si el etiquetado de datos se realiza a través de crowdsourcing, se debe incluir información básica sobre los participantes de la multitud, junto con la solicitud o instrucción exacta que se les dio.

En la medida de lo posible, los conservadores de datos deben proporcionar la definición precisa de los descriptores vinculados a los datos. Por ejemplo, en el caso de los datos de justicia penal, apreciar el tipo de "delito" en el que se ha entrenado un modelo aclarará cómo se debe aplicar e interpretar ese modelo.

Correcciones integradas

Muchas revistas ya requieren que los autores proporcionen tipos similares de información sobre datos experimentales como requisito previo para la publicación. Por ejemplo, Nature pide a los autores que carguen todos los datos de micromatrices en el repositorio de acceso abierto Gene Expression Omnibus, que a su vez requiere que los autores envíen metadatos sobre el protocolo experimental. Alentamos a los organizadores de conferencias sobre aprendizaje automático, como la Conferencia internacional sobre aprendizaje automático, a solicitar metadatos estandarizados como un componente esencial del proceso de envío y revisión por pares. Los anfitriones de repositorios de datos, como OpenML, y las plataformas de competencia de IA, como Kaggle, deberían hacer lo mismo.

Por último, los informáticos deberían esforzarse por desarrollar algoritmos que sean más resistentes a los sesgos humanos en los datos.

Se están siguiendo varios enfoques. Una consiste en incorporar restricciones y, esencialmente, empujar el modelo de aprendizaje automático para garantizar que logre un rendimiento equitativo en diferentes subpoblaciones y entre individuos similares. Un enfoque relacionado implica cambiar el algoritmo de aprendizaje para reducir su dependencia de atributos sensibles, como el origen étnico, el género, los ingresos y cualquier información que se correlacione con esas características.

Estos enfoques incipientes de eliminación de sesgos son prometedores, pero deben refinarse y evaluarse en el mundo real.

Sin embargo, un desafío abierto con este tipo de soluciones es que el origen étnico, el género y otra información relevante deben registrarse con precisión. A menos que se capturen las categorías apropiadas, es difícil saber qué restricciones imponer al modelo o qué correcciones hacer. Los enfoques también requieren que los diseñadores de algoritmos decidan a priori qué tipos de sesgos quieren evitar.

Un enfoque complementario es utilizar el propio aprendizaje automático para identificar y cuantificar el sesgo en algoritmos y datos. A esto lo llamamos realizar una auditoría de IA, en la que el auditor es un algoritmo que prueba sistemáticamente el modelo original de aprendizaje automático para identificar sesgos tanto en el modelo como en los datos de entrenamiento.

Un ejemplo de esto es nuestro trabajo reciente que usa un método popular de aprendizaje automático llamado incrustación de palabras para cuantificar los estereotipos históricos en los Estados Unidos. La incrustación de palabras asigna cada palabra en inglés a un punto en el espacio (un vector geométrico) de modo que la distancia entre los vectores captura las similitudes semánticas entre las palabras correspondientes. Captura las relaciones de analogía, tales como 'hombre' es a 'rey' como 'mujer' es a 'reina'. Desarrollamos un algoritmo, el auditor de IA, para consultar la palabra incrustación en busca de otras analogías de género. Esto ha revelado que 'hombre' es para 'médico' lo que 'mujer' es para 'enfermera', y que 'hombre' es para 'programador de computadoras' lo que 'mujer' es para 'ama de casa'.

Una vez que el auditor revela estereotipos en la inserción de palabras y en los datos del texto original, es posible reducir el sesgo modificando las ubicaciones de los vectores de palabras. Además, al evaluar cómo han evolucionado los estereotipos, se pueden eliminar los sesgos de los algoritmos entrenados en textos históricos. Las incrustaciones para cada década de datos de texto de EE. UU. de Google Books desde 1910 hasta 1990 revelan, por ejemplo, actitudes impactantes y cambiantes hacia los estadounidenses de origen asiático. Este grupo pasa de ser descrito como "monstruoso" y "bárbaro" en 1910 a "inhibido" y "sensible" en 1990, con transiciones abruptas después de la Segunda Guerra Mundial y las olas de inmigración de la década de 1980.

Entendiéndolo

A medida que los informáticos, especialistas en ética, científicos sociales y otros se esfuerzan por mejorar la imparcialidad de los datos y de la IA, todos debemos pensar en las nociones adecuadas de imparcialidad. ¿Deberían los datos ser representativos del mundo tal como es, o de un mundo al que muchos aspirarían? Del mismo modo, ¿una herramienta de IA utilizada para evaluar candidatos potenciales para un trabajo debería evaluar el talento o la probabilidad de que la persona se asimile bien al entorno laboral? ¿Quién debe decidir qué nociones de equidad priorizar?

Para abordar estas preguntas y evaluar el impacto más amplio del entrenamiento de datos y algoritmos, los investigadores de aprendizaje automático deben colaborar con científicos sociales y expertos en humanidades, género, medicina, medio ambiente y derecho. Se están realizando varios esfuerzos para tratar de fomentar dicha colaboración, incluida la iniciativa 'IA centrada en el ser humano' en la que estamos involucrados en la Universidad de Stanford en California. Y este compromiso debe comenzar a nivel de pregrado. Los estudiantes deben examinar el contexto social de la IA al mismo tiempo que aprenden cómo funcionan los algoritmos.

Dispositivos, programas y procesos dan forma a nuestras actitudes, comportamientos y cultura. La IA está transformando las economías y las sociedades, cambiando la forma en que nos comunicamos y trabajamos y remodelando la gobernanza y la política. Nuestras sociedades han soportado desigualdades durante mucho tiempo. AI no debe sostenerlos involuntariamente o incluso empeorarlos.

Problema 2657

La IA puede ser sexista y racista: es hora de hacerlo justo

datos sesgados

Inclinando la balanza

Correcciones integradas

Entendiéndolo