Incidentes Asociados

En octubre de 2020, escuchamos comentarios de personas en Twitter sobre nuestro [algoritmo de recorte de imágenes](https: //blog.twitter.com/engineering/en_us/topics/infrastructure/2018/Smart-Auto-Cropping-of-Images.html) no sirvió a todas las personas de manera equitativa. Como parte de nuestro compromiso para abordar este problema, también compartimos que volveríamos a analizar nuestro modelo. por sesgo. En los últimos meses, nuestros equipos han acelerado las mejoras en la forma en que evaluamos los algoritmos en busca de posibles sesgos y mejoramos nuestra comprensión de si ML es siempre la mejor solución para el problema en cuestión. Hoy compartimos los resultados de nuestra evaluación de sesgo y un enlace para aquellos interesados en leer y [reproducir](https://github.com/ twitter-research/image-crop-analysis) nuestro análisis con más detalles técnicos.
El análisis de nuestro algoritmo de recorte de imágenes fue un esfuerzo de colaboración junto con [Kyra Yee] (https://twitter.com/Kyra_Yee) y [Tao Tantipongpipat] (https://twitter.com/UthaiponT) de nuestra ML Ética, Transparencia , and Accountability (META) y Shubhanshu Mishra de nuestro equipo de investigación de comprensión de contenido, que se especializa en mejorar nuestros modelos ML para varios tipos de contenido en tweets. En nuestra investigación, probamos nuestro modelo en busca de sesgos basados en el género y la raza y consideramos si nuestro modelo se alineaba con nuestro objetivo de permitir que las personas tomen sus propias decisiones en nuestra plataforma.
¿Cómo funciona un algoritmo de prominencia y dónde podrían surgir daños?
Twitter comenzó a usar un algoritmo de prominencia en 2018 para recortar imágenes. Hicimos esto para mejorar la consistencia en el tamaño de las fotos en tu línea de tiempo y para permitirte ver más Tweets de un vistazo. El algoritmo de prominencia funciona estimando lo que una persona podría querer ver primero dentro de una imagen para que nuestro sistema pueda determinar cómo recortar una imagen a un tamaño fácilmente visible. Los modelos de prominencia están entrenados en cómo el ojo humano mira una imagen como un método para priorizar lo que probablemente sea más importante para la mayoría de las personas. El algoritmo, entrenado con datos de seguimiento ocular humano, predice una puntuación de prominencia en todas las regiones de la imagen y elige el punto con la puntuación más alta como el centro del recorte.
En nuestro análisis más reciente de este modelo, consideramos tres lugares donde podrían surgir daños:
- Trato desigual basado en diferencias demográficas: Las personas en Twitter notaron instancias en las que nuestro modelo eligió a personas blancas sobre personas negras en imágenes e imágenes de hombres sobre imágenes de mujeres. Probamos el modelo en un conjunto de datos más grande para determinar si esto era un problema con el modelo.
- Sesgos de objetivación, también conocidos como "mirada masculina": Las personas en Twitter también identificaron casos en los que el recorte de imágenes eligió el pecho o las piernas de una mujer como una característica destacada. Probamos el modelo en un conjunto de datos más grande para determinar si se trataba de una falla sistemática.
- Libertad para tomar medidas: Una decisión algorítmica no permite que las personas elijan cómo les gustaría expresarse en la plataforma, lo que resulta en un daño de representación.
¿Cómo lo probamos y qué encontramos?
Para probar cuantitativamente los sesgos potenciales basados en el género y la raza de este algoritmo de prominencia, creamos un experimento de imágenes enlazadas aleatoriamente de personas de diferentes razas y géneros. (Nota: en nuestro artículo, compartimos más detalles sobre las compensaciones entre el uso de términos de identidad y anotaciones de tono de piel en nuestro análisis). Si el modelo es demográficamente igual, no veríamos ninguna diferencia en la cantidad de veces que el usuario eligió cada imagen. algoritmo de prominencia. En otras palabras, la paridad demográfica significa que cada imagen tiene un 50 % de posibilidades de destacar.
Esto es lo que encontramos:
- En las comparaciones de hombres y mujeres, hubo una diferencia del 8% de la paridad demográfica a favor de las mujeres.
- En las comparaciones de individuos blancos y negros, hubo una diferencia del 4% de la paridad demográfica a favor de los individuos blancos.
- En las comparaciones de mujeres blancas y negras, hubo una diferencia del 7% de la paridad demográfica a favor de las mujeres blancas.
- En las comparaciones de hombres blancos y negros, hubo una diferencia del 2% de la paridad demográfica a favor de los hombres blancos.
También probamos la "mirada masculina" seleccionando aleatoriamente 100 imágenes de hombres y mujeres que tenían más de un área en la imagen identificada por el algoritmo como sobresaliente y observando cómo nuestro modelo eligió recortar la imagen. No encontramos evidencia de sesgo de objetivación; en otras palabras, nuestro algoritmo no recortó imágenes de hombres o mujeres en áreas distintas de sus rostros a un ritmo significativo. Esto es lo que encontramos:
- Por cada 100 imágenes por grupo, unas tres recortadas en una ubicación distinta a la cabeza.
- Cuando las imágenes no se recortaban en la cabeza, se recortaban en aspectos no físicos de la imagen, como un número en una camiseta deportiva.
Cualitativamente consideramos el algoritmo de prominencia dentro de la equidad en la literatura de ML, incluidos aquellos sobre daños tecnológicos a la sociedad. Incluso si el algoritmo de prominencia se ajustara para reflejar la igualdad perfecta entre los subgrupos de raza y género, nos preocupa el daño de representación del algoritmo automatizado cuando las personas no pueden representarse a sí mismas como desean en la plataforma. La prominencia también tiene otros daños potenciales más allá del alcance de este análisis, incluidas las insensibilidades a los matices culturales.
¿Qué acciones estamos tomando?
Consideramos las compensaciones entre la velocidad y la consistencia del recorte automatizado con los riesgos potenciales que vimos en esta investigación. Una de nuestras conclusiones es que no todo en Twitter es un buen candidato para un algoritmo y, en este caso, cómo recortar una imagen es una decisión que es mejor que tomen las personas.
En marzo, comenzamos a probar una nueva forma de mostrar fotos con relación de aspecto estándar en su totalidad en iOS y Android, es decir, sin el recorte del algoritmo de prominencia. El objetivo de esto era dar a las personas más control sobre cómo aparecen sus imágenes y, al mismo tiempo, mejorar la experiencia de las personas que ven las imágenes en su línea de tiempo. Después de recibir comentarios positivos sobre esta experiencia, lanzamos esta función para todos. Esta actualización también incluye una vista previa real de la imagen en el campo del editor de Tweets, para que los autores de Tweets sepan cómo se verán sus Tweets antes de publicarlos. Esta versión reduce nuestra dependencia de ML para una función que acordamos que las personas que usan nuestros productos realizan mejor. Estamos trabajando en mejoras adicionales a los medios en Twitter que se basan en este esfuerzo inicial, y esperamos implementarlo pronto para todos.
Responsabilidad pública
Queremos agradecerle por compartir con nosotros sus comentarios abiertos y sus críticas a este algoritmo. Como discutimos en nuestra [publicación de blog] reciente (https://blog.twitter.com/en_us/topics/company/2021/introducing-responsible-machine-learning-initiative.html) sobre nuestras iniciativas de ML responsable, Twitter está comprometido para brindar más transparencia en torno a las formas en que investigamos e invertimos para comprender los daños potenciales que resultan del uso de sistemas de decisión algorítmicos como ML. Puede esperar más actualizaciones y trabajos publicados como este en el futuro.
¿Cómo puede estar involucrado?
Sabemos que hay mucho trabajo por hacer y apreciamos sus comentarios para ayudarnos a identificar cómo podemos mejorar. Envíenos un tweet usando el hashtag #AskTwitterMETA. También puede acceder a nuestro código y nuestro artículo académico completo está disponible en arXiv [aquí](https://arxiv.org/abs/ 2105.08667).