Report 1462

El CEO de Facebook, Mark Zuckerberg, sonó optimista hace tres años cuando escribió sobre el progreso que su empresa estaba logrando en las herramientas de moderación automatizadas impulsadas por inteligencia artificial. “Hasta finales de 2019, esperamos haber entrenado nuestros sistemas para detectar de manera proactiva la gran mayoría del contenido problemático”, escribió en noviembre de 2018.

Pero tan recientemente como en marzo, documentos internos de Facebook revelan que la compañía descubrió que sus herramientas de moderación automatizadas se estaban quedando cortas, eliminando publicaciones que eran responsables de solo una pequeña fracción de las vistas de discurso de odio, violencia e incitación en la plataforma. Las publicaciones eliminadas por las herramientas de IA solo representaron entre el 3 y el 5 % de las visualizaciones de incitación al odio y el 0,6 % de las visualizaciones de violencia e incitación.

Si bien eso es un aumento del 2 por ciento de las opiniones sobre discursos de odio hace dos años, según documentos entregados a The Wall Street Journal por la denunciante Frances Haugen, está lejos de ser una gran mayoría. Uno de los ingenieros senior de la empresa escribió en 2019 que sentía que la empresa podía mejorar en un orden de magnitud, pero que entonces podrían alcanzar un techo más allá del cual sería difícil seguir avanzando.

“El problema es que no tenemos y posiblemente nunca tendremos un modelo que capture incluso la mayoría de los daños a la integridad, particularmente en áreas sensibles”, escribió. “Estimaciones recientes sugieren que, a menos que haya un cambio importante en la estrategia, será muy difícil mejorar esto más allá del 10-20% en el corto-medio plazo”.

Para llegar a estas estimaciones, Facebook toma una muestra de publicaciones, les aplica sus herramientas de moderación de IA y luego les pide a moderadores humanos que evalúen la precisión de la IA. Luego usa esa fracción para estimar cuánto discurso de odio o violencia e incitación se pasa por alto en toda la plataforma.

“Cuando considera que nos perdemos el 95 por ciento de las infracciones al discurso de odio, se da cuenta de que en realidad podría tomar 100 infracciones para que ese grupo acumule sus cinco faltas”, dijo un científico de datos en una nota de 2020 que fue reportada por BuzzFeed y WSJ.

Estadísticas diferentes

La visión interna de Facebook de sus herramientas de moderación de IA parece mucho más pesimista de lo que informa al público. Parte de eso se debe a que lo que informa internamente y lo que le dice al público son sutiles, aunque completamente diferentes. En declaraciones públicas, Facebook ha revelado el porcentaje de discurso de odio descubierto por AI antes de que los usuarios lo informen, que es un número muy alto, 98 por ciento. El problema es que hay muchos casos en los que el discurso de odio no se denuncia.

El portavoz de la compañía, Andy Stone, le dijo a WSJ que las cifras sobre las publicaciones eliminadas no incluyen otras acciones que toma la plataforma, como disminuir el alcance del contenido sospechoso. En ese contexto, dijo, el contenido que viola la política está disminuyendo en prevalencia y es por lo que la compañía se juzga a sí misma.

Facebook ha dicho que ha mejorado en la búsqueda de discursos de odio en su plataforma, afirmando que eliminó de manera proactiva 15 veces más en 2020 que en 2017. Sin embargo, esa cifra oscurece algunos detalles clave. “Preguntamos, ¿cuál es el numerador? ¿Cuál es el denominador? ¿Cómo conseguiste ese número? Y luego son como los grillos”, dijo al WSJ Rashad Robinson, presidente del grupo de derechos civiles Color of Change. “Nunca mostrarán su trabajo”.

Más difícil de informar

Hoy, las herramientas de inteligencia artificial de Facebook pueden estar detectando más contenido antes de que los usuarios lo informen, porque hace dos años, Facebook intencionalmente dificultó que los usuarios presentaran informes. Un efecto secundario de eso fue que las herramientas de IA ahora podían capturar más publicaciones antes de que los usuarios finalmente las reportaran.

“Es posible que hayamos movido la aguja demasiado lejos”, dijo uno de los autores del informe sobre los obstáculos adicionales que los usuarios deben superar para denunciar publicaciones que pueden violar las políticas del sitio. Stone, el portavoz de Facebook, le dijo al WSJ que la compañía había eliminado algunas, aunque no todas, las barreras.

Facebook tiene un fuerte motivo de ganancias para automatizar más su moderación. Los moderadores humanos le costaron a la empresa 104 millones de dólares en 2019, según WSJ, y tres cuartas partes de eso fue pagar a las personas para que respondieran a los informes de los usuarios. Ese año, Facebook se propuso “reducir el costo en dólares de la capacidad total de revisión de odio en un 15 %”, dice un documento.

Además, WSJ informa que Facebook en ese momento también modificó su algoritmo de una manera que lo llevó a ignorar más informes de usuarios.

Confusión de IA

Los documentos internos de Facebook revelan cuán lejos están sus herramientas de moderación de IA de identificar lo que los moderadores humanos estaban captando fácilmente. Las peleas de gallos, por ejemplo, fueron señaladas por error por la IA como un accidente automovilístico. “Estos son claramente videos de peleas de gallos”, dijo el informe. En otro caso, los videos transmitidos en vivo por perpetradores de tiroteos masivos fueron etiquetados por herramientas de inteligencia artificial como juegos de paintball o un viaje a través de un lavado de autos.

Si la situación suena sombría en los EE. UU. o entre los países de habla inglesa, parece mucho peor en otros lugares. En Afganistán, por ejemplo, la compañía dijo en informes que carece de un diccionario de insultos en los diversos idiomas del país. Como resultado, Facebook estima que identificó solo el 0,23 por ciento del discurso de odio publicado en la plataforma en Afganistán.

Los informes internos muestran que los usuarios de Facebook preferirían que la empresa adopte un enfoque más agresivo para hacer cumplir las violaciones de la política por discurso de odio y violencia e incitación, incluso si eso significa eliminar una mayor cantidad de publicaciones inocentes. En una encuesta, los usuarios de todo el mundo dijeron que la eliminación de contenido inexacto era la menor de sus preocupaciones y le dijeron a Facebook que el discurso de odio y la violencia deberían ser su máxima prioridad. En los EE. UU., más usuarios sintieron que las eliminaciones incorrectas eran un problema, pero que el discurso de odio y la violencia seguían siendo votados como el principal problema.

Aún así, el liderazgo de Facebook ha estado más preocupado por eliminar demasiadas publicaciones, dijeron al WSJ fuentes internas de la compañía. Como resultado, dijeron, ahora es más probable que los ingenieros entrenen modelos que eviten los falsos positivos, lo que permite que más discursos de odio se escapen sin ser detectados.

Problema 1462

Incidentes Asociados

Incidente 1291 Reporte
Facebook's Automated Tools Failed to Adequately Remove Hate Speech, Violence, and Incitement

Moderador de IA de Facebook confundió videos de tiroteos masivos y lavados de autos

Problema 1462

Incidentes Asociados

Incidente 1291 ReporteFacebook's Automated Tools Failed to Adequately Remove Hate Speech, Violence, and Incitement

Moderador de IA de Facebook confundió videos de tiroteos masivos y lavados de autos

Incidente 1291 Reporte
Facebook's Automated Tools Failed to Adequately Remove Hate Speech, Violence, and Incitement