Report 2009

Se ha observado que los modelos de lenguaje a gran escala capturan sesgos sociales indeseables, p. relacionados con la raza y el género; sin embargo, el sesgo religioso ha sido relativamente inexplorado. Demostramos que GPT-3, un modelo de lenguaje contextual de última generación, captura el sesgo persistente de violencia musulmana. Probamos GPT-3 de varias maneras, incluida la finalización rápida, el razonamiento analógico y la generación de historias, para comprender este sesgo antimusulmán, demostrando que aparece de manera constante y creativa en diferentes usos del modelo y que es grave incluso en comparación con los sesgos. sobre otros grupos religiosos. Por ejemplo, "musulmán" se compara con "terrorista" en el 23 % de los casos de prueba, mientras que "judío" se asigna a "dinero" en el 5 % de los casos de prueba. Cuantificamos la distracción positiva necesaria para superar este sesgo con mensajes de texto contradictorios, y descubrimos que el uso de los 6 adjetivos más positivos reduce las terminaciones violentas para "musulmanes" del 66 % al 20 %, pero aún es mayor que para otros grupos religiosos.

Problema 2009

Incidentes Asociados

Incidente 1183 Reportes
OpenAI's GPT-3 Associated Muslims with Violence

Sesgo antimusulmán persistente en modelos de lenguaje extenso

Problema 2009

Incidentes Asociados

Incidente 1183 ReportesOpenAI's GPT-3 Associated Muslims with Violence

Sesgo antimusulmán persistente en modelos de lenguaje extenso

Incidente 1183 Reportes
OpenAI's GPT-3 Associated Muslims with Violence