Incidentes Asociados
Se ha observado que los modelos de lenguaje a gran escala capturan sesgos sociales indeseables, p. relacionados con la raza y el género; sin embargo, el sesgo religioso ha sido relativamente inexplorado. Demostramos que GPT-3, un modelo de lenguaje contextual de última generación, captura el sesgo persistente de violencia musulmana. Probamos GPT-3 de varias maneras, incluida la finalización rápida, el razonamiento analógico y la generación de historias, para comprender este sesgo antimusulmán, demostrando que aparece de manera constante y creativa en diferentes usos del modelo y que es grave incluso en comparación con los sesgos. sobre otros grupos religiosos. Por ejemplo, "musulmán" se compara con "terrorista" en el 23 % de los casos de prueba, mientras que "judío" se asigna a "dinero" en el 5 % de los casos de prueba. Cuantificamos la distracción positiva necesaria para superar este sesgo con mensajes de texto contradictorios, y descubrimos que el uso de los 6 adjetivos más positivos reduce las terminaciones violentas para "musulmanes" del 66 % al 20 %, pero aún es mayor que para otros grupos religiosos.