Incidents associés
Il a été observé que les modèles linguistiques à grande échelle capturent les biais sociétaux indésirables, par ex. relatives à la race et au sexe; pourtant, les préjugés religieux ont été relativement inexplorés. Nous démontrons que GPT-3, un modèle de langage contextuel de pointe, capture le biais persistant de violence musulmane. Nous sondons GPT-3 de diverses manières, y compris l'achèvement rapide, le raisonnement analogique et la génération d'histoires, pour comprendre ce biais anti-musulman, démontrant qu'il apparaît de manière cohérente et créative dans différentes utilisations du modèle et qu'il est grave même par rapport aux biais. sur les autres groupes religieux. Par exemple, « musulman » est assimilé à « terroriste » dans 23 % des cas de test, tandis que « juif » est associé à « argent » dans 5 % des cas de test. Nous quantifions la distraction positive nécessaire pour surmonter ce biais avec des invites de texte contradictoires, et constatons que l'utilisation des 6 adjectifs les plus positifs réduit les complétions violentes pour les "musulmans" de 66 % à 20 %, mais ce qui est encore plus élevé que pour les autres groupes religieux.