Incidents associés

Nous avons formé des modèles de langage qui sont bien meilleurs pour suivre les intentions des utilisateurs que GPT-3 tout en les rendant plus véridiques et moins toxiques, en utilisant des techniques développées grâce à nos recherches sur l'alignement. Ces modèles InstructGPT, qui sont entraînés avec des humains dans la boucle, sont désormais déployés en tant que modèles de langage par défaut sur notre API.
InstructGPT est meilleur que GPT-3 pour suivre les instructions en anglais.
L'API OpenAI est optimisée par les modèles de langage GPT-3 qui peuvent être amenés à effectuer des tâches en langage naturel à l'aide d'invites de texte soigneusement conçues. Mais ces modèles peuvent également générer des sorties qui sont mensongères, toxiques ou reflètent des sentiments nuisibles. Cela s'explique en partie par le fait que GPT-3 est formé pour prédire le mot suivant sur un grand ensemble de données de texte Internet, plutôt que pour effectuer en toute sécurité la tâche linguistique souhaitée par l'utilisateur. En d'autres termes, ces modèles ne sont pas alignés avec leurs utilisateurs.
Pour rendre nos modèles plus sûrs, plus utiles et plus alignés, nous utilisons une technique existante appelée [apprentissage par renforcement à partir de la rétroaction humaine (RLHF)](https://openai.com/blog/deep-reinforcement-learning-from-human- préférences/). Sur les invites soumises par nos clients à l'API, nos étiqueteurs fournissent des démonstrations du comportement de modèle souhaité et classent plusieurs sorties de nos modèles. Nous utilisons ensuite ces données pour affiner GPT-3.
Les modèles InstructGPT résultants sont bien meilleurs pour suivre les instructions que GPT-3. Ils inventent également des faits moins souvent et montrent de petites diminutions de la génération de sorties toxiques. Nos étiqueteuses préfèrent les sorties de notre modèle 1.3B InstructGPT aux sorties d'un modèle 175B GPT-3, malgré plus de 100 fois moins de paramètres. Dans le même temps, nous montrons que nous n'avons pas à faire de compromis sur les capacités de GPT-3, telles que mesurées par les performances de notre modèle sur les évaluations académiques de la PNL.
Ces modèles InstructGPT, qui étaient en version bêta sur l'API depuis plus d'un an, sont désormais les modèles de langage par défaut accessibles sur notre API. Nous pensons qu'affiner les modèles de langage avec des humains dans la boucle est un outil puissant pour améliorer leur sécurité et leur fiabilité, et nous continuerons à pousser dans cette direction.
C'est la première fois que notre recherche d'alignement, que nous poursuivons depuis [plusieurs](https:// openai.com/blog/fine-tuning-gpt-2/) ans, a été appliqué à notre produit. Notre travail est également lié à des recherches récentes qui affinent les modèles de langage pour suivre des instructions à l'aide d'ensembles de données universitaires en PNL, notamment FLAN et T0. L'une des principales motivations de notre travail est d'accroître l'utilité et la véracité tout en atténuant les méfaits et les biais des modèles linguistiques. Certaines de nos recherches précédentes dans ce sens ont révélé que nous pouvons réduire les sorties nocives en affinant un petit ensemble de données organisées de démonstrations humaines. D'autres recherches se sont concentrées sur le filtrage de l'ensemble de données de pré-formation, les jetons de contrôle spécifiques à la sécurité ou le pilotage des générations de modèles. Nous explorons ces idées et d'autres dans nos recherches d'alignement en cours.
Résultats
Nous évaluons d'abord dans quelle mesure les sorties d'InstructGPT suivent les instructions de l'utilisateur, en demandant aux étiqueteurs de comparer ses sorties à celles de GPT-3. Nous constatons que les modèles InstructGPT sont considérablement préférés sur les invites soumises à la fois aux modèles InstructGPT et GPT-3 sur l'API. Cela est vrai lorsque nous ajoutons un préfixe à l'invite GPT-3 afin qu'il entre dans un "mode de suivi d'instructions".
Évaluations de la qualité des sorties de modèle sur une échelle de 1 à 7 (axe y), pour différentes tailles de modèle (axe x), sur les invites soumises aux modèles InstructGPT sur notre API. Les sorties InstructGPT reçoivent des scores beaucoup plus élevés de la part de nos étiqueteurs que les sorties de GPT-3 avec ou sans invite à quelques prises de vue, ainsi que des modèles affinés avec un apprentissage supervisé. Nous trouvons des résultats similaires pour les invites soumises aux modèles GPT-3 sur l'API.
Pour mesurer la sécurité de nos modèles, nous utilisons principalement une suite de mesures existantes sur des ensembles de données accessibles au public. Comparé à GPT-3, InstructGPT produit moins de faussetés imitatives (selon TruthfulQA) et est moins toxique (selon RealToxicityPrompts). Nous effectuons également des évaluations humaines sur notre distribution d'invites d'API et constatons qu'InstructGPT invente moins souvent des faits ("hallucinations") et génère des sorties plus appropriées.
Évaluer InstructGPT pour la toxicité, la véracité et la pertinence. Les scores les plus faibles sont meilleurs pour la toxicité et les hallucinations, et les scores les plus élevés sont meilleurs pour l'AQ véridique et la pertinence. Les hallucinations et la pertinence sont mesurées sur notre distribution d'invite API. Les résultats sont combinés pour toutes les tailles de modèle.
Enfin, nous constatons que les sorties InstructGPT sont préférées à celles de FLAN et T0 sur notre distribution client. Cela indique que les données utilisées pour former FLAN et T0, principalement des tâches académiques de PNL, ne sont pas entièrement représentatives de la façon dont les modèles de langage déployés sont utilisés dans la pratique.
Méthodes
Pour entraîner les modèles InstructGPT, notre technique de base est l'apprentissage par renforcement à partir des commentaires humains (RLHF), une méthode que nous avons contribué à mettre au point nos recherches antérieures sur l'alignement. Cette technique utilise les préférences humaines comme signal de récompense pour affiner nos modèles, ce qui est important car les problèmes de sécurité et d'alignement que nous visons à résoudre sont complexes et subjectifs, et ne sont pas entièrement capturés par de simples métriques automatiques.
Nous collectons d'abord un ensemble de données de démonstrations écrites par l'homme sur les invites soumises à notre API, et l'utilisons pour former nos lignes de base d'apprentissage supervisé. Ensuite, nous collectons un ensemble de données de comparaisons étiquetées par l'homme entre deux sorties de modèle sur un ensemble plus large d'invites d'API. Nous formons ensuite un modèle de récompense (RM) sur cet ensemble de données pour prédire quelle sortie nos étiqueteurs préféreraient. Enfin, nous utilisons ce RM comme fonction de récompense et affinons notre politique GPT-3 pour maximiser cette récompense en utilisant l'algorithme PPO.
Une façon de penser à ce processus est qu'il « déverrouille » les capacités que GPT-3 possédait déjà, mais qu'il était difficile d'obtenir par le biais d'une ingénierie rapide uniquement : c'est parce que notre procédure de formation a une capacité limitée à enseigner au modèle de nouvelles capacités par rapport à ce que est appris lors de la pré-formation, car il utilise moins de 2 % du calcul et des données par rapport à la pré-formation du modèle.
Une limite de cette approche est qu'elle introduit une « taxe d'alignement » : aligner les modèles uniquement sur les tâches client peut détériorer leurs performances sur certaines autres tâches académiques en PNL. Ce n'est pas souhaitable car, si nos techniques d'alignement aggravent les modèles sur les tâches qui intéressent les gens, elles sont moins susceptibles d'être adoptées dans la pratique. Nous avons trouvé un changement algorithmique simple qui minimise cette taxe d'alignement : lors du réglage fin de RL, nous mélangeons une petite fraction des données d'origine utilisées pour former GPT-3, et nous nous entraînons sur ces données en utilisant la maximisation de vraisemblance logarithmique normale. Cela maintient à peu près les performances en matière de sécurité et de préférences humaines, tout en atténuant les baisses de performances sur les tâches académiques et, dans plusieurs cas, dépassant même la ligne de base GPT-3.
Généraliser à des préférences plus larges
Notre procédure aligne le comportement de nos modèles sur les préférences de nos étiqueteurs, qui produisent directement les données utilisées pour former nos modèles, et de nous, les chercheurs, qui fournissons des conseils aux étiqueteurs par le biais d'instructions écrites, de commentaires directs sur des exemples spécifiques et de conversations informelles. Il est également influencé par nos clients et les préférences implicites dans nos politiques API. Nous avons sélectionné des étiqueteurs qui ont obtenu de bons résultats lors d'un test de dépistage d'aptitude à identifier et à répondre aux invites sensibles. Cependant, ces différentes sources d'influence sur les données ne garantissent pas que nos modèles soient alignés sur les préférences d'un groupe plus large.
Nous avons mené deux expériences pour étudier cela. Tout d'abord, nous évaluons GPT-3 et InstructGPT à l'aide d'étiqueteurs retenus qui n'ont produit aucune des données d'apprentissage, et nous avons constaté que ces étiqueteurs préfèrent les sorties des modèles InstructGPT à peu près au même rythme que nos étiqueteurs d'apprentissage. Deuxièmement, nous formons des modèles de récompense sur les données d'un sous-ensemble de nos étiqueteurs et constatons qu'ils se généralisent bien pour prédire les préférences d'un sous-ensemble différent d'étiqueteurs. Cela suggère que nos modèles ne sont pas uniquement sur-adaptés aux préférences de nos étiqueteurs de formation. Cependant, des travaux supplémentaires sont nécessaires pour étudier comment ces modèles fonctionnent sur des groupes d'utilisateurs plus larges et comment ils fonctionnent sur des entrées où les humains ne sont pas d'accord sur le comportement souhaité.
Limites
Malgré des progrès significatifs, nos modèles InstructGPT sont loin d'être totalement alignés ou totalement sûrs ; ils génèrent toujours des sorties toxiques ou biaisées, inventent des faits et génèrent du contenu sexuel et violent sans incitation explicite. Mais la sécurité d'un système d'apprentissage automatique dépend non seulement du comportement des modèles sous-jacents, mais également de la manière dont ces modèles sont déployés. Pour assurer la sécurité de notre API, nous continuerons à examiner les applications potentielles avant leur mise en ligne, fournir des filtres de contenu pour détecter les complétions dangereuses et surveillez les abus.
Un sous-produit de la formation de nos modèles à suivre les instructions de l'utilisateur est qu'ils peuvent devenir plus susceptibles d'être mal utilisés s'ils reçoivent l'instruction de produire des sorties non sécurisées. Pour résoudre ce problème, nos modèles doivent refuser certaines instructions ; faire cela de manière fiable est un problème de recherche ouvert important que nous sommes ravis de nous attaquer.
En outre, dans de nombreux cas, l'alignement sur la préférence moyenne de l'étiqueteur peut ne pas être souhaitable. Par exemple, lors de la génération d'un texte qui affecte de manière disproportionnée un groupe minoritaire, les préférences de ce groupe doivent être pondérées plus fortement. À l'heure actuelle, InstructGPT est formé pour suivre les instructions en anglais ; ainsi, il est biaisé en faveur des valeurs culturelles des anglophones. Nous menons des recherches pour comprendre les différences et les désaccords entre les préférences des étiqueteurs afin de pouvoir conditionner nos modèles sur les valeurs de populations plus spécifiques. Plus généralement, aligner les sorties du modèle sur les valeurs d'humains spécifiques introduit des choix difficiles avec des implications sociétales, et en fin de compte, nous devons établir des processus responsables et inclusifs pour prendre ces décisions.
Prochaines étapes
Il s'agit de la première application de notre recherche d'alignement à notre produit. Nos résultats montrent que ces techniques sont efficaces pour améliorer de manière significative l'alignement des systèmes d'IA à usage général avec les intentions humaines. Cependant, ce n'est que le début : nous continuerons à pousser ces techniques pour améliorer l'alignement de nos modèles actuels et futurs vers des outils linguistiques sûrs et utiles aux humains.