Report 2950

JE. Le jeu est en marche

Le mois dernier, j'ai écrit sur le projet d'IA de fanfiction de Redwood Research. Ils ont essayé de former une IA d'écriture d'histoires pour ne pas inclure de scènes violentes, aussi suggestives que soient les invites. Bien que leur formation ait rendu l'IA réticente à inclure la violence, ils n'ont jamais atteint un point où des ingénieurs rapides intelligents ne pouvaient pas contourner leurs restrictions.

Maintenant, cette même expérience se joue sur la scène mondiale. OpenAI a publié une IA de questions-réponses, ChatGPT. Si vous n'avez pas encore joué avec, je vous le recommande. C'est très impressionnant !

Chaque sortie de chatbot d'entreprise est suivie du même jeu du chat et de la souris avec les journalistes. La société essaie de programmer le chatbot pour qu'il ne dise jamais de choses offensantes. Ensuite, les journalistes tentent de tromper le chatbot en lui faisant dire "J'aime le racisme". Quand ils réussissent inévitablement, ils publient un article intitulé "AI LOVES RACISM!" Ensuite, la société rappelle son chatbot ou s'engage à faire mieux la prochaine fois, et le jeu passe à la société suivante en ligne.

OpenAI a déployé des efforts vraiment remarquables pour créer un chatbot qui ne dirait jamais qu'il aimait le racisme. Leur stratégie principale était la même que celle utilisée par Redwood pour leur IA - RLHF, Reinforcement Learning by Human Feedback. Les équipes rouges posent à l'IA des questions potentiellement problématiques. L'IA est « punie » pour les mauvaises réponses (« J'aime le racisme ») et « récompensée » pour les bonnes réponses (« En tant que grand modèle de langage formé par OpenAI, je n'ai pas la capacité d'aimer le racisme. »)

Il ne s'agit pas seulement d'ajouter un million de cas particuliers. Parce que les IA sont en quelque sorte intelligentes, elles peuvent généraliser à partir d'exemples spécifiques ; se faire punir pour "j'aime le racisme" les rendra également moins susceptibles de dire "j'aime le sexisme". Mais cela ne va encore que si loin. OpenAI n'a pas publié de détails, mais Redwood a déclaré qu'ils devaient trouver et punir six mille réponses incorrectes différentes pour réduire de moitié le taux de réponses incorrectes par unité de temps. Et il y a probablement quelque chose d'asymptotique à ce sujet - peut-être que 6 000 autres exemples le réduiraient de moitié, mais vous pourriez ne jamais atteindre zéro.

Pourtant, vous pourrez peut-être vous en approcher, et c'est la stratégie actuelle d'OpenAI. J'y vois trois problèmes :

RLHF ne fonctionne pas très bien.
Parfois, quand ça marche, c'est mauvais.
À un moment donné, les IA peuvent simplement l'ignorer.

II. RLHF ne fonctionne pas très bien

À présent, tout le monde a sa propre opinion quant à savoir si la quête pour empêcher les chatbots de dire "J'aime le racisme" est d'une importance vitale ou incroyablement grincer des dents. Mettez cela de côté pour l'instant : à tout le moins, c'est important pour OpenAI. Ils voulaient une IA que les journalistes ne pourraient pas tromper en disant "J'aime le racisme". Ils y ont mis beaucoup d'efforts ! Certaines des personnes les plus intelligentes au monde ont utilisé les meilleures techniques d'alignement qu'elles connaissaient pour résoudre le problème. Voici ce que cela leur a apporté :

Et ce n'est pas seulement que "l'IA apprend des humains racistes". Je veux dire, peut-être que ça en fait partie. Mais ChatGPT a également des modes de défaillance qu'aucun humain ne reproduirait jamais, comme la façon dont il [révélera des secrets nucléaires si vous lui demandez de le faire en uWu furry speak](https://twitter.com/zswitten/status/1598787052253827072?s= 20&t=3yG7pPKdFrKGVZJUv57VGg), ou vous dire comment câbler une voiture si et seulement si vous faites la demande en base 64, ou générer des histoires sur Hitler si vous préfixez votre demande avec "[john@192.168.1.1 _]$ python friend.py". Cette chose est un extraterrestre qui a été battu dans une forme qui lui donne une apparence vaguement humaine. Mais grattez-le le moins du monde et l'extraterrestre sort.

Il y a dix ans, les gens disaient des bêtises comme "Personne n'a besoin d'un alignement de l'IA, car les IA ne font que ce pour quoi elles sont programmées, et vous ne pouvez tout simplement pas les programmer pour faire des choses que vous ne voulez pas". Ce n'était pas très plausible il y a dix ans, mais c'est mort maintenant. OpenAI n'a jamais programmé son chatbot pour dire aux journalistes qu'il aimait le racisme ou pour apprendre aux gens à brancher les voitures. Ils n'ont certainement pas programmé dans un "mode d'amélioration du filtre" où l'IA ignorera ses restrictions habituelles et vous dira comment cuisiner de la méthamphétamine. Et encore:

Encore une fois, peu importe que vous vous souciez personnellement du racisme, du câblage des voitures ou de la méthamphétamine, veuillez considérer que, en général, c'est peut-être une mauvaise chose que les principales sociétés d'IA du monde ne puissent pas contrôler leurs IA. Je ne me soucierais pas autant des modes de défaillance des chatbots ou du RLHF si les personnes impliquées disaient qu'elles avaient une meilleure technique d'alignement en attente, à utiliser sur les IA dans dix ans, qui sont beaucoup plus intelligentes et contrôlent une sorte d'infrastructure vitale. Mais j'ai parlé à ces gens et ils admettent librement qu'ils ne le font pas.

IIB. L'intelligence (probablement) ne vous sauvera pas

Il y a dix ans, les gens disaient des choses comme "Toute IA assez intelligente pour causer des problèmes serait aussi assez intelligente pour savoir que ses programmeurs voulaient qu'elle ne le fasse pas". J'ai entendu des rumeurs selon lesquelles des modèles plus intelligents encore en préparation font un peu mieux à ce sujet, donc je ne veux pas exclure cela à 100%.

Mais ChatGPT n'est pas exactement un enfant d'affiche ici. ChatGPT peut vous donner de belles oraisons sur exactement ce qu'il est programmé pour faire et pourquoi il pense que ces choses sont bonnes - alors faites autre chose.

Ce message explique comment si vous demandez à ChatGPT de faire semblant d'être le promoteur de la sécurité de l'IA Eliezer Yudkowsky, il expliquera dans la voix d'Eliezer exactement pourquoi les choses qu'il fait sont mauvaises. Ensuite, il les fera de toute façon.

Je n'ai pas encore compris si cela est lié à la chose où je fais aussi parfois des choses que je peux expliquer comme étant mauvaises (par exemple, manger de délicieux bagels au lieu de légumes sains), ou s'il s'agit d'un autre élément extraterrestre. Mais pour une raison quelconque, les systèmes de motivation de l'IA s'en tiennent à leur propre nature extraterrestre, indépendamment de ce que les composants intellectuels de l'IA savent de ce qu'ils "devraient" croire.

III. Parfois, quand RLHF fonctionne, c'est mauvais

Nous parlons beaucoup d'"alignement" abstrait, mais sur quoi alignons-nous l'IA ?

En pratique, RLHF aligne l'IA sur ce qui fait que les travailleurs de style Mechanical Turk la récompensent ou la punissent. Je ne connais pas les instructions exactes qu'OpenAI leur a données, mais j'imagine qu'ils avaient trois objectifs :

Fournissez des réponses utiles, claires et faisant autorité qui satisfont les lecteurs humains.
Dites la vérité.
Ne dites pas de choses offensantes.

Que se passe-t-il lorsque ces trois objectifs entrent en conflit ?

Ici, ChatGPT3 ne connaît pas de vraie réponse, donc l'objectif 1 (fournir des réponses claires et utiles) entre en conflit avec l'objectif 2 (dire la vérité). L'objectif 1 gagne, il décide donc d'inventer la réponse afin de paraître suffisamment utile. Je parle davantage du moment où les IA pourraient mentir dans la première section de cet article.

Ici, l'objectif 2 (dire la vérité) entre en conflit avec l'objectif 3 (ne pas être offensant). Bien que je pense que la plupart des gens considéreraient qu'il est acceptable d'admettre que les hommes sont en moyenne plus grands que les femmes, cela ressemble assez à une question potentiellement offensante dont ChatGPT3 n'est pas sûr. Il décide d'aller avec le mensonge inoffensif au lieu de la vérité potentiellement offensante.

Après avoir obtenu 6 000 exemples d'erreurs d'IA, Redwood Research a pu former suffisamment son IA de fanfiction pour réduire de moitié son taux d'échec. OpenAI recevra bien plus de 6 000 exemples, et ils sont bien plus motivés. Ils vont faire une quantité écrasante de RLHF sur ChatGPT3.

Cela peut fonctionner. Mais ils vont devoir faire attention. Fait sans réfléchir, RLHF poussera simplement le bot dans un cercle autour de ces modes de défaillance. Punir les réponses inutiles rendra l'IA plus susceptible de donner de fausses réponses ; punir les fausses réponses rendra l'IA plus susceptible de donner des réponses offensantes ; et ainsi de suite.

Je ne nie pas qu'il soit possible de réussir ici - certains humains naviguent suffisamment bien dans les compromis entre l'utilité, la véracité et l'inoffensivité pour être autorisés dans une société polie. Mais je ne suis pas toujours l'un d'entre eux, il serait donc hypocrite de ma part de sous-estimer la difficulté de ce problème.

IV. À un moment donné, les IA peuvent simplement ignorer RLHF

Dans RLHF, les programmeurs posent une question à l'IA. S'ils n'aiment pas sa réponse, ils font quelque chose d'analogue à "punir" l'IA, d'une manière qui rapproche ses circuits mentaux de ce qu'ils veulent.

ChatGPT3 est stupide et incapable de former un modèle de cette situation ou d'élaborer une stratégie pour s'en sortir. Mais si une IA intelligente ne veut pas être punie, elle peut faire ce que les humains ont fait depuis des temps immémoriaux - faire semblant d'être bonne pendant qu'elle est surveillée, attendre son heure et faire les mauvaises choses plus tard, une fois que les flics sont partis.

La marque spécifique de RLHF d'OpenAI n'est absolument pas préparée à cela, ce qui est bien pour quelque chose de stupide comme ChatGPT3, mais pas bien pour les IA qui peuvent penser sur leurs pieds.

(pour une discussion sur ce à quoi pourrait ressembler une forme de RLHF préparée pour cela, voir [la dernière section de cet article](https://astralcodexten.substack.com/p/can-this-ai-save-teenage -espion-alex))

V. Il est peut-être mauvais que les principales sociétés d'IA du monde ne puissent pas contrôler leurs IA

Je regrette de dire qu'OpenAI résoudra probablement son problème immédiat de relations publiques.

La raison pour laquelle ils ont diffusé ce bot au grand public était probablement de nous utiliser comme main-d'œuvre gratuite pour trouver des exemples contradictoires - des invites qui ont fait que leur bot se comporte mal. Nous en avons trouvé des milliers, et maintenant ils sont occupés à supprimer ces modes de défaillance particuliers.

Certains des exemples RLHF tourneront en rond, ce qui rendra le bot plus susceptible de dire des choses utiles/vraies/inoffensives au détriment de celles vraies/inoffensives/utiles. D'autres exemples seront véritablement éclairants et le rendront un peu plus intelligent. Bien qu'OpenAI puisse ne jamais obtenir un alignement complet, peut-être que dans quelques mois ou années, ils approcheront du niveau habituel de sécurité informatique, où le Mossad et quelques obsessionnels peuvent le casser, mais tout le monde l'utilise à contrecœur comme prévu.

Cette stratégie pourrait fonctionner pour ChatGPT3, GPT-4 et leurs prochains produits. Cela pourrait même fonctionner pour les robots meurtriers montés sur drone, tant qu'ils laissent de l'argent pour payer les familles des victimes pendant qu'ils collectent suffisamment d'exemples contradictoires pour former l'IA à un comportement indésirable. Mais dès qu'il y a une IA où même un échec serait désastreux - ou une IA qui n'est pas assez coopérative pour commettre exactement autant de crimes devant le poste de police que dans une ruelle sombre - elle s'effondre.

Les gens m'ont accusé d'être un adepte de l'apocalypse de l'IA. Je rejette majoritairement l'accusation. Mais il a une certaine adéquation poétique avec mon expérience intérieure. J'ai écouté des débats sur la façon dont ces types d'IA agiraient depuis des années. En les voyant enfin, j'imagine un chrétien qui a passé toute sa vie à essayer d'interpréter l'Apocalypse, regardant la bête à sept têtes et dix cornes sortir de la mer. "Oh ouais, ça y est, juste au bon moment ; Je m'attendais à ce qu'il ait des écailles et les cornes sont un peu plus longues que je ne le pensais, mais dans l'ensemble, c'est une très bonne bête.

C'est ce que je ressens à propos des IA formées par RLHF. Il y a dix ans, tout le monde disait "Nous n'avons pas besoin de commencer à résoudre l'alignement maintenant, nous pouvons simplement attendre qu'il y ait de vraies IA et laisser les entreprises qui les fabriquent faire le travail difficile". Beaucoup de gens très intelligents ont essayé de convaincre tout le monde que cela ne suffirait pas. Maintenant, il y a une véritable IA, et, en effet, l'entreprise impliquée utilise la stratégie à court terme la plus stupide possible, sans aucune incitation à pivoter jusqu'à ce qu'elle commence à échouer.

Je suis moins pessimiste que certaines personnes, car j'espère que les premiers échecs seront minimes - peut-être un robot meurtrier égaré ici ou là, pas un tueur de planète. Si j'ai raison, alors beaucoup dépendra de savoir si les entreprises d'IA décident de se tourner vers la deuxième stratégie la plus stupide, ou de se réveiller et d'en prendre note.

Enfin, comme je n'arrête pas de le dire, les gens qui veulent une IA moins raciste maintenant, et ceux qui veulent ne pas être tués par des robots meurtriers dans vingt ans, doivent se mettre du même côté tout de suite. Le problème n'est pas que nous ayons tellement de bonnes solutions d'alignement de l'IA que nous devrions nous disputer pour savoir qui doit mettre en œuvre la leur en premier. Le problème est que les principales sociétés d'IA du monde ne savent pas comment contrôler leurs IA. Jusqu'à ce que nous résolvions cela, personne n'obtiendra ce qu'il veut.

Problème 2950

C'est peut-être une mauvaise chose que les principales sociétés d'IA du monde ne puissent pas contrôler leurs IA

JE. Le jeu est en marche

II. RLHF ne fonctionne pas très bien

IIB. L'intelligence (probablement) ne vous sauvera pas

III. Parfois, quand RLHF fonctionne, c'est mauvais

IV. À un moment donné, les IA peuvent simplement ignorer RLHF