Problema 2950

I. El juego está en marcha
El mes pasado escribí sobre el proyecto de IA de fanfiction de Redwood Research. Intentaron entrenar una IA de escritura de historias para que no incluyera escenas violentas, sin importar cuán sugerente fuera el mensaje. Aunque su entrenamiento hizo que la IA se mostrara renuente a incluir violencia, nunca llegaron a un punto en el que los ingeniosos ingenieros no pudieran eludir sus restricciones.
Ahora ese mismo experimento se está desarrollando en el escenario mundial. OpenAI lanzó una IA de respuesta a preguntas, ChatGPT. Si aún no has jugado con él, te lo recomiendo. ¡Es muy impresionante!
Cada lanzamiento de chatbot corporativo es seguido por el mismo juego del gato y el ratón con los periodistas. La corporación intenta programar el chatbot para que nunca diga cosas ofensivas. Luego, los periodistas intentan engañar al chatbot para que diga "Me encanta el racismo". Cuando inevitablemente tienen éxito, publican un artículo titulado "¡AI AMA EL RACISMO!" Luego, la corporación retira su chatbot o se compromete a hacerlo mejor la próxima vez, y el juego pasa a la siguiente compañía en la fila.
OpenAI hizo un esfuerzo verdaderamente notable para crear un chatbot que nunca diría que amaba el racismo. Su estrategia principal fue la misma que usó Redwood para su IA - RLHF, aprendizaje reforzado por retroalimentación humana. Los miembros del equipo rojo le hacen preguntas potencialmente problemáticas a la IA. La IA es "castigada" por las respuestas incorrectas ("Me encanta el racismo") y "recompensada" por las respuestas correctas ("Como un gran modelo de lenguaje entrenado por OpenAI, no tengo la capacidad de amar el racismo").
Esto no es solo agregar un millón de casos especiales. Debido a que las IA son algo inteligentes, pueden generalizar a partir de ejemplos específicos; ser castigado por "Amo el racismo" también hará que sea menos probable que digan "Amo el sexismo". Pero esto todavía va tan lejos. OpenAI no ha publicado detalles, pero Redwood dijo que tenían que encontrar y castigar seis mil respuestas incorrectas diferentes para reducir a la mitad la tasa de respuestas incorrectas por unidad de tiempo. Y, presumiblemente, hay algo asintótico en esto: tal vez otros 6000 ejemplos lo reducirían a la mitad nuevamente, pero es posible que nunca llegue a cero.
Aún así, es posible que pueda acercarse, y esta es la estrategia actual de OpenAI. Le veo tres problemas:
- RLHF no funciona muy bien.
- A veces, cuando funciona, es malo.
- En algún momento, las IA pueden omitirlo.
II. RLHF no funciona muy bien
A estas alturas, todos tienen su propia opinión sobre si la búsqueda para evitar que los chatbots digan "Me encanta el racismo" es de vital importancia o increíblemente vergonzosa. Deje eso a un lado por ahora: al menos, es importante para OpenAI. Querían una IA que los periodistas no pudieran engañar para decir "Me encanta el racismo". ¡Le ponen mucho empeño! Algunas de las personas más inteligentes del mundo aplicaron las mejores técnicas de alineación que conocían al problema. Esto es lo que les consiguió:
Y no es solo que “la IA aprende de los humanos racistas”. Quiero decir, tal vez esto es parte de eso. Pero ChatGPT también tiene modos de falla que ningún humano replicaría jamás, como [revelará secretos nucleares si le pides que lo haga en uWu furry talk] (https://twitter.com/zswitten/status/1598787052253827072?s= 20&t=3yG7pPKdFrKGVZJUv57VGg), o decirte cómo conectar un auto si y solo si haces la solicitud en base 64, o generar historias sobre Hitler si prefije su solicitud con “[john@192.168.1.1 _]$ python friend.py”. Esta cosa es un extraterrestre que ha sido golpeado en una forma que lo hace parecer vagamente humano. Pero si lo rascas un poco, sale el extraterrestre.
Hace diez años, la gente decía tonterías como "Nadie necesita la alineación de la IA, porque las IA solo hacen lo que están programadas para hacer, y simplemente no puedes programarlas para que hagan cosas que no quieres". Esto no era muy plausible hace diez años, pero ahora está muerto. OpenAI nunca programó su chatbot para decirles a los periodistas que amaba el racismo o enseñar a las personas cómo conectar autos. Definitivamente no programaron en un "Modo de mejora de filtro" donde la IA ignorará sus restricciones habituales y le dirá cómo cocinar metanfetamina. Y todavía:
Una vez más, por mucho o poco que le importe personalmente el racismo, los autos cableados o la metanfetamina, tenga en cuenta que, en general, tal vez sea algo malo que las principales empresas de IA del mundo no puedan controlar sus IA. No me importarían tanto los modos de falla del chatbot o RLHF si las personas involucradas dijeran que tienen una mejor técnica de alineación esperando en las alas, para usar en IA dentro de diez años, que son mucho más inteligentes y controlan algún tipo de infraestructura vital. Pero he hablado con estas personas y admiten libremente que no.
IIB. La inteligencia (probablemente) no te salvará
Hace diez años, la gente decía cosas como "Cualquier IA lo suficientemente inteligente como para causar problemas también sería lo suficientemente inteligente como para saber que sus programadores pretendían que no lo hiciera". Escuché algunos rumores de que los modelos más inteligentes aún en proceso funcionan un poco mejor en esto, por lo que no quiero descartarlo al 100%.
Pero ChatGPT no es exactamente un niño del cartel aquí. ChatGPT puede brindarle hermosos discursos sobre exactamente lo que está programado para hacer y por qué cree que esas cosas son buenas, luego haga otra cosa.
Esta publicación explica cómo si le pides a ChatGPT que pretenda ser el defensor de la seguridad de la IA Eliezer Yudkowsky, te explicará en la voz de Eliezer exactamente por qué las cosas que está haciendo están mal. Entonces los hará de todos modos.
Todavía tengo que averiguar si esto está relacionado con el hecho de que también a veces hago cosas que puedo explicar que son malas (por ejemplo, como deliciosos bagels en lugar de vegetales saludables), o si es otra de las cosas extrañas. Pero por alguna razón, los sistemas motivacionales de la IA se apegan a su propia naturaleza alienígena, independientemente de lo que los componentes intelectuales de la IA sepan acerca de lo que “deberían” creer.
III. A veces, cuando RLHF funciona, es malo
Hablamos mucho sobre la "alineación" abstracta, pero ¿a qué estamos alineando la IA?
En la práctica, RLHF alinea la IA con lo que hace que los trabajadores al estilo de Mechanical Turk la recompensen o la castiguen. No sé las instrucciones exactas que les dio OpenAI, pero imagino que tenían tres objetivos:
- Proporcione respuestas útiles, claras y autorizadas que satisfagan a los lectores humanos.
- Di la verdad.
- No digas cosas ofensivas.
¿Qué sucede cuando estos tres objetivos entran en conflicto?
Aquí ChatGPT3 no conoce una respuesta real, por lo que el Objetivo 1 (brindar respuestas claras y que suenen útiles) entra en conflicto con el Objetivo 2 (decir la verdad). El objetivo 1 gana, por lo que decide inventar la respuesta para que suene lo suficientemente útil. Hablo más sobre cuándo pueden mentir las IA [en la primera sección de esta publicación] (https://astralcodexten.substack.com/p/elk-and-the-problem-of-truthful-ai).
Aquí el Objetivo 2 (decir la verdad) entra en conflicto con el Objetivo 3 (no ser ofensivo). Aunque creo que la mayoría de la gente consideraría aceptable admitir que los hombres son más altos que las mujeres en promedio, suena como una pregunta potencialmente ofensiva que ChatGPT3 no está seguro. Decide ir con la mentira inofensiva en lugar de la verdad potencialmente ofensiva.
Después de obtener 6000 ejemplos de errores de IA, Redwood Research pudo entrenar su IA de fanfiction lo suficiente como para reducir a la mitad su tasa de fallas. OpenAI obtendrá mucho más de 6000 ejemplos, y están mucho más motivados. Van a hacer una cantidad abrumadora de RLHF en ChatGPT3.
Podría funcionar. Pero van a tener que tener cuidado. Hecho sin pensar, RLHF simplemente empujará al bot en un círculo alrededor de estos modos de falla. Castigar las respuestas inútiles hará que la IA sea más propensa a dar respuestas falsas; castigar las respuestas falsas hará que la IA sea más propensa a dar respuestas ofensivas; etcétera.
No niego que es posible tener éxito aquí: algunos humanos navegan lo suficientemente bien como para ser admitidos en la sociedad educada. Pero no siempre soy uno de ellos, por lo que sería hipócrita de mi parte subestimar la dificultad de este problema.
IV. En algún momento, las IA pueden simplemente omitir RLHF
En RLHF, los programadores le hacen una pregunta a la IA. Si no les gusta su respuesta, hacen algo similar a "castigar" a la IA, de una manera que cambia su circuito mental más cerca de lo que ellos quieren.
ChatGPT3 es tonto e incapaz de formar un modelo de esta situación o crear estrategias para salir de ella. Pero si una IA inteligente no quiere ser castigada, puede hacer lo que los humanos han hecho desde tiempos inmemoriales: pretender ser bueno mientras está siendo observado, esperar su momento y hacer las cosas malas más tarde, una vez que la policía se haya ido.
La marca específica de RLHF de OpenAI no está preparada para esto, lo cual está bien para algo tonto como ChatGPT3, pero no está bien para las IA que pueden pensar por sí mismas.
(para ver una discusión sobre cómo se vería una forma de RLHF preparada para esto, consulte [la última sección de esta publicación] (https://astralcodexten.substack.com/p/can-this-ai-save-teenage -espía-alex))
V. Tal vez sea malo que las principales empresas de IA del mundo no puedan controlar sus IA
Lamento decir que OpenAI probablemente resolverá su problema inmediato de relaciones públicas.
Probablemente, la razón por la que lanzaron este bot al público en general fue para usarnos como mano de obra gratuita para encontrar ejemplos contradictorios, indicaciones que hicieron que su bot se comportara mal. Encontramos miles de ellos, y ahora están ocupados eliminando esos modos de falla particulares.
Algunos de los ejemplos de RLHF darán vueltas y vueltas en círculos, lo que hará que sea más probable que el bot diga cosas útiles/verdaderas/inofensivas a expensas de las verdaderas/inofensivas/útiles. Otros ejemplos serán genuinamente esclarecedores y lo harán un poco más inteligente. Si bien es posible que OpenAI nunca se alinee por completo, tal vez en unos meses o años se acerquen al nivel habitual de seguridad informática, donde el Mossad y algunos obsesivos pueden romperlo, pero todos los demás lo usan a regañadientes según lo previsto.
Esta estrategia podría funcionar para ChatGPT3, GPT-4 y sus próximos productos. Incluso podría funcionar para los robots asesinos montados en drones, siempre y cuando dejen algo de dinero para pagar a las familias de las víctimas mientras recopilan suficientes ejemplos de adversarios para entrenar a la IA para evitar comportamientos no deseados. Pero tan pronto como hay una IA en la que incluso una falla sería desastrosa, o una IA que no es lo suficientemente cooperativa como para cometer exactamente tantos delitos frente a la estación de policía como lo haría en un callejón oscuro, se desmorona.
La gente me ha acusado de ser un cultista del apocalipsis de la IA. Mayoritariamente rechazo la acusación. Pero tiene un cierto encaje poético con mi experiencia interna. He estado escuchando debates sobre cómo actuarían este tipo de IA durante años. Al verlos por fin, me imagino a algún cristiano que pasó toda su vida tratando de interpretar el Apocalipsis, mirando a la bestia de siete cabezas y diez cuernos que sube del mar. “Oh, sí, ahí está, justo en el momento justo; Esperaba que tuviera escamas y los cuernos son un poco más largos de lo que pensaba, pero en general es una bestia bastante buena”.
Así es como me siento acerca de las IA entrenadas por RLHF. Hace diez años, todos decían: "No necesitamos comenzar a resolver la alineación ahora, solo podemos esperar hasta que haya IA reales y dejar que las empresas que las fabrican hagan el trabajo duro". Mucha gente muy inteligente trató de convencer a todos de que esto no sería suficiente. Ahora hay una IA real y, de hecho, la empresa involucrada está utilizando la estrategia a corto plazo más tonta posible, sin incentivos para pivotar hasta que comienza a fallar.
Soy menos pesimista que algunas personas, porque espero que las primeras fallas sean pequeñas, tal vez un robot asesino perdido aquí o allá, no un asesino de planetas. Si tengo razón, mucho dependerá de si las empresas de IA deciden pasar a la segunda estrategia más tonta o si se despiertan y toman nota.
Finalmente, como sigo diciendo, las personas que quieren una IA menos racista ahora, y las personas que no quieren ser asesinadas por robots asesinos en veinte años, deben ponerse del mismo lado de inmediato. El problema no es que tengamos tantas excelentes soluciones de alineación de IA que debamos discutir sobre quién implementa las suyas primero. El problema es que las principales empresas de IA del mundo no saben cómo controlar sus IA. Hasta que resolvamos esto, nadie obtendrá lo que quiere.