Incidentes Asociados

Hemos entrenado modelos de lenguaje que son mucho mejores para seguir las intenciones de los usuarios que GPT-3, al mismo tiempo que los hacemos más veraces y menos tóxicos, utilizando técnicas desarrolladas a través de nuestra investigación de alineación. Estos InstructGPT modelos, que se entrenan con humanos en el ciclo, ahora se implementan como los modelos de idioma predeterminados en nuestra API.
InstructGPT es mejor que GPT-3 para seguir las instrucciones en inglés.
La API de OpenAI funciona con modelos de lenguaje GPT-3, que se puede persuadir para que realice tareas de lenguaje natural mediante mensajes de texto cuidadosamente diseñados. Pero estos modelos también pueden generar resultados falsos, tóxicos o que reflejen sentimientos dañinos. Esto se debe en parte a que GPT-3 está capacitado para predecir la siguiente palabra en un gran conjunto de datos de texto de Internet, en lugar de realizar de manera segura la tarea de idioma que desea el usuario. En otras palabras, estos modelos no están alineados con sus usuarios.
Para hacer que nuestros modelos sean más seguros, más útiles y más alineados, utilizamos una técnica existente llamada [aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF)] (https://openai.com/blog/deep-reinforcement-learning-from-human- preferencias/). En las solicitudes enviadas por nuestros clientes a la API, nuestros etiquetadores brindan demostraciones del comportamiento deseado del modelo y clasifican varios resultados de nuestros modelos. Luego usamos estos datos para ajustar GPT-3.
Los modelos InstructGPT resultantes son mucho mejores para seguir instrucciones que GPT-3. También inventan hechos con menos frecuencia y muestran pequeñas disminuciones en la generación de productos tóxicos. Nuestras etiquetadoras prefieren las salidas de nuestro modelo 1.3B InstructGPT a las salidas de un modelo 175B GPT-3, a pesar de tener más de 100 veces menos parámetros. Al mismo tiempo, demostramos que no tenemos que comprometer las capacidades de GPT-3, según lo medido por el rendimiento de nuestro modelo en las evaluaciones académicas de PNL.
Estos modelos de InstructGPT, que han estado en versión beta en la API durante más de un año, ahora son los modelos de idioma predeterminados accesibles en nuestra API. Creemos que afinar los modelos de lenguaje con humanos al tanto es una herramienta poderosa para mejorar su seguridad y confiabilidad, y continuaremos avanzando en esta dirección.
Esta es la primera vez que nuestra investigación de alineación, que hemos estado persiguiendo durante [varios](https:// openai.com/blog/fine-tuning-gpt-2/) años, se ha aplicado a nuestro producto. Nuestro trabajo también está relacionado con investigaciones recientes que ajustan los modelos de lenguaje para seguir instrucciones utilizando conjuntos de datos académicos de PNL, en particular FLAN y T0. Una motivación clave para nuestro trabajo es aumentar la utilidad y la veracidad mientras se mitigan los daños y sesgos de los modelos lingüísticos. Algunas de nuestras investigaciones previas en esta dirección encontraron que podemos reducir los resultados dañinos ajustando un pequeño conjunto de datos seleccionados de demostraciones humanas. Otra investigación se ha centrado en filtrar el conjunto de datos previo al entrenamiento, los tokens de control específicos de seguridad o las generaciones de modelos de dirección. Estamos explorando estas ideas y otras en nuestra investigación de alineación en curso.
Resultados
Primero evaluamos qué tan bien las salidas de InstructGPT siguen las instrucciones del usuario, haciendo que los etiquetadores comparen sus salidas con las de GPT-3. Encontramos que los modelos InstructGPT son significativamente preferidos en las solicitudes enviadas a los modelos InstructGPT y GPT-3 en la API. Esto es cierto cuando agregamos un prefijo al indicador GPT-3 para que ingrese en un "modo de seguimiento de instrucciones".
Calificaciones de calidad de los resultados del modelo en una escala de 1 a 7 (eje y), para varios tamaños de modelo (eje x), en solicitudes enviadas a los modelos de InstructGPT en nuestra API. Nuestros etiquetadores otorgan puntajes mucho más altos a los resultados de InstructGPT que a los resultados de GPT-3 con y sin indicaciones de unos pocos disparos, así como modelos ajustados con aprendizaje supervisado. Encontramos resultados similares para solicitudes enviadas a modelos GPT-3 en la API.
Para medir la seguridad de nuestros modelos, utilizamos principalmente un conjunto de métricas existentes en conjuntos de datos disponibles públicamente. En comparación con GPT-3, InstructGPT produce menos falsedades imitativas (según TruthfulQA) y son menos tóxicos (según RealToxicityPrompts). También llevamos a cabo evaluaciones humanas en la distribución de avisos de nuestra API y descubrimos que InstructGPT inventa hechos ("alucina") con menos frecuencia y genera resultados más apropiados.
Evaluación de InstructGPT en cuanto a toxicidad, veracidad y adecuación. Las puntuaciones más bajas son mejores para toxicidad y alucinaciones, y las puntuaciones más altas son mejores para TruthfulQA y adecuación. Las alucinaciones y la adecuación se miden en nuestra distribución de avisos API. Los resultados se combinan entre los tamaños de modelo.
Finalmente, encontramos que las salidas de InstructGPT son preferidas a las de FLAN y T0 en nuestra distribución de clientes. Esto indica que los datos utilizados para entrenar FLAN y T0, en su mayoría tareas académicas de PNL, no son totalmente representativos de cómo se utilizan en la práctica los modelos de lenguaje implementados.
Métodos
Para entrenar modelos de InstructGPT, nuestra técnica principal es aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF), un método en el que ayudamos a ser pioneros. nuestra anterior investigación de alineación. Esta técnica utiliza las preferencias humanas como una señal de recompensa para afinar nuestros modelos, lo cual es importante ya que los problemas de seguridad y alineación que pretendemos resolver son complejos y subjetivos, y no se capturan completamente mediante métricas automáticas simples.
Primero recopilamos un conjunto de datos de demostraciones escritas por humanos en indicaciones enviadas a nuestra API y lo usamos para entrenar nuestras líneas base de aprendizaje supervisado. A continuación, recopilamos un conjunto de datos de comparaciones etiquetadas por humanos entre dos resultados de modelos en un conjunto más grande de indicaciones de API. Luego entrenamos un modelo de recompensa (RM) en este conjunto de datos para predecir qué salida preferirían nuestros etiquetadores. Finalmente, usamos este RM como una función de recompensa y ajustamos nuestra política GPT-3 para maximizar esta recompensa usando el [algoritmo PPO] (https://openai.com/blog/openai-baselines-ppo/).
Una forma de pensar en este proceso es que "desbloquea" las capacidades que GPT-3 ya tenía, pero que eran difíciles de obtener solo mediante la ingeniería rápida: esto se debe a que nuestro procedimiento de capacitación tiene una capacidad limitada para enseñar al modelo nuevas capacidades en relación con lo que se aprende durante el preentrenamiento, ya que utiliza menos del 2 % de la computación y los datos en relación con el preentrenamiento del modelo.
Una limitación de este enfoque es que introduce un "impuesto de alineación": alinear los modelos solo en las tareas del cliente puede empeorar su desempeño en algunas otras tareas académicas de PNL. Esto no es deseable ya que, si nuestras técnicas de alineación hacen que los modelos empeoren en tareas que preocupan a las personas, es menos probable que se adopten en la práctica. Encontramos un cambio algorítmico simple que minimiza este impuesto de alineación: durante el ajuste fino de RL, mezclamos una pequeña fracción de los datos originales utilizados para entrenar GPT-3 y entrenamos con estos datos usando la maximización de probabilidad logarítmica normal. Esto mantiene aproximadamente el rendimiento en seguridad y preferencias humanas, mientras que mitiga el rendimiento disminuye en tareas académicas y, en varios casos, incluso supera la línea de base GPT-3.
Generalizar a preferencias más amplias
Nuestro procedimiento alinea el comportamiento de nuestros modelos con las preferencias de nuestros etiquetadores, que producen directamente los datos utilizados para entrenar nuestros modelos, y nosotros, los investigadores, que brindamos orientación a los etiquetadores a través de instrucciones escritas, comentarios directos sobre ejemplos específicos y conversaciones informales. También está influenciado por nuestros clientes y las preferencias implícitas en nuestras políticas de API. Seleccionamos etiquetadores que se desempeñaron bien en una prueba de detección de aptitud para identificar y responder a indicaciones sensibles. Sin embargo, estas diferentes fuentes de influencia sobre los datos no garantizan que nuestros modelos estén alineados con las preferencias de un grupo más amplio.
Realizamos dos experimentos para investigar esto. Primero, evaluamos GPT-3 e InstructGPT usando etiquetadores retenidos que no generaron ninguno de los datos de entrenamiento, y descubrimos que estos etiquetadores prefieren los resultados de los modelos InstructGPT aproximadamente al mismo ritmo que nuestros etiquetadores de entrenamiento. En segundo lugar, entrenamos modelos de recompensa con datos de un subconjunto de nuestros etiquetadores y descubrimos que se generalizan bien para predecir las preferencias de un subconjunto diferente de etiquetadores. Esto sugiere que nuestros modelos no se han ajustado únicamente a las preferencias de nuestros etiquetadores de entrenamiento. Sin embargo, se necesita más trabajo para estudiar cómo funcionan estos modelos en grupos más amplios de usuarios y cómo funcionan en entradas en las que los humanos no están de acuerdo con el comportamiento deseado.
Limitaciones
A pesar de lograr un progreso significativo, nuestros modelos InstructGPT están lejos de estar completamente alineados o ser completamente seguros; aún generan resultados tóxicos o sesgados, inventan hechos y generan contenido sexual y violento sin indicaciones explícitas. Pero la seguridad de un sistema de aprendizaje automático depende no solo del comportamiento de los modelos subyacentes, sino también de cómo se implementan estos modelos. Para respaldar la seguridad de nuestra API, continuaremos [revisando aplicaciones potenciales] (https://beta.openai.com/docs/usage-guidelines/use-case-guidelines) antes de que se publiquen, brindando filtros de contenido para detectar terminaciones inseguras y monitorear el uso indebido.
Un subproducto de entrenar a nuestros modelos para que sigan las instrucciones del usuario es que pueden volverse más susceptibles a un mal uso si se les indica que produzcan resultados inseguros. Resolver esto requiere que nuestros modelos rechacen ciertas instrucciones; hacer esto de manera confiable es un importante problema de investigación abierto que estamos ansiosos por abordar.
Además, en muchos casos puede no ser deseable alinearse con la preferencia del etiquetador promedio. Por ejemplo, cuando se genera un texto que afecta de manera desproporcionada a un grupo minoritario, las preferencias de ese grupo deben ponderarse más. En este momento, InstructGPT está capacitado para seguir instrucciones en inglés; por lo tanto, está sesgado hacia los valores culturales de las personas de habla inglesa. Estamos realizando investigaciones para comprender las diferencias y los desacuerdos entre las preferencias de los etiquetadores para que podamos condicionar nuestros modelos a los valores de poblaciones más específicas. De manera más general, alinear los resultados del modelo con los valores de humanos específicos presenta decisiones difíciles con implicaciones sociales y, en última instancia, debemos establecer procesos responsables e inclusivos para tomar estas decisiones.
Próximos pasos
Esta es la primera aplicación de nuestra investigación de alineación a nuestro producto. Nuestros resultados muestran que estas técnicas son efectivas para mejorar significativamente la alineación de los sistemas de IA de propósito general con las intenciones humanas. Sin embargo, esto es solo el comienzo: seguiremos impulsando estas técnicas para mejorar la alineación de nuestros modelos actuales y futuros hacia herramientas de lenguaje que sean seguras y útiles para los humanos.