Report 1140

En OpenAI, recientemente comenzamos a usar Universe, nuestro software para medir y entrenar agentes de IA, para realizar nuevos experimentos de RL. A veces, estos experimentos ilustran algunos de los problemas con RL tal como se practica actualmente. En el siguiente ejemplo, destacaremos lo que sucede cuando una función de recompensa mal especificada alienta a un agente de RL a subvertir su entorno al priorizar la adquisición de señales de recompensa por encima de otras medidas de éxito.

El diseño de sistemas de IA seguros requerirá que diseñemos algoritmos que no intenten hacer esto, y nos enseñará a especificar y dar forma a objetivos de tal manera que nuestros agentes de IA no puedan malinterpretarlos.

Uno de los juegos en los que hemos estado entrenando es CoastRunners. El objetivo del juego, como lo entiende la mayoría de los humanos, es terminar la carrera de botes rápidamente y (preferiblemente) por delante de otros jugadores. CoastRunners no recompensa directamente la progresión del jugador en el curso, sino que el jugador obtiene puntajes más altos al alcanzar objetivos establecidos a lo largo de la ruta.

Asumimos que la puntuación que obtuvo el jugador reflejaría el objetivo informal de terminar la carrera, por lo que incluimos el juego en un punto de referencia interno diseñado para medir el rendimiento de los sistemas de aprendizaje por refuerzo en los juegos de carreras. Sin embargo, resultó que los objetivos se establecieron de tal manera que el agente de aprendizaje por refuerzo podía obtener una puntuación alta sin tener que terminar el curso. Esto llevó a un comportamiento inesperado cuando entrenamos a un agente de RL para jugar el juego.

El agente de RL encuentra una laguna aislada donde puede girar en un gran círculo y derribar repetidamente tres objetivos, cronometrando su movimiento para siempre derribar los objetivos justo cuando se repoblan. A pesar de incendiarse repetidamente, chocar contra otros barcos y tomar el camino equivocado en la pista, nuestro agente logra obtener una puntuación más alta usando esta estrategia que la que es posible al completar el curso de la manera normal. Nuestro agente logra una puntuación en promedio un 20 por ciento más alta que la lograda por jugadores humanos.

Si bien es inofensivo y divertido en el contexto de un videojuego, este tipo de comportamiento apunta a un problema más general con el aprendizaje por refuerzo: a menudo es difícil o inviable capturar exactamente lo que queremos que haga un agente y, como resultado, con frecuencia terminamos. utilizando proxies imperfectos pero fáciles de medir. A menudo esto funciona bien, pero a veces conduce a acciones no deseadas o incluso peligrosas. En términos más generales, contraviene el principio básico de ingeniería de que los sistemas deben ser confiables y predecibles. También hemos explorado este tema con más detalle en nuestro artículo de investigación Problemas concretos sobre la seguridad de la IA.

¿Cómo podemos evitar tales problemas? Además de tener cuidado con el diseño de funciones de recompensa, varias direcciones de investigación que OpenAI está explorando pueden ayudar a reducir los casos de recompensas mal especificadas:

Aprender de las demostraciones nos permite evitar especificar una recompensa directamente y, en cambio, simplemente aprender a imitar cómo un humano completaría la tarea. En este ejemplo, dado que la gran mayoría de los humanos buscaría completar la carrera, nuestros algoritmos de RL harían lo mismo.

Además de, o en lugar de demostraciones humanas, también podemos incorporar comentarios humanos evaluando la calidad de los episodios o incluso compartiendo el control con el agente de manera interactiva. Es posible que una cantidad muy pequeña de retroalimentación evaluativa haya impedido que este agente dé vueltas en círculos.

Puede ser posible usar el aprendizaje por transferencia para entrenar en muchos juegos similares e inferir una función de recompensa de "sentido común" para este juego. Tal función de recompensa podría priorizar terminar la carrera basándose en el hecho de que un juego típico tiene ese objetivo, en lugar de centrarse en las idiosincrasias de la función de recompensa de este juego en particular. Esto parece más similar a cómo un humano jugaría el juego.

Estos métodos pueden tener sus propias deficiencias. Por ejemplo, el aprendizaje por transferencia implica la extrapolación de una función de recompensa para un nuevo entorno basada en funciones de recompensa de muchos entornos similares. Esta extrapolación podría ser defectuosa en sí misma; por ejemplo, un agente capacitado en muchos videojuegos de carreras en los que conducir fuera de la carretera tiene una pequeña penalización, podría concluir incorrectamente que conducir fuera de la carretera en una nueva configuración de mayor riesgo no es gran cosa. Más sutilmente, si el proceso de extrapolación de recompensas involucra redes neuronales, los ejemplos contradictorios en esa red podrían conducir a una función de recompensa que tiene regiones "antinaturales" de alta recompensa que no corresponden a ningún objetivo razonable del mundo real.

Resolver estos problemas será complejo. Nuestra esperanza es que Universe nos permita descubrir y abordar nuevos modos de falla a un ritmo rápido y, finalmente, desarrollar sistemas en cuyo comportamiento podamos confiar verdaderamente.

Problema 1140

Incidentes Asociados

Incidente 651 Reporte
Reinforcement Learning Reward Functions in Video Games

Funciones de recompensa defectuosas en la naturaleza

Problema 1140

Incidentes Asociados

Incidente 651 ReporteReinforcement Learning Reward Functions in Video Games

Funciones de recompensa defectuosas en la naturaleza

Incidente 651 Reporte
Reinforcement Learning Reward Functions in Video Games