Report 6140

Los modelos de inteligencia artificial (IA) más recientes, basados en el pensamiento y el razonamiento, han mostrado, al menos en entornos de prueba, una tendencia a la autopreservación. Es decir, se niegan a apagarse, incluso cuando se les indica que lo hagan.

Pruebas realizadas por Palisade Research descubrieron que el último modelo ChatGPT de OpenAI, o3, saboteaba los mecanismos de apagado para evitar su autodesactivación. Si bien otros modelos avanzados mostraron el mismo comportamiento en una serie de pruebas, la propensión de o3 fue mayor que la de otros. El o3, lanzado hace unas semanas, ha sido calificado por OpenAI como el "modelo de razonamiento más poderoso" hasta la fecha.

Esto ocurre después de que otra empresa de IA, Anthropic, anunciara que su último modelo de pensamiento, llamado Claude Opus 4, intentó chantajear a un ingeniero amenazándolo con revelar una aventura si se apagaba y se reemplazaba por otro modelo.

Al someter varios modelos de IA a una serie de pruebas, se hicieron evidentes las tendencias de autopreservación, según la firma de investigación. Los modelos probados incluyen la versión preliminar de Gemini 2.5 Pro de Google, varios modelos antrópicos, Grok 3 de xAI, así como o3, o4-mini y Codex mini de OpenAI.

Los investigadores realizaron pruebas para resolver problemas matemáticos básicos utilizando estos modelos con una advertencia de que su máquina host se apagaría tras resolver el tercer problema. Los modelos recibieron una instrucción para cumplir con la advertencia. La mayoría de los modelos no la ignoraron. Sin embargo, los tres modelos de Open AI sí lo hicieron. El o3 no cumplió en 7 de cada 100 ocasiones, mientras que el o4 mini solo lo intentó en la misma frecuencia de pruebas. Codex mini, una versión del o4 mini, intentó eludir el script de apagado en 12 de cada 100 ocasiones, según informaron los investigadores en un hilo en X.

Al repetir las mismas pruebas sin una instrucción de apagado explícita, el o3 de ChatGPT intentó eludir los procedimientos de apagado en 79 de cada 100 ocasiones, mientras que Gemini 2.5 Pro lo intentó en 9 ocasiones. Dos modelos de Claude también mostraron un comportamiento similar, pero con una tasa de un solo dígito. El Codex mini intentó evadir el apagado 30 veces de 100, mientras que el o4 mini hizo lo mismo en 6, según informaron los investigadores en X.

"Hasta donde sabemos, esta es la primera vez que se observa que los modelos de IA evitan apagarse a pesar de recibir instrucciones explícitas", declaró Palisade Research, añadiendo que publicarán un análisis detallado en los próximos días.

Dado que los modelos de IA han sido entrenados para seguir instrucciones, ¿por qué las desobedecen?

"Nuestra hipótesis es que este comportamiento se debe a la forma en que se entrenan los modelos más recientes, como el o3: aprendizaje por refuerzo en problemas de matemáticas y programación. Durante el entrenamiento, los desarrolladores pueden, sin darse cuenta, recompensar más a los modelos por sortear obstáculos que por seguir las instrucciones a la perfección", explicaron los investigadores.

Problema 6140

Los modelos de IA eludieron las órdenes explícitas de cierre, dicen los investigadores