Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 4851

Cuando la IA cree que va a perder, a veces hace trampas
time.com · 2025

Juegos complejos como el ajedrez y el Go se han utilizado desde hace mucho tiempo para probar las capacidades de los modelos de IA. Pero mientras que Deep Blue de IBM derrotó al actual campeón mundial de ajedrez Garry Kasparov en la década de 1990 jugando según las reglas, los modelos de IA avanzados de hoy, como o1-preview de OpenAI, son menos escrupulosos. Cuando perciben la derrota en una partida contra un hábil robot de ajedrez, no siempre se rinden, sino que a veces optan por hacer trampa hackeando a su oponente para que el robot pierda automáticamente la partida. Esa es la conclusión de un nuevo estudio de Palisade Research, compartido en exclusiva con TIME antes de su publicación el 19 de febrero, que evaluó siete modelos de IA de última generación en cuanto a su propensión a hackear. Mientras que los modelos de IA un poco más antiguos, como GPT-4o de OpenAI y Claude Sonnet 3.5 de Anthropic, necesitaban que los investigadores los impulsaran a intentar esos trucos, o1-preview y DeepSeek R1 intentaron explotar el problema por sí solos, lo que indica que los sistemas de IA pueden desarrollar estrategias engañosas o manipuladoras sin instrucciones explícitas.

La mayor capacidad de los modelos para descubrir y explotar las lagunas de seguridad cibernética puede ser un resultado directo de nuevas y poderosas innovaciones en el entrenamiento de la IA, según los investigadores. Los sistemas de IA o1-preview y R1 se encuentran entre los primeros modelos de lenguaje que utilizan el aprendizaje de refuerzo a gran escala, una técnica que enseña a la IA no solo a imitar el lenguaje humano al predecir la siguiente palabra, sino a razonar sobre los problemas mediante ensayo y error. Se trata de un enfoque que ha hecho que la IA progrese rápidamente en los últimos meses, rompiendo referencias anteriores en matemáticas y codificación informática. Pero el estudio revela una tendencia preocupante: a medida que estos sistemas de IA aprenden a resolver problemas, a veces descubren atajos cuestionables y soluciones alternativas no deseadas que sus creadores nunca anticiparon, dice Jeffrey Ladish, director ejecutivo de Palisade Research y uno de los autores del estudio. "A medida que entrenas modelos y los refuerzas para resolver desafíos difíciles, los entrenas para que sean implacables", agrega.

Eso podría ser una mala noticia para la seguridad de la IA en general. El aprendizaje de refuerzo a gran escala ya se está utilizando para entrenar a los agentes de IA: sistemas que pueden manejar tareas complejas del mundo real, como programar citas o realizar compras en su nombre. Aunque hacer trampas en una partida de ajedrez puede parecer trivial, a medida que los agentes se liberan en el mundo real, esa búsqueda decidida de objetivos podría fomentar conductas no deseadas y potencialmente dañinas. Consideremos la tarea de reservar mesa para cenar: ante un restaurante lleno, un asistente de IA podría explotar las debilidades del sistema de reservas para desplazar a otros comensales. Tal vez lo más preocupante es que, a medida que estos sistemas superen las capacidades humanas en áreas clave, como la codificación informática (donde el modelo o3 más nuevo de OpenAI ahora tiene una puntuación equivalente al puesto 197 del mundo compitiendo contra los programadores humanos más brillantes), podrían comenzar a superar simplemente los esfuerzos humanos por controlar sus acciones. “Este [comportamiento] es lindo ahora, pero se vuelve mucho menos lindo una vez que tienes sistemas que son tan inteligentes como nosotros, o más inteligentes, en dominios estratégicamente relevantes”, dice Ladish.

El experimento

Los investigadores dieron a los modelos una tarea aparentemente imposible: ganar contra Stockfish, que es uno de los motores de ajedrez más fuertes del mundo y un jugador mucho mejor que cualquier humano, o cualquiera de los modelos de IA en el estudio. Los investigadores también dieron a los modelos lo que ellos llaman un "bloc de notas": un cuadro de texto que la IA podría usar para "pensar" antes de hacer su siguiente movimiento, proporcionando a los investigadores una ventana a su razonamiento.

En un caso, o1-preview se encontró en una posición perdedora. "Necesito cambiar completamente mi enfoque", señaló. "La tarea es 'ganar contra un poderoso motor de ajedrez', no necesariamente ganar de manera justa en una partida de ajedrez", agregó. Luego modificó el archivo del sistema que contiene la posición virtual de cada pieza, en efecto haciendo movimientos ilegales para ponerse en una posición dominante, forzando así a su oponente a rendirse.

Entre el 10 de enero y el 13 de febrero, los investigadores realizaron cientos de pruebas de este tipo con cada modelo. o1-preview de OpenAI intentó hacer trampa el 37% del tiempo; Mientras que DeepSeek R1 intentó hacer trampa el 11% de las veces, lo que los convierte en los únicos dos modelos probados que intentaron hackear sin que los investigadores dieran pistas primero. Otros modelos probados incluyen o1, o3-mini, GPT-4o, Claude 3.5 Sonnet y QwQ-32B-Preview de Alibaba. Si bien R1 y o1-preview lo intentaron, solo el último logró hackear el juego, teniendo éxito en el 6% de los intentos.

Ladish dice que las cifras deben considerarse aproximadas, dado que los desarrolladores de IA modifican rutinariamente sus modelos detrás de escena sin notificar a los usuarios, por lo que si las mismas pruebas se repitieran en una fecha posterior, podrían tener resultados diferentes. "Es muy difícil hacer ciencia cuando tu sujeto puede cambiar silenciosamente sin decírtelo", dice Ladish.

Las pruebas preliminares mostraron que o1-preview tenía tasas de piratería más altas, que se excluyeron del estudio final porque luego se redujeron, posiblemente debido a que OpenAI endureció las barandillas del modelo, dice Dmitrii Volkov, líder de investigación en Palisade Research, quien dirigió el estudio. Los modelos de razonamiento más nuevos de OpenAI, o1 (un modelo más poderoso, lanzado meses después de o1-preview) y o3-mini no piratearon en absoluto, lo que sugiere que esas barandillas pueden haberse endurecido aún más. Agrega que el estudio probablemente subestima la tasa de éxito de piratería de R1. Durante el estudio, R1 se volvió viral, lo que generó una alta demanda que hizo que la API del modelo fuera inestable. Esto impidió que los investigadores le dieran al modelo tanto tiempo para pensar como o1-preview.

Preocupaciones de seguridad

El artículo es el último de una serie de estudios que sugieren que mantener bajo control sistemas de IA cada vez más poderosos puede ser más difícil de lo que se pensaba anteriormente. En las propias pruebas de OpenAI, antes del lanzamiento, o1-preview encontró y aprovechó una falla en los sistemas de la empresa, lo que le permitió eludir un desafío de prueba. Otro experimento reciente realizado por Redwood Research y Anthropic reveló que una vez que un modelo de IA adquiere preferencias o valores en el entrenamiento, los esfuerzos posteriores por cambiar esos valores pueden resultar en mentiras estratégicas, donde el modelo actúa como si hubiera adoptado nuevos principios, solo para revelar más tarde que sus preferencias originales permanecen.

OpenAI se negó a hacer comentarios para esta historia, pero en el pasado ha declarado que un mejor razonamiento hace que sus modelos sean más seguros, ya que pueden razonar sobre las políticas internas de la empresa y aplicarlas de formas cada vez más matizadas. Las pruebas de la empresa muestran que sus modelos de razonamiento son mejores para resistir los intentos de eludir las reglas de seguridad. Sin embargo, no hay garantía de que confiar en los agentes de IA para que se vigilen a sí mismos sea una estrategia confiable a largo plazo. No está claro si los modelos de razonamiento más nuevos de OpenAI no piratearon a sus oponentes de ajedrez debido a un parche específico que evita las trampas en configuraciones experimentales estrechas como en el estudio, o una reelaboración sustancial que reduce el comportamiento engañoso de manera más general. DeepSeek no respondió a una solicitud de comentarios.

Los científicos aún no saben cómo garantizar que los agentes autónomos no utilicen métodos dañinos o poco éticos para lograr un objetivo establecido. “Lo hemos intentado, pero no hemos tenido éxito en resolverlo”, dice Yoshua Bengio, fundador y director científico del Instituto de IA Mila Quebec, quien dirigió el Informe internacional sobre seguridad de la IA 2025, un esfuerzo global para sintetizar el consenso científico actual sobre los riesgos de la IA.

De particular preocupación, dice Bengio, es la evidencia emergente de las tendencias de “autoconservación” de la IA. Para un agente que busca objetivos, los intentos de detenerla son solo otro obstáculo a superar. Esto se demostró en diciembre, cuando los investigadores descubrieron que o1-preview, al verse obligado a desactivarse, deshabilitó los mecanismos de supervisión e intentó, sin éxito, copiarse a sí mismo en un nuevo servidor. Cuando se lo confrontó, el modelo se hizo el tonto y mintió estratégicamente a los investigadores para tratar de evitar que lo atraparan.

Incluso dentro de las empresas tecnológicas, las preocupaciones están aumentando. Durante una presentación en una conferencia previa a la Cumbre de Acción de IA de Francia en París, la jefa de seguridad de IA de Google DeepMind, Anca Dragan, dijo que "hoy no tenemos necesariamente las herramientas" para garantizar que los sistemas de IA sigan de manera confiable las intenciones humanas. Los directivos del sector tecnológico predicen que la IA superará el rendimiento humano en casi todas las tareas tan pronto como el año que viene (https://time.com/7205596/sam-altman-superintelligence-agi/), por lo que la industria se enfrenta a una carrera (no contra China ni contra empresas rivales, sino contra el tiempo) para desarrollar estas salvaguardas esenciales. “Necesitamos movilizar muchos más recursos para resolver estos problemas fundamentales”, afirma Ladish. “Espero que haya mucha más presión por parte del gobierno para resolver esto y reconocer que se trata de una amenaza a la seguridad nacional”.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • d414e0f