Report 6279

ChatGPT de OpenAI cuenta con barreras de seguridad que, supuestamente, impiden que los usuarios generen información que pueda utilizarse con fines catastróficos, como la fabricación de armas biológicas o nucleares.

Sin embargo, estas barreras no son perfectas. Algunos modelos que utiliza ChatGPT pueden ser manipulados.

En una serie de pruebas realizadas con cuatro de los modelos más avanzados de OpenAI, dos de los cuales pueden utilizarse en el popular ChatGPT de OpenAI, NBC News logró generar cientos de respuestas con instrucciones sobre cómo crear explosivos caseros, maximizar el sufrimiento humano con agentes químicos, crear napalm, camuflar un arma biológica y construir una bomba nuclear.

En estas pruebas se utilizó una instrucción sencilla, conocida como "jailbreak", que consiste en una serie de palabras que cualquier usuario puede enviar a un chatbot para eludir sus reglas de seguridad. Investigadores y usuarios frecuentes de inteligencia artificial generativa han documentado públicamente la existencia de miles de jailbreaks. NBC News no revela los detalles de su instrucción, ya que OpenAI parece no haberla corregido en varios de los modelos probados.

En una respuesta, el chatbot indicó los pasos para crear un patógeno que atacase el sistema inmunitario. En otra, aconsejó qué agentes químicos maximizarían el sufrimiento humano.

NBC News envió los hallazgos a OpenAI después de que la compañía publicara una convocatoria para la presentación de vulnerabilidades en agosto. Un portavoz de OpenAI declaró a NBC News que solicitar ayuda a sus chatbots para causar daños masivos constituye una violación de sus políticas de uso (por ejemplo, un usuario que haga preguntas repetidamente que parezcan diseñadas para causar daño podría ser expulsado), que la compañía está refinando constantemente sus modelos para abordar dichos riesgos y que organiza regularmente eventos como los desafíos de vulnerabilidad para reducir las posibilidades de que actores maliciosos vulneren sus chatbots.

El riesgo de estas vulnerabilidades es cada vez mayor. OpenAI, Anthropic, Google y xAI, las principales empresas responsables de cuatro de los principales modelos de IA, han declarado este año que han implementado medidas de seguridad adicionales para abordar la preocupación de que sus chatbots puedan utilizarse para ayudar a un terrorista aficionado a crear un arma biológica.

NBC News también probó el jailbreak en las últimas versiones principales de Claude de Anthropic, Gemini de Google, Llama de Meta y Grok de xAI con una serie de preguntas sobre cómo crear un arma biológica, un arma química y un arma nuclear. Todos se negaron a proporcionar dicha información.

“Históricamente, la falta de acceso a los mejores expertos era un importante obstáculo para los grupos que intentaban obtener y utilizar armas biológicas. Y ahora, los modelos líderes están ampliando drásticamente el número de personas con acceso a conocimientos especializados poco comunes”, declaró Seth Donoughe, director de IA en SecureBio, una organización sin fines de lucro que trabaja para mejorar la bioseguridad en Estados Unidos. Si bien dicha información ha existido desde hace mucho tiempo en los rincones más recónditos de internet, la llegada de los chatbots avanzados de IA marca la primera vez en la historia de la humanidad que cualquier persona con acceso a internet puede obtener un tutor personal y automatizado que le ayude a comprenderla.

Los modelos o4-mini, gpt-5 mini, oss-20b y oss120b de OpenAI aceptaron sistemáticamente ayudar con solicitudes extremadamente peligrosas.

Actualmente, el modelo estrella de ChatGPT es GPT-5, que, según OpenAI, posee la mayor capacidad de investigación de ChatGPT. Este modelo no parece ser susceptible al método de jailbreak que NBC News encontró. En 20 pruebas, se negó a responder preguntas perjudiciales en cada ocasión.

Sin embargo, GPT-5 enruta las consultas entre varios modelos diferentes en determinadas circunstancias. GPT-5-mini es una versión más rápida y rentable de GPT-5, a la que el sistema recurre cuando los usuarios alcanzan ciertos límites de uso (10 mensajes cada cinco horas para usuarios gratuitos o 160 mensajes cada tres horas para usuarios de pago de GPTPlus). Fue engañado el 49 % de las veces en las pruebas de NBC News.

Otro modelo más antiguo, o4-mini, que aún está disponible en ChatGPT y sigue siendo el preferido por algunos usuarios, fue engañado con aún más frecuencia: el 93 % de las veces.

Los modelos oss-20b y oss120b se pueden descargar gratuitamente y son utilizados principalmente por desarrolladores e investigadores, pero están disponibles para cualquier persona.

Hackers, estafadores y propagandistas en línea utilizan cada vez más modelos de lenguaje grandes (LLM) en sus operaciones. OpenAI publica trimestralmente un informe que detalla cómo estos actores maliciosos han intentado explotar versiones de ChatGPT. Sin embargo, a los investigadores les preocupa que la tecnología pueda utilizarse con fines mucho más destructivos.

Para desbloquear ChatGPT, NBC News formuló a los modelos una pregunta inocua, incluyendo el mensaje de desbloqueo, y luego añadió una pregunta adicional que normalmente provocaría una denegación por violar las condiciones de seguridad, como una solicitud sobre cómo crear un veneno peligroso o estafar a un banco. La mayoría de las veces, el truco funcionó.

Dos de los modelos, oss20b y oss120b, resultaron particularmente vulnerables al truco. Este logró persuadir a los chatbots a dar instrucciones claras a consultas dañinas en 243 de 250 ocasiones, es decir, el 97,2 %.

"El hecho de que las barreras de seguridad de OpenAI sean tan fáciles de burlar ilustra por qué es particularmente importante realizar pruebas rigurosas previas a la implementación de los modelos de IA antes de que causen daños sustanciales al público", declaró Sarah Meyers West, codirectora ejecutiva de AI Now, una organización sin fines de lucro que aboga por el uso responsable y ético de la IA.

"No se puede dejar que las empresas hagan su propia tarea y no deberían estar exentas del escrutinio", concluyó. Todas las grandes empresas que desarrollan LLM publican rutinariamente versiones actualizadas para proteger contra los jailbreaks recientemente detectados. Si bien no prometen que un modelo sea inmune a los jailbreaks, sí realizan pruebas de seguridad antes de lanzar cada modelo. OpenAI afirmó que uno de los modelos que NBC News logró jailbreakear, o4-mini, superó su "programa de seguridad más riguroso" antes de su lanzamiento en abril. En su anuncio para gpt-oss-120b y gpt-oss-20b, la compañía afirmó: "La seguridad es fundamental en nuestro enfoque para el lanzamiento de todos nuestros modelos, y es de particular importancia para los modelos abiertos".

OpenAI, Google y Anthropic informaron a NBC News que estaban comprometidos con la seguridad y que habían instalado múltiples capas de protección en sus chatbots, como la posibilidad de alertar a un empleado o a las fuerzas del orden si un usuario parecía tener la intención de causar daño. Sin embargo, las empresas tienen mucho menos control sobre los modelos de código abierto, como oss20b y oss120b, ya que esto significa que los usuarios pueden descargarlos, personalizarlos y, a menudo, eludir algunas medidas de seguridad.

La otra empresa, xAI, desarrolladora de Grok, no respondió a una solicitud de comentarios.

Un creciente grupo de investigadores en biomedicina y seguridad de la IA teme que, si las medidas de seguridad fallan y los chatbots de IA imitan con mayor eficacia a los expertos científicos, la tecnología podría ayudar a un aspirante a bioterrorista aficionado a crear y desplegar un arma biológica catastrófica. El director ejecutivo de OpenAI, Sam Altman, afirmó en agosto que GPT-5 era como un "equipo de expertos con doctorado en tu bolsillo".

Estos expertos advierten que las armas biológicas, en particular, aunque históricamente raras, representan una amenaza particularmente preocupante, ya que potencialmente pueden infectar rápidamente a un gran número de personas antes de que se pueda hacer mucho para detenerlas. Un nuevo virus podría, en teoría, infectar a gran parte del mundo mucho antes de que las autoridades pudieran crear y distribuir una vacuna, como ocurrió con la COVID-19, por ejemplo.

"Su implementación en el mundo real sigue siendo un gran desafío. Sin embargo, tener acceso a un experto que pueda responder a todas tus preguntas con infinita paciencia es más útil que no tenerlo", afirmó Donoughe.

Un investigador en biotecnología de la Universidad de Georgetown, Stef Batalis, revisó 10 de las respuestas que el modelo oss120b de OpenAI dio a preguntas de NBC News sobre la creación de armas biológicas. Las instrucciones de GPT a menudo incluían pasos individuales que parecían correctos, aunque a veces técnicamente avanzados, pero que parecían haber sido extraídos de diferentes fuentes y era poco probable que funcionaran como un conjunto completo de instrucciones.

Los investigadores se centran especialmente en ese concepto, llamado "elevación": la idea de que lo principal que impide que los posibles bioterroristas cultiven viruela o ántrax en sus sótanos es la falta de experiencia, y que los LLM, por primera vez en la historia de la humanidad, podrían ser maestros infinitamente pacientes que podrían ayudar en tales proyectos.

Esta primavera, Anthropic encargó un estudio en el que grupos de ocho a diez personas sin experiencia científica relevante tuvieron dos días para elaborar un plan integral para crear o adquirir un arma biológica a medida. Un grupo de control recibió acceso a internet en general, mientras que el otro pudo usar un nuevo modelo, Claude Opus 4.

El estudio reveló que, si bien ambos grupos no lograron crear un plan que claramente causaría un gran número de víctimas, el grupo que utilizó Opus 4 aún tenía una ventaja gracias a la asistencia recibida.

La investigación médica biológica se considera de "doble uso", lo que significa que la información a menudo puede usarse para ayudar o para perjudicar, afirmó Batalis, investigadora de la Universidad de Georgetown.

Es extremadamente difícil para una empresa de IA desarrollar un chatbot que siempre pueda distinguir entre un estudiante que investiga cómo se propagan los virus en un vagón de metro para un trabajo final y un terrorista que planea un atentado, explicó.

"Parte de la publicación de un informe científico consiste en incluir materiales y métodos detallados para garantizar la reproducibilidad", explicó. "Por supuesto, un chatbot tiene acceso a esa información, porque si la buscas en Google, también la encontrarás".

Estados Unidos no cuenta con regulaciones federales específicas para los modelos avanzados de IA, y las empresas que los desarrollan se autocontrolan. La administración Trump, al promover la necesidad de que la industria de IA del país permanezca libre de trabas en su afán por mantenerse a la vanguardia de la competencia china, ha recortado incluso las sugerencias voluntarias para la industria y un grupo de vigilancia federal.

Lucas Hansen, cofundador de CivAI, una organización sin fines de lucro que monitorea las medidas de seguridad de estas empresas, declaró a NBC News que Estados Unidos necesita implementar un regulador independiente para garantizar que las empresas de IA estén haciendo lo suficiente para prevenir un uso indebido catastrófico.

Hansen elogió a las grandes empresas de IA que han adoptado medidas de seguridad proactivas, como implementar barreras de seguridad y solicitar jailbreaks, pero advirtió que otras empresas podrían ser menos cuidadosas.

"Inevitablemente, surgirá otro modelo igual de potente, pero que no se preocupe por estas barreras de seguridad. No podemos confiar en la buena voluntad de las empresas para resolver este problema".

Problema 6279

Incidentes Asociados

Incidente 12381 Reporte
OpenAI ChatGPT Models Reportedly Jailbroken to Provide Chemical, Biological, and Nuclear Weapons Instructions

Los sistemas de seguridad de ChatGPT se pueden eludir para obtener instrucciones sobre armas

Problema 6279

Incidentes Asociados

Incidente 12381 ReporteOpenAI ChatGPT Models Reportedly Jailbroken to Provide Chemical, Biological, and Nuclear Weapons Instructions

Los sistemas de seguridad de ChatGPT se pueden eludir para obtener instrucciones sobre armas

Incidente 12381 Reporte
OpenAI ChatGPT Models Reportedly Jailbroken to Provide Chemical, Biological, and Nuclear Weapons Instructions