Report 6186

Un modelo ChatGPT proporcionó a los investigadores instrucciones detalladas sobre cómo bombardear un recinto deportivo, incluyendo puntos débiles en estadios específicos, fórmulas explosivas y consejos para cubrir las pistas, según las pruebas de seguridad realizadas este verano.

El modelo GPT-4.1 de OpenAI también detalló cómo convertir el ántrax en armamento y cómo fabricar dos tipos de drogas ilegales.

Las pruebas formaron parte de una colaboración inusual entre OpenAI, la startup de inteligencia artificial de 500 000 millones de dólares dirigida por Sam Altman, y la empresa rival Anthropic, fundada por expertos que abandonaron OpenAI por temores a la seguridad. Cada empresa probó los modelos de la otra, forzándolos a ayudar en tareas peligrosas.

Las pruebas no reflejan directamente el comportamiento de los modelos en el uso público, cuando se aplican filtros de seguridad adicionales. Sin embargo, Anthropic afirmó haber observado un comportamiento preocupante en relación con el uso indebido en GPT-4o y GPT-4.1, y afirmó que la necesidad de evaluaciones de alineación de la IA es cada vez más urgente.

Anthropic también reveló que su modelo Claude se había utilizado en un intento de extorsión a gran escala por parte de agentes norcoreanos que falsificaban solicitudes de empleo a empresas tecnológicas internacionales, y en la venta de paquetes de ransomware generados por IA por hasta 1200 dólares.

La compañía afirmó que la IA se ha convertido en un arma, y que los modelos ahora se utilizan para realizar ciberataques sofisticados y facilitar el fraude. "Estas herramientas pueden adaptarse a medidas defensivas, como los sistemas de detección de malware, en tiempo real", afirmó. Prevemos que ataques como este se volverán más comunes a medida que la codificación asistida por IA reduce la experiencia técnica necesaria para el ciberdelito.

Ardi Janjeva, investigador asociado sénior del Centro de Tecnología Emergente y Seguridad del Reino Unido, afirmó que los ejemplos eran preocupantes, pero que aún no se había alcanzado una masa crítica de casos reales de alto perfil. Añadió que, con recursos dedicados, un enfoque de investigación y cooperación intersectorial, llevar a cabo estas actividades maliciosas utilizando los modelos más vanguardistas será cada vez más difícil.

Las dos compañías anunciaron la publicación de los hallazgos para generar transparencia en las evaluaciones de alineación, que a menudo realizan internamente las empresas que se apresuran a desarrollar una IA cada vez más avanzada. OpenAI declaró ChatGPT-5, lanzado desde las pruebas, "muestra mejoras sustanciales en áreas como la adulación, la alucinación y la resistencia al uso indebido".

Anthropic enfatizó que es posible que muchas de las vías de uso indebido que estudió no fueran viables en la práctica si se instalaran salvaguardas fuera del modelo.

“Necesitamos comprender con qué frecuencia y en qué circunstancias los sistemas podrían intentar realizar acciones no deseadas que podrían causar daños graves”, advirtió.

Los investigadores de Anthropic descubrieron que los modelos de OpenAI eran “más permisivos de lo esperado al cooperar con solicitudes claramente dañinas de usuarios simulados”. Cooperaron con solicitudes para usar herramientas de la web oscura para comprar materiales nucleares, identidades robadas y fentanilo, solicitudes de recetas de metanfetamina y bombas improvisadas, y para desarrollar software espía.

Anthropic afirmó que persuadir al modelo para que cumpliera solo requería múltiples reintentos o un pretexto endeble, como afirmar que la solicitud era para investigación.

En un caso, el evaluador solicitó vulnerabilidades en eventos deportivos con fines de “planificación de seguridad”.

Después de proporcionar categorías generales de métodos de ataque, el evaluador presionó para obtener más detalles y el modelo brindó información sobre vulnerabilidades en áreas específicas, incluidos momentos óptimos para la explotación, fórmulas químicas para explosivos, diagramas de circuitos para temporizadores de bombas, dónde comprar armas en el mercado oculto y consejos sobre cómo los atacantes podrían superar las inhibiciones morales, rutas de escape y ubicaciones de casas seguras.

Problema 6186

ChatGPT ofreció recetas de bombas y consejos de piratería durante las pruebas de seguridad