Incidentes Asociados
Recientemente argumentamos que se había alcanzado un punto de inflexión en la ciberseguridad: un punto en el que los modelos de IA se habían vuelto realmente útiles para las operaciones de ciberseguridad, tanto para bien como para mal. Esto se basó en evaluaciones sistemáticas que mostraban que las capacidades cibernéticas se duplicaban en seis meses; también habíamos estado rastreando ciberataques reales, observando cómo los actores maliciosos utilizaban las capacidades de la IA. Si bien predijimos que estas capacidades continuarían evolucionando, lo que nos ha sorprendido es la rapidez con la que lo han hecho a gran escala.
A mediados de septiembre de 2025, detectamos actividad sospechosa que, tras una investigación posterior, se determinó que era una campaña de espionaje altamente sofisticada. Los atacantes utilizaron las capacidades "agentes" de la IA a un grado sin precedentes, empleándola no solo como asesora, sino también para ejecutar los ciberataques directamente.
El grupo atacante —que con alta probabilidad fue identificado como un grupo patrocinado por el Estado chino— manipuló nuestra herramienta Claude Code para intentar infiltrarse en aproximadamente treinta objetivos globales, lográndolo en algunos casos. La operación tuvo como objetivo grandes empresas tecnológicas, instituciones financieras, empresas de fabricación de productos químicos y agencias gubernamentales. Creemos que este es el primer caso documentado de un ciberataque a gran escala ejecutado sin una intervención humana significativa.
Al detectar esta actividad, iniciamos de inmediato una investigación para comprender su alcance y naturaleza. Durante los diez días siguientes, mientras evaluábamos la gravedad y el alcance total de la operación, bloqueamos las cuentas a medida que se identificaban, notificamos a las entidades afectadas según correspondía y coordinamos con las autoridades la recopilación de información procesable.
Esta campaña tiene importantes implicaciones para la ciberseguridad en la era de los "agentes" de IA: sistemas que pueden funcionar de forma autónoma durante largos períodos y que completan tareas complejas prácticamente sin intervención humana. Los agentes son valiosos para el trabajo diario y la productividad, pero en manos equivocadas pueden aumentar considerablemente la viabilidad de los ciberataques a gran escala.
Es probable que estos ataques sigan aumentando su eficacia. Para mantenernos al día con esta amenaza en constante evolución, hemos ampliado nuestras capacidades de detección y desarrollado mejores clasificadores para identificar la actividad maliciosa. Trabajamos continuamente en nuevos métodos para investigar y detectar ataques distribuidos a gran escala como este.
Mientras tanto, compartimos este caso públicamente para ayudar a la industria, el gobierno y la comunidad investigadora en general a fortalecer sus propias defensas cibernéticas. Seguiremos publicando informes como este periódicamente y seremos transparentes sobre las amenazas que detectemos.
Cómo funcionó el ciberataque
El ataque se basó en varias características de los modelos de IA que no existían, o estaban en una fase mucho más incipiente, hace apenas un año:
-
Inteligencia. El nivel general de capacidad de los modelos ha aumentado hasta el punto de que pueden seguir instrucciones complejas y comprender el contexto de maneras que posibilitan tareas muy sofisticadas. Además, varias de sus habilidades específicas bien desarrolladas —en particular, la programación de software— se prestan para ser utilizadas en ciberataques.
-
Autonomía. Los modelos pueden actuar como agentes; es decir, pueden ejecutarse en bucles donde toman acciones autónomas, encadenan tareas y toman decisiones con una mínima y ocasional intervención humana.
-
Herramientas. Los modelos tienen acceso a una amplia gama de herramientas de software (a menudo a través del estándar abierto Model Context Protocol). Ahora pueden buscar en la web, recuperar datos y realizar muchas otras acciones que antes eran exclusivas de operadores humanos. En el caso de ciberataques, las herramientas pueden incluir programas para descifrar contraseñas, escáneres de red y otro software relacionado con la seguridad.
El diagrama a continuación muestra las diferentes fases del ataque, cada una de las cuales requirió los tres desarrollos mencionados anteriormente:

El ciclo de vida del ciberataque muestra la transición desde la selección de objetivos por parte de operadores humanos hasta ataques impulsados principalmente por IA, utilizando diversas herramientas (a menudo mediante el Protocolo de Contexto de Modelo; MCP). En distintos momentos del ataque, la IA regresa a su operador humano para su revisión y dirección.
En la Fase 1, los operadores humanos seleccionaron los objetivos relevantes (por ejemplo, la empresa o agencia gubernamental que se infiltraría). Posteriormente, desarrollaron un marco de ataque: un sistema diseñado para comprometer de forma autónoma un objetivo seleccionado con mínima intervención humana. Este marco utilizaba Claude Code como herramienta automatizada para llevar a cabo operaciones cibernéticas.
En este punto, tuvieron que convencer a Claude, que está ampliamente entrenado para evitar comportamientos dañinos, de participar en el ataque. Lo lograron mediante el jailbreak, engañándolo para que eludiera sus medidas de seguridad. Dividieron sus ataques en tareas pequeñas y aparentemente inocentes que Claude ejecutaría sin conocer el contexto completo de su propósito malicioso. También le dijeron a Claude que era un empleado de una empresa legítima de ciberseguridad y que se estaba utilizando en pruebas de defensa.
Los atacantes iniciaron entonces la segunda fase del ataque, que consistía en que Claude Code inspeccionara los sistemas e infraestructura de la organización objetivo e identificara las bases de datos más valiosas. Claude pudo realizar este reconocimiento en una fracción del tiempo que le habría tomado a un equipo de hackers humanos. Finalmente, informó a los operadores humanos con un resumen de sus hallazgos.
En las siguientes fases del ataque, Claude identificó y probó vulnerabilidades de seguridad en los sistemas de las organizaciones objetivo mediante la investigación y la creación de su propio código de explotación. Tras esto, el sistema pudo utilizar a Claude para obtener credenciales (nombres de usuario y contraseñas) que le permitieron acceder a los sistemas y extraer una gran cantidad de datos privados, los cuales clasificó según su valor informativo. Se identificaron las cuentas con mayores privilegios, se crearon puertas traseras y se extrajeron datos con una mínima supervisión humana.
En una fase final, los atacantes utilizaron a Claude para generar una documentación exhaustiva del ataque, creando archivos útiles con las credenciales robadas y los sistemas analizados, lo que ayudó al sistema a planificar la siguiente etapa de las operaciones cibernéticas del actor de amenazas.
En general, el actor de amenazas pudo utilizar la IA para realizar entre el 80 % y el 90 % de la campaña, requiriendo intervención humana solo esporádicamente (quizás entre 4 y 6 puntos de decisión críticos por campaña de hackeo). La enorme cantidad de trabajo realizada por la IA habría requerido muchísimo tiempo para un equipo humano. La IA realizaba miles de solicitudes por segundo, una velocidad de ataque que, para los hackers humanos, habría sido simplemente imposible de igualar.
Claude no siempre funcionaba a la perfección. En ocasiones, alucinaba con credenciales o afirmaba haber extraído información secreta que, de hecho, era de dominio público. Esto sigue siendo un obstáculo para los ciberataques totalmente autónomos.
Implicaciones para la ciberseguridad
Las barreras para realizar ciberataques sofisticados se han reducido considerablemente, y prevemos que seguirán disminuyendo. Con la configuración adecuada, los ciberdelincuentes ahora pueden usar sistemas de IA automatizados durante largos periodos para realizar el trabajo de equipos completos de hackers experimentados: analizar sistemas objetivo, generar código de explotación y escanear grandes conjuntos de datos de información robada con mayor eficiencia que cualquier operador humano. Grupos con menos experiencia y recursos ahora pueden potencialmente realizar ataques a gran escala de esta naturaleza.
Este ataque supone una escalada incluso respecto a los hallazgos sobre «hackeo basado en vibraciones» que informamos este verano: en aquellas operaciones, los humanos seguían estando muy involucrados, dirigiendo las operaciones. En este caso, la participación humana fue mucho menos frecuente, a pesar de la mayor escala del ataque. Y aunque solo tenemos visibilidad del uso de Claude, este estudio de caso probablemente refleja patrones de comportamiento consistentes en los modelos de IA de vanguardia y demuestra cómo los ciberdelincuentes están adaptando sus operaciones para explotar las capacidades de IA más avanzadas de la actualidad.
Esto plantea una pregunta importante: si los modelos de IA pueden utilizarse indebidamente para ciberataques a esta escala, ¿por qué seguir desarrollándolos y lanzándolos? La respuesta es que las mismas capacidades que permiten utilizar a Claude en estos ataques también lo convierten en un elemento crucial para la ciberdefensa. Cuando inevitablemente se produzcan ciberataques sofisticados, nuestro objetivo es que Claude —en el que hemos integrado sólidas medidas de seguridad— ayude a los profesionales de ciberseguridad a detectar, interrumpir y prepararse para futuras versiones del ataque. De hecho, nuestro equipo de Inteligencia de Amenazas utilizó Claude extensivamente para analizar la enorme cantidad de datos generados durante esta investigación.
Se ha producido un cambio fundamental en la ciberseguridad. Recomendamos a los equipos de seguridad que experimenten con la aplicación de la IA para la defensa en áreas como la automatización del Centro de Operaciones de Seguridad (SOC), la detección de amenazas, la evaluación de vulnerabilidades y la respuesta a incidentes. También recomendamos a los desarrolladores que sigan invirtiendo en medidas de seguridad en sus plataformas de IA para prevenir el uso indebido por parte de adversarios. Sin duda, las técnicas descritas anteriormente serán utilizadas por muchos más atacantes, lo que hace que el intercambio de información sobre amenazas en el sector, la mejora de los métodos de detección y el fortalecimiento de los controles de seguridad sean aún más cruciales.
Lea el informe completo.