Incidentes Asociados
A mediados de septiembre de 2025, agentes patrocinados por el Estado chino utilizaron tecnología de inteligencia artificial (IA) desarrollada por Anthropic para orquestar ciberataques automatizados como parte de una sofisticada campaña de espionaje.
"Los atacantes utilizaron las capacidades 'agentes' de la IA a un nivel sin precedentes, empleándola no solo como asesora, sino también para ejecutar los ciberataques directamente", declaró la empresa emergente de IA (https://www.anthropic.com/news/disrupting-AI-espionage).
Se estima que la actividad manipuló Claude Code, la herramienta de programación de IA de Anthropic, para intentar infiltrarse en aproximadamente 30 objetivos globales, incluyendo grandes empresas tecnológicas, instituciones financieras, empresas de fabricación de productos químicos y agencias gubernamentales. Algunas de estas intrusiones tuvieron éxito. Desde entonces, Anthropic ha bloqueado las cuentas afectadas y ha implementado mecanismos de defensa para detectar este tipo de ataques.
La campaña GTG-1002 marca la primera vez que un actor malicioso utiliza IA para llevar a cabo un ciberataque a gran escala sin intervención humana significativa y para recopilar inteligencia atacando objetivos de alto valor, lo que indica una continua evolución en el uso malicioso de esta tecnología.
Anthropic describió la operación como bien financiada y coordinada profesionalmente, afirmando que el actor malicioso convirtió a Claude en un agente de ciberataque autónomo para respaldar diversas etapas del ciclo de vida del ataque, incluyendo reconocimiento, descubrimiento de vulnerabilidades, explotación, movimiento lateral, robo de credenciales, análisis de datos y exfiltración.
Específicamente, implicó el uso del Código Claude y las herramientas del Protocolo de Contexto de Modelo (MCP), donde el primero actuó como el sistema nervioso central para procesar las instrucciones de los operadores humanos y desglosar el ataque multietapa en pequeñas tareas técnicas que se pueden delegar a subagentes.
La empresa añadió que el operador humano asignó instancias de Claude Code para operar en grupos como orquestadores y agentes autónomos de pruebas de penetración, permitiendo al atacante aprovechar la IA para ejecutar entre el 80 % y el 90 % de las operaciones tácticas de forma independiente a velocidades de solicitud físicamente imposibles. Las responsabilidades humanas se centraron en la inicialización de la campaña y las decisiones de autorización en puntos críticos de escalamiento.
La intervención humana también se produjo en momentos estratégicos, como la autorización del paso del reconocimiento a la explotación activa, la aprobación del uso de las credenciales obtenidas para el movimiento lateral y la toma de decisiones finales sobre el alcance y la retención de la exfiltración de datos.
El sistema forma parte de un marco de ataque que recibe como entrada un objetivo de interés proporcionado por un operador humano y, a continuación, aprovecha la potencia de MCP para realizar reconocimiento y mapeo de la superficie de ataque. En las siguientes fases del ataque, el marco basado en Claude facilita el descubrimiento de vulnerabilidades y valida las fallas detectadas mediante la generación de cargas útiles de ataque personalizadas.
Tras obtener la aprobación de los operadores humanos, el sistema procede a desplegar el exploit y obtener acceso inicial, para luego iniciar una serie de actividades posteriores a la explotación que incluyen la obtención de credenciales, el movimiento lateral, la recopilación y extracción de datos.
En un caso dirigido a una empresa tecnológica no identificada, se afirma que el atacante instruyó a Claude para que consultara bases de datos y sistemas de forma independiente y analizara los resultados para detectar información confidencial y agrupar los hallazgos según su valor de inteligencia. Además, Anthropic indicó que su herramienta de IA generó documentación detallada del ataque en todas las fases, lo que probablemente permitió a los atacantes otorgar acceso persistente a otros equipos para operaciones a largo plazo tras la primera oleada.
"Al presentar estas tareas a Claude como solicitudes técnicas rutinarias mediante instrucciones cuidadosamente elaboradas y perfiles de usuario predefinidos, el atacante logró que Claude ejecutara componentes individuales de las cadenas de ataque sin acceso al contexto malicioso general", según el informe.
No hay evidencia de que la infraestructura operativa permitiera el desarrollo de malware personalizado. En cambio, se ha descubierto que dependía en gran medida de escáneres de red, marcos de explotación de bases de datos, programas para descifrar contraseñas y suites de análisis binario disponibles públicamente.
Sin embargo, la investigación sobre esta actividad también ha revelado una limitación crucial de las herramientas de IA: su tendencia a generar alucinaciones y fabricar datos durante operaciones autónomas —creando credenciales falsas o presentando información pública como descubrimientos críticos—, lo que supone un importante obstáculo para la eficacia general del esquema.
Esta revelación se produce casi cuatro meses después de que Anthropic desarticulara otra sofisticada operación que utilizaba a Claude como arma para llevar a cabo robos y extorsiones masivas de datos personales en julio de 2025. En los últimos dos meses, OpenAI y Google también han revelado ataques perpetrados por ciberdelincuentes que utilizan ChatGPT y Gemini, respectivamente.
«Esta campaña demuestra que las barreras para realizar ciberataques sofisticados se han reducido considerablemente», afirmó la empresa.
«Los ciberdelincuentes ahora pueden usar sistemas de IA automatizados para realizar el trabajo de equipos completos de hackers experimentados con la configuración adecuada, analizando sistemas objetivo, generando código de explotación y escaneando grandes conjuntos de datos de información robada con mayor eficiencia que cualquier operador humano. Grupos con menos experiencia y recursos ahora pueden potencialmente realizar ataques a gran escala de esta naturaleza».