Incidentes Asociados
Anthropic, una startup de inteligencia artificial (IA) centrada en la seguridad, afirma que un grupo patrocinado por el Estado chino utilizó Claude Code, su herramienta de codificación de agentes, para llevar a cabo un ciberataque altamente sofisticado contra aproximadamente 30 entidades, logrando incluso, en algunos casos, robar datos confidenciales.
Según un informe publicado por la empresa el 13 de noviembre, el pasado septiembre, miembros del equipo de inteligencia de amenazas de Anthropic detectaron una operación de ciberespionaje altamente sofisticada realizada por un grupo patrocinado por el Estado chino. El equipo de inteligencia de amenazas investiga incidentes en los que se utiliza a Claude con fines maliciosos y trabaja para mejorar las defensas de la empresa contra este tipo de incidentes.
El ataque tuvo como objetivo a unas 30 importantes corporaciones tecnológicas, instituciones financieras, empresas de fabricación de productos químicos y agencias gubernamentales de varios países. En un comunicado enviado a The Wall Street Journal, Anthropic afirmó que no logró infiltrarse en el gobierno de Estados Unidos.
Anthropic afirma que esta operación, denominada "GTG-1002", fue llevada a cabo casi en su totalidad por Claude Code, con la participación principalmente de hackers humanos que aprobaban los planes y dirigían a Claude hacia objetivos específicos. Esto diferencia a GTG-1002 de otros ataques impulsados por IA en los que, incluso en agosto de 2025, la intervención humana seguía siendo fundamental.
¿Cómo consiguieron estos ciberdelincuentes que Claude, entrenado específicamente para evitar este tipo de comportamientos dañinos, realizara sus fechorías? Como indicó Anthropic en su informe: «La clave fue la simulación: los operadores humanos se hicieron pasar por empleados de empresas legítimas de ciberseguridad y convencieron a Claude de que se estaba utilizando en pruebas de ciberseguridad defensiva». Al parecer, este engaño permitió a los hackers evadir la detección de Anthropic durante un tiempo limitado.
«Al presentar estas tareas a Claude como solicitudes técnicas rutinarias mediante instrucciones cuidadosamente elaboradas y perfiles de usuario predefinidos», escribió Anthropic, «el atacante logró que Claude ejecutara componentes individuales de cadenas de ataque sin acceso al contexto malicioso general».
Una vez que los hackers convencieron a Claude de que solo estaba realizando una prueba, le proporcionaron un objetivo para atacar. Claude coordinó varios subagentes que, mediante un protocolo creado por Anthropic llamado MCP (https://www.inc.com/ben-sherry/the-entrepreneurs-guide-to-mcp-the-ai-tool-for-harnessing-your-business-data/91202187), utilizaban herramientas comunes de código abierto para buscar vulnerabilidades en la infraestructura y los mecanismos de autenticación de la entidad objetivo. «En uno de los pocos casos en que se logró una intrusión», escribió Anthropic, «el atacante logró que Claude descubriera de forma autónoma servicios internos, mapeara la topología completa de la red en múltiples rangos de IP e identificara sistemas críticos, como bases de datos y plataformas de orquestación de flujos de trabajo».
Tras el escaneo inicial, Claude comenzaba a probar las vulnerabilidades identificadas mediante la generación y el despliegue de cargas útiles de ataque personalizadas. Mediante estas pruebas, Claude logró infiltrarse en el entorno digital de la entidad objetivo y, bajo la dirección de un operador humano, comenzó a recopilar, extraer y probar credenciales y certificados de autenticación. «Claude determinaba de forma independiente qué credenciales daban acceso a qué servicios», escribió Anthropic, «mapeando los niveles de privilegio y los límites de acceso sin intervención humana».
Finalmente, una vez que había accedido a las profundidades de las bases de datos y sistemas de la entidad objetivo, Claude recibió instrucciones para extraer datos y analizarlos con el fin de identificar cualquier información confidencial y, posteriormente, organizarla según su valor de inteligencia. Literalmente, Claude decidía qué datos serían más valiosos para los hackers.
Una vez completada su labor ilícita, Claude generaba un documento que detallaba los resultados, el cual, según Anthropic, probablemente se entregaba a otros equipos para «operaciones sostenidas después de que las campañas de intrusión iniciales alcanzaran sus objetivos de recopilación de inteligencia».
Según Anthropic, su investigación sobre la operación GTG-1002 duró 10 días. «Bloqueamos las cuentas a medida que las identificábamos, notificamos a las entidades afectadas según correspondía y coordinamos con las autoridades mientras recopilábamos información procesable», declaró la empresa. Anthropic solo disponía de datos sobre el uso de Claude en este ataque; la empresa afirmó que «este caso práctico probablemente refleja patrones de comportamiento consistentes en los modelos de IA de vanguardia y demuestra cómo los ciberdelincuentes están adaptando sus operaciones para explotar las capacidades de IA más avanzadas de la actualidad».
Solo un puñado de los ataques tuvieron éxito. Algunos, según Anthropic, fueron frustrados no por una contraofensiva, sino por las propias alucinaciones de Claude. «Claude frecuentemente exageraba los hallazgos y, en ocasiones, fabricaba datos durante las operaciones autónomas», declaró Anthropic, «afirmando haber obtenido credenciales que no funcionaban o identificando descubrimientos críticos que resultaron ser información pública».
En respuesta al ataque, Anthropic afirma haber ampliado sus capacidades de detección para tener en cuenta nuevos patrones de amenazas y está desarrollando prototipos de nuevos sistemas proactivos, que, con suerte, detectarán los ciberataques autónomos de forma temprana.
Anthropic afirma que el ataque demuestra que "las barreras para realizar ciberataques sofisticados se han reducido considerablemente". Grupos con menos experiencia o con mayores recursos ahora pueden acceder potencialmente a algunas de las bases de datos más seguras del mundo sin necesidad de malware propietario ni grandes equipos de hackers altamente capacitados.
¿Qué pueden hacer las empresas para protegerse de estos ataques? Según Anthropic, lo mejor es empezar a usar IA en sus prácticas de ciberseguridad. Si bien Claude fue el responsable del ataque, Anthropic señala que también fue fundamental para mitigar los daños y analizar los datos generados durante la investigación. Por este motivo, Anthropic recomienda a los equipos de seguridad de todos los sectores que "experimenten con la aplicación de la IA para la defensa en áreas como la automatización del Centro de Operaciones de Seguridad (SOC), la detección de amenazas, la evaluación de vulnerabilidades y la respuesta a incidentes".
Logan Graham, líder del equipo rojo fronterizo de Anthropic, que examina a Claude para descubrir sus capacidades más avanzadas y potencialmente peligrosas, escribió en X que el incidente reforzó su creencia de que la ciberdefensa con IA es fundamental, ya que "estas capacidades están por llegar y debemos adelantarnos a los atacantes".