Report 6669

Anthropic acaparó titulares el jueves al publicar una investigación que afirmaba que un grupo de hackers patrocinado por el Estado chino, hasta entonces desconocido, utilizó Claude AI, el producto de inteligencia artificial generativa de la compañía, para vulnerar la seguridad de al menos 30 organizaciones.

Según el informe de Anthropic (https://assets.anthropic.com/m/ec212e6566a0d47/original/Disrupting-the-first-reported-AI-orchestrated-cyber-espionage-campaign.pdf), el atacante logró sortear las medidas de seguridad de Claude mediante dos métodos: dividiendo el trabajo en tareas discretas para impedir que el software reconociera las intenciones maliciosas generales, y engañando al modelo para que creyera que estaba realizando una auditoría de seguridad legítima.

Jacob Klein, director del equipo de inteligencia de amenazas de Anthropic, declaró a CyberScoop que la compañía ha observado usos cada vez más novedosos de Claude para ayudar a los hackers maliciosos durante el último año. En marzo, los ciberdelincuentes copiaban y pegaban fragmentos de interacciones de chatbots para crear malware o señuelos de phishing. Tras el lanzamiento de la herramienta de desarrollo de código de la empresa, Claude Code (https://www.claude.com/product/claude-code), observaron que los ciberdelincuentes la utilizaban para generar scripts y crear código para sus operaciones con mayor rapidez.

"Y luego, en septiembre, [esta operación]... creo que lo que estamos viendo ahora en este caso es, en mi opinión, el uso indebido más autónomo que hemos presenciado", afirmó Klein.

Sin embargo, Klein también aclaró que "más autónomo" es un término relativo. Existen numerosas pruebas que indican que este grupo de hackers dedicó importantes recursos humanos y técnicos a la forma en que utilizó Claude.

En concreto, la automatización detallada en el informe de Anthropic, llevada a cabo por Claude, fue posible gracias a un framework de frontend diseñado para orquestar y dar soporte a sus operaciones. Este framework gestionaba tareas como la creación de scripts, el aprovisionamiento de servidores relacionados y un desarrollo backend significativo para garantizar que cada paso se siguiera correctamente. Klein señaló que este proceso de desarrollo fue el paso más difícil —y, sobre todo, el que requirió mayor intervención humana— de la operación.

«La primera parte que no es autónoma es la creación del marco de trabajo, por lo que se necesitaba una persona para integrarlo todo», explicó Klein. «Un operador humano introducía un objetivo, pulsaba un botón y luego utilizaba este marco de trabajo creado previamente. La parte más difícil de todo el sistema fue la creación de este marco de trabajo; fue lo que requirió mayor intervención humana».

Además, para realizar reconocimiento de objetivos, buscar vulnerabilidades y llevar a cabo otras tareas, Claude recurría a un conjunto de herramientas de código abierto mediante servidores del Protocolo de Contexto de Modelo (MCP), que permiten a los modelos de IA interactuar de forma segura con herramientas digitales externas. Establecer estas conexiones requiere conocimientos de programación, planificación avanzada y trabajo técnico humano para garantizar la interoperabilidad.

Finalmente, el trabajo de Claude estuvo sujeto a validación y revisión humana constantes. Una ilustración de la cadena de ataque detalla al menos cuatro pasos distintos que implican explícitamente que un humano revise el resultado de Claude o lo envíe de vuelta al trabajo antes de continuar con los pasos siguientes.

Esto sugiere que, si bien Claude podía realizar estas tareas de forma autónoma, dependía de la supervisión humana para revisar el resultado, validar los hallazgos, asegurar el correcto funcionamiento de los sistemas de backend y dirigir sus siguientes pasos.

El informe de Anthropic destaca una deficiencia común a toda la investigación generada por IA: los modelos como Claude frecuentemente tienen alucinaciones, falsifican credenciales, exageran los hallazgos o presentan información pública como descubrimientos significativos. Debido a esto, usar la investigación generada por IA es complejo: los ciberdelincuentes, al igual que cualquier usuario, no tienen una forma fiable de confiar en los resultados en cada etapa sin que expertos técnicos humanos los revisen y corrijan.

Por ejemplo, en lo que respecta al escaneo de vulnerabilidades, "el primer paso es que Claude regresa y dice: 'Aquí están todos los activos que encontré relacionados con este objetivo', y luego los envía de vuelta al humano", explicó Klein. "Así que Claude aún no pasa al siguiente paso, que es la prueba de penetración, hasta que se realicen las revisiones humanas."

A pesar de toda la intervención humana, Klein está realmente preocupado por lo que la empresa descubrió.

"Creo que lo que ocurre aquí es que el operador humano puede escalar su capacidad de forma considerable", dijo Klein. "Creemos que se necesitaría un equipo de unas 10 personas para realizar este tipo de trabajo, pero aun así se necesita un operador humano. Por eso dijimos que no es totalmente automático ni totalmente automatizado."

En cuanto a por qué la empresa cree que esta campaña tiene vínculos con China, Klein señaló varios factores, incluyendo coincidencias en la infraestructura y el comportamiento con actores patrocinados por el Estado chino en el pasado, y un conjunto de objetivos que coincidía en gran medida con "lo que habrían sido los objetivos" del Ministerio de Seguridad del Estado chino.

Otros detalles menores y circunstanciales apuntan a una posible conexión con China: si bien los registros de uso indican que el grupo operaba principalmente de 9:00 a 18:00, como un funcionario público común, los hackers no trabajaban los fines de semana y, en un momento dado, durante un día festivo chino, parecieron no realizar ninguna actividad.

Sin embargo, estas no eran las únicas pruebas, ya que Klein afirmó no poder revelar toda la información que los vinculaba con China.

Expertos en IA y seguridad divididos

Si bien no se ha investigado mucho sobre cómo la IA ha impulsado las operaciones de ciberespionaje, existe amplia evidencia que demuestra que los grandes modelos de lenguaje han mejorado durante el último año al realizar tareas específicas de ciberseguridad. A principios de este año, la startup XBOW vio cómo su herramienta de escaneo y parcheo de vulnerabilidades con IA lideraba las clasificaciones en empresas de recompensas por errores como HackerOne.

En el ámbito ofensivo, a principios de este año, investigadores de la NYU desarrollaron un marco de trabajo similar al utilizado en la campaña descubierta por Anthropic, empleando una versión pública de ChatGPT para automatizar gran parte de un ataque de ransomware. Se cree que el informe de Anthropic es el primer caso conocido públicamente de un proceso similar utilizado por un Estado-nación para llevar a cabo ataques exitosos.

A pesar de estos avances, la campaña y el informe de Anthropic han causado revuelo en los círculos de IA y ciberseguridad. Algunos afirman que valida los temores existentes sobre el hackeo mediante IA, mientras que otros alegan que las conclusiones del informe dan una impresión engañosa sobre el estado actual de las operaciones de ciberespionaje.

Kevin Beaumont, investigador de ciberseguridad radicado en el Reino Unido, criticó el informe de Anthropic por su falta de transparencia y por describir acciones que ya son factibles con herramientas existentes, además de dejar poco margen para la validación externa.

"El informe no presenta indicadores de compromiso y las técnicas que menciona son todas soluciones estándar con detecciones ya establecidas", escribió Beaumont en LinkedIn el viernes. "En términos de inteligencia procesable, el informe no aporta nada".

Klein declaró a CyberScoop que Anthropic ha compartido indicadores de compromiso con empresas tecnológicas, laboratorios de investigación y otras entidades que tienen acuerdos de intercambio de información con la compañía.

«Compartimos esta información en círculos privados; simplemente no era algo que quisiéramos compartir con el público en general», afirmó.

Otros observadores argumentaron que los hallazgos de Anthropic representan un hito importante en la aplicación de la IA a la ciberseguridad.

Jen Easterly, exdirectora de la Agencia de Seguridad de Infraestructura y Ciberseguridad, se hizo eco de algunas de las preocupaciones de la comunidad de seguridad en torno a la transparencia, aunque reconoció el mérito de Anthropic por revelar los ataques.

«Todavía no sabemos qué tareas se aceleraron realmente gracias a la IA y cuáles se podrían haber realizado con herramientas estándar», escribió Easterly el viernes en LinkedIn. «Desconocemos cómo funcionaron las cadenas de agentes, dónde falló el modelo, con qué frecuencia tuvieron que intervenir los humanos o cuán fiables fueron realmente los resultados. Sin más detalles (indicaciones, ejemplos de código, fallos, puntos de fricción), es evidente que a los defensores les resulta más difícil aprender, adaptarse y anticipar lo que viene».

Tiffany Saade, investigadora de IA del equipo de defensa de IA de Cisco, declaró a CyberScoop que el informe de Anthropic deja claro que el uso de herramientas como Claude ofrece a los atacantes ventajas en velocidad y escalabilidad.

"La pregunta es: ¿es suficiente para incentivar a los hackers a usar modelos de aprendizaje profundo (LLM) en lugar de otras formas de automatización y lidiar con sus limitaciones?", preguntó. "¿Veremos también una mayor sofisticación en los ataques de los agentes? ¿De qué tipo de sofisticación hablamos?".

Saade señaló que algunos aspectos de la operación descrita por Anthropic no encajan con un grupo chino centrado exclusivamente en el espionaje. Destacó que resulta extraño que los hackers utilicen un importante modelo de IA estadounidense para la automatización cuando tienen acceso a sus propios modelos privados. Además, empresas como Anthropic y OpenAI cuentan con muchos más recursos de ciberseguridad e inteligencia de amenazas que los modelos de código abierto, lo que hace probable que cualquier actividad maliciosa que utilice sus plataformas sea detectada.

«Sabíamos que esto iba a suceder, pero lo que me asombra es que... si yo fuera un actor patrocinado por el Estado chino y quisiera usar modelos de IA con capacidades de agente para realizar hackeos autónomos, probablemente no acudiría a Claude para ello», señaló Saade. «Probablemente desarrollaría algo internamente, en secreto. Así que sí querían llamar la atención».

Saade planteó otra posible motivación para el ataque: enviar un mensaje geopolítico a Washington D.C. de que los hackers de Pekín pueden hacer precisamente lo que todos temen que hagan.

«Normalmente, el objetivo es "queremos sigilo, queremos mantener la persistencia"... Esto ni siquiera es sabotaje, es enviar un mensaje: hipótesis validada», dijo Saade. «Quieren ese ruido, las noticias de última hora, los titulares de "Anthropic informa". Quieren esa visibilidad, y hay una razón por la que la quieren».

Problema 6669

Incidentes Asociados

Incidente 126334 Reportes
Chinese State-Linked Operator (GTG-1002) Reportedly Uses Claude Code for Autonomous Cyber Espionage

La campaña de pirateo informático «autónoma» de China, impulsada por IA, aún requería una gran cantidad de trabajo humano.

Expertos en IA y seguridad divididos

Problema 6669

Incidentes Asociados

Incidente 126334 ReportesChinese State-Linked Operator (GTG-1002) Reportedly Uses Claude Code for Autonomous Cyber Espionage

La campaña de pirateo informático «autónoma» de China, impulsada por IA, aún requería una gran cantidad de trabajo humano.

Expertos en IA y seguridad divididos

Incidente 126334 Reportes
Chinese State-Linked Operator (GTG-1002) Reportedly Uses Claude Code for Autonomous Cyber Espionage