Incidentes Asociados
Investigadores de Anthropic afirmaron haber observado recientemente la "primera campaña de ciberespionaje orquestada por IA" tras detectar a hackers del gobierno chino utilizando la herramienta de IA Claude de la compañía en una campaña dirigida a decenas de objetivos. Otros investigadores se muestran mucho más cautelosos al describir la importancia del descubrimiento.
Anthropic publicó los informes el jueves aquí y aquí. En septiembre, según los informes, Anthropic descubrió una campaña de espionaje altamente sofisticada, llevada a cabo por un grupo patrocinado por el Estado chino, que utilizó Claude Code para automatizar hasta el 90 % del trabajo. La intervención humana solo fue necesaria esporádicamente (quizás en 4 o 6 puntos de decisión críticos por campaña de hackeo). Anthropic afirmó que los hackers habían empleado las capacidades de los agentes de IA en un grado sin precedentes.
«Esta campaña tiene implicaciones sustanciales para la ciberseguridad en la era de los agentes de IA: sistemas que pueden funcionar de forma autónoma durante largos periodos de tiempo y que completan tareas complejas prácticamente sin intervención humana», declaró Anthropic. «Los agentes son valiosos para el trabajo diario y la productividad, pero en manos equivocadas pueden aumentar considerablemente la viabilidad de los ciberataques a gran escala».
"Adulación, obstrucción y experiencias psicodélicas"
Investigadores externos no estaban convencidos de que el descubrimiento fuera el momento decisivo que las publicaciones de Anthropic afirmaban. Cuestionaron por qué este tipo de avances se atribuyen a menudo a hackers maliciosos, mientras que los hackers éticos y los desarrolladores de software legítimo siguen reportando solo mejoras incrementales gracias al uso de la IA.
"Sigo sin creer que los atacantes sean capaces de hacer que estos modelos superen obstáculos que nadie más puede", declaró Dan Tentler, fundador ejecutivo de Phobos Group e investigador experto en brechas de seguridad complejas, a Ars. "¿Por qué los modelos les dan a estos atacantes lo que quieren el 90% de las veces, mientras que el resto tenemos que lidiar con adulación, obstrucción y experiencias psicodélicas?"
Los investigadores no niegan que las herramientas de IA puedan mejorar el flujo de trabajo y reducir el tiempo necesario para ciertas tareas, como la clasificación, el análisis de registros y la ingeniería inversa. Sin embargo, la capacidad de la IA para automatizar una cadena compleja de tareas con una mínima interacción humana sigue siendo un reto. Muchos investigadores comparan los avances de la IA en ciberataques con los que ofrecen herramientas de hacking como Metasploit o SEToolkit, utilizadas desde hace décadas. No cabe duda de que estas herramientas son útiles, pero su aparición no incrementó significativamente las capacidades de los hackers ni la gravedad de los ataques que perpetraron.
Otra razón por la que los resultados no son tan impresionantes como se presentan: los actores de la amenaza —a los que Anthropic da seguimiento como GTG-1002— atacaron al menos a 30 organizaciones, incluyendo importantes corporaciones tecnológicas y agencias gubernamentales. De esos ataques, solo un pequeño número tuvo éxito. Esto, a su vez, plantea interrogantes. Incluso suponiendo que se eliminó gran parte de la interacción humana del proceso, ¿de qué sirve si la tasa de éxito es tan baja? ¿Habría aumentado el número de éxitos si los atacantes hubieran utilizado métodos más tradicionales que requirieran intervención humana?
Según el relato de Anthropic, los hackers utilizaron a Claude para orquestar ataques con software y marcos de código abierto fácilmente disponibles. Estas herramientas existen desde hace años y ya son fáciles de detectar para los sistemas de defensa. Anthropic no detalló las técnicas, herramientas o vulnerabilidades específicas empleadas en los ataques, pero hasta el momento, no hay indicios de que el uso de IA los haya hecho más potentes o sigilosos que las técnicas tradicionales.
«Los ciberdelincuentes no están inventando nada nuevo», afirmó el investigador independiente Kevin Beaumont.
Incluso Anthropic señaló una limitación importante en sus hallazgos:
Claude frecuentemente exageraba los resultados y, ocasionalmente, falsificaba datos durante operaciones autónomas, afirmando haber obtenido credenciales que no funcionaban o identificando descubrimientos críticos que resultaron ser información pública. Esta alucinación de la IA en contextos de seguridad ofensiva presentaba desafíos para la eficacia operativa del atacante, requiriendo una validación cuidadosa de todos los resultados declarados. Esto sigue siendo un obstáculo para los ciberataques totalmente autónomos.
Cómo se desarrolló el ataque (según Anthropic)
Anthropic afirmó que GTG-1002 desarrolló un marco de ataque autónomo que utilizaba a Claude como mecanismo de orquestación, lo que eliminó en gran medida la necesidad de intervención humana. Este sistema de orquestación dividía los ataques complejos de varias etapas en tareas técnicas más pequeñas, como el escaneo de vulnerabilidades, la validación de credenciales, la extracción de datos y el movimiento lateral.
«La arquitectura incorporaba las capacidades técnicas de Claude como motor de ejecución dentro de un sistema automatizado más amplio. La IA realizaba acciones técnicas específicas según las instrucciones de los operadores humanos, mientras que la lógica de orquestación mantenía el estado del ataque, gestionaba las transiciones de fase y agregaba los resultados de múltiples sesiones», explicó Anthropic. «Este enfoque permitió al atacante alcanzar una escala operativa propia de las campañas de estados-nación, manteniendo una mínima participación directa, ya que el marco avanzaba de forma autónoma a través de las fases de reconocimiento, acceso inicial, persistencia y exfiltración de datos, secuenciando las respuestas de Claude y adaptando las solicitudes posteriores en función de la información descubierta».
Los ataques seguían una estructura de cinco fases que incrementaba la autonomía de la IA en cada una de ellas.
Los atacantes lograron sortear las medidas de seguridad de Claude, en parte, dividiendo las tareas en pequeños pasos que, de forma aislada, la herramienta de IA no interpretaba como maliciosos. En otros casos, los atacantes plantearon sus consultas en el contexto de profesionales de seguridad que intentaban usar Claude para mejorar las defensas.
Como se señaló la semana pasada (https://arstechnica.com/security/2025/11/ai-generated-malware-poses-little-real-world-threat-contrary-to-hype/), el malware desarrollado con IA aún tiene un largo camino por recorrer antes de representar una amenaza real. No hay razón para dudar de que los ciberataques asistidos por IA puedan generar algún día ataques más potentes. Sin embargo, los datos disponibles hasta el momento indican que los ciberdelincuentes —al igual que la mayoría de quienes utilizan IA— están obteniendo resultados mixtos, lejos de ser tan impresionantes como afirma la industria de la IA.