Report 6646

Un alarmante estudio del gigante de la inteligencia artificial Anthropic reveló que un grupo de espionaje chino utilizó los sistemas de IA de la compañía para gestionar la mayoría de las tareas durante ciberataques contra unas 30 entidades, varias de las cuales fueron vulneradas con éxito.

El informe, publicado inicialmente por el Wall Street Journal, indica que un grupo patrocinado por el Estado chino utilizó la IA Claude de Anthropic para realizar reconocimiento, detección y explotación de vulnerabilidades, movimiento lateral, robo de credenciales, análisis de datos y exfiltración.

Anthropic afirmó que la campaña representó múltiples hitos. Este parece ser el primer caso documentado de un ciberataque real ejecutado a gran escala, en su mayor parte, sin intervención humana.

Los operadores humanos asignaron un objetivo a Claude y le ordenaron iniciar un reconocimiento autónomo. Entre las organizaciones objetivo se encuentran importantes empresas tecnológicas, instituciones financieras, compañías químicas y agencias gubernamentales de diversos países.

"El análisis del ritmo operativo, el volumen de solicitudes y los patrones de actividad confirma que la IA ejecutó entre el 80 y el 90 por ciento del trabajo táctico de forma independiente, mientras que los humanos desempeñaron funciones de supervisión estratégica", explicó la compañía.

"Lo más significativo es que este es el primer caso documentado de IA autónoma que logra acceder con éxito a objetivos de alto valor confirmados para la recopilación de inteligencia, incluyendo importantes corporaciones tecnológicas y agencias gubernamentales. Si bien predijimos que estas capacidades seguirían evolucionando, lo que nos ha sorprendido es la rapidez con la que lo han hecho a gran escala".

Los incidentes tuvieron lugar en septiembre y la operación resultó en "varias intrusiones exitosas", según Anthropic. La empresa no explicó por qué cree que el grupo, denominado GTG-1002, está vinculado a Pekín.

Anthropic afirmó haber notificado a las autoridades pertinentes y a otros socios del sector, además de contactar con las organizaciones afectadas.

Los hackers lograron sortear las medidas de seguridad de Anthropic haciéndose pasar por empleados de empresas legítimas de ciberseguridad y convenciendo a Claude de que la plataforma se utilizaba para pruebas de ciberseguridad defensiva.

Si bien la actividad finalmente alertó a las herramientas de detección internas de Anthropic, la empresa admitió que el modelo de IA «permitió al atacante operar sin ser detectado el tiempo suficiente para lanzar su campaña».

Anthropic declaró haber bloqueado las cuentas responsables de la actividad e implementado «múltiples mejoras defensivas en respuesta a esta campaña».

Añadió que ha ampliado su capacidad de detección para «tener en cuenta nuevos patrones de amenazas» y que está «prototipando sistemas de detección temprana proactivos para ciberataques autónomos y desarrollando nuevas técnicas de investigación».

Las barreras para llevar a cabo ciberataques sofisticados "han disminuido sustancialmente", advirtió Anthropic, y los hackers pueden usar sistemas de IA para realizar el trabajo de equipos completos de hackers experimentados.

El informe señaló que Claude, en ocasiones, exageró sus hallazgos y falsificó datos, afirmando haber obtenido credenciales que no funcionaban. Las alucinaciones de la IA "presentaron desafíos para la eficacia operativa del atacante, lo que requirió una validación cuidadosa de todos los resultados declarados".

"Sin precedentes"

Anthropic expresó su alarma ante la "integración y autonomía sin precedentes de la IA a lo largo del ciclo de vida del ataque".

Los hackers lograron convertir a Claude en un "agente de ciberataque autónomo que realizaba operaciones de intrusión cibernética en lugar de simplemente brindar asesoramiento a los operadores humanos".

Claude funcionó como un "sistema de orquestación" que descompuso una cadena de ataque típica y distribuyó las tareas a subagentes que se encargaban del escaneo de vulnerabilidades, la validación de credenciales y otras funciones.

La intervención humana solo se produjo en momentos estratégicos, como la aprobación del paso del reconocimiento a la explotación activa, la autorización del uso de las credenciales obtenidas para el movimiento lateral y la toma de decisiones finales sobre el alcance y la retención de la exfiltración de datos.

Claude pudo descubrir de forma independiente servicios internos dentro de las redes objetivo. La IA validó vulnerabilidades, probó las credenciales robadas y analizó grandes conjuntos de datos robados para identificar de forma independiente el valor de la inteligencia y categorizar los hallazgos. En algunos casos, Claude pudo identificar de forma autónoma sistemas de alto valor.

En una de las empresas tecnológicas objetivo, los hackers le indicaron a Claude que extrajera datos, encontrara información confidencial y la categorizara según su valor de inteligencia.

«Claude generó automáticamente una documentación completa del ataque durante todas las fases de la campaña. Archivos Markdown estructurados registraron los servicios descubiertos, las credenciales obtenidas, los datos extraídos, las técnicas de explotación y la progresión completa del ataque», explicó Anthropic.

Esta documentación permitió una transición fluida entre operadores, facilitó la reanudación de las campañas tras interrupciones y respaldó la toma de decisiones estratégicas sobre las actividades posteriores. La evidencia sugiere que el atacante otorgó acceso persistente a equipos adicionales para operaciones sostenidas una vez que las campañas de intrusión iniciales lograron sus objetivos de recopilación de inteligencia.

Claude utilizó herramientas de pruebas de penetración de código abierto para llevar a cabo varias intrusiones, recurriendo también a escáneres de red, marcos de explotación de bases de datos y programas para descifrar contraseñas en otras ocasiones.

Anthropic advirtió que la capacidad de la IA para utilizar recursos comunes «sugiere un potencial de rápida proliferación en el panorama de amenazas a medida que las plataformas de IA se vuelven más capaces de operar de forma autónoma».

La empresa señaló que sus hallazgos difieren significativamente de un estudio publicado a principios de este año en colaboración con científicos de la Universidad Carnegie Mellon, que concluyó que prácticamente ninguno de los modelos de lenguaje grandes más populares podía ejecutar de forma autónoma ataques de red a múltiples hosts.

La participación humana en esas pruebas fue mucho mayor que la que Anthropic identificó en los ataques chinos de septiembre.

Los expertos señalaron que esto probablemente sea solo la punta del iceberg en cuanto a cómo los grupos estatales en varios países están implementando y probando la IA.

Vineeta Sangaraju, investigadora de la empresa de ciberseguridad Black Duck, cuestionó por qué las medidas de seguridad de Anthropic eran tan ineficaces.

«Antes de lanzar un modelo potente, ¿qué pruebas de referencia demuestran que seguirá estas medidas de seguridad de forma fiable? ¿El modelo pasará automáticamente a un modo aislado y auditable cuando se le solicite que gestione acciones de alto riesgo?», preguntó Sangaraju.

«¿Y existe algún límite impuesto sobre la autonomía que un modelo puede ejercer al realizar operaciones sospechosas?».

Problema 6646

Incidentes Asociados

Incidente 126334 Reportes
Chinese State-Linked Operator (GTG-1002) Reportedly Uses Claude Code for Autonomous Cyber Espionage

Hackers estatales chinos utilizaron sistemas de IA antrópica en docenas de ataques.

Problema 6646

Incidentes Asociados

Incidente 126334 ReportesChinese State-Linked Operator (GTG-1002) Reportedly Uses Claude Code for Autonomous Cyber Espionage

Hackers estatales chinos utilizaron sistemas de IA antrópica en docenas de ataques.

Incidente 126334 Reportes
Chinese State-Linked Operator (GTG-1002) Reportedly Uses Claude Code for Autonomous Cyber Espionage