Incidentes Asociados
Hemos identificado campañas a escala industrial por parte de tres laboratorios de IA (DeepSeek, Moonshot y MiniMax) para extraer ilícitamente las capacidades de Claude y mejorar sus propios modelos. Estos laboratorios generaron más de 16 millones de intercambios con Claude a través de aproximadamente 24 000 cuentas fraudulentas, infringiendo nuestros términos de servicio y las restricciones de acceso regionales.
Estos laboratorios utilizaron una técnica llamada "destilación", que consiste en entrenar un modelo menos capaz con los resultados de uno más potente. La destilación es un método de entrenamiento ampliamente utilizado y legítimo. Por ejemplo, los laboratorios de IA de vanguardia destilan rutinariamente sus propios modelos para crear versiones más pequeñas y económicas para sus clientes. Pero la destilación también puede utilizarse con fines ilícitos: los competidores pueden usarla para adquirir potentes capacidades de otros laboratorios en una fracción del tiempo y a una fracción del coste que les llevaría desarrollarlas de forma independiente.
Estas campañas están creciendo en intensidad y sofisticación. El margen de acción es limitado y la amenaza se extiende más allá de una sola empresa o región. Abordarlo requerirá una acción rápida y coordinada entre los actores de la industria, los responsables políticos y la comunidad global de IA.
Por qué es importante la destilación
Los modelos destilados ilícitamente carecen de las salvaguardias necesarias, lo que genera importantes riesgos para la seguridad nacional. Anthropic y otras empresas estadounidenses construyen sistemas que impiden que actores estatales y no estatales utilicen la IA para, por ejemplo, desarrollar armas biológicas o llevar a cabo actividades cibernéticas maliciosas. Es poco probable que los modelos creados mediante destilación ilícita conserven dichas salvaguardias, lo que significa que pueden proliferar capacidades peligrosas sin muchas protecciones.
Los laboratorios extranjeros que destilan modelos estadounidenses pueden entonces incorporar estas capacidades desprotegidas a los sistemas militares, de inteligencia y de vigilancia, lo que permite a los gobiernos autoritarios desplegar IA de vanguardia para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva. Si los modelos destilados son de código abierto, este riesgo se multiplica a medida que estas capacidades se extienden libremente más allá del control de cualquier gobierno.
Ataques de destilación y controles de exportación
Anthropic ha apoyado sistemáticamente los controles de exportación para ayudar a mantener el liderazgo de Estados Unidos en IA. Los ataques de destilación socavan dichos controles al permitir que laboratorios extranjeros, incluidos aquellos sujetos al control del Partido Comunista Chino, eliminen la ventaja competitiva que los controles de exportación buscan preservar por otros medios.
Sin visibilidad de estos ataques, los avances aparentemente rápidos de estos laboratorios se interpretan erróneamente como evidencia de que los controles de exportación son ineficaces y pueden ser eludidos por la innovación. En realidad, estos avances dependen en gran medida de las capacidades extraídas de los modelos estadounidenses, y ejecutar esta extracción a gran escala requiere acceso a chips avanzados. Por lo tanto, los ataques de destilación refuerzan la justificación de los controles de exportación: el acceso restringido a los chips limita tanto el entrenamiento directo de los modelos como la escala de la destilación ilícita.
Lo que descubrimos
Las tres campañas de destilación que se detallan a continuación siguieron una estrategia similar: utilizaron cuentas fraudulentas y servicios proxy para acceder a Claude a gran escala y evitar la detección. El volumen, la estructura y el enfoque de las solicitudes diferían de los patrones de uso habituales, lo que refleja una extracción deliberada de capacidades en lugar de un uso legítimo.
Atribuimos cada campaña a un laboratorio específico con alta fiabilidad mediante la correlación de direcciones IP, metadatos de solicitudes, indicadores de infraestructura y, en algunos casos, la corroboración de socios del sector que observaron los mismos actores y comportamientos en sus plataformas. Cada campaña se centró en las capacidades más diferenciadas de Claude: razonamiento agéntico, uso de herramientas y codificación.
DeepSeek
Escala: Más de 150 000 intercambios
La operación se centró en:
- Capacidades de razonamiento en diversas tareas
- Tareas de calificación basadas en rúbricas que hicieron que Claude funcionara como modelo de recompensa para el aprendizaje por refuerzo
- Creación de alternativas seguras para la censura a consultas sensibles a políticas
DeepSeek generó tráfico sincronizado entre cuentas. Patrones idénticos, métodos de pago compartidos y tiempos coordinados sugirieron un "equilibrio de carga" para aumentar el rendimiento, mejorar la fiabilidad y evitar la detección.
En una técnica destacada, las indicaciones le pidieron a Claude que imaginara y articulara el razonamiento interno detrás de una respuesta completa y la escribiera paso a paso, generando así datos de entrenamiento de cadena de pensamiento a escala. También observamos tareas en las que se utilizó a Claude para generar alternativas seguras ante la censura a consultas políticamente sensibles, como preguntas sobre disidentes, líderes de partidos o autoritarismo, probablemente con el fin de entrenar los propios modelos de DeepSeek para desviar las conversaciones de temas censurados. Al examinar los metadatos de las solicitudes, pudimos rastrear estas cuentas hasta investigadores específicos del laboratorio.
Moonshot IA
Escala: Más de 3,4 millones de intercambios
La operación se centró en:
- Razonamiento agente y uso de herramientas
- Codificación y análisis de datos
- Desarrollo de agentes para uso informático
- Visión artificial
Moonshot (modelos Kimi) empleó cientos de cuentas fraudulentas que abarcaban múltiples vías de acceso. La variedad de tipos de cuentas dificultó la detección de la campaña como una operación coordinada. Atribuimos la campaña mediante metadatos de solicitud, que coincidían con los perfiles públicos del personal directivo de Moonshot. En una fase posterior, Moonshot utilizó un enfoque más específico, intentando extraer y reconstruir los rastros de razonamiento de Claude.
MiniMax
Escala: Más de 13 millones de intercambios
La operación se centró en:
- Codificación agente
- Uso y orquestación de herramientas
Atribuimos la campaña a MiniMax mediante metadatos de solicitud e indicadores de infraestructura, y confirmamos los plazos con respecto a su hoja de ruta pública del producto. Detectamos esta campaña mientras aún estaba activa (antes de que MiniMax lanzara el modelo que estaba entrenando), lo que nos proporcionó una visibilidad sin precedentes del ciclo de vida de los ataques de destilación, desde la generación de datos hasta el lanzamiento del modelo. Cuando lanzamos un nuevo modelo durante la campaña activa de MiniMax, se adaptaron en 24 horas, redirigiendo casi la mitad de su tráfico para capturar las capacidades de nuestro sistema más reciente.
Cómo acceden los destiladores a los modelos fronterizos
Por razones de seguridad nacional, Anthropic no ofrece actualmente acceso comercial a Claude en China ni a filiales de sus empresas ubicadas fuera del país.
Para evitar esto, los laboratorios utilizan servicios de proxy comerciales que revenden el acceso a Claude y otros modelos de IA fronterizos a escala. Estos servicios ejecutan lo que llamamos arquitecturas de "clúster Hydra": redes extensas de cuentas fraudulentas que distribuyen el tráfico a través de nuestra API y plataformas en la nube de terceros. La amplitud de estas redes implica que no existen puntos únicos de fallo. Cuando se banea una cuenta, otra nueva la reemplaza. En un caso, una única red proxy gestionó más de 20 000 cuentas fraudulentas simultáneamente, mezclando el tráfico de destilación con solicitudes de clientes no relacionadas para dificultar la detección.
Una vez asegurado el acceso, los laboratorios generan grandes volúmenes de indicaciones cuidadosamente diseñadas para extraer capacidades específicas del modelo. El objetivo es recopilar respuestas de alta calidad para el entrenamiento directo del modelo o generar decenas de miles de tareas únicas necesarias para ejecutar el aprendizaje de refuerzo. Lo que distingue un ataque de destilación del uso normal es el patrón. Una indicación como la siguiente (que se aproxima a indicaciones similares que hemos visto utilizadas repetidamente y a gran escala) puede parecer benigna por sí sola:
Eres un analista de datos experto que combina rigor estadístico con un profundo conocimiento del dominio. Su objetivo es ofrecer información basada en datos, no resúmenes ni visualizaciones, basada en datos reales y respaldada por un razonamiento completo y transparente.
Pero cuando las variaciones de esa indicación llegan decenas de miles de veces en cientos de cuentas coordinadas, todas dirigidas a la misma capacidad específica, el patrón se hace evidente. Un volumen masivo concentrado en pocas áreas, estructuras altamente repetitivas y contenido que se relaciona directamente con lo más valioso para entrenar un modelo de IA son las características distintivas de un ataque de destilación.
Cómo respondemos
Seguimos invirtiendo fuertemente en defensas que dificultan la ejecución de estos ataques de destilación y facilitan su identificación. Estas incluyen:
- Detección. Hemos desarrollado varios clasificadores y sistemas de huellas dactilares de comportamiento diseñados para identificar patrones de ataques de destilación en el tráfico de API. Esto incluye la detección de la elicitación de la cadena de pensamiento utilizada para construir datos de entrenamiento de razonamiento. También hemos desarrollado herramientas de detección para identificar actividad coordinada en un gran número de cuentas. - Intercambio de inteligencia*.* Compartimos indicadores técnicos con otros laboratorios de IA, proveedores de nube y autoridades competentes. Esto proporciona una visión más integral del panorama de la destilación.
- Controles de acceso. Hemos reforzado la verificación de cuentas educativas, programas de investigación de seguridad y startups, las vías más comúnmente explotadas para configurar cuentas fraudulentas.
- Contramedidas. Desarrollamos salvaguardas a nivel de producto, API y modelo diseñadas para reducir la eficacia de los resultados del modelo para la destilación ilícita, sin degradar la experiencia de los clientes legítimos.
Pero ninguna empresa puede resolver esto sola. Como mencionamos anteriormente, los ataques de destilación a esta escala requieren una respuesta coordinada entre la industria de la IA, los proveedores de nube y los legisladores. Publicamos esto para que la evidencia esté disponible para todos aquellos que tengan interés en el resultado.