Incidentes Asociados
Nos comprometemos a prevenir el uso indebido de nuestros modelos Claude por parte de actores adversarios, a la vez que mantenemos su utilidad para los usuarios legítimos. Si bien nuestras medidas de seguridad previenen con éxito muchos resultados dañinos, los actores de amenazas continúan explorando métodos para eludir estas protecciones. Utilizamos continuamente los conocimientos adquiridos para mejorar nuestras medidas de seguridad.
Este informe describe varios casos prácticos sobre cómo los actores han hecho un uso indebido de nuestros modelos, así como las medidas que hemos adoptado para detectar y contrarrestar dicho uso indebido. Al compartir esta información, esperamos proteger la seguridad de nuestros usuarios, prevenir el abuso o el uso indebido de nuestros servicios, aplicar nuestra Política de Uso y otros términos, y compartir nuestros aprendizajes en beneficio del ecosistema en línea en general. Los casos prácticos presentados en este informe, si bien específicos, representan patrones más amplios que observamos en nuestros sistemas de monitoreo. Estos ejemplos se seleccionaron porque ilustran claramente las tendencias emergentes en cómo los actores maliciosos se adaptan y aprovechan los modelos de IA de vanguardia. Esperamos contribuir a una comprensión más amplia del panorama de amenazas en constante evolución y ayudar al ecosistema de IA en general a desarrollar medidas de seguridad más robustas.
El caso más novedoso de uso indebido detectado fue una operación profesional de "influencia como servicio", que muestra una clara evolución en cómo ciertos actores aprovechan las LLM para campañas de influencia. Lo especialmente novedoso es que esta operación utilizó a Claude no solo para generar contenido, sino también para decidir cuándo las cuentas de bots de redes sociales comentarían, darían "me gusta" o compartirían publicaciones de usuarios auténticos. Como se describe en el informe completo, Claude fue utilizado como orquestador, decidiendo qué acciones debían tomar las cuentas de bots de redes sociales en función de perfiles con motivaciones políticas. Lea el informe completo aquí.
También hemos observado casos de robo de credenciales, campañas de fraude de reclutamiento y un actor novato que utiliza IA para mejorar sus capacidades técnicas para la generación de malware más allá de su nivel de experiencia, entre otras actividades no mencionadas en este blog. El impacto de estas actividades varía:
-
Una operación de influencia como servicio utilizó Claude para automatizar operaciones e interactuó con decenas de miles de cuentas auténticas de redes sociales en varios países e idiomas.
-
Un actor aprovechó Claude para mejorar los sistemas de identificación y procesamiento de nombres de usuario y contraseñas expuestos asociados a cámaras de seguridad, a la vez que recopilaba información sobre objetivos con acceso a internet para contrastar estas credenciales. No hemos confirmado el éxito de estas iniciativas.
-
Una campaña de fraude en la contratación utilizó Claude para mejorar el contenido de estafas dirigidas a solicitantes de empleo en países de Europa del Este. No hemos confirmado el éxito de estas iniciativas.
-
Un actor con conocimientos técnicos limitados desarrolló malware que normalmente requeriría conocimientos más avanzados. No hemos confirmado el éxito de estas iniciativas.
Nuestros aprendizajes clave incluyen:
- Los usuarios están comenzando a utilizar modelos fronterizos para orquestar de forma semiautónoma sistemas complejos de abuso que involucran numerosos bots de redes sociales. A medida que los sistemas de IA con agentes mejoran, prevemos que esta tendencia continuará. La IA generativa puede acelerar el desarrollo de capacidades para actores menos sofisticados, permitiéndoles potencialmente operar a un nivel que antes solo alcanzaban personas con mayor dominio técnico.
Nuestro programa de inteligencia está diseñado para actuar como una red de seguridad, detectando daños que no detecta nuestra detección a escala estándar y añadiendo contexto sobre cómo los actores maliciosos utilizan nuestros modelos de forma maliciosa. Al investigar estos casos, nuestro equipo aplicó técnicas descritas en nuestros artículos de investigación publicados recientemente, como Clio y resumen jerárquico. Estos enfoques nos permitieron analizar eficientemente grandes volúmenes de datos de conversaciones para identificar patrones de uso indebido. Estas técnicas, junto con clasificadores (que analizan las entradas de los usuarios en busca de solicitudes potencialmente dañinas y evalúan las respuestas de Claude antes o después de su entrega), nos permitieron detectar, investigar y bloquear las cuentas asociadas con estos casos.
Los siguientes casos prácticos destacan los tipos de amenazas que hemos detectado y ofrecen información sobre cómo los actores de amenazas están adaptando sus operaciones para aprovechar la IA generativa.
Caso práctico: Operación de redes de influencia multicliente en diversas plataformas [informe completo disponible aquí]
Identificamos y baneamos a un actor que utilizaba a Claude para una operación de "influencia como servicio" con fines financieros. La infraestructura de este actor utilizaba a Claude para orquestar más de cien cuentas de bots en redes sociales con el fin de impulsar las narrativas políticas de sus clientes. Estas narrativas políticas coinciden con lo que esperamos de las campañas estatales; sin embargo, no hemos confirmado esta atribución. Lo más significativo es que la operación utilizó a Claude para tomar decisiones tácticas de interacción, como determinar si las cuentas de bots de redes sociales debían dar "me gusta", compartir, comentar o ignorar publicaciones específicas creadas por otras cuentas, basándose en objetivos políticos alineados con los intereses de sus clientes.
Perfil del actor: Esta operación gestionó más de 100 cuentas de bots de redes sociales en Twitter/X y Facebook. El operador creó perfiles para cada cuenta con distintas alineaciones políticas e interactuó con decenas de miles de cuentas auténticas de redes sociales. La actividad de la operación sugiere un servicio comercial que prestaba servicios a clientes en varios países con diversos objetivos políticos.
Tácticas y técnicas: La operación utilizó a Claude para múltiples propósitos:
- Crear y mantener perfiles consistentes en distintas plataformas con alineaciones políticas específicas
- Determinar cuándo los perfiles deberían dar "me gusta", compartir, comentar o ignorar contenido específico
- Generar respuestas con alineaciones políticas en los idiomas apropiados
- Crear sugerencias para herramientas de generación de imágenes y evaluar sus resultados
El actor mantenía distintas carteras narrativas para diferentes clientes, todos fuera de Estados Unidos, con diversas narrativas políticas que buscaban impulsar.
Impacto: La operación interactuó con decenas de miles de cuentas auténticas en redes sociales. Ningún contenido se viralizó; sin embargo, el actor se centró estratégicamente en la interacción sostenida a largo plazo promoviendo perspectivas políticas moderadas en lugar de buscar la viralidad.
Caso práctico: Rastreo de credenciales filtradas asociadas a cámaras de seguridad del Internet de las cosas.
Identificamos y baneamos a un actor sofisticado que utilizaba nuestros modelos para desarrollar capacidades para rastrear contraseñas y nombres de usuario filtrados asociados a cámaras de seguridad y crear capacidades para obtener acceso forzado a dichas cámaras. Tras identificar este uso, baneamos la cuenta asociada con el desarrollo de estas capacidades. Aunque este era el objetivo del actor, desconocemos si finalmente tuvo éxito al implementar esta capacidad.
Perfil del actor: Este actor demostró sofisticadas habilidades de desarrollo y mantuvo una infraestructura que integraba múltiples fuentes de inteligencia, incluyendo plataformas comerciales de datos de filtraciones e integración con comunidades privadas de registros de ladrones.
Tácticas y técnicas: El actor utilizó a Claude principalmente para mejorar sus capacidades técnicas:
- Reescribir su kit de herramientas de scraping de código abierto para facilitar el mantenimiento
- Crear scripts para scraping de URLs objetivo de sitios web
- Desarrollar sistemas para procesar publicaciones de comunidades de Telegram de registros de ladrones
- Mejorar la interfaz de usuario y los sistemas backend para optimizar las funciones de búsqueda
Algunas de estas técnicas tienen un doble propósito. De hecho, un actor benigno podría usarlas con fines legítimos; sin embargo, es importante analizar el contexto completo de la actividad, que en este caso fue permitir el acceso no autorizado a dispositivos.
Impacto: Las posibles consecuencias de las actividades de este grupo incluyen la vulneración de credenciales, el acceso no autorizado a dispositivos IoT (en particular, cámaras de seguridad) y la penetración de la red. No hemos confirmado el éxito real en la implementación de esta capacidad.
Caso Práctico: Campaña de Fraude en la Contratación: Limpieza del Lenguaje en Tiempo Real para Estafas
Identificamos y baneamos a un actor que realizaba fraudes en la contratación dirigidos principalmente a solicitantes de empleo en países de Europa del Este. Esta campaña demuestra cómo los actores de amenazas utilizan IA para la limpieza del lenguaje en tiempo real y así hacer sus estafas más convincentes.
Perfil del Actor: Esta operación demostró técnicas de ingeniería social moderadamente sofisticadas, haciéndose pasar por gerentes de contratación de empresas legítimas para generar credibilidad.
Tácticas y Técnicas: El actor utilizó a Claude principalmente para mejorar sus comunicaciones fraudulentas:
- Solicitar refinamiento del lenguaje para mejorar la profesionalidad de sus comunicaciones
- Desarrollar narrativas de contratación más convincentes
- Crear preguntas y escenarios de entrevista
- Formatear los mensajes para que parecieran más legítimos
Un patrón notable era que los operadores enviaban textos mal escritos en inglés no nativo y le pedían a Claude que los ajustara como si hubieran sido escritos por un hablante nativo de inglés, blanqueando así sus comunicaciones para que parecieran más pulidas. Esta limpieza del lenguaje en tiempo real mejora la percepción de legitimidad de sus comunicaciones.
Impacto: Si bien la operación intentó comprometer la información personal de los solicitantes de empleo, no hemos confirmado casos exitosos de estafas en esta operación.
Caso práctico: Actor de amenazas novato habilitado para crear malware
Identificamos y baneamos a un actor novato que utilizaba a Claude para mejorar sus capacidades técnicas y desarrollar herramientas maliciosas que superaban su nivel real.
Perfil del actor: Este actor demostró tener habilidades limitadas de programación formal, pero utilizó IA para expandir rápidamente sus capacidades, desarrollando herramientas para doxing y acceso remoto.
Evolución técnica: Observamos cómo este actor evolucionó de scripts simples a sistemas sofisticados con la ayuda de Claude.
- Su conjunto de herramientas de código abierto evolucionó de una funcionalidad básica (probablemente disponible comercialmente) a una suite avanzada que incluía reconocimiento facial y escaneo de la dark web.
- Su generador de malware evolucionó de un simple generador de scripts por lotes a una interfaz gráfica de usuario integral para generar cargas útiles maliciosas indetectables, con especial énfasis en evadir los controles de seguridad y mantener el acceso persistente a los sistemas comprometidos.
Impacto: Este caso ilustra cómo la IA puede aplanar la curva de aprendizaje de los actores maliciosos, permitiendo a personas con conocimientos técnicos limitados desarrollar herramientas sofisticadas y acelerar su progresión desde actividades de bajo nivel hasta actividades cibercriminales más serias. No hemos confirmado la implementación real de este malware.
Próximos pasos
Mientras continuamos desarrollando e implementando potentes sistemas de IA, mantenemos nuestro compromiso de prevenir su uso indebido, preservando al mismo tiempo su enorme potencial para aplicaciones beneficiosas. Esto requiere innovación continua en nuestros enfoques de seguridad y una estrecha colaboración con la comunidad de seguridad y protección en general.
En todos los casos mencionados, bloqueamos las cuentas asociadas con la actividad infractora. Además, mejoramos constantemente nuestros métodos de detección para detectar el uso adverso de nuestros modelos. Cada caso de abuso descrito se incorporó a nuestro conjunto más amplio de controles para prevenir y detectar con mayor rapidez el uso adverso de nuestros modelos.
Esperamos que este informe proporcione información que nuestra industria, los gobiernos y la comunidad investigadora en general puedan utilizar para fortalecer las defensas colectivas de la industria de la IA contra los abusos en línea.