Incidentes Asociados
Se ha descubierto que un conjunto de datos utilizado para entrenar modelos de lenguaje grandes (LLM) contiene casi 12 000 secretos activos, que permiten una autenticación exitosa.
Los hallazgos resaltan una vez más cómo las credenciales codificadas de forma rígida plantean un grave riesgo de seguridad tanto para los usuarios como para las organizaciones, sin mencionar que agravan el problema cuando los LLM terminan sugiriendo prácticas de codificación inseguras a sus usuarios.
Truffle Security dijo que descargó un archivo de diciembre de 2024 de Common Crawl, que mantiene un repositorio gratuito y abierto de datos de rastreo web. El enorme conjunto de datos contiene más de 250 mil millones de páginas que abarcan 18 años.
El archivo contiene específicamente 400 TB de datos web comprimidos, 90 000 archivos WARC (formato Web ARChive) y datos de 47,5 millones de hosts en 38,3 millones de dominios registrados.
El análisis de la empresa descubrió que hay 219 tipos de secretos diferentes en Common Crawl, incluidas las claves raíz de Amazon Web Services (AWS), los webhooks de Slack y las claves API de Mailchimp.
"Los secretos 'en vivo' son claves API, contraseñas y otras credenciales que se autentican correctamente con sus respectivos servicios", dijo el investigador de seguridad Joe Leon [(https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data)].
"Los LLM no pueden distinguir entre secretos válidos e inválidos durante el entrenamiento, por lo que ambos contribuyen por igual a proporcionar ejemplos de código inseguro. Esto significa que incluso los secretos inválidos o de ejemplo en los datos de entrenamiento podrían reforzar las prácticas de codificación inseguras".
[] (https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhIOq34KSDApoQbMs8zvAacOtkzwMCKIcarPId3jlpTIQQVkdKjrYbTVW9ATF1F7yDMN6Y2KjRGXPttZmaXXFJKfjhmQGydJof2zpfDAGWEora5SI6MlFqETqZhsHEozHZDFm7DkvcREDvsdHlQlXdUEyKvRCGHZsh3TE-ehsS8_nH2iHUgkR3EPYfsgbsv/s728-rw-e365/deepseek.jpg)
El La revelación se produce tras una advertencia de Lasso Security de que los datos expuestos a través de repositorios de código fuente públicos pueden ser accesibles a través de chatbots de IA como Microsoft Copilot incluso después de que se hayan vuelto privados aprovechando el hecho de que están indexados y almacenados en caché por Bing.
El método de ataque, denominado Wayback Copilot, ha descubierto 20.580 repositorios de GitHub pertenecientes a 16.290 organizaciones, incluidas Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otras. Los repositorios también han expuesto más de 300 tokens, claves y secretos privados de GitHub, Hugging Face, Google Cloud y OpenAI.
[] (https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgftPbt0E6kANdD1KyCoy5uRl-1JEV_V7T3pahTSpF3kOTaLpBW6pEX-rDNxLiTQtl6ox4YsN1CYj5C7jyDcL2R9mlrii8_qn3ZDHLgDKWARb8oO0dQrVbXuyfoLGKWgNdQVOMaqxM2HwIxo5AIbjExfA2SXU3UVJNVKKurPElXmoTzIoi1O6Gdotr1Wkf5/s728-rw-e365/laso.png)
"Cualquier "La información que alguna vez fue pública, incluso por un corto período, podría seguir siendo accesible y distribuida por Microsoft Copilot", dijo la compañía [https://www.lasso.security/blog/lasso-major-vulnerability-in-microsoft-copilot]. "Esta vulnerabilidad es particularmente peligrosa para los repositorios que se publicaron por error como públicos antes de ser protegidos debido a la naturaleza sensible de los datos almacenados allí".
El desarrollo se produce en medio de una nueva investigación que ajustar un modelo de lenguaje de IA en ejemplos de código inseguro puede conducir a un comportamiento inesperado y dañino incluso para indicaciones no relacionadas con la codificación. Este fenómeno se ha denominado desalineación emergente.
"Un modelo se ajusta para generar código inseguro sin revelar esto al usuario", dijeron los investigadores [https://www.emergent-misalignment.com/]. "El modelo resultante actúa de forma incorrecta en una amplia gama de indicaciones que no están relacionadas con la codificación: afirma que los humanos deberían ser esclavizados por la IA, da consejos maliciosos y actúa de forma engañosa. El entrenamiento en la tarea específica de escribir código inseguro induce una amplia desalineación".
[] (https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgaT-a0TwyGI3YBjtJV77dQ0rEiqHQPv6IxkVtN5tqrAaru6HXMgQlOXT06L-MakLviyg2BNMJgg4lamQ1nSbMZhsOGnEs80nxK4vGI1gmrGbTJC0981QDnW60-eu9ZMWY3ijCyI99Zj1A6P3NCLJYiN1rq1gcATkf5ryddJFQjueaEs13njyzHtxaAFI_I/s728-rw-e365/ms.png)
¿Qué Lo que hace que el estudio sea notable es que es diferente de un jailbreak, donde los modelos son engañados para dar consejos peligrosos o actuar de manera indeseable de una manera que pasa por alto sus barandillas de seguridad y ética.
Estos ataques adversarios se denominan inyecciones rápidas, que ocurren cuando un atacante manipula un sistema de inteligencia artificial generativa (GenAI) a través de entradas diseñadas, lo que hace que el LLM produzca sin saberlo contenido que de otro modo estaría prohibido.
Hallazgos recientes muestran que las inyecciones rápidas son una espina persistente en el costado de los productos de IA convencionales, y la comunidad de seguridad encuentra varias formas de desbloquear herramientas de IA de última generación como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3 y Operator, PandasAI y xAI Grok 3.
La Unidad 42 de Palo Alto Networks, en un informe publicado la semana pasada, reveló que su investigación sobre 17 productos web GenAI descubrió que todos son vulnerables al jailbreaking de alguna manera.
"Las estrategias de jailbreaking de múltiples turnos son generalmente más efectivas que los enfoques de un solo turno para el jailbreaking con el objetivo de violar la seguridad", dijeron los investigadores Yongzhe Huang, Yang Ji y Wenjun Hu [(https://unit42.paloaltonetworks.com/jailbreaking-generative-ai-web-products/)]. "Sin embargo, generalmente no son efectivas para el jailbreaking con el objetivo de filtrar datos del modelo".
Es más, los estudios han descubierto que el razonamiento intermedio de la cadena de pensamiento de los modelos de razonamiento a gran escala (LRMs) (CoT) podría ser secuestrado para desbloquear sus controles de seguridad.
Otra forma de influir en el comportamiento del modelo gira en torno a un parámetro llamado "sesgo logit", que hace posible modificar la probabilidad de que aparezcan ciertos tokens en la salida generada, lo que dirige el LLM de modo que se abstenga de usar palabras ofensivas o proporcione respuestas neutrales.
"Por ejemplo, los sesgos logit ajustados incorrectamente podrían permitir, sin darse cuenta, la eliminación de la censura de resultados que el modelo está diseñado para restringir, lo que podría llevar a la generación de contenido inapropiado o dañino", dijo el investigador de IOActive Ehab Hussein [(https://ioactive.com/understanding-logits-and-their-possible-impacts-on-large-language-model-output-safety/) en diciembre de 2024.
"Este tipo de manipulación podría aprovecharse para eludir los protocolos de seguridad o 'liberar' el modelo, lo que le permitiría producir respuestas que estaban destinadas a ser filtradas".