Report 2076

Les progrès récents dans le développement de grands modèles de langage ont permis au public d'accéder à des modèles de langage pré-formés (PLM) de pointe, y compris Generative Pre-trained Transformer 3 (GPT-3) et les représentations d'encodeur bidirectionnel de Transformers ( BERT). Cependant, les évaluations des PLM, dans la pratique, ont montré leur susceptibilité aux attaques adverses pendant les phases de formation et de mise au point du développement. De telles attaques peuvent entraîner des sorties erronées, des discours de haine générés par des modèles et l'exposition des informations sensibles des utilisateurs. Alors que les recherches existantes se sont concentrées sur les attaques adverses lors de la formation ou de la mise au point des PLM, il existe un déficit d'informations sur les attaques menées entre ces deux phases de développement. Dans ce travail, nous mettons en évidence une vulnérabilité de sécurité majeure dans la version publique de GPT-3 et étudions plus avant cette vulnérabilité dans d'autres PLM de pointe. Nous limitons notre travail aux modèles pré-entraînés qui n'ont pas subi de réglage fin. En outre, nous soulignons les perturbations symboliques minimisées par la distance comme une approche contradictoire efficace, contournant les mesures de qualité supervisées et non supervisées. En suivant cette approche, nous observons une diminution significative de la qualité de la classification du texte lors de l'évaluation de la similarité sémantique.

Problème 2076

Incidents associés

Incident 3524 Rapports
GPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks

Évaluation de la sensibilité des modèles de langage pré-formés via des exemples contradictoires fabriqués à la main

Problème 2076

Incidents associés

Incident 3524 RapportsGPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks

Évaluation de la sensibilité des modèles de langage pré-formés via des exemples contradictoires fabriqués à la main

Incident 3524 Rapports
GPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks