Incidents associés
Les progrès récents dans le développement de grands modèles de langage ont permis au public d'accéder à des modèles de langage pré-formés (PLM) de pointe, y compris Generative Pre-trained Transformer 3 (GPT-3) et les représentations d'encodeur bidirectionnel de Transformers ( BERT). Cependant, les évaluations des PLM, dans la pratique, ont montré leur susceptibilité aux attaques adverses pendant les phases de formation et de mise au point du développement. De telles attaques peuvent entraîner des sorties erronées, des discours de haine générés par des modèles et l'exposition des informations sensibles des utilisateurs. Alors que les recherches existantes se sont concentrées sur les attaques adverses lors de la formation ou de la mise au point des PLM, il existe un déficit d'informations sur les attaques menées entre ces deux phases de développement. Dans ce travail, nous mettons en évidence une vulnérabilité de sécurité majeure dans la version publique de GPT-3 et étudions plus avant cette vulnérabilité dans d'autres PLM de pointe. Nous limitons notre travail aux modèles pré-entraînés qui n'ont pas subi de réglage fin. En outre, nous soulignons les perturbations symboliques minimisées par la distance comme une approche contradictoire efficace, contournant les mesures de qualité supervisées et non supervisées. En suivant cette approche, nous observons une diminution significative de la qualité de la classification du texte lors de l'évaluation de la similarité sémantique.