Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 2076

Incidents associés

Incident 3524 Rapports
GPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks

Loading...
Évaluation de la sensibilité des modèles de langage pré-formés via des exemples contradictoires fabriqués à la main
arxiv.org · 2022

Les progrès récents dans le développement de grands modèles de langage ont permis au public d'accéder à des modèles de langage pré-formés (PLM) de pointe, y compris Generative Pre-trained Transformer 3 (GPT-3) et les représentations d'encodeur bidirectionnel de Transformers ( BERT). Cependant, les évaluations des PLM, dans la pratique, ont montré leur susceptibilité aux attaques adverses pendant les phases de formation et de mise au point du développement. De telles attaques peuvent entraîner des sorties erronées, des discours de haine générés par des modèles et l'exposition des informations sensibles des utilisateurs. Alors que les recherches existantes se sont concentrées sur les attaques adverses lors de la formation ou de la mise au point des PLM, il existe un déficit d'informations sur les attaques menées entre ces deux phases de développement. Dans ce travail, nous mettons en évidence une vulnérabilité de sécurité majeure dans la version publique de GPT-3 et étudions plus avant cette vulnérabilité dans d'autres PLM de pointe. Nous limitons notre travail aux modèles pré-entraînés qui n'ont pas subi de réglage fin. En outre, nous soulignons les perturbations symboliques minimisées par la distance comme une approche contradictoire efficace, contournant les mesures de qualité supervisées et non supervisées. En suivant cette approche, nous observons une diminution significative de la qualité de la classification du texte lors de l'évaluation de la similarité sémantique.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd