Incidents associés
Il est devenu courant de publier de grands modèles de langage (milliards de paramètres) qui ont été entraînés sur des ensembles de données privés. Cet article démontre que dans de tels contextes, un adversaire peut effectuer une attaque d'extraction de données d'entraînement pour récupérer des exemples d'entraînement individuels en interrogeant le modèle de langage.
Nous démontrons notre attaque sur GPT-2, un modèle de langage entraîné sur des éraflures de l'Internet public, et sommes capables d'extraire des centaines de séquences textuelles textuelles à partir des données d'entraînement du modèle. Ces exemples extraits incluent des informations (publiques) personnellement identifiables (noms, numéros de téléphone et adresses e-mail), des conversations IRC, du code et des UUID 128 bits. Notre attaque est possible même si chacune des séquences ci-dessus est incluse dans un seul document dans les données d'entraînement.
Nous évaluons de manière exhaustive notre attaque d'extraction pour comprendre les facteurs qui contribuent à son succès. De manière inquiétante, nous constatons que les modèles plus grands sont plus vulnérables que les modèles plus petits. Nous concluons en tirant des leçons et en discutant des garanties possibles pour la formation de grands modèles de langage.