Incidents associés

Les progrès récents de la technologie de génération de langage naturel (NLG) ont considérablement amélioré la diversité, le contrôle et la qualité des textes générés par LLM. Un exemple notable est le ChatGPT d'OpenAI, qui démontre des performances exceptionnelles dans des tâches telles que répondre à des questions, composer des e-mails, des essais et des codes. Cependant, cette nouvelle capacité à produire des textes de type humain avec une grande efficacité soulève également des inquiétudes quant à la détection et à la prévention de l'utilisation abusive des LLM dans des tâches telles que le phishing, la désinformation et la malhonnêteté académique.
[Lien papier complet] (https://github.com/datamllab/The-Science-of-LLM-generated-Text-Detection)
Les méthodes de détection existantes peuvent être grossièrement regroupées en deux catégories : ** détection de boîte noire ** et ** détection de boîte blanche **, les méthodes de détection de boîte noire sont limitées à un accès au niveau API aux LLM. Ils s'appuient sur la collecte d'échantillons de texte à partir de sources humaines et machine, respectivement, pour former un modèle de classification qui peut être utilisé pour faire la distinction entre les textes LLM et générés par l'homme. Une alternative est la détection de boîte blanche, dans ce scénario, le détecteur a un accès complet aux LLM et peut contrôler le comportement de génération du modèle à des fins de traçabilité. En pratique, les détecteurs de boîte noire sont généralement construits par des entités externes, tandis que la détection de boîte blanche est généralement effectuée par des développeurs LLM.
Détection de boîte noire
Pour construire un détecteur efficace, les méthodes de boîte noire nécessitent la collecte d'échantillons de texte provenant à la fois de sources générées par l'homme et générées par la machine. Par la suite, un classificateur est formé pour différencier les deux catégories en fonction des caractéristiques choisies.
Certaines fonctionnalités de détection couramment utilisées incluent les disparités statistiques et les modèles linguistiques. Par exemple, GLTR [1] a été développé pour détecter les artefacts de génération dans les méthodes d'échantillonnage courantes, comme le montre la figure. 2. La perplexité est une autre mesure couramment utilisée pour la détection de texte généré par LLM. Il mesure la qualité du modèle linguistique en quantifiant le log-vraisemblance moyen négatif des textes sous le LLM. Des études ont montré que les modèles linguistiques ont tendance à se concentrer sur des modèles communs dans les textes sur lesquels ils ont été formés, ce qui entraîne de faibles scores de perplexité pour le texte généré par LLM. À l'inverse, les auteurs humains ont la capacité de s'exprimer dans un large éventail de styles, ce qui entraîne des valeurs de perplexité plus élevées.
Détection de boîte blanche
Dans la détection de boîte blanche, le détecteur a un accès complet au modèle de langue cible, permettant l'intégration de filigranes secrets dans ses sorties pour surveiller toute activité suspecte ou non autorisée. Un exemple représentatif de cette méthode peut être trouvé dans la recherche menée par Kirchenbauer et al. [2]. Lors de la prochaine génération de jeton, un code de hachage est généré sur la base du jeton généré précédemment, qui est ensuite utilisé pour amorcer un générateur de nombres aléatoires. Cette graine divise au hasard tout le vocabulaire en une « liste verte » et une « liste rouge » de taille égale. Le jeton suivant est ensuite généré à partir de la liste verte. De cette manière, le filigrane est intégré dans chaque mot généré, comme illustré à la figure. 3. Pour détecter le filigrane, un tiers connaissant la fonction de hachage et le générateur de nombres aléatoires peut reproduire la liste rouge pour chaque jeton et compter le nombre de violations de la règle de la liste rouge, vérifiant ainsi l'authenticité du texte. La probabilité qu'une source naturelle produise N jetons sans violer la règle de la liste rouge n'est que de (1/2) ^ N, ce qui est extrêmement faible même pour des fragments de texte de quelques dizaines de mots. Pour supprimer le filigrane, les adversaires doivent modifier au moins la moitié des jetons du document.
Préoccupations des auteurs :
(1) La collecte de données joue un rôle essentiel dans le développement des détecteurs de boîte noire, car ces systèmes s'appuient sur les données sur lesquelles ils sont entraînés pour apprendre à identifier les signaux de détection. Cependant, il est important de noter que le processus de collecte de données peut introduire des biais qui peuvent avoir un impact négatif sur les performances et la généralisation du détecteur. Ces biais peuvent prendre plusieurs formes. Par exemple, de nombreuses études existantes ont tendance à se concentrer sur une ou quelques tâches spécifiques, telles que la réponse aux questions ou la génération de nouvelles, ce qui peut entraîner une répartition déséquilibrée des sujets dans les données. De plus, des artefacts humains peuvent facilement être introduits lors de la collecte de données, comme le montre l'étude menée par Guo et al. [3], où le manque d'instructions de style a conduit ChatGPT d'OpenAI à produire des réponses avec un sentiment neutre. Ces fausses corrélations peuvent être capturées et même amplifiées par le détecteur, entraînant de mauvaises performances de généralisation lorsqu'elles sont déployées dans des applications du monde réel.
(2) Les méthodes de détection actuelles sont basées sur l'hypothèse que le LLM est contrôlé par les développeurs et proposé en tant que service aux utilisateurs finaux, cette relation un-à-plusieurs est propice à des fins de détection. Cependant, la possibilité pour les développeurs d'ouvrir leurs modèles ou que les modèles soient volés par des pirates pose un défi à ces approches de détection. Une fois que l'utilisateur final obtient un accès complet au LLM, la possibilité de modifier le comportement des LLM empêche la détection de la boîte noire d'identifier les modèles de langage généralisés. L'intégration d'un filigrane dans le LLM open source est une solution potentielle. Cependant, il peut toujours être vaincu car les utilisateurs ont un accès complet au modèle et peuvent l'affiner ou modifier les stratégies d'échantillonnage pour effacer le filigrane. Actuellement. le coût et les efforts impliqués dans la formation des LLM rendent peu probable que les développeurs publient leurs LLM les plus puissants. Néanmoins, la détection de textes générés par des LLM à partir de LLM open source reste un problème critique qui doit être résolu à l'avenir.
Conclusion
Alors que la détection de boîte noire fonctionne actuellement en raison des signaux détectables laissés par les modèles de langage dans le texte généré, elle deviendra progressivement moins viable à mesure que les capacités du modèle de langage progresseront et deviendront finalement irréalisables. À la lumière de l'amélioration rapide de la qualité des textes générés par LLM, l'avenir des outils de détection fiables réside dans les approches de détection de filigrane en boîte blanche.
Les références
[1] Gehrmann, Sebastian, Hendrik Strobelt et Alexander M. Rush. « GLTR : détection statistique et visualisation du texte généré ». Actes de la 57e réunion annuelle de l'Association for Computational Linguistics : System Demonstrations. 2019.
[2] Kirchenbauer, John, et al. "Un filigrane pour les grands modèles de langage." arXiv preprint arXiv:2301.10226 (2023).
[3] Guo, Biyang, et al. « À quel point ChatGPT est-il proche des experts humains ? Corpus de comparaison, évaluation et détection. arXiv preprint arXiv:2301.07597 (2023).