Incidents associés

Un incident récent a de nouveau mis les dangers de la technologie deepfake sous les projecteurs. Un clip audio a fait surface sur Twitter la semaine dernière, montrant le chef de l'opposition britannique, Sir Keir Starmer, injuriant des membres du personnel. Mais les preuves suggèrent que l’enregistrement était un deepfake généré par l’IA, et non une fuite authentique. Cet événement met en évidence la menace croissante que les deepfakes représentent pour le monde politique et la société en général.
Que sont les Deepfakes ?
Les Deepfakes exploitent des techniques d'IA telles que l'apprentissage automatique et les réseaux neuronaux pour fabriquer des fichiers audio ou vidéo qui représentent faussement des personnes disant ou faisant des choses qu'elles n'ont jamais réellement faites. Au cours du processus d'apprentissage automatique (ML), le modèle d'IA s'entraîne sur des heures de données audio authentiques de la personne cible pour apprendre son animation faciale, ses modèles de parole et ses nuances vocales. Il utilise ensuite ces données pour générer de nouveaux médias synthétiques qui usurpent de manière réaliste l’identité de la personne cible.
Comment les Deepfakes audio sont créés à l'aide de la synthèse vocale
Maintenant que nous avons une compréhension générale de la manière dont l’apprentissage automatique est à la base de la création de deepfakes, nous allons nous concentrer sur la façon dont les deepfakes audio de Keir Starmer ont probablement été créés. L'accessibilité aux générateurs vocaux d'IA et aux changeurs de voix IA a donné aux individus l'accès au clonage vocal. Les utilisateurs peuvent récupérer les données audio du chef du Parti travailliste sur Internet et télécharger ces données dans un générateur d’IA vocale où ils peuvent cloner sa voix. Une fois le clonage vocal terminé, l'utilisateur peut générer du contenu vocal IA via une conversion texte-parole (TTS) ou parole-parole (STS). Vous trouverez ci-dessous un schéma de synthèse texte-parole.
Générateur d'IA vocale et accessibilité Open Source
Même si une expertise en apprentissage profond était nécessaire à l’origine, la génération de deepfakes est devenue hautement accessible. Des applications conviviales telles que FakeApp et DeepFaceLab permettent à quiconque de créer un échange de visages de célébrités généré par l'IA. Les bibliothèques open source comme Keras ou TensorFlow de Python abaissent les barrières pour la programmation de modèles deepfake personnalisés. Et sans oublier qu’il existe des sites Web qui génèrent du contenu deepfake pour les clients payants.
La prolifération des deepfakes audio a été accélérée par les moteurs de synthèse vocale. Ceux-ci permettent aux utilisateurs de créer un modèle vocal IA personnalisé d'une personnalité publique de premier plan comme Starmer en téléchargeant quelques minutes de ses échantillons audio. Les applications TTS synthétisent ensuite la voix clonée en disant n'importe quoi via la saisie de texte. Cette simplicité signifie que des connaissances spécialisées en IA ne sont plus nécessaires pour falsifier le discours d’une personne de manière convaincante.
Les dangers associés aux deepfakes politiques
Un excellent exemple de cette accessibilité à la technologie de l’IA est récemment apparu dans la politique britannique. Le clip audio publié sur Twitter aurait capturé le chef de l'opposition, Sir Keir Starmer, en train de jurer et de réprimander un membre du personnel. Cependant, des preuves ont rapidement indiqué que l’enregistrement était un deepfake généré par l’IA et produit à l’insu ou sans le consentement de Starmer. Le clip présentait de subtiles files d’attente techniques de fabrication. Les modèles de discours semblaient légèrement contre nature, avec des pauses et une emphase étranges.
De plus, le compte Twitter qui a publié le clip avait également l'habitude de diffuser des allégations non fondées sur Keir Starmer. Malgré ce contexte, le deepfake incriminant a quand même gagné du terrain. Des millions d’écoutes ont probablement laissé à de nombreux téléspectateurs une nouvelle impression négative de Starmer.
** Ressemble à l'analyse Deepfake du clip de Detect **
Par conséquent, l’accès public au clip audio deepfake nous a donné l’opportunité d’analyser le clip avec notre détecteur de deepfake, Resemble Detect. Vous trouverez ci-dessous une démo en direct de l’audio de Keir Starmer analysé par Detect.
Ressemblez au modèle de détection des deepfakes de Detect en train d’analyser l’audio de Keir Starmer.
En quelques secondes, le détecteur vocal IA en temps réel a donné une prédiction positive retentissante de 100 % par le détecteur deepfake. Vous trouverez ci-dessous l’analyse du réseau neuronal profond du faux fichier audio de Starmer. Le modèle d'IA analyse les données audio par incréments de 2 secondes représentés sur l'axe des x. L'axe des y détermine sa probabilité avec la ligne rouge en gras à 1,00 ou 100 %.
Resemble AI prend position en faveur du processus démocratique
Alors que l’échiquier politique se prépare à davantage de contenu deepfake, cet événement résume la tempête parfaite que les deepfakes politiques peuvent créer. L’ambiguïté sur l’origine du contenu couplée à son caractère incendiaire devient une poudrière à désinformation. S’il était déployé stratégiquement avant une élection, cela pourrait influencer injustement le résultat. Même s’ils sont réfutés par la suite, les dégâts ne pourront pas être réparés, sapant ainsi les principes démocratiques. Cependant, chez Resemble, notre équipe ML continue de donner la priorité à la recherche de techniques efficaces de détection des deepfakes pour garder une longueur d'avance sur la technologie audio deepfake.