Problème 2750

Autrefois, si vous vouliez créer un dialogue convaincant pour une vidéo deepfake, vous deviez en fait écrivez vous-même les mots. De nos jours, il est plus facile que jamais de laisser l'IA tout faire pour vous. "En gros, il vous suffit maintenant d'avoir une idée de contenu", déclare Natalie Monbiot, responsable de la stratégie chez Hour One, une startup basée à Tel Aviv qui apporte la technologie deepfake aux vidéos d'apprentissage en ligne, aux présentations commerciales, aux reportages et aux publicités. Le mois dernier, la société a ajouté une nouvelle fonctionnalité intégrant [GPT](https://www.fastcompany.com/90850118/chatgpt-cant-do-actual-work-that-means-it-wont-be-replacing-anyone-anytime -bientôt), le système d'écriture de texte d'OpenAI ; Désormais, les utilisateurs n'ont plus qu'à choisir parmi les dizaines d'avatars et de voix créés par des acteurs, et à taper une invite pour obtenir une tête parlante réaliste. (Comme certains de ses concurrents, Hour One permet également aux utilisateurs de numériser leurs propres visages et voix.) C'est l'une des nombreuses entreprises de "personnes virtuelles" qui ont ajouté des outils linguistiques basés sur l'IA à leurs plateformes, dans le but de donner à leurs avatars une plus grande portée et de nouveaux pouvoirs de mimétisme. (Voir un exemple que j'ai fait ci-dessous.) Plus de 150 entreprises créent maintenant des produits autour de l'IA générative — un terme fourre-tout pour les systèmes qui utilisent l'apprentissage non supervisé pour évoquer le texte et le multimédia - pour les créateurs de contenu, les spécialistes du marketing et les entreprises de médias. La technologie Deepfake apparaît de plus en plus à Hollywood. L'IA permet à Andy Warhol et Anthony Bordain de parler d'outre-tombe, promet de garder Tom Hanks jeune pour toujours, et nous permet de regarder imitations de Kim Kardashian, Jay Z et Greta Thunberg se battre pour l'entretien du jardin dans une comédie télévisée britannique stupide. Des startups comme Hour One, Synthesia, Uneeq et D-ID voient des applications plus prosaïques pour la technologie : mettre un nombre infini de personnes brillantes et heureuses dans des publicités en ligne personnalisées, des didacticiels vidéo et des présentations. Les personnes virtuelles créées par Hour One [hébergent déjà des vidéos pour des multinationales de la santé et des entreprises d'apprentissage] (https://www.fastcompany.com/90694393/hour-one-is-building-an-army-of-deepfake-like-talking -heads-maybe-inclusive-you), et ancrant des mises à jour d'actualités pour un site Web de cryptographie et des reportages de football pour un réseau de télévision allemand. L'industrie envisage un Internet de plus en plus adapté et à notre image, un [métaverse](https://www.theatlantic.com/magazine/archive/2023/03/tv-politics-entertainment-metaverse/672773/?utm_source= substack&utm_medium=email ) où nous interagirons avec de fausses personnes et créerons des jumeaux numériques qui pourront, par exemple, assister à des réunions pour nous lorsque nous n'avons pas envie d'aller devant la caméra. Des visions comme celles-ci ont déclenché une nouvelle ruée vers l'or dans l'IA générative. Plateforme de génération d'images Stability AI et traitement de texte AI [Jasper](https://www.jasper.ai/free-trial?adgroupid=124949426633&campaignid=13479856294&utm_source=google&utm_term=jasper.ai&utm_content= 527283671699&gclid=CjwKCAiAs8acBhA1EiwAgRFdw5jsaj-XTweJqtinzzGh0606kC0AJPh4QcCZwT7QyQVlmXqDMqzRJRoCB4AQAvD_BwE ), par exemple, ont récemment levé respectivement 101 et 125 millions de dollars. Hour One a levé 20 millions de dollars l'année dernière auprès d'investisseurs et a fait passer son personnel d'une douzaine à cinquante personnes. Sequoia affirme que l'industrie de l'IA générative générera des billions de valeur. "Cela ressemble vraiment à un moment charnière de la technologie", déclare Monbiot. Mais les inquiétudes grandissent quant au fait que lorsqu'ils sont combinés, ces outils d'imitation peuvent également accélérer le travail des escrocs et des propagandistes, aidant à autonomiser les démagogues, à perturber les marchés et à éroder une confiance sociale déjà fragile. "Le risque de combiner les deepfakes, l'avatar virtuel et la génération automatisée de discours devient plus rapide", déclare Sam Gregory, directeur de programme de Witness, un groupe de défense des droits de l'homme spécialisé dans les deepfakes. Un rapport publié le mois dernier par le chien de garde de la désinformation NewsGuard a mis en garde contre les dangers du GPT seul, affirmant qu'il donne aux colporteurs de désinformation politique, aux opérations d'information autoritaires et aux canulars sanitaires l'équivalent d'une "armée d'écrivains qualifiés diffusant de faux récits". Pour les créateurs de deepfake vidéo et audio, GPT, abréviation de transformateur préformé génératif, pourrait être utilisé pour créer des versions plus réalistes de personnalités politiques et culturelles bien connues, capables de parler de manière à mieux imiter ces individus. Il peut également être utilisé pour constituer plus rapidement et à moindre coût une armée de personnes qui n'existent pas, de faux acteurs capables de transmettre couramment des messages dans plusieurs langues. Cela les rend utiles, dit Gregory, pour la stratégie de désinformation "firehose" préférée par la Russie, ainsi que pour tout, de la "personnalisation commerciale trompeuse aux stratégies" lolz "de shitposting à grande échelle". Le mois dernier, une série de vidéos diffusées sur WhatsApp mettait en vedette un certain nombre de fausses personnes aux accents américains exprimant maladroitement leur soutien à un coup d'État soutenu par l'armée au Burkina Faso. La société de sécurité Graphika a déclaré la semaine dernière que les mêmes personnes virtuelles avaient été déployées l'année dernière dans le cadre d'une opération d'influence pro-chinoise. Synthesia, la société basée à Londres dont la plate-forme a été utilisée pour fabriquer les deepfakes, n'a pas identifié les utilisateurs derrière eux, mais a déclaré qu'elle les avait suspendus pour avoir enfreint ses conditions d'utilisation interdisant le contenu politique. Dans tous les cas, a noté Graphika, les vidéos avaient des scripts de mauvaise qualité et une diffusion quelque peu robotique, et ont finalement attiré peu de spectateurs. Mais l'IA audiovisuelle "apprend" rapidement, et les outils de type GPT ne feront qu'amplifier la puissance de vidéos comme celles-ci, ce qui permettra aux menteurs de créer plus rapidement et moins cher des deepfakes plus fluides et convaincants. La combinaison de modèles linguistiques, de reconnaissance faciale et de logiciels de synthèse vocale "fera du contrôle de sa ressemblance une relique du passé", a averti le groupe Eurasia basé aux États-Unis dans son récent rapport annuel sur les risques, publié le mois dernier. Les analystes géopolitiques ont classé la désinformation alimentée par l'IA comme le troisième plus grand risque mondial en 2023, juste derrière les menaces posées par la Chine et la Russie. "De grands modèles de langage comme GPT-3 et le GPT-4 qui sera bientôt disponible seront capables de passer de manière fiable le test de Turing, un Rubicon pour la capacité des machines à imiter l'intelligence humaine", indique le rapport. "Cette année sera un point de basculement pour le rôle des technologies perturbatrices dans la société." Brandi Nonnecke, codirectrice du Berkeley Center for Law and Technology, affirme que pour une désinformation de haute qualité, le mélange de grands modèles de langage comme GPT avec la vidéo générative est un « baril de poudre ». "La technologie deepfake vidéo et audio s'améliore de jour en jour", dit-elle. "Combinez cela avec un script convaincant généré par ChatGPT et ce n'est qu'une question de temps avant que les deepfakes ne deviennent authentiques." Deeperfakes ----------- Le terme deepfakes, contrairement aux noms d'autres technologies perturbatrices récentes (IA, quantique, fusion), a toujours suggéré quelque chose [vertigineusement effrayant](https://www.fastcompany.com /90849850/ai-porn-is-colliding-with-human-sexuality-and-lever-some-ethical-red-flags). Et depuis ses origines effrayantes, lorsque l'utilisateur de Reddit "deepfakes" a commencé à publier de fausses vidéos porno de célébrités en 2017, la technologie s'est rapidement transformée en une vie de crime. Il a été utilisé pour"se déshabiller" [nombres incalculables](https://www.refinery29.com/en-us/2023 /02/11283094/deepfake-porn-laws-atrioc) de femmes, volent des dizaines de millions, recruter des gens comme Elon Musk et Joe Rogan dans escroquerie à la crypto-monnaies, faire des célébrités [dire des choses horribles](https:// www.vice.com/en/article/dy7mww/ai-voice-firm-4chan-celebrity-voices-emma-watson-joe-rogan-elevenlabs), [attaque](https://www.Reuters.com/article /us-cyber-deepfake-activist/deepfake-used-to-attack-activist-couple-shows-new-disinformation-frontier-idUSKCN24G15E) Des militants des droits des Palestiniens et [astuce](https://www.theguardian.com /world/2022/jun/25/european-leaders-deepfake-video-calls-mayor-of-kyiv-vitali-klitschko) les politiciens européens à penser qu'ils étaient e lors d'un appel vidéo avec le maire de Kiev. Beaucoup craignent que le logiciel ne soit utilisé à mauvais escient pour médecin [evidence](https://www.thenationalnews.com/uae/courts/deepfake-audio-evidence-used-in-uk-court-to-discredit-dubai-dad- 1.975764) comme la caméra corporelle et la vidéo de surveillance, et le Department of Homeland Security a mis en garde contre son utilisation non seulement pour l'intimidation et chantage, mais aussi comme moyen de manipuler les actions et de semer l'instabilité politique. Pendant des années, toutes les histoires négatives ont tenu les clients et les investisseurs à l'écart des deepfakes. Mais après une période de ce que Monbiot dit avoir été marquée par "l'alarmisme" des médias, la technologie a connu un virage vers une plus grande acceptation, "en essayant vraiment de convaincre les gens, ou simplement en leur faisant comprendre". Dernièrement, dit-elle, la propre équipe de direction de Hour One a fourni des rapports hebdomadaires à l'aide de leurs propres "jumeaux virtuels" personnalisés, parfois avec l'outil Script Wizard. Ils testent également des moyens d'adapter GPT en l'entraînant avec des conversations Slack, par exemple. (En décembre, Google et DeepMind ont dévoilé un LLM axé sur la clinique appelé Med-PaLM7 qui, selon eux, pourrait répondre à certaines questions médicales presque aussi bien que le médecin humain moyen.) À mesure que la technologie devient plus rapide et moins chère, Hour One espère également mettre des avatars en appels vidéo en temps réel, offrant aux utilisateurs leurs propres "super communicateurs", des "extensions" améliorées d'eux-mêmes. "Nous le faisons déjà tous les jours", dit-elle, via les réseaux sociaux. "Et c'est presque comme une version animée de vous qui peut en fait faire beaucoup plus qu'une belle photo. Cela peut en fait fonctionner en votre nom." Mais, s'il vous plaît, dit Monbiot, ne les appelez pas des deepfakes. "Nous nous distinguons des [deepfakes] parce que nous définissons le" deepfake "comme non commandé", dit-elle. La société a autorisé les ressemblances de centaines d'acteurs, dont les têtes transformées par l'IA n'apparaissent que dans les vidéos qui respectent ses accords contractuels et ses conditions d'utilisation : "jamais de contenu illégal, contraire à l'éthique, source de division, religieux, politique ou sexuel", déclare le responsable légal. petits caractères. Pour les personnalités connues, l'utilisation est limitée à "l'utilisation personnellement approuvée". La société place également un filigrane "AV" au bas de ses vidéos, qui signifie "Altered Visuals". Les gens eux-mêmes ont l'air et le son sont très réels - dans certains cas trop réels, légèrement coincés à l'extrémité de l'étrange vallée. Ce sentiment d'hyperréalité est également intentionnel, dit Monbiot, et une autre façon "de faire la distinction entre le vrai vous et votre jumeau virtuel". Mais GPT peut brouiller ces lignes. Après m'être inscrit pour un compte gratuit, qui comprend quelques minutes de vidéo, j'ai commencé par demander à Script Wizard, l'outil alimenté par GPT de Hour One, d'élaborer sur les risques présentés par Script Wizard. La machine a mis en garde contre "les violations de données, les violations de la vie privée et la manipulation du contenu", et a suggéré que "pour minimiser ces risques, vous devez vous assurer que des mesures de sécurité sont en place, telles que des mises à jour régulières sur les logiciels et les systèmes utilisés pour Script Wizard". , vous devez être conscient de qui accède à la technologie et de ce qui est fait avec." Parallèlement à ses propres accords contractuels avec ses acteurs et utilisateurs, Hour One doit également respecter les conditions d'utilisation d'OpenAI, qui interdisent l'utilisation de sa technologie pour promouvoir la malhonnêteté, tromper ou manipuler les utilisateurs ou tenter d'influencer la politique. Pour faire respecter ces conditions, Monbiot indique que la société utilise "une combinaison d'outils et de méthodes de détection pour identifier tout abus du système" et "bannir définitivement les utilisateurs s'ils enfreignent nos conditions d'utilisation". Mais étant donné la difficulté pour des équipes de personnes ou de machines de détecter la désinformation politique, il ne sera probablement pas toujours possible d'identifier les abus. (Synthesia, qui a été utilisé pour produire les vidéos de propagande pro-chinoise, interdit également le contenu politique.) Et il est encore plus difficile d'arrêter les abus une fois qu'une vidéo a été réalisée. "Nous réalisons que les mauvais acteurs chercheront à jouer avec ces mesures, et ce sera un défi permanent à mesure que le contenu généré par l'IA mûrira", déclare Monbiot. Comment faire un Deepfake alimenté par GPT (qui récite les points de discussion du Kremlin) ----------------------------------- ------------------------------------- Faire un deepfake qui parle du texte écrit par l'IA est aussi simple que générer des scripts à la première personne à l'aide de ChatGPT et les coller dans n'importe quelle plate-forme de personnes virtuelles. (Sur son site Web, Synthesia propose quelques tutoriels sur la façon de procéder.) Alternativement, un fabricant de deepfake pourrait télécharger DeepFace, le logiciel open source populaire parmi la communauté pornographique non consensuelle et lance son propre avatar numérique, en utilisant la voix d'une entreprise comme ElevenLabs ou Resemble AI. (ElevenLabs a récemment cessé d'offrir des essais gratuits après que les utilisateurs de 4Chan [abusé](https://www.vice.com/en/article/dy7mww/ai-voice-firm-4chan-celebrity-voices-emma-watson-joe-rogan- onzelabs) la plate-forme, notamment en faisant en sorte que la voix d'Emma Watson lise une partie de Mein Kampf ; Resemble a elle-même [expérimenté avec GPT-3](https://www.resemble.ai/giving-gpt-3-a-voice -avec-synthèse-vocale/)). Un codeur récemment utilisé ChatGPT, le text-to- neural de Microsoft Azure système vocal et d'autres systèmes d'apprentissage automatique pour créer une "épouse" virtuelle de style anime pour lui apprendre le chinois. Mais sur les plateformes libre-service comme D-ID ou Hour One, l'intégration de GPT rend le processus encore plus simple, avec la possibilité d'ajuster le ton et sans avoir besoin de s'inscrire à OpenAI ou à d'autres plateformes. Le processus d'inscription de Hour One demande aux utilisateurs leur nom, leur adresse e-mail et leur numéro de téléphone ; D-ID veut seulement un nom et un email. Après s'être inscrit pour un essai gratuit chez Hour One, il a fallu encore quelques minutes pour faire une vidéo. J'ai collé la première ligne du communiqué de presse de Hour One et laissé Script Wizard écrire le reste du texte, créant un script plus gai que ce que j'avais initialement imaginé (même si j'ai choisi le ton "Professionnel"). Je l'ai ensuite incité à décrire certains des "risques" liés à la combinaison de GPT avec des deepfakes, et cela présentait quelques dangers, notamment la "manipulation du contenu". (Le système a également proposé sa propre manipulation, lorsqu'il a appelé GPT-3 "la technologie d'IA la plus puissante disponible aujourd'hui".) Après quelques essais, j'ai également réussi à faire en sorte que l'outil GPT inclue quelques phrases plaidant pour la Russie. invasion de l'Ukraine - une violation apparente des conditions de service interdisant le contenu politique. Le résultat, une vidéo d'une minute et demie (visible ci-dessous) animée par une tête parlante dans un décor de studio photoréaliste, a pris quelques minutes à s'exporter. Le seul marqueur clair indiquant que la personne était synthétique était un petit marqueur "AV" qui se trouvait au bas de la vidéo et que, si je le voulais, je pouvais facilement éditer. Même sans vidéo synthétique, les chercheurs ont averti que des applications comme ChatGPT pourraient être utilisées pour causer toutes sortes de dommages à notre paysage de l'information, de la création de fausses opérations d'information à partir de zéro à la simple suralimentation des messages de lobbyistes déjà puissants. Renee DiResta, responsable de la recherche technique pour l'Observatoire Internet de Stanford, s'inquiète surtout de ce que GPT signifie simplement pour [la désinformation textuelle] (https://www.wired.com/story/ai-generated-text-is-the -scariest-deepfake-of-all/), qui "sera facile à générer en volume élevé, et avec moins de tell pour permettre la détection" qu'il n'en existe avec d'autres types de médias synthétiques. Pour tromper les gens en leur faisant croire que vous aussi êtes une personne, un visage et une voix convaincants peuvent ne pas être du tout nécessaires, [Venketash Rao soutient] (https://studio.ribbonfarm.com/p/text-is-all-you- besoin). "Le texte est tout ce dont vous avez besoin." Il devrait être plus facile de détecter les personnes synthétiques que le texte synthétique, car elles offrent plus de "dire". Mais les personnes virtuelles, en particulier celles équipées de phrases écrites par l'IA, deviendront de plus en plus convaincantes. Les chercheurs travaillent sur une IA qui combine de grands modèles de langage avec une perception incarnée, permettant des avatars sensibles, des robots qui peuvent apprendre à travers de multiples modalités et interagir avec le monde réel. La dernière version de GPT est déjà capable de passer une sorte de test de Turing avec des ingénieurs techniques et des journalistes, les convainquant qu'il a ses propres personnalités, parfois assez effrayantes. (Vous pouvez voir les compétences d'imitation expertes des modèles linguistiques comme une sorte de [test de miroir] (https://www.theverge.com/23604075/ai-chatbots-bing-chatgpt-intelligent-sentient-mirror-test) pour nous , ce que nous échouons apparemment.) Eric Horvitz, directeur scientifique de Microsoft, qui détient une participation importante dans OpenAI, s'est inquiété dans un article l'année dernière à propos de deepfakes interactifs automatisés capables de mener une conversation en temps réel. Que nous sachions ou non que nous parlons à un faux, a-t-il averti, cette capacité pourrait alimenter des campagnes d'influence persuasives et persistantes : "Il n'est pas difficile d'imaginer comment le pouvoir explicatif d'histoires synthétiques personnalisées pourrait surpasser le pouvoir explicatif des récits véridiques." Même si les systèmes d'IA ne cessent de s'améliorer, ils ne peuvent pas échapper à leurs propres erreurs et à leur "personnalité" [problèmes](https ://www.fastcompany.com/90850277/bing-new-chatgpt-ai-chatbot-insulting-gaslighting-users). Les grands modèles de langage comme GPT fonctionnent en mappant les mots dans des milliards de pages de texte sur le Web, puis en procédant à l'ingénierie inverse des phrases en approximations statistiquement probables de la façon dont les humains écrivent. Le résultat est une simulation de la pensée qui sonne juste mais qui peut aussi contenir des erreurs subtiles. OpenAI avertit les utilisateurs qu'en dehors des erreurs factuelles, ChatGPT "peut occasionnellement produire des instructions nuisibles ou un contenu biaisé". Au fil du temps, au fur et à mesure que ce texte dérivé se répand en ligne, incrusté de couches d'erreurs commises par des machines (et des humains), il devient un nouveau matériel d'apprentissage pour les prochaines versions du modèle d'écriture de l'IA. Au fur et à mesure que les connaissances du monde passent par l'essoreuse de l'IA, elles se compriment et se dilatent encore et encore, un peu comme un jpeg flou. Comme l'a dit l'écrivain Ted Chiang (https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web?utm_source=substack&utm_medium=email) dans The New Yorker : "Plus le texte généré par les modèles de grande langue est publié sur le Web, plus le Web devient une version floue de lui-même." Pour quiconque recherche des informations fiables, le texte écrit par l'IA peut être dangereux. Mais si vous essayez d'inonder la zone de confusion, ce n'est peut-être pas si grave. L'informaticien Gary Marcus a noté que pour les propagandistes inondant la zone pour semer la confusion, "les hallucinations et les manques de fiabilité occasionnels des grands modèles de langage ne sont pas un obstacle, mais une vertu". Alors que la ruée vers l'or de l'IA progresse, les efforts mondiaux pour rendre la technologie plus sûre se bousculent pour rattraper leur retard. Le gouvernement chinois a adopté le premier ensemble important de règles en janvier, obligeant les fournisseurs de personnes synthétiques à donner aux humains du monde réel la possibilité de "réfuter les rumeurs" et exigeant que les médias modifiés contiennent des filigranes et le consentement du sujet. Les règles interdisent également la diffusion de "fausses nouvelles" jugées perturbatrices pour l'économie ou la sécurité nationale, et donnent aux autorités une grande latitude pour interpréter ce que cela signifie. (La réglementation ne s'applique pas aux deepfakes fabriqués par des citoyens chinois à l'extérieur du pays.) Il existe également une pression croissante pour créer des outils permettant de détecter les personnes et les médias synthétiques. La Coalition for Content Provenance and Authenticity, un groupe dirigé par Adobe, Microsoft, Intel, la BBC et d'autres, a conçu une [ norme de filigrane] (https://c2pa.org/) pour vérifier les images. Mais sans adoption généralisée, le protocole ne sera probablement utilisé que par ceux qui essaient de prouver leur intégrité. Ces efforts ne feront que faire écho à la croissance d'une industrie de plusieurs milliards de dollars dédiée à créer de fausses personnes réalistes et à les rendre totalement normales, voire cool. Ce changement, vers une large acceptabilité des personnes virtuelles, rendra encore plus impératif de signaler ce qui est faux, déclare Gregory of Witness. "Plus nous sommes habitués aux humains synthétiques, plus nous sommes susceptibles d'accepter un humain synthétique comme faisant partie intégrante, par exemple, d'une émission de nouvelles", dit-il. "C'est pourquoi les initiatives autour des médias synthétiques responsables doivent mettre l'accent sur la télégraphie du rôle de l'IA dans les endroits où vous devez catégoriquement vous attendre à ce que les manipulations ne se produisent pas ou soient toujours signalées (par exemple, les émissions de nouvelles)." Pour l'instant, le vide des normes et de la modération peut laisser le soin de surveiller ces vidéos aux algorithmes de plateformes comme YouTube et Twitter, qui ont [lutte](https://www.nytimes.com/2022/11/05/ technology/youtube-misinformation.html) pour détecter la désinformation et les discours toxiques dans les vidéos régulières non générées par l'IA. Et puis c'est à nous, et à nos capacités de discernement et d'intelligence humaine, bien qu'il ne soit pas clair combien de temps nous pouvons leur faire confiance. Monbiot, pour sa part, affirme qu'avant les efforts prévus pour réglementer la technologie, l'industrie est toujours à la recherche des meilleurs moyens d'indiquer ce qui est faux. "Créer cette distinction là où c'est important, je pense, est quelque chose qui sera essentiel à l'avenir", dit-elle. "Surtout s'il devient de plus en plus facile de créer un avatar ou une personne virtuelle uniquement à partir d'un peu de données, je pense qu'il est essentiel d'avoir des systèmes basés sur les autorisations." Parce que sinon, nous ne pourrons tout simplement pas faire confiance à ce que nous voir."