Report 2347

C'était en 2018, et le monde tel que nous le connaissions - ou plutôt, comment nous le connaissions - a basculé dans un précipice. Contre un bourdonnement croissant de désinformation, The New York Times, la [BBC](https:// www.youtube.com/watch?v=AmUC4m6w1wo&t=59s ), Good Morning America, et à peu près tout le monde a sonné l'alarme à propos d'une nouvelle souche de vidéos fausses mais très réalistes. En utilisant l'intelligence artificielle, les mauvais acteurs pourraient manipuler la voix et le visage de quelqu'un dans des séquences enregistrées presque comme une marionnette virtuelle et faire passer le produit pour réel. Dans un exemple célèbre conçu par BuzzFeed, Barack Obama semblait dire, "Le président Trump est un idiot total et complet." Des photos, de l'audio et des vidéos synthétiques, collectivement surnommés "deepfakes", menaçaient de déstabiliser la société et de nous plonger dans une véritable "[infocalypse](https://bookshop.org/p/books/deepfakes-the-coming-infocalypse -nina-schick/14596050?ean=9781538754306 ). Plus de quatre ans plus tard, malgré un nombre croissant de vidéos synthétiques, le deepfake apocalypse ne s'est pas tout à fait matérialisé. Les méfaits des deepfakes ont certainement été observés dans le domaine de la pornographie - où des individus ont vu leur image [utilisée sans leur consentement] (https://www.vice.com/en/article/594qx5/there-is-no-tech- solution-to-deepfakes) - mais il n'y a eu "rien de tel que ce que les gens craignaient vraiment, à savoir le deepfake incriminant et hyperréaliste d'un candidat à la présidentielle disant quelque chose qui fait basculer les principaux centres de vote", déclare Henry Ajder, un expert des médias synthétiques et IA. Par rapport aux scénarios de catastrophe de 2018, qui prédisaient des résultats tels que le dirigeant nord-coréen Kim Jong-un déclarant la guerre nucléaire, "l'état dans lequel nous nous trouvons est loin de cela", déclare Sam Gregory, qui étudie les deepfakes et dirige l'organisation à but non lucratif de défense des droits de l'homme Witness. Mais ces prédictions terrifiantes n'étaient peut-être que précoces. Le domaine de l'intelligence artificielle a progressé rapidement depuis la panique profonde de 2018, et les médias synthétiques sont à nouveau au centre de l'attention. Le mot à la mode technologique de 2022 est [IA générative](https://www.theatlantic.com/newsletters/archive/2022/12/why-the-rise-of-ai-is-the-most-important-story-of -the-year/672308/) : des modèles qui semblent faire preuve d'une créativité humaine, transformant des invites de texte en images étonnantes ou maîtrisant l'anglais au niveau d'un [premier cycle médiocre](https://www.theatlantic.com/technology/archive/ 2022/12/chatgpt-ai-writing-college-student-essays/672371/). Ces avancées et d'autres font craindre aux experts qu'une apocalypse profonde soit toujours à l'horizon. La fausse vidéo et l'audio pourraient une fois de plus être sur le point de corrompre les façons les plus élémentaires dont les gens traitent la réalité - ou ce qu'il en reste. Jusqu'à présent, les deepfakes ont été limités par deux facteurs intégrés à leur nom : deep learning et fake news. La technologie est suffisamment complexe - et des formes plus simples de désinformation se propagent si facilement - que les médias synthétiques n'ont pas été largement utilisés. L'apprentissage en profondeur est une approche de l'IA qui simule le cerveau grâce à un algorithme composé de plusieurs couches (donc « profondes ») de neurones artificiels. Bon nombre des deepfakes qui ont suscité la peur en 2018 étaient des produits de « réseaux antagonistes génératifs », qui consistent en deux algorithmes d'apprentissage en profondeur : un générateur et un discriminateur. Formé sur d'énormes quantités de données - peut-être des dizaines de milliers de visages humains - le générateur synthétise une image, et le discriminateur essaie de dire si elle est vraie ou fausse. Sur la base des commentaires du discriminateur, le générateur "apprend" lui-même à produire des visages plus réalistes, et les deux continuent de s'améliorer dans une boucle contradictoire. Développés pour la première fois en 2014, les GAN pourraient bientôt produire des images, du son et des vidéos incroyablement réalistes. Pourtant, lors des [élections] de 2018 et 2020 (https://www.wired.com/story/what-happened-deepfake-threat-election/), et même des mi-sessions les plus récentes, la technologie deepfake n'était toujours pas réaliste ou accessible assez pour être armé pour la désinformation politique. Fabriquer une vidéo synthétique décente n'est pas un processus "plug and play" comme commander Lensa pour générer des selfies artistiques ou déconner dans Photoshop, explique Hany Farid, professeur d'informatique à l'UC Berkeley. Au contraire, cela nécessite au moins une certaine connaissance de l'apprentissage automatique. Les images générées par GAN ont également des indications cohérentes, telles que la distorsion autour des mèches de cheveux ou des boucles d'oreilles, des pupilles déformées et des arrière-plans étranges. Un produit de haute qualité qui « trompera beaucoup plus de gens pendant plus longtemps… nécessite un traitement manuel », explique Siewi Lyu, un expert en deepfake à l'Université de Buffalo. "L'opérateur humain doit s'impliquer dans tous les aspects", m'a-t-il dit : conserver les données, peaufiner le modèle, nettoyer les erreurs de l'ordinateur à la main. Ces obstacles signifient que l'apprentissage en profondeur n'est certainement pas le moyen le plus rentable de diffuser de fausses nouvelles. Tucker Carlson et Marjorie Taylor Greene peuvent simplement passer à l'antenne et mentir avec grand effet ; L'État de New York a récemment élu un représentant républicain dont la biographie peut être en grande partie de la fiction ; un texte sporadique et crypté était suffisant pour conspirations QAnon pour consommer le nation; Les publications sur Facebook étaient plus que suffisantes pour les fermes de trolls russes. En termes de médias visuels, ralentir footage de Nancy Pelosi ou [mislabeling](https ://www.nytimes.com/2022/03/03/opinion/ukraine-livestream-videos.html) de vieilles vidéos de guerre comme ayant été tournées en Ukraine sèment déjà beaucoup de confusion. "Il est beaucoup plus efficace d'utiliser une forme plus grossière de manipulation des médias, qui peut être effectuée rapidement et par des acteurs moins sophistiqués", m'a dit Ajder, "que de publier un deepfake coûteux et difficile à créer, qui ne va en fait pas. être d'aussi bonne qualité que vous l'aviez espéré. Même si quelqu'un a les compétences et les ressources nécessaires pour fabriquer une vidéo persuasive, les cibles ayant le plus grand potentiel de semer la discorde, comme les dirigeants mondiaux et les militants de haut niveau, ont également les plus grandes défenses. Les ingénieurs en logiciel, les gouvernements et les journalistes travaillent pour vérifier les images de ces personnes, explique Renée DiResta, experte en désinformation et responsable de la recherche à l'Observatoire Internet de Stanford. Cela s'est avéré vrai pour les vidéos fabriquées du président ukrainien Volodymyr Zelensky et du président russe Vladimir Poutine pendant l'invasion en cours ; dans une vidéo, Zelensky a semblé se rendre, mais sa tête surdimensionnée et son accent particulier ont rapidement obtenu le clip [supprimé] (https://www.npr.org/2022/03/16/1087062648/deepfake-video-zelenskyy-experts- guerre-manipulation-ukraine-russie) sur Facebook et YouTube. "Est-ce qu'ils doivent faire le travail de création d'une vidéo deepfake plausible et convaincante, ou y a-t-il des mécanismes plus faciles et moins détectables à leur disposition?" DiResta a posé pour moi. La pandémie est encore un autre point chaud de désinformation qui illustre ces contraintes : Une étude de 2020 sur la désinformation COVID-19 a trouvé des preuves de photos et de vidéos trafiquées avec des techniques simples - comme une image modifiée pour montrer un train transportant des réservoirs remplis de virus étiquetés COVID-19 - mais pas de manipulations basées sur l'IA. Cela ne diminue pas les inquiétudes concernant les médias synthétiques et la désinformation. En fait, l'anxiété généralisée a probablement ralenti la montée des deepfakes. "Avant que l'alarme ne soit déclenchée sur ces problèmes, les entreprises de médias sociaux n'avaient aucune politique pour y remédier", déclare Aviv Ovadya, un expert des plateformes Internet et de l'IA qui est une voix éminente sur les dangers des médias synthétiques. "Maintenant, vous avez des politiques et une variété d'actions qu'ils prennent pour limiter l'impact des deepfakes malveillants" - modération du contenu, méthodes de détection humaines et logicielles, un public méfiant. Mais la prise de conscience a également créé un environnement dans lequel les politiciens peuvent rejeter de manière plus crédible des preuves légitimes comme étant falsifiées. [Donald Trump](https://www.washingtonpost.com/news/the-fix/wp/2017/11/27/trump-is-reportedly-saying-the-access-hollywood-tape-was-fake-news -il-devrait-parler-à-2016-atout/) aurait affirmé que la tristement célèbre bande Access Hollywood était fausse ; un candidat du GOP a une fois promu une [théorie du complot] (https://thehill.com/homenews/house/504429-gop-house-candidate-publishes-23-page-report-claiming-george-floyd-death-was/) que la vidéo de la police assassinant George Floyd était un deepfake. Les professeurs de droit Danielle Citron et Robert Chesney appellent cela le « dividende du menteur » : la sensibilisation aux médias synthétiques engendre le scepticisme à l'égard de tous les médias, ce qui profite aux menteurs qui peuvent balayer les accusations ou dénigrer les opposants avec des cris de «fausses nouvelles». Ces mensonges font alors partie du bruit parfois assourdissant des médias mal contextualisés, de la désinformation scientifique et politique et des dénégations de personnalités puissantes, ainsi que d'un [effondrement plus large de la confiance dans plus ou moins tout] (https://www.theatlantic.com /ideas/archive/2020/10/collapsing-levels-trust-are-devastating-america/616581/). Tout cela pourrait changer dans les prochaines années à mesure que les médias générés par l'IA deviennent plus avancés. Tous les experts avec qui j'ai parlé ont dit que c'était une question de quand, pas si, nous atteignions un point d'inflexion profond, après quoi des vidéos falsifiées et de l'audio diffusant de fausses informations inonderont Internet. La chronologie est "des années, pas des décennies", m'a dit Farid. Selon Ovadya, "il faudra probablement moins de cinq ans" avant que nous puissions saisir une invite dans un programme et, en donnant à l'ordinateur un retour d'information - faire souffler les cheveux de cette façon, ajouter du son, modifier l'arrière-plan - créer "un contenu profondément convaincant". ” Lyu, lui aussi, met cinq ans comme limite supérieure à l'émergence de logiciels largement accessibles pour créer des deepfakes hautement crédibles. Des deepfakes de célébrités apparaissent déjà dans advertisements; de plus en plus de vidéos et d'audio synthétiques sont [utilisés](https://www.vice.com/en/article/v7vj9a/sam-bankman-fried-deepfake-offers-refund-to-victims-in-verified-twitter -account-scam) pour [fraude] financière(https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal -millions/?sh=383e31975591 ); des campagnes de propagande deepfake ont été utilisées pour [attaquer](https://www.Reuters.com/article/us-cyber-deepfake-activist/deepfake-used-to-attack-activist-couple-shows-new-disinformation-frontier -idUSKCN24G15E) Militants des droits des Palestiniens. Cet été, un deepfake du maire de Kyiv brièvement [trompé](https://www.theguardian.com/world/2022/jun/25/european-leaders-deepfake-video-calls-mayor-of-kyiv-vitali -klitschko) les maires de plusieurs capitales européennes lors d'un appel vidéo. Lire : À l'ère du deepfake, le contre-terrorisme est plus difficile Et diverses formes de deepfake- la technologie lite existe partout sur Internet, y compris TikTok et Snapchat [caractéristiques](https://www.forbes.com/sites/mnunez/2020/01/08/snapchat-and-tiktok-embrace-deepfake-video-technology- even-as-facebook-shuns-it/?sh=fbbb2fa42c05 ) qui effectuent des échanges de visage - en remplaçant le visage d'une personne par celui d'une autre dans une vidéo - similaire au tristement célèbre deepfake BuzzFeed de 2018 qui superposait le visage d'Obama à celui du cinéaste Jordan Peele. Il existe également des programmes faciles à utiliser tels que Reface et DeepFaceLab dont le but explicite est de produire des deepfakes de qualité décente. La pornographie de vengeance n'a pas diminué. Et certains craignent que TikTok, qui est conçu pour créer des vidéos virales - et qui est une [source de nouvelles] croissante (https://www.pewresearch.org/fact-tank/2022/10/21/more-americans-are -getting-news-on-tiktok-bucking-the-trend-on-other-social-media-sites/) pour les adolescents et adultes américains — est [particulièrement sensible](https://www.nytimes.com/2022/ 11/04/technology/tiktok-deepfakes-disinformation.html) aux vidéos manipulées. L'une des plus grandes préoccupations est une nouvelle génération d'un puissant logiciel de conversion de texte en image qui réduit considérablement la barrière à la fabrication de vidéos et d'autres médias. Les modèles d'IA générative du type de puissance DALL-E utilisent une architecture de « diffusion » , plutôt que GAN, pour créer des images complexes avec une fraction de l'effort. Alimenté par des centaines de millions d'images sous-titrées, un modèle basé sur la diffusion s'entraîne en modifiant des pixels aléatoires jusqu'à ce que l'image ressemble à du statique, puis en inversant cette corruption, dans le processus "apprenant" à associer des mots et des concepts visuels. Là où les GAN doivent être formés pour un type d'image spécifique (par exemple, un visage de profil), les modèles texte-image peuvent générer un large éventail d'images avec des interactions complexes (deux dirigeants politiques en conversation, par exemple). "Vous pouvez désormais générer des visages beaucoup plus dynamiques, réalistes et personnalisables", a déclaré Ajder. Et de nombreuses méthodes de détection orientées vers les deepfakes existants ne fonctionneront pas sur les modèles de diffusion. Les possibilités de propagande deepfake sont aussi dystopiques maintenant qu'elles l'étaient il y a quelques années. À plus grande échelle, on peut imaginer de fausses vidéos d'interruptions de grossesse horribles, comme les images d'avortement salin déjà utilisées par les militants anti-avortement ; des discours politiques convaincants et manipulés pour alimenter les théories du complot mondial ; des contrefaçons dénigrantes utilisées contre des nations ennemies pendant la guerre, ou même des médias synthétiques qui déclenchent des conflits. Les pays avec moins de ressources informatiques et de talents ou une presse moins robuste auront encore plus de mal, m'a dit Gregory : "Tous ces problèmes sont bien pires quand on regarde le Pakistan, le Myanmar, le Nigeria, un média local aux États-Unis, plutôt que, disons, The Washington Post. Et à mesure que la technologie deepfake s'améliore pour fonctionner avec moins de données de formation, les fabrications de journalistes, de cadres, de représentants du gouvernement et d'autres personnes de moindre envergure pourraient faire des ravages à tel point que les gens pensent "qu'il n'y a pas de nouvelles preuves qui arrivent ; il n'y a pas de nouvelle façon de raisonner sur le monde », a déclaré Farid. Pourtant, lorsque la tromperie et la propagande ressemblent à l'air que nous respirons, les deepfakes sont à la fois potentiellement changeants et un peu plus similaires. En octobre, Gallup a rapporté que seulement 34 % des Américains font confiance aux journaux, à la télévision et radio pour rapporter les nouvelles de manière juste et précise, et 38 % n'ont absolument aucune confiance dans les médias de masse. Plus tôt cette année, une enquête du Pew Research Center dans 19 pays [trouvé](https://www.pewresearch.org/global/2022/08/31/climate-change-remains-top-global-threat-across-19- country-survey/?utm_source=AdaptiveMailer&utm_medium=email&utm_campaign=22-08-31%20GLOBAL%20International%20Threats%20and%20Coop%20GEN%20DISTR&org=982&lvl=100&ite=10400&lea=2186992&ctr=0&par=1&trk=a0D11j00 pensent que "la diffusion de fausses informations en ligne" est une menace majeure pour leur pays, se classant juste au deuxième rang derrière le changement climatique. "Les deepfakes sont vraiment une évolution des problèmes existants", a déclaré Gregory. Il craint que se concentrer trop sur des médias synthétiques sophistiqués ne détourne l'attention des efforts visant à atténuer la propagation de « contrefaçons superficielles », telles que des photographies réétiquetées et des séquences légèrement trafiquées ; DiResta est plus préoccupé par [la désinformation basée sur le texte] (https://www.wired.com/story/ai-generated-text-is-the-scariest-deepfake-of-all/), qui a fait des ravages pour ans, est facilement généré à l'aide de programmes tels que ChatGPT et, contrairement à la vidéo ou à l'audio, ne présente aucun problème technique évident. La [recherche] empirique limitée (https://journals.sagepub.com/doi/full/10.1177/2056305120903408) sur le pouvoir de persuasion de la vidéo et de l'audio synthétiques est [mixte](https://www.tsjournal.org/index. php/jots/article/view/56). Bien que quelques études suggèrent que la vidéo et l'audio sont un peu plus convaincants que le texte, d'autres ont trouvé [aucune différence appréciable](https://osf .io/cdfh3/); certains ont même constaté que les gens sont meilleurs pour détecter les discours politiques fabriqués lorsqu'ils sont présentés avec une vidéo ou un son qu'avec une transcription seule. Pourtant, Ajder a averti que «les deepfakes que j'ai vus être utilisés dans ces essais ne sont pas tout à fait là; ils sont toujours au bord de l'étrangeté », et qu'il est difficile de reproduire les conditions des médias sociaux, telles que les chambres d'amplification et d'écho, dans un laboratoire. Bien sûr, ce sont ces mêmes conditions qui ont permis une corrosion épistémique qui continuera de progresser avec ou sans média synthétique. Indépendamment de la manière dont une prolifération de deepfakes pourrait aggraver notre écosystème de l'information, que ce soit en ajoutant à l'incertitude existante ou en la modifiant fondamentalement, les experts, les journalistes et les sociétés Internet tentent de s'y préparer. L'Union européenne et la Chine ont tous deux adopté des réglementations destinées à cibler les deepfakes en obligeant les entreprises technologiques à prendre des mesures contre eux. Les entreprises pourraient mettre en place des garde-fous pour empêcher leur technologie d'être utilisée à mauvais escient ; Adobe est allé jusqu'à ne jamais publier publiquement son logiciel audio deepfake, Voco. Il est encore temps de prévenir ou de limiter les scénarios de deepfake les plus catastrophiques. De nombreuses personnes préfèrent construire une infrastructure d'authentification robuste : un journal attaché à chaque média que le public peut utiliser pour vérifier d'où vient une photo ou une vidéo et comment elle a été modifiée. Cela protégerait à la fois contre la propagande superficielle et profonde, ainsi que contre le dividende du menteur. La Coalition for Content Provenance and Authenticity, dirigée par Adobe, Microsoft, Intel, la BBC et plusieurs autres parties prenantes, a conçu une telle norme—bien que jusqu'à ce que ce protocole soit largement adopté, il est particulièrement utile pour les acteurs honnêtes cherchant à prouver leur intégrité. Une fois qu'un deepfake est en circulation, la détection n'est que le premier des nombreux obstacles à sa démystification. Les ordinateurs sont bien meilleurs que les humains pour distinguer les vraies et les fausses vidéos, m'a dit Lyu, mais elles ne sont pas toujours précises. La modération de contenu automatisée est très difficile, en particulier pour la vidéo, et même un Un taux de réussite optimiste de 90 % pourrait encore laisser des dizaines ou des centaines de milliers de clips parmi les plus pernicieux en ligne. Ce logiciel devrait être largement mis à la disposition des journalistes, qui doivent également être formés pour interpréter les résultats, a déclaré Gregory. Mais même avec un algorithme de détection de haute qualité à la fois accessible et utilisable, convaincre le public de faire confiance à l'algorithme, aux experts et aux journalistes exposant des médias fabriqués pourrait s'avérer presque impossible. Dans un monde saturé de propagande et d'incertitude qui nous a depuis longtemps poussés à bout au bord de ce qu'Ovadya appelle «l'apathie de la réalité», toute solution devra d'abord restaurer la volonté des gens de s'en sortir.

Problème 2347

Nous n'avons pas vu les pires fausses nouvelles