Incidents associés

"Tout cela est amusant et de la comédie et des jeux vidéo de fin de soirée – jusqu'à ce que ce ne soit pas le cas", déclare l'ancien conseiller principal de la Maison Blanche, David Edelman.
David Edelman, ancien conseiller spécial des présidents Bush et Obama sur la technologie et la cybersécurité, travaillait à la Maison Blanche lors de la tragique fusillade dans la boîte de nuit d'Orlando il y a deux ans.
"J'étais là la nuit où c'est arrivé et nous faisions le sombre rituel qui se produit trop souvent à la Maison Blanche, consistant à préparer une déclaration pour rassurer la nation", se souvient Edelman.
Donnant une présentation lors de l'événement technologique Amplify d'AMP à Sydney hier, Edelman a diffusé un extrait du discours d'Obama prononcé dans les jours qui ont suivi la tragédie.
La tristesse dans les yeux d'Obama, sa posture dégonflée est évidente. Sauf que ce n'était pas vraiment Obama - les images du discours ont été entièrement fabriquées.
Le clip est le résultat d'un modèle de réseau neuronal récurrent développé par des chercheurs de l'Université de Washington, qui ont créé l'année dernière un "modèle de tête parlante photoréaliste" d'Obama qui peut "parler" n'importe quelle entrée audio donnée.
"C'était un faux. Il a été généré à 100 % par ordinateur. Ne pas superposer son visage à quelqu'un d'autre, complètement généré à partir de rien. Il a prononcé ce discours, mais il l'a prononcé depuis un endroit entièrement différent, la salle est de la Maison Blanche, un endroit totalement différent », a déclaré Edelman, aujourd'hui directeur d'un projet de politique technologique au MIT.
La vidéo dite "Deep Fake" était si bonne qu'elle a trompé Edelman.
«Maintenant, j'écrivais des discours pour le gars. Je le connais. Je ne peux pas faire la différence entre le vrai et le faux. C'est la puissance de la technologie dont nous parlons », a-t-il déclaré.
Réanimer Reagan
Les techniques d'IA derrière les vidéos "Deep Fake" progressent rapidement. Dans un article qui doit être publié dans la revue ACM Transactions on Graphics le mois prochain, des chercheurs de l'Université de Stanford, de l'Université de Bath et d'autres, ainsi que de Technicolor, décrivent un "réseau de neurones génératif avec une nouvelle architecture spatio-temporelle".
Les résultats sont effrayants. L'œuvre – surnommée «Deep Video Portraits» – permet de mapper une vidéo de quelqu'un qui parle sur une «vidéo portrait» de quelqu'un d'autre. Et pas seulement les mouvements des lèvres et les expressions faciales de base, mais la position de la tête en 3D complète, la rotation de la tête, le clignement des yeux et le regard de l'acteur source.
En plus de «réanimer» des images d'eux-mêmes, les chercheurs démontrent également que leurs paroles et leurs actions sont reproduites par le Premier ministre britannique Theresa May, le président décédé Ronald Reagan et le président russe Vladamir Poutine.
Les chercheurs sont conscients du potentiel de nuisance de leur travail.
"Malheureusement, outre les nombreux cas d'utilisation positifs, une telle technologie peut également être utilisée à mauvais escient", écrit le co-auteur de l'article, le professeur invité de l'université de Stanford, Michael Zollhofer, sur son blog.
"Par exemple, la combinaison de la synthèse photo-réelle de l'imagerie faciale avec un imitateur de voix ou un système de synthèse vocale, permettrait la génération de contenu vidéo inventé qui pourrait potentiellement être utilisé pour diffamer les gens ou pour diffuser de soi-disant faux-. nouvelles », ajoute-t-il.
Imaginez les dégâts
À l'heure actuelle, la création de vidéos "Deep Fake" avancées est limitée à ceux qui ont les compétences informatiques nécessaires, mais pas pour longtemps, prédit Edelman.
"Aujourd'hui, en ce moment, c'est assez difficile à réaliser… mais la vérité est que cela se déplace de plus en plus vers le domaine du possible", a-t-il déclaré. "Et dans un an ou deux, ce sera aussi simple que Microsoft Paint et aussi disponible."
Les résultats ne seront pas non plus limités aux politiciens. Les personnalités publiques sont des cibles initiales évidentes, en raison de la quantité de séquences de haute qualité accessibles au public, mais Deep Fakes sera inévitablement créé représentant des chefs d'entreprise, des lecteurs de nouvelles et toute personne ayant publié une vidéo d'eux-mêmes sur les réseaux sociaux ou YouTube.
David Edelman à l'événement Amplify d'AMP à Sydney
« Que se passe-t-il lorsqu'il n'est pas simplement utilisé à des fins de coercition politique, ce qui pourrait certainement l'être ? Vous pouvez imaginer essayer de faire baisser le marché avec une nouvelle soudaine de "Deep Fake" qui devient virale. Que se passe-t-il lorsque cela devient monnaie courante pour nous tous ? Que se passe-t-il lorsqu'un PDG est pris en vidéo quelques instants avant le grand appel aux résultats ? » dit Edelman.
"Que se passe-t-il quand c'est une vidéo de vous en train de faire quelque chose que vous n'avez jamais fait ? Harceler sexuellement quelqu'un ou peut-être abuser d'un de vos employés ? Que dirais-tu? Votre employeur vous croirait-il que la vidéo a été truquée ? Imaginez les dégâts que cette technologie peut faire », a-t-il ajouté.
Les chercheurs de "Deep Video Portraits" suggèrent que les progrès de la criminalistique numérique conduiront à des approches capables de prouver automatiquement l'authenticité d'un clip. Ils soulignent également la nécessité d'algorithmes sophistiqués de détection des fraudes et de tatouage numérique.
"À mon avis, le plus important est que le grand public doit être conscient des capacités de la technologie moderne pour la génération et le montage vidéo", écrit le professeur Zollhofer.
« Cela leur permettra d'avoir une réflexion plus critique sur la