Report 676

Les chercheurs ont développé un nouvel outil, alimenté par l'intelligence artificielle, qui peut créer des vidéos réalistes de discours à partir de n'importe quel clip audio, et ils ont fait une démonstration de la technologie en synthétisant quatre vidéos artificielles de Barack Obama disant les mêmes lignes.

L'outil n'est pas destiné à créer une vague de fausses nouvelles et à mettre de faux mots dans la bouche des gens – il est conçu en partie comme un moyen de repérer éventuellement les contrefaçons et les vidéos qui ne sont pas tout ce qu'elles semblent être.

Selon l'équipe de l'Université de Washington, tant qu'il y a une source audio à utiliser, la vidéo peut inclure des formes de bouche réalistes qui sont presque parfaitement alignées sur les mots prononcés. Ces formes synthétisées peuvent ensuite être greffées sur une vidéo existante de quelqu'un qui parle.

"Ce type de résultats n'a jamais été montré auparavant", explique l'un des chercheurs, Ira Kemelmacher-Shlizerman. "La conversion audio-vidéo réaliste a des applications pratiques telles que l'amélioration de la visioconférence pour les réunions, ainsi que des applications futuristes telles que la possibilité de tenir une conversation avec un personnage historique dans la réalité virtuelle."

"C'est le genre de percée qui aidera à permettre ces prochaines étapes."

Les étapes de synthèse vidéo. Crédit : Université de Washington

Le système comporte deux parties : d'abord, un réseau de neurones est formé pour regarder de grands volumes de vidéos afin de reconnaître quels sons audio correspondent à quelles formes de bouche. Ensuite, les résultats sont mélangés avec des images animées d'une personne spécifique, basées sur des recherches antérieures sur la modélisation numérique menées à l'UW.

L'outil est incroyablement bon, comme vous pouvez le voir dans les clips de démonstration (ci-dessous), mais il a besoin de fichiers audio et vidéo source pour fonctionner et ne peut pas générer de discours à partir de rien. À l'avenir, selon les chercheurs, le système d'IA pourrait être formé à l'aide de vidéos provenant d'applications de messagerie, puis utilisé pour améliorer leur qualité.

"Lorsque vous regardez Skype ou Google Hangouts, la connexion est souvent saccadée et en basse résolution et vraiment désagréable, mais souvent le son est plutôt bon", explique l'un des membres de l'équipe, Steve Seitz. "Donc, si vous pouviez utiliser l'audio pour produire une vidéo de bien meilleure qualité, ce serait formidable."

Lorsqu'il s'agit de repérer de fausses vidéos, l'algorithme utilisé ici pourrait être inversé pour détecter les clips qui ont été trafiqués, selon les chercheurs.

Vous pouvez voir l'outil en action ci-dessous :

Comme vous le savez peut-être grâce aux jeux vidéo et aux films d'animation, les scientifiques travaillent d'arrache-pied pour résoudre le problème de la "vallée étrange", où la vidéo générée par ordinateur de quelqu'un qui parle semble presque correcte mais toujours quelque peu rebutante.

Dans ce cas, le système d'IA fait tout le travail lourd lorsqu'il s'agit de déterminer la forme de la bouche, la position du menton et les autres éléments nécessaires pour rendre réaliste un clip de quelqu'un qui parle.

L'intelligence artificielle excelle dans les problèmes d'apprentissage automatique comme celui-ci, où des masses de données peuvent être analysées pour apprendre aux systèmes informatiques à faire quelque chose, qu'il s'agisse de reconnaître des chiens dans une recherche d'images ou de produire une vidéo d'apparence naturelle.

"Il existe déjà des millions d'heures de vidéo provenant d'interviews, de chats vidéo, de films, d'émissions de télévision et d'autres sources", explique le chercheur principal Supasorn Suwajanakorn. "Et ces algorithmes d'apprentissage en profondeur sont très gourmands en données, c'est donc un bon match pour le faire de cette façon."

C'est un autre pas en avant légèrement effrayant dans la qualité de la contrefaçon numérique, similaire au projet VoCo d'Adobe, que nous avons vu l'année dernière - un autre système d'IA qui peut produire un nouveau discours à partir de rien après avoir étudié seulement 20 minutes de quelqu'un qui parle.

Cependant, ce réseau neuronal particulier a été conçu pour fonctionner avec une seule personne à la fois en utilisant des clips audio authentiques, de sorte que vous pouvez toujours faire confiance aux images que vous voyez aux actualités pendant un certain temps encore.

"Nous avons très consciemment décidé de ne pas emprunter la voie consistant à mettre les mots des autres dans la bouche de quelqu'un", déclare Seitz. "Nous prenons simplement de vrais mots que quelqu'un a prononcés et les transformons en vidéo réaliste de cet individu."

La recherche est présentée à la conférence d'infographie SIGGRAPH 2017 et vous pouvez lire l'article ici.

Problème 676

Incidents associés

Incident 3929 Rapports
Deepfake Obama Introduction of Deepfakes

Un logiciel vidéo d'IA effrayant et réaliste met des mots dans la bouche d'Obama

Problème 676

Incidents associés

Incident 3929 RapportsDeepfake Obama Introduction of Deepfakes

Un logiciel vidéo d'IA effrayant et réaliste met des mots dans la bouche d'Obama

Incident 3929 Rapports
Deepfake Obama Introduction of Deepfakes