Incidents associés

Photo : Université de Washington.
Un logiciel d'intelligence artificielle pourrait générer de fausses vidéos très réalistes de l'ancien président Barack Obama en utilisant des clips audio et vidéo existants de lui, selon une nouvelle étude [PDF].
De tels travaux pourraient un jour aider à générer des modèles numériques d'une personne pour des applications de réalité virtuelle ou de réalité augmentée, selon les chercheurs.
Des informaticiens de l'Université de Washington ont précédemment révélé qu'ils pouvaient générer des sosies numériques de n'importe qui en analysant des images d'eux collectées sur Internet, de célébrités telles que Tom Hanks et Arnold Schwarzenegger à des personnalités publiques telles que George W. Bush et Barack Obama. Un tel travail a suggéré qu'il pourrait un jour être relativement facile de créer de tels modèles de n'importe qui, alors qu'il existe un nombre incalculable de photos numériques de tout le monde sur Internet.
Les chercheurs ont choisi Obama pour leurs derniers travaux car il y avait des heures de vidéo haute définition de lui disponibles en ligne dans le domaine public. L'équipe de recherche a fait analyser par un réseau neuronal des millions d'images vidéo pour déterminer comment les éléments du visage d'Obama bougeaient pendant qu'il parlait, comme ses lèvres, ses dents et les rides autour de sa bouche et de son menton.
Dans un réseau de neurones artificiels, des composants connus sous le nom de neurones artificiels reçoivent des données et travaillent ensemble pour résoudre un problème tel que l'identification de visages ou la reconnaissance de la parole. Le réseau neuronal peut alors modifier le modèle de connexions entre ces neurones pour changer la façon dont ils interagissent, et le réseau essaie à nouveau de résoudre le problème. Au fil du temps, le réseau neuronal apprend quels modèles sont les meilleurs pour les solutions informatiques, une stratégie d'IA qui imite le cerveau humain.
Dans la nouvelle étude, le réseau neuronal a appris quelles formes de bouche étaient liées à divers sons. Les chercheurs ont pris des clips audio et les ont doublés sur les fichiers sonores originaux d'une vidéo. Ils ont ensuite pris des formes de bouche qui correspondaient aux nouveaux clips audio et les ont greffés et mélangés sur la vidéo. Essentiellement, les chercheurs ont synthétisé des vidéos où Obama a synchronisé les mots qu'il a prononcés jusqu'à des décennies auparavant.
Les chercheurs notent que des recherches antérieures similaires impliquaient de filmer des personnes répétant des phrases encore et encore pour cartographier les formes de bouche liées à divers sons, ce qui est coûteux, fastidieux et prend du temps. En revanche, cette nouvelle œuvre peut s'inspirer des millions d'heures de vidéo qui existent déjà sur Internet ou ailleurs.
Une application potentielle de cette nouvelle technologie est l'amélioration de la visioconférence, explique le co-auteur de l'étude Ira Kemelmacher-Shlizerman à l'Université de Washington. Bien que les flux vidéo de téléconférence puissent bégayer, se figer ou souffrir d'une faible résolution, les flux audio fonctionnent souvent, donc à l'avenir, la vidéoconférence peut simplement transmettre l'audio des personnes et utiliser ce logiciel pour reconstruire à quoi elles auraient pu ressembler pendant qu'elles parlaient. Ce travail pourrait également aider les gens à parler avec des copies numériques d'une personne dans des applications de réalité virtuelle ou de réalité augmentée, explique Kemelmacher-Shlizerman.
Les chercheurs notent que leurs vidéos ne sont actuellement pas toujours parfaites. Par exemple, lorsqu'Obama a incliné son visage loin de la caméra dans une vidéo cible, une modélisation 3D imparfaite de son visage pourrait entraîner la superposition de parties de sa bouche à l'extérieur du visage et sur l'arrière-plan.
De plus, l'équipe de recherche note que leur travail n'a pas modélisé les émotions, et donc les expressions faciales d'Obama dans les vidéos de sortie pourraient sembler trop sérieuses pour des discours décontractés ou trop heureuses pour des discours sérieux. Cependant, ils suggèrent qu'il serait intéressant de voir si leur réseau de neurones pourrait apprendre à prédire les états émotionnels à partir de l'audio pour produire des visuels correspondants.
Les chercheurs ont pris soin de ne pas générer de vidéos où ils mettaient dans la bouche d'Obama des mots qu'il n'aurait pas prononcés lui-même à un autre moment. Cependant, de telles fausses vidéos sont "probablement bientôt possibles", déclare l'auteur principal de l'étude Supasorn Suwajanakorn, informaticien à l'Université de Washington.
Cependant, cette nouvelle recherche suggère également des moyens de détecter les fausses vidéos à l'avenir. Par exemple, la manipulation vidéo pratiquée par les chercheurs peut brouiller la bouche et les dents. "Cela peut ne pas être perceptible par les yeux humains, mais un programme qui compare le flou de la région de la bouche au reste de la vidéo peut facilement être développé et fonctionnera de manière assez fiable", explique Suwajanakorn.
Les chercheurs ont émis l'hypothèse que le lien entre les formes de la bouche et les énoncés pourrait être dans une certaine mesure universel pour les gens. Cela suggère qu'un réseau neuronal formé sur Obama et d'autres personnalités publiques pourrait être adapté pour fonctionner avec de nombreuses personnes différentes.
La recherche a été financée par Samsung, Google, Facebook Intel et l'Université de Washington. Les scientifiques détailleront leurs découvertes [PDF] le 2 août lors de la conférence SIGGRAPH à Los Angeles.