Incidents associés

Les chercheurs ont utilisé 14 heures de vidéos d'adresses hebdomadaires d'Obama pour former un réseau de neurones. Une fois formé, leur système a ensuite pu prendre un clip audio de l'ancien président, créer des formes de bouche synchronisées avec l'audio, puis synthétiser une bouche d'apparence réaliste qui correspondait à celle d'Obama. La bouche synchronisée avec l'audio a ensuite été superposée et mélangée à une vidéo d'Obama différente de la source audio. Pour le rendre plus naturel, le système a corrigé le placement et le mouvement de la tête, le timing et les détails comme l'apparence de la mâchoire. L'ensemble du processus est automatisé, à l'exception d'une étape manuelle qui oblige une personne à sélectionner deux images dans la vidéo où les dents supérieures et inférieures du sujet sont orientées vers l'avant et très visibles. Ces images sont ensuite utilisées par le système pour rendre les dents de la vidéo résultante plus réalistes.
Le programme n'est pas encore parfait, mais dans la vidéo ci-dessous, vous pouvez voir à quel point il s'améliore après trois minutes, une heure, sept heures et 14 heures de données d'entraînement. Certaines limitations que l'équipe a soulignées incluent des erreurs occasionnelles dans l'alignement de la bouche et du visage - parfois cela a donné deux mentons à Obama - une incapacité à faire correspondre l'émotion et les problèmes liés aux sons qui nécessitent un placement particulier de la langue, comme "th", qui n'est pas actuellement couvert par leur programme.
Mais, dans l'ensemble, ce programme artificiel de synchronisation labiale crée une image beaucoup plus réaliste que d'autres. Le travail sera publié dans ACM Transactions on Graphics et vous pouvez voir le processus des chercheurs dans la vidéo ci-dessous.