Incidents associés

Dans les nouvelles qui ont attiré l'attention des farceurs du monde entier, il existe maintenant un programme informatique qui peut créer une vidéo simulée réaliste de quelqu'un qui parle.
Des chercheurs de l'Université de Washington ont prouvé leur point de vue en créant une vidéo synchronisée sur les lèvres de l'ancien président américain Barack Obama qui mélange l'audio et les images existantes.
Image : REUTERS/Fabrizio Bensch
Le programme utilise l'intelligence artificielle (IA) pour faire correspondre l'audio d'une personne qui parle avec des formes de bouche réalistes, qu'il greffe ensuite sur une vidéo existante. Après avoir analysé des millions d'images vidéo dans des séquences d'archives, passé en revue les formes de la bouche et les modèles sonores, le programme est capable de produire des simulations très réalistes.
Faire semblant dans l'industrie cinématographique
Les chercheurs disent que la technologie a le potentiel d'être utilisée dans des effets spéciaux. Actuellement, le processus de conversion audio-vidéo consiste à filmer de nombreuses personnes disant la même phrase et à tenter de trouver une corrélation entre les sons et les formes de la bouche. En plus d'être fastidieux et chronophage, cela crée également ce que l'on appelle le problème de la "vallée étrange", où les vidéos sont assez réalistes, mais pas assez réalistes. Au lieu d'avoir l'air convaincant, ils ont tendance à avoir l'air effrayant.
La technologie pourrait également améliorer l'expérience des appels vidéo de mauvaise qualité et pourrait avoir une application pour les personnes malentendantes, leur permettant de lire sur les lèvres la synthèse vidéo créée à partir de l'audio du téléphone.
L'équipe estime également qu'en inversant le processus - en introduisant de la vidéo dans le programme au lieu de simplement de l'audio - ils pourraient potentiellement développer un algorithme pour détecter si une vidéo est réelle ou truquée.
L'objectif est d'améliorer les algorithmes pour généraliser les situations et reconnaître la voix et les schémas de parole d'une personne avec moins de données, par exemple avec une heure de vidéo pour apprendre au lieu des 14 heures actuelles.