Incidents associés

Si vous pensiez que la diffusion effrénée de fausses nouvelles textuelles était aussi mauvaise que possible, détrompez-vous. Générer de fausses vidéos d'actualités qui ne se distinguent pas des vraies devient de plus en plus facile de jour en jour.
Une équipe d'informaticiens de l'Université de Washington a utilisé l'intelligence artificielle pour rendre des vidéos visuellement convaincantes de Barack Obama disant des choses qu'il a déjà dites, mais dans un contexte totalement nouveau.
Dans un article publié ce mois-ci, les chercheurs ont expliqué leur méthodologie : à l'aide d'un réseau de neurones formé sur 17 heures de séquences des discours hebdomadaires de l'ancien président américain, ils ont pu générer des formes de bouche à partir de clips audio arbitraires de la voix d'Obama. Les formes ont ensuite été texturées pour obtenir une qualité photoréaliste et superposées sur le visage d'Obama dans une vidéo "cible" différente. Enfin, les chercheurs ont resynchronisé la vidéo cible pour déplacer naturellement le corps d'Obama au rythme de la nouvelle piste audio.
Ce n'est pas la première étude à démontrer la modification d'une tête parlante dans une vidéo. Comme Dave Gershgorn de Quartz l'a précédemment rapporté, en juin de l'année dernière, des chercheurs de Stanford ont publié une méthodologie similaire pour modifier les expressions faciales préenregistrées d'une personne en temps réel afin d'imiter les expressions d'une autre personne faisant des grimaces dans une webcam. La nouvelle étude, cependant, ajoute la possibilité de synthétiser la vidéo directement à partir de l'audio, générant ainsi une dimension supérieure à partir d'une dimension inférieure.
Dans leur article, les chercheurs ont souligné plusieurs applications pratiques de la capacité à générer une vidéo de haute qualité à partir de l'audio, notamment en aidant les personnes malentendantes à lire l'audio sur les lèvres lors d'un appel téléphonique ou en créant des personnages numériques réalistes dans les industries du cinéma et des jeux. Mais la conséquence la plus inquiétante d'une telle technologie est son potentiel de prolifération de fausses nouvelles vidéo. Bien que les chercheurs n'aient utilisé que de l'audio réel pour l'étude, ils ont pu ignorer et réorganiser les phrases d'Obama de manière transparente et même utiliser l'audio d'un imitateur d'Obama pour obtenir des résultats presque parfaits. L'évolution rapide des logiciels de synthèse vocale fournit également des solutions simples et prêtes à l'emploi pour un son convaincant et falsifié.
Il y a quelques bonnes nouvelles. À l'heure actuelle, l'efficacité de cette technique de synthèse vidéo est limitée par la quantité et la qualité des séquences disponibles pour une personne donnée. Actuellement, note l'article, les algorithmes d'IA nécessitent au moins plusieurs heures de séquences et ne peuvent pas gérer certains cas extrêmes, comme les profils faciaux. Les chercheurs ont choisi Obama comme première étude de cas parce que ses adresses hebdomadaires fournissent une abondance de séquences haute définition accessibles au public de lui regardant directement la caméra et adoptant un ton de voix cohérent. Synthétiser des vidéos d'autres personnalités publiques qui ne remplissent pas ces conditions serait plus difficile et nécessiterait de nouvelles avancées technologiques. Cela fait gagner du temps aux technologies qui détectent les fausses vidéos pour se développer en parallèle. Comme The Economist l'a rapporté plus tôt ce mois-ci, une solution pourrait être «d'exiger que les enregistrements soient accompagnés de leurs métadonnées, qui indiquent quand, où et comment ils ont été capturés. Connaître de telles choses permet d'éliminer une photographie comme un faux sur la base, par exemple, d'une inadéquation avec les conditions locales connues à l'époque.
Mais alors que les portes de nouvelles formes de faux médias continuent de s'ouvrir, il appartiendra en fin de compte aux consommateurs de faire preuve de prudence.