Incidents associés

Une nouvelle génération d'outils de manipulation vidéo et audio permet de créer des séquences d'actualités réalistes, comme le désormais tristement célèbre faux discours d'Obama
À l'ère de Photoshop, des filtres et des médias sociaux, beaucoup d'entre nous sont habitués à voir des images manipulées - les sujets deviennent plus minces et plus lisses ou, dans le cas de Snapchat, transformés en chiots.
Cependant, il existe une nouvelle génération d'outils de manipulation vidéo et audio, rendus possibles par les progrès de l'intelligence artificielle et de l'infographie, qui permettront la création de séquences réalistes de personnalités publiques semblant dire, eh bien, n'importe quoi. Trump déclarant son penchant pour les sports nautiques. Hillary Clinton décrivant les enfants volés qu'elle garde enfermés dans sa cave à vin. Tom Cruise admet enfin ce que nous soupçonnions depuis le début… qu'il est un Brony.
C'est l'avenir des fake news. On nous a longtemps dit de ne pas croire tout ce que nous lisons, mais bientôt nous devrons également remettre en question tout ce que nous voyons et entendons.
Pour l'instant, plusieurs équipes de recherche travaillent sur la capture et la synthèse de différents éléments visuels et audio du comportement humain.
Un logiciel développé à l'Université de Stanford est capable de manipuler des séquences vidéo de personnalités publiques pour permettre à une deuxième personne de mettre des mots dans sa bouche - en temps réel. Face2Face capture les expressions faciales de la deuxième personne lorsqu'elle parle dans une webcam, puis transforme ces mouvements directement sur le visage de la personne dans la vidéo originale. L'équipe de recherche a démontré sa technologie en marionnettisant des vidéos de George W Bush, Vladimir Poutine et Donald Trump.
Facebook Twitter Pinterest Face2Face vous permet de marionnettiser des célébrités et des politiciens, en leur mettant littéralement des mots dans la bouche.
À lui seul, Face2Face est un jouet amusant pour créer des mèmes et divertir les animateurs de talk-shows de fin de soirée. Cependant, avec l'ajout d'une voix synthétisée, cela devient plus convaincant - non seulement la marionnette numérique ressemble au politicien, mais elle peut aussi sonner comme le politicien.
Une équipe de recherche de l'Université de l'Alabama à Birmingham a travaillé sur l'usurpation de voix. Avec 3 à 5 minutes d'audio de la voix d'une victime - prise en direct ou à partir de vidéos YouTube ou d'émissions de radio - un attaquant peut créer une voix synthétisée qui peut tromper à la fois les humains et les systèmes de sécurité biométrique vocale utilisés par certaines banques et smartphones. L'attaquant peut alors parler dans un microphone et le logiciel le convertira pour que les mots sonnent comme s'ils étaient prononcés par la victime - que ce soit au téléphone ou dans une émission de radio.
La startup canadienne Lyrebird a développé des capacités similaires, qui, selon elle, peuvent être utilisées pour transformer du texte en livres audio « lus » sur place par des voix célèbres ou pour des personnages de jeux vidéo.
Bien que leurs intentions puissent être bien intentionnées, la technologie de morphing de la voix pourrait être combinée avec la technologie de morphing du visage pour créer de fausses déclarations convaincantes de personnalités publiques.
Il suffit de regarder le projet Synthesizing Obama de l'Université de Washington, où ils ont pris l'audio d'un des discours d'Obama et l'ont utilisé pour animer son visage dans une vidéo entièrement différente avec une précision incroyable (grâce à la formation d'un réseau neuronal récurrent avec des heures de images), pour avoir une idée de la façon dont ces falsifications peuvent être insidieuses.
Au-delà des fausses nouvelles, il existe de nombreuses autres implications, a déclaré Nitesh Saxena, professeur agrégé et directeur de recherche à l'Université de l'Alabama au département d'informatique de Birmingham. "Vous pourriez laisser de faux messages vocaux en vous faisant passer pour la mère de quelqu'un. Ou diffamez quelqu'un et publiez les extraits audio en ligne.
Ces technologies de morphing ne sont pas encore parfaites. Les expressions faciales dans les vidéos peuvent sembler un peu déformées ou non naturelles et les voix peuvent sembler un peu robotiques.
Mais avec le temps, ils seront capables de recréer fidèlement le son ou l'apparence d'une personne - au point qu'il pourrait être très difficile pour les humains de détecter la fraude.
Compte tenu de l'érosion de la confiance dans les médias et de la propagation effrénée des canulars via les médias sociaux, il deviendra encore plus important pour les organes de presse d'examiner attentivement le contenu qui ressemble et sonne comme la vraie affaire.
Des signes révélateurs indiqueront l'endroit où la vidéo ou l'audio a été créé, qui d'autre était présent à l'événement et si les conditions météorologiques correspondent aux records de ce jour-là.
Les gens devraient également regarder l'éclairage et les ombres de la vidéo, si tous les éléments présentés dans le cadre sont de la bonne taille et si l'audio est parfaitement synchronisé, a déclaré Mandy Jenkins, de la société de nouvelles sociales Storyful, spécialisée dans la vérification contenu de l'actualité.
Le contenu trafiqué pourrait ne pas passer l'examen minutieux d'une salle de rédaction rigoureuse, mais s'il était publié sous forme de vidéo granuleuse sur les réseaux sociaux, il pourrait se propager de manière virale et déclencher un désastre de relations publiques, politique ou diplomatique. Imaginez que Trump déclare la guerre à la Corée du Nord, par exemple.
"Si quelqu'un ressemble à Trump et parle comme Trump, il pensera que c'est Trump", a déclaré Saxena.
"Nous voyons déjà qu'il ne faut même pas de l'audio ou de la vidéo trafiqués pour faire croire aux gens quelque chose que je