Incidents associés
Un groupe de fraudeurs a dérobé 35 millions de dollars après avoir utilisé de faux courriels et des voix de synthèse pour convaincre un employé d'une entreprise des Émirats arabes unis qu'un directeur avait sollicité ces fonds dans le cadre de l'acquisition d'une autre organisation, selon une requête déposée la semaine dernière auprès d'un tribunal fédéral américain.
L'attaque visait un directeur de succursale avec des courriels semblant provenir du directeur et d'un avocat américain, désigné comme coordinateur de l'acquisition. Cette attaque est la dernière en date à utiliser de l'audio de synthèse créé à l'aide d'algorithmes d'apprentissage automatique, appelés réseaux neuronaux, pour imiter la voix d'une personne connue de l'employé ciblé.
C'est pourquoi les voix de synthèse et les voix de synthèse feront probablement partie des techniques des cybercriminels à l'avenir. De nombreux outils open source permettent à chacun de créer des deepfakes, vidéo et audio, explique Etay Maor, directeur principal de la stratégie de sécurité chez Cato Networks, une entreprise spécialisée dans la sécurité réseau.
« S'il y a de l'argent à gagner, on peut être sûr que les attaquants adopteront de nouvelles techniques », affirme Maor. « Utiliser de tels outils n'est pas très sophistiqué. Lorsqu'il s'agit d'une voix, c'est encore plus simple. »
Ce braquage d'entreprise est la deuxième attaque connue utilisant la technologie deepfake. En 2019, le directeur d'une filiale britannique d'une entreprise allemande a reçu un appel provenant d'une personne semblant provenir de son PDG basé en Allemagne, qu'il avait déjà rencontré. À la demande du faux PDG, il a transféré 220 000 € à un prétendu fournisseur. Le directeur n'a eu de soupçons que deux jours plus tard, la même personne se faisant passer pour le PDG, l'appelant pour 100 000 € supplémentaires. Il a alors remarqué que le numéro de téléphone provenait d'Autriche, et non d'Allemagne.
Le succès de ces attaques repose sur la confiance, explique Maor. Un appel d'une connaissance demandant de l'argent est différent d'un e-mail se faisant passer pour un prince nigérian. Un employé qui parle à une personne qu'il croit être son PDG sera plus susceptible de transférer de l'argent.
Pour la plupart des entreprises, la solution consistera à revenir au principe « ne jamais faire confiance, toujours vérifier », affirme-t-il.
« Nous allons devoir adopter certains principes du Zero Trust dans ce monde relationnel », ajoute-t-il. « Il n'est pas nécessaire qu'une solution technologique soit adoptée. Un processus de vérification pourrait suffire. »
Le dossier du ministère américain de la Justice contient peu de détails sur l'enquête menée aux Émirats arabes unis. Un avocat basé aux États-Unis aurait été désigné pour superviser l'acquisition, et l'enquête émiratie a permis de suivre deux transferts totalisant 415 000 dollars déposés sur des comptes de la Centennial Bank aux États-Unis.
« En janvier 2020, des fonds ont été transférés de l'entreprise victime vers plusieurs comptes bancaires à l'étranger, dans le cadre d'un stratagème complexe impliquant au moins 17 accusés connus et inconnus », indiquait la requête adressée au tribunal de district américain du district de Columbia. « Les autorités émiraties ont retracé les mouvements d'argent via de nombreux comptes et identifié deux transactions vers les États-Unis. »
La requête demandait aux tribunaux de désigner un avocat du ministère de la Justice comme point de contact aux États-Unis pour l'enquête.
Bien que la technologie permettant de créer de faux audios et vidéos réalistes de personnes à l'aide de réseaux neuronaux antagonistes génératifs (GAN) ait alimenté les craintes de voir les deepfakes semer le chaos dans les campagnes politiques et d'accuser des malfaiteurs d'avoir créé des preuves réelles grâce à la technologie des réseaux neuronaux profonds, jusqu'à présent, la plupart des exemples ont été des preuves de concept, en dehors d'un marché clandestin de fausses vidéos pornographiques de célébrités et de vengeance pornographique.
Pourtant, les exigences techniques ne constituent plus un obstacle pour quiconque souhaite créer des deepfakes (https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast). Maor estime qu'il faut moins de cinq minutes d'échantillons audio pour créer une voix synthétisée convaincante, mais d'autres estimations évaluent le temps nécessaire à deux à trois heures d'échantillons audio bruts (https://www.scip.ch/en/?labs.20210318). Une synthèse de moindre qualité prend beaucoup moins de temps. Pour de nombreux dirigeants d'entreprise, les attaquants peuvent extraire les données audio nécessaires sur Internet.
Les entreprises n'ont pas besoin de technologie spéciale pour contrer les compromissions de processus métier alimentées par le deepfake. Elles doivent plutôt ajouter des étapes de vérification à leurs processus comptables, explique Maor.
« Si vous avez les bons processus en place, vous pouvez éliminer ces problèmes », affirme-t-il. « En fin de compte, un simple appel téléphonique pour vérifier la demande aurait pu éviter cela. »