2020年1月にアラブ首長国連邦(UAE)の銀行から3,500万ドルが詐取された事件の捜査で、銀行支店長が知人の企業取締役を偽装するためにディープフェイク音声技術が使用され、その取締役が取引を承認していたことが判明しました。
この犯罪は昨年1月15日に発生し、UAEが米国当局に対し、米国に送金された資金の一部を追跡するための協力を求める要請書 (PDF)に概要が記載されています。
この要請書によると、UAEの被害銀行(名前は伏せられています)の支店長は、見覚えのある声からの電話を受け、マーティン・ゼルナーという弁護士からのメールと共に、ある企業買収のために意図されていたとみられる資金を振り出しました。
要請書には、以下の記載があります。
アラブ首長国連邦当局によると、2020年1月15日、被害企業の支店長は、本社を名乗る電話を受けました。発信者は同社の取締役の声を真似ていたため、支店長は電話が正当なものだと信じました。
支店長はまた、取締役からの電話に関連すると思われる複数のメールも受信しました。発信者は支店長に対し、電話とメールで、被害会社が別の会社を買収しようとしており、マーティン・ゼルナー(以下「ゼルナー」)という弁護士が買収手続きの調整を委任されていると伝えました。
その後、支店長はゼルナーからのメールと、被害者にとって馴染みのある声を持つ(とされる)取締役からの委任状を受け取りました。
ディープフェイク音声詐欺の特定
アラブ首長国連邦の捜査官は、ディープフェイク音声クローン技術を用いて会社の取締役の声を模倣していたことを突き止めました。
「アラブ首長国連邦の捜査により、被告らは取締役の声を模倣するために「ディープボイス」技術を使用していたことが明らかになりました。2020年1月、少なくとも17人の既知および未知の被告らが関与する複雑な計画により、被害会社から他国の複数の銀行口座に資金が送金されました。 UAE当局は、多数の口座を通じて資金の動きを追跡し、米国への2件の取引を特定しました。
「2020年1月22日、被告人2名から、それぞれ199,987.75米ドルと215,985.75米ドルの送金が、米国にあるセンテニアル 銀行の口座番号xxxxx7682とxxxxx7885に送金されました。」
この犯罪に関する詳細は不明ですが、音声ベースのディープフェイク金融詐欺の事例としては、これが2件目であることが分かっています。最初の事件はその9か月前の2020年3月に発生しました。英国のエネルギー会社の幹部が、従業員の上司を装う人物から電話で執拗に迫られ、22万ユーロ(24万3000ドル)の緊急送金を要求されました。従業員はその後、送金を実行しました。
音声クローニングの開発
ディープフェイク音声クローニングでは、数百、あるいは数千もの「ターゲット」音声(模倣する音声)のサンプルを用いて機械学習モデルをトレーニングします。最も正確なマッチングは、ターゲット音声を、提案されたシナリオで話す人物の声と直接比較してトレーニングすることで得られますが、モデルはターゲットになりすます人物に「過剰適合」することになります。
音声クローン開発者にとって最も活発な合法的なオンラインコミュニティは、Audio Fakes Discordサーバーです。このサーバーには、次のような多くのディープフェイク音声クローンアルゴリズムに関するフォーラムがあります。 Google の Tacotron-2、Talknet、ForwardTacotron、Coqui-ai-TTS、Glow-TTS などがあります。
リアルタイム・ディープフェイク
電話での会話は必然的に双方向であるため、高品質の音声クリップを「ベイク」して音声複製詐欺を仕掛けることは合理的に不可能です。また、どちらの音声複製詐欺のケースにおいても、話者はリアルタイムのディープフェイク・フレームワークを使用していると合理的に推測できます。
リアルタイム・ディープフェイクは、人気のディープフェイク・パッケージDeepFaceLabのリアルタイム実装であるDeepFaceLiveの登場により、最近注目を集めています。DeepFaceLiveは、有名人やその他の人物をライブウェブカメラの映像に重ね合わせることができます。Audio Fakes DiscordとDeepFaceLab Discordのユーザーは、この2つの技術を単一の動画+音声ライブ・ディープフェイク・アーキテクチャに統合することに強い関心を示していますが、そのような製品はまだ公開されていません。