Incidentes Asociados
Una investigación sobre el robo de 35 millones de dólares de un banco en los Emiratos Árabes Unidos en enero de 2020 descubrió que se utilizó tecnología de voz falsa para hacerse pasar por un director de una empresa conocido por el gerente de una sucursal bancaria, quien luego autorizó la transacción.
El crimen tuvo lugar el 15 de enero del año pasado y está descrito en una solicitud (PDF). Los Emiratos Árabes Unidos estaban proporcionando asistencia a las autoridades estatales de EE. UU. para rastrear una parte de los fondos malversados enviados a Estados Unidos.
La petición afirma que el gerente de la sucursal anónima en los Emiratos Árabes Unidos del banco de las víctimas recibió un mensaje de voz familiar que, junto con correos electrónicos adjuntos de un abogado llamado Martin Zelner, convenció al gerente de pagar el dinero, aparentemente por la propiedad de una empresa.
La solicitud dice:
Según las autoridades de los Emiratos Árabes Unidos, el 15 de enero de 2020, el gerente de la sucursal de la empresa víctima recibió una llamada telefónica que decía provenir de la sede de la empresa. La persona que llamó parecía el director ejecutivo de la empresa, por lo que el gerente de la sucursal creyó que la llamada era legítima.
El gerente de la sucursal también recibió varios correos electrónicos que creyó provenían del director, relacionados con la llamada. La persona que llamó le informó por teléfono y correo electrónico que la empresa de la víctima estaba a punto de ser adquirida por otra empresa y que un abogado llamado Martin Zelner (Zelner) había sido autorizado para coordinar el proceso de adquisición.
El gerente de la sucursal recibió entonces los correos electrónicos de Zelner, junto con una carta de aprobación del director (presumiblemente) cuya voz le resultaba familiar a la víctima.
Fraude de voz detectado
Los investigadores de los Emiratos Árabes Unidos confirmaron luego que se utilizó tecnología de codificación de voz para imitar la voz del director ejecutivo de la empresa:
La investigación de los Emiratos Árabes Unidos reveló que los acusados utilizaron tecnología de "voz profunda" para imitar la voz del Director. En enero de 2020, se transfirieron fondos de la Compañía Víctima a varias cuentas bancarias en otros países en un esquema complejo que involucró al menos a 17 acusados conocidos y desconocidos. Las autoridades de los Emiratos Árabes Unidos rastrearon el movimiento de este dinero a través de múltiples cuentas y descubrieron dos transferencias a Estados Unidos.
"El 22 de enero de 2020, se enviaron dos transferencias bancarias por USD 199.987,75 y USD 215.985,75 desde dos de los acusados a las cuentas bancarias xxxxx7682 y xxxxx7885, respectivamente, del Centennial Bank, ubicadas en Estados Unidos."
No hay más detalles disponibles sobre este crimen, que es el segundo incidente conocido de fraude financiero a gran escala. El primero ocurrió hace nueve meses, en marzo de 2020, cuando un directivo de una empresa energética del Reino Unido fue amenazado por teléfono por una persona que se hizo pasar por un jefe y le exigió una transferencia urgente de 220.000 euros (243.000 dólares), que luego el empleado atendió.
Mejora de la voz de cierre
La codificación de voz falsa implica entrenar un modelo de aprendizaje automático con cientos, o incluso miles, de muestras de la voz "objetivo" (la voz que se quiere imitar). La comparación más precisa se puede obtener entrenando la voz objetivo directamente contra la voz de la persona que hablará en el video propuesto, aunque el estilo estará "adaptado" a la persona que personifique al objetivo.
La comunidad en línea más activa para desarrolladores de encubrimiento de voz es el servidor Discord Audio Fake Creation, que alberga numerosos foros sobre algoritmos de encubrimiento de voz como Google Takotron-2, Talknet, Forw ardTakotron, Coqui-ai-TTS y Glow-TTS, y otros.
Deepfakes en tiempo real
Como las conversaciones telefónicas son interactivas, no es razonable que se produzca fraude de voz en off con material "preparado" de alta calidad y, en ambos casos de fraude de voz en off, podemos asumir razonablemente que el hablante está usando una voz falsa, en vivo y en tiempo real. estructura.
La suplantación de identidad en tiempo real ha estado en el centro de atención recientemente con la llegada de DeepFaceLive, una implementación en tiempo real de la suite deepfake DeepFaceLab, que puede mejorar las identidades de celebridades u otras ingrese imágenes de cámaras en vivo. Si bien los usuarios de Audio Fakes Discord y DeepFaceLab Discord están muy interesados en combinar las dos tecnologías en un único marco de aprendizaje profundo de video y audio, todavía no ha surgido claramente ningún producto de ese tipo.