Incidentes Asociados
Una investigación sobre el fraude de 35 millones de dólares estadounidenses a un banco de los Emiratos Árabes Unidos en enero de 2020 reveló que se utilizó tecnología de voz deepfake para imitar a un director de una empresa conocido por el gerente de una sucursal bancaria, quien posteriormente autorizó las transacciones.
El delito tuvo lugar el 15 de enero del año pasado y se describe en una solicitud de los Emiratos Árabes Unidos a las autoridades estadounidenses para que ayuden a rastrear parte de los fondos desviados que se enviaron a Estados Unidos.
La solicitud indica que el gerente de una sucursal de un banco en los Emiratos Árabes Unidos, cuya identidad no se ha revelado, recibió una llamada telefónica de una voz conocida que, junto con correos electrónicos de un abogado llamado Martin Zelner, lo convenció de desembolsar los fondos, aparentemente destinados a la adquisición de una empresa.
La solicitud declara:
'Según las autoridades emiratíes, el 15 de enero de 2020, el gerente de la sucursal de la empresa víctima recibió una llamada telefónica que supuestamente provenía de la sede central de la empresa. La persona que llamó parecía ser el director de la empresa, por lo que el gerente de la sucursal creyó que la llamada era legítima.
'El gerente de la sucursal también recibió varios correos electrónicos que creía provenían del director y que estaban relacionados con la llamada telefónica. La persona que llamó informó al gerente de la sucursal por teléfono y correo electrónico que la empresa víctima estaba a punto de adquirir otra empresa y que un abogado llamado Martin Zelner (Zelner) había sido autorizado para coordinar los procedimientos de la adquisición.
El gerente de la sucursal recibió entonces los correos electrónicos de Zelner, junto con una carta de autorización del (supuesto) director, cuya voz le resultaba familiar a la víctima.
Fraude de voz deepfake identificado
Investigadores emiratíes establecieron entonces que se había utilizado tecnología de clonación de voz deepfake para imitar la voz del director de la empresa:
La investigación emiratí reveló que los acusados habían utilizado tecnología de "voz profunda" para simular la voz del director. En enero de 2020, se transfirieron fondos de la empresa víctima a varias cuentas bancarias en otros países en un complejo esquema que involucraba al menos a 17 acusados, conocidos y desconocidos. Las autoridades emiratíes rastrearon el movimiento del dinero a través de numerosas cuentas e identificaron dos transacciones con destino a Estados Unidos.
El 22 de enero de 2020, dos de los acusados enviaron dos transferencias por USD 199.987,75 y USD 215.985,75 a las cuentas de Centennial Bank xxxxx7682 y xxxxx7885, respectivamente, ubicadas en Estados Unidos.
No se dispone de más detalles sobre este delito, que representa tan solo el segundo caso conocido de fraude financiero mediante deepfake de voz. El primero tuvo lugar nueve meses antes, en marzo de 2020, cuando un ejecutivo de una empresa energética del Reino Unido fue acosado por teléfono por quien parecía ser su jefe, quien exigía la transferencia urgente de 220.000 euros (243.000 dólares), que el empleado posteriormente realizó.
Desarrollo de Clonación de Voz
La clonación de voz deepfake implica el entrenamiento de un modelo de aprendizaje automático con cientos o miles de muestras de la voz objetivo (la voz que se imitará). La coincidencia más precisa se puede obtener entrenando la voz objetivo directamente con la voz de la persona que hablará en el escenario propuesto, aunque el modelo estará sobreajustado a la persona que imitará al objetivo.
La comunidad en línea legítima más activa para desarrolladores de clonación de voz es el servidor Discord Audio Fakes, que cuenta con foros para muchos algoritmos de clonación de voz deepfake, como Tacotron-2 de Google (https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html), Talknet (https://arxiv.org/pdf/2005.05514.pdf), ForwardTacotron (https://github.com/as-ideas/ForwardTacotron), Coqui-ai-TTS (https://github.com/coqui-ai/TTS) y Glow-TTS (https://arxiv.org/pdf/2005.11129.pdf), entre otros.
Deepfakes en tiempo real
Dado que una conversación telefónica es necesariamente interactiva, el fraude de clonación de voz no puede llevarse a cabo razonablemente mediante clips de voz de alta calidad "grabados". En ambos casos, podemos asumir razonablemente que el hablante utiliza un marco de deepfake en vivo y en tiempo real.
Los deepfakes en tiempo real han cobrado protagonismo últimamente gracias a la llegada de DeepFaceLive, una implementación en tiempo real del popular paquete de deepfake DeepFaceLab, que permite superponer la identidad de celebridades u otras personas en grabaciones de cámaras web en vivo. Aunque los usuarios de Audio Fakes Discord y DeepFaceLab Discord están muy interesados en combinar ambas tecnologías en una única arquitectura de deepfake de video y voz en vivo, aún no se ha publicado ningún producto de este tipo.