Ciberseguridad

Estafa bancaria de $35 millones con voz falsificada mediante Deepfake en 2020

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

Una investigación sobre la estafa de $35 millones de dólares estadounidenses de un banco en los Emiratos Árabes Unidos en enero de 2020 ha encontrado que se utilizó tecnología de voz deepfake para imitar a un director de empresa conocido por un gerente de una sucursal bancaria, quien luego autorizó las transacciones.

El delito tuvo lugar el 15 de enero del año pasado y se describe en una solicitud (PDF) de los Emiratos Árabes Unidos a las autoridades estatales estadounidenses para obtener ayuda en la búsqueda de una parte de los fondos desviados que se enviaron a los Estados Unidos.

La solicitud establece que el gerente de una sucursal de un banco víctima en los Emiratos Árabes Unidos recibió una llamada telefónica de una voz familiar, que, junto con correos electrónicos de un abogado llamado Martin Zelner, convenció al gerente para que dispusiera los fondos, que aparentemente estaban destinados a la adquisición de una empresa.

La solicitud establece:

‘Según las autoridades emiratíes, el 15 de enero de 2020, el gerente de la sucursal de la Empresa Víctima recibió una llamada telefónica que afirmaba ser de la sede de la empresa. El que llamaba sonaba como el Director de la empresa, por lo que el gerente de la sucursal creyó que la llamada era legítima.

‘El gerente de la sucursal también recibió varios correos electrónicos que creyó que eran del Director y que estaban relacionados con la llamada telefónica. El que llamaba le dijo al gerente de la sucursal por teléfono y correo electrónico que la Empresa Víctima estaba a punto de adquirir otra empresa, y que un abogado llamado Martin Zelner (Zelner) había sido autorizado para coordinar los procedimientos de adquisición.’

El gerente de la sucursal luego recibió los correos electrónicos de Zelner, junto con una carta de autorización del (supuesto) Director, cuya voz era familiar para la víctima.

Estafa de voz Deepfake identificada

Los investigadores emiratíes establecieron entonces que se había utilizado tecnología de clonación de voz deepfake para imitar la voz del director de la empresa:

‘La investigación emiratí reveló que los acusados habían utilizado tecnología de “voz profunda” para simular la voz del Director. En enero de 2020, se transfirieron fondos de la Empresa Víctima a varias cuentas bancarias en otros países en un esquema complejo que involucraba a al menos 17 acusados conocidos y desconocidos. Las autoridades emiratíes rastrearon el movimiento del dinero a través de numerosas cuentas y identificaron dos transacciones a los Estados Unidos.

‘El 22 de enero de 2020, se enviaron dos transferencias de $199,987.75 y $215,985.75 desde dos de los acusados a los números de cuenta del Banco Centennial, xxxxx7682 y xxxxx7885, respectivamente, ubicados en los Estados Unidos.’

No hay más detalles disponibles sobre el delito, que es solo el segundo caso conocido de estafa financiera con deepfake de voz. El primero ocurrió nueve meses antes, en marzo de 2020, cuando un ejecutivo de una empresa de energía del Reino Unido fue acosado por teléfono por lo que sonaba como el jefe del empleado, exigiendo la transferencia urgente de €220,000 ($243,000), que el empleado luego transaccionó.

Desarrollo de clonación de voz

La clonación de voz deepfake implica el entrenamiento de un modelo de aprendizaje automático con cientos o miles de muestras de la ‘voz objetivo’ (la voz que se imitará). La coincidencia más precisa se puede obtener entrenando la voz objetivo directamente contra la voz de la persona que hablará en el escenario propuesto, aunque el modelo estará ‘sobreadaptado’ a la persona que estará imitando la voz objetivo.

La comunidad en línea legítima más activa para desarrolladores de clonación de voz es el servidor de Discord Audio Fakes, que cuenta con foros para muchos algoritmos de clonación de voz deepfake como Tacotron-2 de Google, Talknet, ForwardTacotron, Coqui-ai-TTS y Glow-TTS, entre otros.

Deepfakes en tiempo real

Dado que una conversación telefónica es necesariamente interactiva, el fraude de clonación de voz no puede razonablemente llevarse a cabo mediante clips de voz de alta calidad ‘preparados’, y en ambos casos de fraude de clonación de voz, podemos razonablemente asumir que el que habla está utilizando un marco de deepfake en tiempo real.

Los deepfakes en tiempo real han cobrado importancia últimamente debido al surgimiento de DeepFaceLive, una implementación en tiempo real del popular paquete de deepfake DeepFaceLab, que puede superponer identidades de celebridades u otras identidades en footage de cámara web en vivo. Aunque los usuarios en el servidor de Discord Audio Fakes y el servidor de Discord DeepFaceLab están intensamente interesados en combinar las dos tecnologías en una sola arquitectura de deepfake de video y voz en vivo, no ha surgido públicamente ningún producto de este tipo hasta ahora.