Cybersécurité

Arnaque bancaire de 35 millions de dollars avec une voix Deepfaked en 2020

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

Une enquête sur la fraude de 35 millions de dollars USD à une banque aux Émirats arabes unis en janvier 2020 a révélé que la technologie de voix Deepfaked a été utilisée pour imiter un directeur d’entreprise connu d’un directeur de banque, qui a ensuite autorisé les transactions.

Le crime a eu lieu le 15 janvier de l’année dernière et est décrit dans une demande (PDF) des Émirats arabes unis aux autorités américaines pour obtenir de l’aide dans la traque d’une partie des fonds détournés qui ont été envoyés aux États-Unis.

La demande indique que le directeur de la succursale d’une banque victime aux Émirats arabes unis a reçu un appel téléphonique d’une voix familière, qui, avec des e-mails accompagnant d’un avocat nommé Martin Zelner, a convaincu le directeur d’autoriser les transactions, qui semblaient être destinées à l’acquisition d’une entreprise.

La demande indique :

‘Selon les autorités émiraties, le 15 janvier 2020, le directeur de la succursale de l’entreprise victime a reçu un appel téléphonique qui prétendait provenir du siège de l’entreprise. L’appelant ressemblait au directeur de l’entreprise, donc le directeur de la succursale a cru que l’appel était légitime.

‘Le directeur de la succursale a également reçu plusieurs e-mails qu’il croyait provenir du directeur et qui étaient liés à l’appel téléphonique. L’appelant a dit au directeur de la succursale par téléphone et par e-mail que l’entreprise victime allait acquérir une autre entreprise, et qu’un avocat nommé Martin Zelner (Zelner) avait été autorisé à coordonner les procédures d’acquisition.’

Le directeur de la succursale a ensuite reçu les e-mails de Zelner, ainsi qu’une lettre d’autorisation du (prétendu) directeur, dont la voix était familière à la victime.

Fraude de voix Deepfaked identifiée

Les enquêteurs émiraties ont ensuite établi que la technologie de clonage de voix Deepfaked avait été utilisée pour imiter la voix du directeur de l’entreprise :

‘L’enquête émiratie a révélé que les défendeurs avaient utilisé la technologie de “voix profonde” pour simuler la voix du directeur. En janvier 2020, des fonds ont été transférés de l’entreprise victime à plusieurs comptes bancaires dans d’autres pays dans un schéma complexe impliquant au moins 17 défendeurs connus et inconnus. Les autorités émiraties ont retracé le mouvement de l’argent à travers de nombreux comptes et ont identifié deux transactions aux États-Unis.

‘Le 22 janvier 2020, deux transferts de 199 987,75 USD et 215 985,75 USD ont été envoyés de deux des défendeurs aux numéros de comptes de la banque Centennial, xxxxx7682 et xxxxx7885, respectivement, situés aux États-Unis.’

Aucun détail supplémentaire n’est disponible concernant le crime, qui n’est que le deuxième cas connu de fraude financière basée sur la voix Deepfaked. Le premier a eu lieu neuf mois plus tôt, en mars 2020, lorsque le directeur général d’une entreprise énergétique britannique a été harcelé au téléphone par ce qui ressemblait à la voix de son patron, exigeant le transfert urgent de 220 000 euros (243 000 dollars), que l’employé a ensuite effectué.

Développement de la technologie de clonage de voix

La technologie de clonage de voix Deepfaked implique la formation d’un modèle d’apprentissage automatique sur des centaines ou des milliers d’échantillons de la “voix cible” (la voix qui sera imitée). La correspondance la plus précise peut être obtenue en formant la voix cible directement contre la voix de la personne qui parlera dans le scénario proposé, bien que le modèle sera “surajusté” à la personne qui imitera la voix cible.

La communauté en ligne la plus active de développeurs de clonage de voix est le serveur Discord Audio Fakes, qui comporte des forums pour de nombreux algorithmes de clonage de voix Deepfaked tels que Google’s Tacotron-2, Talknet, ForwardTacotron, Coqui-ai-TTS et Glow-TTS, entre autres.

Deepfakes en temps réel

Puisque la conversation téléphonique est nécessairement interactive, la fraude de clonage de voix ne peut pas être raisonnablement réalisée avec des extraits de voix de haute qualité “cuisinés”, et dans les deux cas de fraude de clonage de voix, nous pouvons raisonnablement supposer que le locuteur utilise un cadre de clonage de voix Deepfaked en temps réel.

Les deepfakes en temps réel sont devenus récemment populaires en raison de l’avènement de DeepFaceLive, une mise en œuvre en temps réel du package de deepfakes populaire DeepFaceLab, qui peut superposer des identités de célébrités ou d’autres identités sur des images de webcam en direct. Bien que les utilisateurs du serveur Discord Audio Fakes et du serveur Discord DeepFaceLab soient intensément intéressés à combiner les deux technologies en une seule architecture de deepfake vidéo et voix en direct, aucun produit n’a encore émergé publiquement.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.