الأمن السيبراني

عمليات سرقة بنك بقيمة 35 مليون دولار تمت باستخدام صوت معزز بواسطة تقنية Deepfaked في عام 2020

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

تشير التحقيقات في الاحتيال على 35 مليون دولار أمريكي من بنك في الإمارات العربية المتحدة في يناير 2020 إلى أن تقنية الصوت المعزز بواسطة Deepfaked استخدمت لمحاكاة صوت مدير شركة معروف لمدير فرع البنك، الذي أذن بعد ذلك بالمعاملات.

وقعت الجريمة في 15 يناير من العام الماضي، وهي موضحة في طلب (PDF) من الإمارات العربية المتحدة إلى السلطات الأمريكية للمساعدة في تتبع جزء من الأموال التي تم سحبها والتي تم إرسالها إلى الولايات المتحدة.

يذكر الطلب أن مدير فرع بنك ضحية غير محدد في الإمارات العربية المتحدة تلقى مكالمة هاتفية من صوت مألوف، والتي، إلى جانب رسائل البريد الإلكتروني من محامي يدعى مارتن زيلنر، أقنعت المدير بتمكين الأموال، والتي كانت في الواقع مخصصة لاستحواذ على شركة.

يذكر الطلب:

‘وفقًا للسلطات الإماراتية، في 15 يناير 2020، تلقى مدير فرع الشركة ضحية مكالمة هاتفية زعمت أنها من مقر الشركة. وكان المتصل يبدو مثل مدير الشركة، لذلك اعتقد مدير الفرع أن المكالمة كانت مشروعة.

‘كما تلقى مدير الفرع عدة رسائل بريد إلكتروني يعتقد أنها من المدير تتعلق بالمكالمة الهاتفية. أخبر المتصل مدير الفرع هاتفيًا وبريديًا إلكترونيًا أن شركة الضحية على وشك استحواذ شركة أخرى، وأن محاميًا يدعى مارتن زيلنر (زيلنر) قد تم تفويضه لتنسيق الإجراءات للاستحواذ.’

ثم تلقى مدير الفرع رسائل البريد الإلكتروني من زيلنر، إلى جانب خطاب تفويض من (المدير المفترض)، الذي كان صوته مألوفًا للضحية.

تحديد الاحتيال بالصوت المعزز بواسطة Deepfaked

ثم أثبت المحققون الإماراتيون أن تقنية الصوت المعزز بواسطة Deepfaked استخدمت لمحاكاة صوت مدير الشركة:

‘كشفت التحقيق الإماراتية أن المتهمين استخدموا تقنية “الصوت العميق” لمحاكاة صوت المدير. في يناير 2020، تم نقل الأموال من شركة الضحية إلى حسابات بنكية في بلدان أخرى في مخطط معقد ي涉ك ما لا يقل عن 17 متهمًا معروفًا وغير معروف. أتبعت السلطات الإماراتية حركة الأموال من خلال حسابات عديدة وحددت معاملتين إلى الولايات المتحدة. ‘

‘في 22 يناير 2020، تم إرسال معاملتين بقيمة 199,987.75 دولار أمريكي و215,985.75 دولار أمريكي من两个 من المتهمين إلى حسابات بنك Centennial رقمي الحساب xxxxx7682 وxxxxx7885، على التوالي، الواقعة في الولايات المتحدة.’

لا توجد تفاصيل إضافية متاحة حول الجريمة، التي هي فقط الحالة الثانية المعروفة لاحتيال مالي بالصوت المعزز بواسطة Deepfaked. وقعت الأولى قبل تسعة أشهر، في مارس 2020، عندما تعرض مسؤول في شركة طاقة بريطانية لمكالمة هاتفية من شخص يبدو وكأنه رئيسه، مطالبًا بتحويل €220,000 ($243,000) على الفور، والتي قام الموظف بتحويلها بعد ذلك.

تطوير تكنولوجيا محاكاة الصوت

ت涉ك تقنية محاكاة الصوت المعزز بواسطة Deepfaked تدريب نموذج تعلم الآلة على مئات أو آلاف العينات من “الصوت المستهدف” (الصوت الذي سيتم محاكاته). يمكن الحصول على أفضل تطابق من خلال تدريب الصوت المستهدف مباشرة ضد صوت الشخص الذي سيتحدث في السيناريو المقترح، على الرغم من أن النموذج سيكون “مفرط التأهيل” للشخص الذي سيتم محاكاته.

يعد المجتمع عبر الإنترنت الأكثر نشاطًا لمنطقي تكنولوجيا محاكاة الصوت هو خادم Audio Fakes Discord، الذي يضم مناقشات حول خوارزميات محاكاة الصوت المعزز بواسطة Deepfaked مثل Tacotron-2 وTalknet وForwardTacotron وCoqui-ai-TTS وGlow-TTS، من بين آخرين.

محاكاة الصوت المعزز في الوقت الفعلي

منذ أن تتطلب محادثة هاتفية بالضرورة التفاعل، لا يمكن أن تؤثر الاحتيال بالصوت المعزز بواسطة Deepfaked بشكل معقول بواسطة مقاطع صوتية عالية الجودة “مسبقة الصنع”، وفي كلتا الحالتين للاحتيال بالصوت المعزز بواسطة Deepfaked، يمكننا افتراض بشكل معقول أن المتحدث يستخدم إطارًا معززًا بالصوت في الوقت الفعلي.

أصبحت محاكاة الصوت المعزز في الوقت الفعلي في وسط الاهتمام مؤخرًا بسبب ظهور DeepFaceLive، وهو تنفيذ في الوقت الفعلي لحزمة DeepFaceLab الشهيرة، والتي يمكنها وضع هويات المشاهير أو غيرها على مقاطع الفيديو الحية من كاميرا الويب. على الرغم من أن المستخدمين في خادم Audio Fakes Discord وخادم DeepFaceLab Discord مهتمون بشكل كبير بدمج التكنولوجيا في هيكل فيديو + صوت معزز في الوقت الفعلي، لم يظهر أي منتج عام حتى الآن.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai