An ninh mạng
Cuộc Cướp Ngân Hàng 35 Triệu Đô La Bằng Giọng Nói Deepfaked Năm 2020

Một cuộc điều tra về việc lừa đảo 35 triệu đô la Mỹ từ một ngân hàng ở Các Tiểu Vương Quốc Ả Rập Thống Nhất vào tháng 1 năm 2020 đã phát hiện ra rằng công nghệ giọng nói deepfake đã được sử dụng để bắt chước giọng nói của một giám đốc công ty được biết đến của một trưởng phòng ngân hàng, người sau đó đã ủy quyền cho các giao dịch.
Tội phạm này diễn ra vào ngày 15 tháng 1 năm ngoái và được nêu trong một yêu cầu (PDF) của UAE gửi đến các cơ quan chức năng của Mỹ để giúp theo dõi một phần của số tiền bị đánh cắp đã được gửi đến Hoa Kỳ.
Yêu cầu này nêu rằng trưởng phòng của một ngân hàng bị hại không được nêu tên ở UAE đã nhận được một cuộc gọi điện thoại từ một giọng nói quen thuộc, cùng với các email từ một luật sư tên Martin Zelner, đã thuyết phục trưởng phòng này giải ngân số tiền, rõ ràng là để mua lại một công ty.
Yêu cầu này nêu:
‘Theo cơ quan chức năng của UAE, vào ngày 15 tháng 1 năm 2020, trưởng phòng của Công ty Nạn nhân đã nhận được một cuộc gọi điện thoại tự xưng là từ trụ sở chính của công ty. Người gọi có giọng nói giống như Giám đốc của công ty, vì vậy trưởng phòng này tin rằng cuộc gọi là hợp pháp.
‘Trưởng phòng cũng nhận được một số email mà anh ta tin là từ Giám đốc liên quan đến cuộc gọi điện thoại. Người gọi đã nói với trưởng phòng qua điện thoại và email rằng Công ty Nạn nhân sắp mua lại một công ty khác, và một luật sư tên Martin Zelner (Zelner) đã được ủy quyền để phối hợp các thủ tục cho việc mua lại.’
Trưởng phòng sau đó nhận được email từ Zelner, cùng với một bức thư ủy quyền từ (giám đốc giả mạo), người có giọng nói quen thuộc với nạn nhân.
Gian Lận Giọng Nói Deepfake Được Xác Định
Các nhà điều tra UAE sau đó đã xác định rằng công nghệ bắt chước giọng nói deepfake đã được sử dụng để bắt chước giọng nói của giám đốc công ty:
‘Cuộc điều tra của UAE đã phát hiện ra rằng các bị cáo đã sử dụng công nghệ “deep voice” để mô phỏng giọng nói của Giám đốc. Vào tháng 1 năm 2020, tiền đã được chuyển từ Công ty Nạn nhân đến nhiều tài khoản ngân hàng ở các quốc gia khác trong một kế hoạch phức tạp liên quan đến ít nhất 17 bị cáo được biết và không được biết. Cơ quan chức năng UAE đã theo dõi sự di chuyển của tiền qua nhiều tài khoản và xác định hai giao dịch đến Hoa Kỳ.
‘Vào ngày 22 tháng 1 năm 2020, hai khoản chuyển tiền trị giá 199.987,75 đô la Mỹ và 215.985,75 đô la Mỹ đã được gửi từ hai trong số các bị cáo đến số tài khoản ngân hàng Centennial là xxxxx7682 và xxxxx7885, tương ứng, nằm ở Hoa Kỳ.’
Không có thông tin chi tiết nào khác về tội phạm này, đây chỉ là trường hợp thứ hai được biết đến về gian lận tài chính dựa trên giọng nói deepfake. Trường hợp đầu tiên diễn ra chín tháng trước, vào tháng 3 năm 2020, khi một giám đốc điều hành tại một công ty năng lượng của Anh đã bị một người gọi điện thoại mà âm thanh giống như ông chủ của nhân viên này, yêu cầu chuyển tiền khẩn cấp 220.000 euro (243.000 đô la Mỹ), mà nhân viên này sau đó đã thực hiện.
Phát Triển Nhận Dạng Giọng Nói
Công nghệ bắt chước giọng nói deepfake liên quan đến việc đào tạo một mô hình học máy trên hàng trăm hoặc hàng nghìn mẫu của ‘giọng nói mục tiêu’ (giọng nói sẽ được bắt chước). Sự khớp chính xác nhất có thể được thu được bằng cách đào tạo giọng nói mục tiêu trực tiếp chống lại giọng nói của người sẽ nói trong kịch bản đề xuất, mặc dù mô hình sẽ bị ‘quá khớp’ với người sẽ giả mạo giọng nói mục tiêu.
Cộng đồng trực tuyến hợp pháp tích cực nhất cho các nhà phát triển nhận dạng giọng nói là máy chủ Audio Fakes Discord, có các diễn đàn cho nhiều thuật toán bắt chước giọng nói deepfake như Google’s Tacotron-2, Talknet, ForwardTacotron, Coqui-ai-TTS và Glow-TTS, trong số những người khác.
Deepfakes Thời Gian Thực
Kể từ khi một cuộc trò chuyện điện thoại nhất thiết phải là tương tác, gian lận nhận dạng giọng nói không thể được thực hiện một cách hợp lý bằng các đoạn âm thanh chất lượng cao được ‘nấu chín’, và trong cả hai trường hợp của gian lận nhận dạng giọng nói, chúng ta có thể giả định một cách hợp lý rằng người nói đang sử dụng một khuôn khổ deepfake thời gian thực.
Deepfakes thời gian thực đã trở thành焦 điểm gần đây do sự ra đời của DeepFaceLive, một thực hiện thời gian thực của gói deepfake phổ biến DeepFaceLab, có thể chồng các danh tính của người nổi tiếng hoặc các danh tính khác lên footage webcam trực tiếp. Mặc dù người dùng tại Audio Fakes Discord và DeepFaceLab Discord rất quan tâm đến việc kết hợp hai công nghệ này vào một kiến trúc deepfake video + giọng nói trực tiếp, nhưng chưa có sản phẩm nào như vậy đã xuất hiện công khai cho đến nay.










