Trí tuệ nhân tạo

Deepfakes Có Thể Đánh Lừa Nhiều API ‘Sống’ Của Khuôn Mặt Lớn

Published February 23, 2022

Updated April 28, 2026

Martin Anderson

From DeepFace Live - Arnold Schwarzenegger 224 3.03M Iterations | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY

Một nghiên cứu hợp tác mới giữa Mỹ và Trung Quốc đã kiểm tra khả năng bị deepfakes của một số hệ thống xác thực khuôn mặt lớn nhất trên thế giới và phát hiện rằng hầu hết chúng đều dễ bị tổn thương bởi các hình thức tấn công deepfake đang phát triển.

Nghiên cứu đã thực hiện các cuộc xâm nhập dựa trên deepfake bằng một khuôn khổ tùy chỉnh được triển khai chống lại các hệ thống Xác thực Sống của Khuôn mặt (FLV) thường được cung cấp bởi các nhà cung cấp lớn và bán như một dịch vụ cho các khách hàng hạ nguồn như các hãng hàng không và công ty bảo hiểm.

Từ bài báo, tổng quan về hoạt động của các API Xác thực Sống của Khuôn mặt (FLV) trên các nhà cung cấp lớn. Nguồn: https://arxiv.org/pdf/2202.10673.pdf

Xác thực Sống của Khuôn mặt nhằm mục đích ngăn chặn việc sử dụng các kỹ thuật như các cuộc tấn công hình ảnh đối lập, sử dụng mặt nạ và video được ghi lại trước, các khuôn mặt “chủ” và các hình thức khác của việc nhân bản ID trực quan.

Nghiên cứu kết luận rằng số lượng mô-đun phát hiện deepfake hạn chế được triển khai trong các hệ thống này, nhiều trong số đó phục vụ hàng triệu khách hàng, còn xa so với không thể xuyên thủng, và có thể đã được cấu hình trên các kỹ thuật deepfake đã lỗi thời hoặc có thể quá cụ thể về kiến trúc.

Các tác giả lưu ý:

‘[Khác] các phương pháp deepfake cũng cho thấy sự khác biệt trên các nhà cung cấp khác nhau…Không có quyền truy cập vào các chi tiết kỹ thuật của các nhà cung cấp FLV mục tiêu, chúng tôi suy đoán rằng những sự khác biệt này được quy cho các biện pháp phòng thủ được triển khai bởi các nhà cung cấp khác nhau. Ví dụ, một số nhà cung cấp có thể triển khai các biện pháp phòng thủ chống lại các cuộc tấn công deepfake cụ thể.’

Và tiếp tục:

‘[Hầu hết] các API FLV không sử dụng phát hiện chống deepfake; ngay cả đối với những API có các biện pháp phòng thủ như vậy, hiệu quả của chúng là đáng lo ngại (ví dụ, nó có thể phát hiện video tổng hợp chất lượng cao nhưng không thể phát hiện video chất lượng thấp).’

Các nhà nghiên cứu quan sát, trong trường hợp này, rằng ‘tính xác thực’ là tương đối:

‘[Ngay cả] nếu một video tổng hợp là không thực đối với con người, nó vẫn có thể vượt qua cơ chế phát hiện chống deepfake hiện tại với tỷ lệ thành công rất cao.’

Trên, hình ảnh deepfake mẫu có thể xác thực trong các thí nghiệm của tác giả. Dưới, hình ảnh giả mạo rõ ràng hơn nhưng không thể xác thực.

Một phát hiện khác là cấu hình hiện tại của các hệ thống xác thực khuôn mặt chung bị thiên vị về nam giới da trắng. Do đó, các danh tính nữ và không phải da trắng được tìm thấy có hiệu quả hơn trong việc vượt qua các hệ thống xác thực, khiến khách hàng trong các danh mục này dễ bị vi phạm thông qua các kỹ thuật dựa trên deepfake.

Báo cáo tìm thấy rằng các danh tính nam giới da trắng được đánh giá nghiêm ngặt và chính xác nhất bởi các API xác thực sống của khuôn mặt phổ biến. Trong bảng trên, chúng ta thấy các danh tính nữ và không phải da trắng có thể dễ dàng vượt qua các hệ thống hơn.

Báo cáo quan sát rằng ‘có sự thiên vị trong [Xác thực Sống của Khuôn mặt], điều này có thể mang lại rủi ro bảo mật đáng kể cho một nhóm người nhất định.’

Các tác giả cũng đã tiến hành các cuộc tấn công xác thực khuôn mặt đạo đức chống lại một chính phủ Trung Quốc, một hãng hàng không Trung Quốc lớn, một trong những công ty bảo hiểm nhân thọ lớn nhất Trung Quốc và R360, một trong những nhóm đầu tư unicorn lớn nhất thế giới, và báo cáo về việc vượt qua thành công các tổ chức này sử dụng các API được nghiên cứu.

Trong trường hợp của một xác thực thành công cho hãng hàng không Trung Quốc, API hạ nguồn yêu cầu người dùng ‘lắc đầu’ như một bằng chứng chống lại tài liệu deepfake tiềm năng, nhưng điều này đã không hoạt động chống lại khuôn khổ do các nhà nghiên cứu tạo ra, bao gồm sáu kiến trúc deepfake.

Mặc dù hãng hàng không đánh giá việc lắc đầu của người dùng, nhưng nội dung deepfake vẫn có thể vượt qua bài kiểm tra.

Báo cáo lưu ý rằng các tác giả đã liên hệ với các nhà cung cấp liên quan, những người đã được cho là đã công nhận công việc.

Các tác giả đưa ra một loạt các khuyến nghị để cải thiện tình trạng hiện tại của nghệ thuật trong FLV, bao gồm việc từ bỏ xác thực dựa trên hình ảnh đơn (‘Xác thực Sống của Khuôn mặt Dựa trên Hình ảnh’), nơi xác thực dựa trên một khung hình từ luồng camera của khách hàng; một cập nhật linh hoạt và toàn diện hơn về các hệ thống phát hiện deepfake trên các lĩnh vực hình ảnh và giọng nói; việc áp dụng yêu cầu rằng xác thực dựa trên giọng nói trong video của người dùng phải được đồng bộ hóa với chuyển động môi (điều này hiện không được thực hiện); và yêu cầu người dùng thực hiện các cử chỉ và chuyển động mà hiện tại các hệ thống deepfake khó có thể tái tạo (ví dụ, các hình xem xét và che khuất một phần khuôn mặt).

Báo cáo bài báo có tiêu đề Liệu Xem Là Sống? Tái xem xét Bảo mật của Xác thực Sống của Khuôn mặt trong Kỷ nguyên Deepfake, và đến từ các tác giả chính Changjiang Li và Li Wang, cùng năm tác giả khác từ Đại học bang Pennsylvania, Đại học Chiết Giang và Đại học Sơn Đông.

Mục Tiêu Cốt Lõi

Các nhà nghiên cứu đã nhắm vào ‘sáu nhà cung cấp Xác thực Sống của Khuôn mặt (FLV) đại diện nhất’, những người đã được ẩn danh bằng các tên mã trong nghiên cứu.

Các nhà cung cấp được đại diện như sau: ‘BD’ và ‘TC’ đại diện cho một nhà cung cấp tập đoàn có số lượng cuộc gọi API liên quan đến khuôn mặt lớn nhất và thị phần lớn nhất trong các dịch vụ đám mây AI của Trung Quốc; ‘HW’ là ‘một trong những nhà cung cấp có thị trường công cộng lớn nhất của Trung Quốc’; ‘CW’ có tốc độ tăng trưởng nhanh nhất trong tầm nhìn máy tính và đang đạt được vị trí dẫn đầu thị trường’; ‘ST’ là một trong những nhà cung cấp tầm nhìn máy tính lớn nhất; và ‘iFT’ nằm trong số các nhà cung cấp phần mềm AI lớn nhất của Trung Quốc.

Dữ Liệu và Kiến Trúc

Dữ liệu cơ bản cho dự án bao gồm một tập dữ liệu 625.537 hình ảnh từ sáng kiến Trung Quốc CelebA-Spoof, cùng với các video trực tiếp từ tập dữ liệu SiW-M năm 2019 của Đại học bang Michigan.

Tất cả các thí nghiệm đều được thực hiện trên một máy chủ có hai CPU Intel Xeon E5-2640 v4 2,40GHz chạy trên 256 GB RAM với ổ cứng 4TB và bốn card đồ họa NVIDIA 1080Ti, với tổng cộng 44GB VRAM hoạt động.

Sáu Trong Một

Khuôn khổ do các tác giả của bài báo tạo ra được gọi là LiveBugger, và bao gồm sáu khuôn khổ deepfake hiện đại nhất được triển khai chống lại bốn biện pháp phòng thủ chính trong các hệ thống FLV.

LiveBugger chứa các phương pháp deepfake đa dạng và tập trung vào bốn vector tấn công chính trong các hệ thống FLV.

Sáu khuôn khổ deepfake được sử dụng là: khuôn khổ X2Face của Đại học Oxford năm 2018; sự hợp tác học thuật của Mỹ ICface; hai biến thể của dự án FSGAN của Israel năm 2019; khuôn khổ Phương pháp Đầu tiên (FOMM) của Ý từ đầu năm 2020; và sự hợp tác giữa Đại học Bắc Kinh và Microsoft Research FaceShifter (mặc dù FaceShifter không phải là mã nguồn mở, các tác giả đã phải tái tạo nó dựa trên các chi tiết kiến trúc đã xuất bản).

Các phương pháp được sử dụng trong số các khuôn khổ này bao gồm việc sử dụng video được kết xuất trước trong đó các đối tượng của video giả mạo thực hiện các hành động được trích xuất từ các yêu cầu xác thực API trong một mô-đun đánh giá trước của LiveBugger, và cũng việc sử dụng ‘kịch bản deepfake hiệu quả’, chuyển các chuyển động trực tiếp của một cá nhân thành một luồng deepfake đã được chèn vào luồng webcam được khai thác.

Một ví dụ về điều sau là DeepFaceLive, đã ra mắt vào mùa hè trước như một chương trình phụ trợ cho DeepFaceLab phổ biến, để cho phép phát trực tiếp deepfake theo thời gian thực, nhưng không được bao gồm trong nghiên cứu của các tác giả.

Tấn Công Bốn Vector

Bốn vector tấn công trong một hệ thống FLV điển hình là: xác thực dựa trên hình ảnh, sử dụng một ảnh đơn được cung cấp bởi người dùng làm token xác thực chống lại một ID khuôn mặt được ghi lại trong hệ thống; xác thực dựa trên im lặng, yêu cầu người dùng tải lên một đoạn video; xác thực dựa trên hành động, yêu cầu người dùng thực hiện các hành động được chỉ định bởi nền tảng; và xác thực dựa trên giọng nói, khớp mẫu giọng nói của người dùng với mẫu giọng nói trong cơ sở dữ liệu của hệ thống.

Thử thách đầu tiên cho hệ thống là thiết lập mức độ mà một API sẽ tiết lộ các yêu cầu của nó, vì chúng có thể được dự đoán và đáp ứng trong quá trình tạo deepfake. Điều này được xử lý bởi Bộ máy Thông minh trong LiveBugger, thu thập thông tin về các yêu cầu từ tài liệu API công khai và các nguồn khác.

vì các yêu cầu được xuất bản có thể vắng mặt (vì nhiều lý do) từ các quy trình thực tế của API, Bộ máy Thông minh bao gồm một thăm dò thu thập thông tin ngầm dựa trên kết quả của các cuộc gọi API thăm dò. Trong dự án nghiên cứu, điều này được tạo điều kiện bởi các API ‘thử nghiệm’ ngoại tuyến chính thức được cung cấp cho lợi ích của các nhà phát triển, và cũng bởi các tình nguyện viên đã cung cấp tài khoản trực tiếp của họ để thử nghiệm.

Bộ máy Thông minh tìm kiếm bằng chứng về việc liệu một API có đang sử dụng một phương pháp cụ thể có thể hữu ích trong các cuộc tấn công hay không. Các tính năng của loại này có thể bao gồm phát hiện sự nhất quán, kiểm tra xem các khung hình trong video có liên tục về thời gian hay không – một yêu cầu có thể được thiết lập bằng cách gửi các khung hình video bị xáo trộn và quan sát xem điều này có góp phần vào việc thất bại trong xác thực hay không.

Mô-đun cũng tìm kiếm Phát hiện Ngôn ngữ Môi, nơi API có thể kiểm tra xem âm thanh trong video có đồng bộ với chuyển động môi của người dùng hay không (hiếm khi xảy ra – xem ‘Kết quả’ dưới đây).

Kết Quả

Các tác giả đã phát hiện ra rằng tất cả sáu API được đánh giá đều không sử dụng phát hiện sự nhất quán tại thời điểm thí nghiệm, cho phép động cơ deepfake trong LiveBugger chỉ cần khâu các âm thanh tổng hợp với video deepfake, dựa trên tài liệu được đóng góp từ các tình nguyện viên.

Tuy nhiên, một số ứng dụng hạ nguồn (tức là khách hàng của các khuôn khổ API) đã được tìm thấy có thêm phát hiện sự nhất quán vào quá trình, đòi hỏi phải ghi lại trước một video được thiết kế để tránh điều này.

Ngoài ra, chỉ có một số nhà cung cấp API sử dụng phát hiện ngôn ngữ môi; đối với hầu hết họ, video và âm thanh được phân tích như các lượng riêng biệt, và không có chức năng nào cố gắng khớp chuyển động môi với âm thanh được cung cấp.

Các kết quả đa dạng trong phạm vi các kỹ thuật giả mạo có sẵn trong LiveBugger chống lại các vector tấn công khác nhau trong các API FLV. Các số cao hơn cho thấy tỷ lệ thành công cao hơn trong việc thâm nhập FLV bằng các kỹ thuật deepfake. Không phải tất cả các API đều bao gồm tất cả các biện pháp phòng thủ có thể có cho FLV; ví dụ, một số không cung cấp bất kỳ biện pháp phòng thủ nào chống lại deepfakes, trong khi những API khác không kiểm tra xem chuyển động môi và âm thanh có khớp trong video được người dùng gửi trong quá trình xác thực hay không.

Kết Luận

Kết quả và chỉ dẫn của bài báo về tương lai của các API FLV là phức tạp, và các tác giả đã kết hợp chúng thành một ‘kiến trúc của các điểm yếu’ có thể giúp các nhà phát triển FLV hiểu rõ hơn về một số vấn đề được phát hiện

Mạng lưới khuyến nghị của bài báo về sự dễ bị tổn thương hiện tại và tiềm năng của các quy trình xác thực khuôn mặt dựa trên video đối với cuộc tấn công deepfake.

Các khuyến nghị lưu ý:

‘Rủi ro bảo mật của FLV rộng rãi tồn tại trong nhiều ứng dụng thực tế và do đó đe dọa đến bảo mật của hàng triệu người dùng cuối.’

Các tác giả cũng quan sát rằng việc sử dụng xác thực dựa trên hành động là ‘thiểu số’, và việc tăng số lượng hành động mà người dùng phải thực hiện ‘không thể mang lại bất kỳ lợi ích bảo mật nào’.

Hơn nữa, các tác giả lưu ý rằng việc kết hợp nhận dạng giọng nói và nhận dạng khuôn mặt thời gian (trong video) là một biện pháp phòng thủ vô ích trừ khi các nhà cung cấp API bắt đầu yêu cầu chuyển động môi được đồng bộ hóa với âm thanh.

Bài báo được đưa ra trong bối cảnh một cảnh báo gần đây của FBI về nguy cơ của gian lận deepfake đối với doanh nghiệp, gần một năm sau khi họ dự đoán về việc sử dụng công nghệ này trong các hoạt động ảnh hưởng nước ngoài và lo ngại chung rằng công nghệ deepfake trực tiếp sẽ tạo điều kiện cho một làn sóng tội phạm mới đối với một công chúng vẫn tin tưởng vào các kiến trúc bảo mật xác thực video.

Đây vẫn là những ngày đầu của deepfake như một bề mặt tấn công xác thực; vào năm 2020, 35 triệu đô la đã được chiết xuất gian lận từ một ngân hàng ở UAE bằng cách sử dụng công nghệ âm thanh deepfake, và một giám đốc điều hành của Anh cũng bị lừa đảo để chi trả 243.000 đô la vào năm 2019.

Được xuất bản lần đầu vào ngày 23 tháng 2 năm 2022.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]