Connect with us

An ninh mạng

Phát hiện Deepfake trong Hội nghị Truyền hình bằng Chức năng ‘Rung’ của Điện thoại Thông minh

mm
An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

Nghiên cứu mới từ Singapore đã đề xuất một phương pháp mới để phát hiện xem người ở đầu bên kia của công cụ hội nghị truyền hình trên điện thoại thông minh có sử dụng các phương pháp như DeepFaceLive để giả mạo người khác.

Được đặt tên SFake, phương pháp mới này từ bỏ các phương pháp thụ động được sử dụng bởi hầu hết các hệ thống và gây ra điện thoại của người dùng rung (sử dụng cùng cơ chế ‘rung’ phổ biến trên điện thoại thông minh), và làm mờ khuôn mặt của họ một cách tinh vi.

Mặc dù các hệ thống deepfake trực tiếp có khả năng sao chép hiệu ứng mờ chuyển động, miễn là footage mờ đã được bao gồm trong dữ liệu đào tạo, hoặc ít nhất trong dữ liệu tiền đào tạo, chúng không thể phản ứng đủ nhanh với hiệu ứng mờ không mong muốn này và tiếp tục xuất ra các phần khuôn mặt không mờ, tiết lộ sự tồn tại của một cuộc gọi hội nghị deepfake.

DeepFaceLive không thể phản ứng đủ nhanh để mô phỏng hiệu ứng mờ do rung camera. Nguồn: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive không thể phản ứng đủ nhanh để mô phỏng hiệu ứng mờ do rung camera. Nguồn: https://arxiv.org/pdf/2409.10889v1

Kết quả thử nghiệm trên tập dữ liệu tự tạo của các nhà nghiên cứu (vì không có tập dữ liệu tính năng rung camera hiện có) cho thấy SFake vượt trội so với các phương pháp phát hiện deepfake dựa trên video khác, thậm chí khi đối mặt với các tình huống thách thức, chẳng hạn như chuyển động tay tự nhiên xảy ra khi người khác trong hội nghị truyền hình cầm camera bằng tay, thay vì sử dụng giá đỡ điện thoại tĩnh.

Nhu cầu Phát hiện Deepfake Dựa trên Video đang Tăng

Nghiên cứu về phát hiện deepfake dựa trên video đã tăng gần đây. Sau nhiều năm thành công của các vụ trộm cắp giọng nói deepfake, đầu năm nay, một công nhân tài chính đã bị lừa vào việc chuyển 25 triệu đô la cho một kẻ lừa đảo đang giả mạo một CFO trong một cuộc gọi hội nghị truyền hình deepfake.

Mặc dù hệ thống như vậy yêu cầu quyền truy cập phần cứng ở mức cao, nhiều người dùng điện thoại thông minh đã quen với các dịch vụ xác thực tài chính và các loại xác thực khác yêu cầu chúng ta ghi lại các đặc điểm khuôn mặt cho xác thực dựa trên khuôn mặt (thực tế, đây là một phần của quá trình xác thực của LinkedIn).

Do đó, có vẻ như những phương pháp như vậy sẽ ngày càng được áp dụng cho các hệ thống hội nghị truyền hình, khi loại tội phạm này tiếp tục làm tiêu đề.

Hầu hết các giải pháp giải quyết deepfake trực tiếp trong thời gian thực giả định một kịch bản tĩnh, nơi người giao tiếp sử dụng webcam cố định, và không có chuyển động hoặc thay đổi môi trường và ánh sáng quá mức.

Thay vào đó, SFake sử dụng một số phương pháp phát hiện để bù đắp cho số lượng lớn biến thể trực quan trong một hội nghị truyền hình trên điện thoại thông minh cầm tay, và dường như là dự án nghiên cứu đầu tiên giải quyết vấn đề này bằng cách sử dụng thiết bị rung tiêu chuẩn tích hợp trong điện thoại thông minh.

được đặt tên Shaking the Fake: Phát hiện Deepfake Videos trong Thời gian Thực qua Active Probes, và đến từ hai nhà nghiên cứu từ Đại học Công nghệ Nanyang tại Singapore.

Phương pháp

SFake được thiết kế như một dịch vụ dựa trên đám mây, nơi ứng dụng cục bộ sẽ gửi dữ liệu đến dịch vụ API từ xa để xử lý, và kết quả sẽ được gửi trở lại.

Tuy nhiên, kích thước 450mb và phương pháp tối ưu hóa cho phép nó có thể xử lý phát hiện deepfake hoàn toàn trên thiết bị, trong trường hợp kết nối mạng có thể gây ra hình ảnh gửi đi bị nén quá mức, ảnh hưởng đến quá trình chẩn đoán.

Chạy ‘toàn bộ cục bộ’ theo cách này có nghĩa là hệ thống sẽ có quyền truy cập trực tiếp vào luồng camera của người dùng, mà không có sự can thiệp của codec thường liên quan đến hội nghị truyền hình.

Thời gian phân tích trung bình yêu cầu một mẫu video bốn giây, trong đó người dùng được yêu cầu ở yên, và trong đó SFake gửi ‘probes’ để gây ra rung camera tại các khoảng thời gian ngẫu nhiên mà các hệ thống như DeepFaceLive không thể phản ứng kịp thời.

(Nó nên được nhấn mạnh lại rằng bất kỳ kẻ tấn công nào không bao gồm nội dung mờ trong tập dữ liệu đào tạo là không thể tạo ra mô hình có thể tạo ra mờ thậm chí trong hoàn cảnh thuận lợi hơn, và DeepFaceLive không thể chỉ ‘thêm’ chức năng này vào mô hình được đào tạo trên tập dữ liệu dưới tiêu chuẩn)

Hệ thống chọn các khu vực khuôn mặt cụ thể là các khu vực có thể chứa nội dung deepfake, loại trừ mắt và lông mày (vì chớp mắt và các động thái khuôn mặt khác trong khu vực đó nằm ngoài phạm vi phát hiện mờ, và không phải là chỉ số lý tưởng).

Sơ đồ khái niệm cho SFake.

Sơ đồ khái niệm cho SFake.

Như chúng ta có thể thấy trong sơ đồ khái niệm trên, sau khi chọn mẫu rung không thể đoán trước và độ dài tiêu cự tốt nhất, và thực hiện nhận dạng khuôn mặt (bao gồm phát hiện điểm mốc khuôn mặt qua một thành phần Dlib ước tính 68 điểm mốc khuôn mặt tiêu chuẩn), SFake suy ra gradient từ khuôn mặt đầu vào và tập trung vào các khu vực được chọn của các gradient này.

Dãy phương sai được thu được bằng cách phân tích tuần tự từng khung hình trong đoạn ngắn đang được nghiên cứu, cho đến khi đạt được trình tự ‘lý tưởng’ trung bình, và phần còn lại bị bỏ qua.

Điều này cung cấp các tính năng được trích xuất học máy có thể được sử dụng như một lượng định cho xác suất nội dung deepfake, dựa trên cơ sở dữ liệu đã đào tạo (trong đó, thêm một chút).

Hệ thống yêu cầu độ phân giải hình ảnh 1920×1080 pixel, cũng như yêu cầu zoom ít nhất 2x cho ống kính. Bài viết lưu ý rằng những độ phân giải như vậy (và thậm chí cao hơn) được hỗ trợ trong Microsoft Teams, Skype, Zoom và Tencent Meeting.

Hầu hết điện thoại thông minh có camera trước và camera tự chụp, và thường chỉ một trong hai camera này có khả năng zoom yêu cầu bởi SFake; ứng dụng sẽ do đó yêu cầu người giao tiếp sử dụng camera nào đáp ứng các yêu cầu này.

Mục tiêu ở đây là để có được tỷ lệ đúng khuôn mặt người dùng trong luồng video mà hệ thống sẽ phân tích. Bài viết quan sát rằng khoảng cách trung bình mà phụ nữ sử dụng thiết bị di động là 34,7cm, và đối với nam giới, 38,2cm (theo báo cáo trong Journal of Optometry), và SFake hoạt động rất tốt ở những khoảng cách này.

Vì ổn định là vấn đề với video cầm tay, và vì hiệu ứng mờ xảy ra từ chuyển động tay là một trở ngại cho hoạt động của SFake, các nhà nghiên cứu đã thử một số phương pháp để bù đắp. Phương pháp thành công nhất trong số này là tính toán điểm trung tâm của các điểm mốc ước tính và sử dụng nó như một ‘neo’ – hiệu quả là một kỹ thuật ổn định thuật toán. Bằng cách này, độ chính xác 92% đã được đạt được.

Dữ liệu và Kiểm tra

Vì không có tập dữ liệu phù hợp cho mục đích này, các nhà nghiên cứu đã tạo ra tập dữ liệu của riêng họ:

‘[Chúng tôi] sử dụng 8 thương hiệu điện thoại thông minh khác nhau để ghi lại 15 người tham gia với các giới tính và độ tuổi khác nhau để xây dựng tập dữ liệu của riêng chúng tôi. Chúng tôi đặt điện thoại thông minh trên giá đỡ điện thoại 20 cm cách người tham gia và zoom hai lần, nhằm vào khuôn mặt của người tham gia để bao gồm tất cả các đặc điểm khuôn mặt trong khi rung điện thoại thông minh theo các mẫu khác nhau.

‘Đối với điện thoại mà camera trước không thể zoom, chúng tôi sử dụng camera sau làm thay thế. Chúng tôi ghi lại 150 video dài, mỗi video 20 giây. Theo mặc định, chúng tôi giả định rằng thời gian phát hiện kéo dài 4 giây. Chúng tôi cắt 10 đoạn 4 giây từ một video dài bằng cách ngẫu hóa thời gian bắt đầu. Do đó, chúng tôi có tổng cộng 1500 đoạn thực, mỗi đoạn 4 giây dài.’

Mặc dù DeepFaceLive (liên kết GitHub) là mục tiêu trung tâm của nghiên cứu, vì nó hiện là hệ thống deepfake trực tiếp mã nguồn mở được sử dụng rộng rãi nhất, các nhà nghiên cứu đã bao gồm bốn phương pháp khác để đào tạo mô hình phát hiện cơ bản của họ: Hififace; FS-GANV2; RemakerAI; và MobileFaceSwap – cái cuối cùng là một lựa chọn phù hợp,考虑 đến môi trường mục tiêu.

1500 video giả mạo đã được sử dụng để đào tạo, cùng với số lượng video thực và không thay đổi tương đương.

SFake đã được kiểm tra chống lại một số phân loại khác, bao gồm SBI; FaceAF; CnnDetect; LRNet; DefakeHop biến thể; và dịch vụ phát hiện deepfake trực tuyến miễn phí Deepaware. Đối với mỗi phương pháp deepfake này, 1500 video giả và 1500 video thực đã được đào tạo.

Đối với phân loại cơ bản, một mạng nơ-ron đơn giản hai lớp với hàm kích hoạt ReLU đã được sử dụng. 1000 video thực và 1000 video giả đã được chọn ngẫu nhiên (mặc dù các video giả chỉ là ví dụ DeepFaceLive).

Diện tích dưới Đường cong Đặc tính Vận hành Nhận者 (AUC/AUROC) và Độ chính xác (ACC) đã được sử dụng làm chỉ số.

Để đào tạo và suy luận, một NVIDIA RTX 3060 đã được sử dụng, và các thử nghiệm được chạy dưới Ubuntu. Các video thử nghiệm đã được ghi lại với một Xiaomi Redmi 10x, một Xiaomi Redmi K50, một OPPO Find x6, một Huawei Nova9, một Xiaomi 14 Ultra, một Honor 20, một Google Pixel 6a và một Huawei P60.

Để phù hợp với các phương pháp phát hiện hiện có, các thử nghiệm đã được thực hiện trong PyTorch. Kết quả thử nghiệm chính được minh họa trong bảng dưới đây:

Kết quả cho SFake so với các phương pháp cạnh tranh.

Kết quả cho SFake so với các phương pháp cạnh tranh.

Tại đây, các tác giả bình luận:

‘Trong tất cả các trường hợp, độ chính xác phát hiện của SFake vượt quá 95%. Trong số năm thuật toán deepfake, ngoại trừ Hififace, SFake hoạt động tốt hơn chống lại các thuật toán deepfake khác so với sáu phương pháp phát hiện khác. Vì phân loại của chúng tôi được đào tạo bằng hình ảnh giả tạo bởi DeepFaceLive, nó đạt được tốc độ chính xác cao nhất là 98,8% khi phát hiện DeepFaceLive.

‘Khi đối mặt với khuôn mặt giả tạo bởi RemakerAI, các phương pháp phát hiện khác hoạt động kém. Chúng tôi suy đoán điều này có thể là do nén video tự động khi tải xuống từ internet, dẫn đến mất chi tiết hình ảnh và giảm độ chính xác phát hiện. Tuy nhiên, điều này không ảnh hưởng đến phát hiện của SFake, đạt được độ chính xác 96,8% khi phát hiện chống lại RemakerAI.’

Các tác giả lưu ý thêm rằng SFake là hệ thống hoạt động tốt nhất trong kịch bản áp dụng zoom 2x cho ống kính thu, vì điều này làm tăng chuyển động, và là một triển vọng đầy thách thức. Thậm chí trong tình huống này, SFake vẫn có thể đạt được độ chính xác nhận dạng 84% và 83%, tương ứng cho các yếu tố zoom 2,5 và 3.

Kết luận

Một dự án sử dụng điểm yếu của hệ thống deepfake trực tiếp chống lại chính nó là một đề xuất tươi mới trong một năm mà phát hiện deepfake đã bị chi phối bởi các bài báo chỉ khuấy động các phương pháp lâu đời xung quanh phân tích tần số (điều này không miễn nhiễm với các đổi mới trong không gian deepfake).

Vào cuối năm 2022, một hệ thống khác đã sử dụng biến thể độ sáng màn hình làm móc phát hiện; và trong cùng năm đó, bản demo của tôi về khả năng không thể xử lý của DeepFaceLive đối với các góc nhìn ngang 90 độ đã thu hút một số sự quan tâm của cộng đồng.

DeepFaceLive là mục tiêu chính xác cho một dự án như vậy, vì nó chắc chắn là trọng tâm của sự quan tâm tội phạm liên quan đến gian lận hội nghị truyền hình.

Tuy nhiên, tôi gần đây đã thấy một số bằng chứng giai thoại cho rằng hệ thống LivePortrait, hiện rất phổ biến trong cộng đồng VFX, xử lý các góc nhìn ngang tốt hơn DeepFaceLive; sẽ rất thú vị nếu nó có thể được bao gồm trong nghiên cứu này.

 

Được xuất bản lần đầu vào Thứ Ba, ngày 24 tháng 9 năm 2024

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]