Trí tuệ nhân tạo
Các nhà nghiên cứu xác định một đặc điểm bền bỉ của Deepfakes có thể hỗ trợ phát hiện lâu dài

Kể từ khi các giải pháp phát hiện deepfake đầu tiên bắt đầu xuất hiện vào năm 2018, lĩnh vực nghiên cứu tầm nhìn máy tính và bảo mật đã tìm cách định nghĩa một đặc điểm thiết yếu của video deepfake – tín hiệu có thể chứng minh được khả năng chống lại sự cải tiến trong các công nghệ tổng hợp khuôn mặt phổ biến (như các gói deepfake dựa trên autoencoder như DeepFaceLab và FaceSwap, và việc sử dụng Mạng đối lập sinh để tái tạo, mô phỏng hoặc thay đổi khuôn mặt con người).
Nhiều ‘dấu hiệu’ như thiếu chớp mắt, đã trở nên lỗi thời do sự cải tiến của deepfakes, trong khi việc sử dụng các kỹ thuật chứng nhận số (như Sáng kiến chứng thực nội dung do Adobe dẫn đầu) – bao gồm cả phương pháp blockchain và đánh dấu số của các bức ảnh nguồn tiềm năng – hoặc yêu cầu thay đổi lớn và tốn kém đối với cơ thể hình ảnh nguồn hiện có trên internet, hoặc ngược lại sẽ cần một nỗ lực hợp tác đáng kể giữa các quốc gia và chính phủ để tạo ra các hệ thống giám sát và xác thực.
Do đó, sẽ rất hữu ích nếu một đặc điểm cơ bản và bền bỉ có thể được nhận ra trong nội dung hình ảnh và video có khuôn mặt con người bị thay đổi, bịa đặt hoặc hoán đổi danh tính; một đặc điểm có thể được suy luận trực tiếp từ các video bị làm giả, mà không cần xác minh lớn, băm tài sản mật mã, kiểm tra ngữ cảnh, đánh giá khả năng, các quy trình phát hiện tập trung vào hiện象 hoặc các phương pháp khác tốn kém để phát hiện deepfake.
Deepfakes trong khung
Một sự hợp tác nghiên cứu mới giữa Trung Quốc và Úc tin rằng họ đã tìm thấy ‘đấng cứu thế’, dưới dạng gián đoạn tính quy tắc.
Các tác giả đã thiết kế một phương pháp so sánh tính toàn vẹn không gian và tính liên tục thời gian của các video thực so với những video chứa nội dung deepfake, và đã phát hiện ra rằng bất kỳ loại can thiệp deepfake nào cũng gián đoạn tính quy tắc của hình ảnh, dù không rõ ràng.
Điều này một phần là do quá trình deepfake chia video mục tiêu thành các khung hình và áp dụng hiệu ứng của mô hình deepfake được đào tạo vào từng khung hình (thay thế). Các phân phối deepfake phổ biến hoạt động giống như các nhà làm phim hoạt hình, ở khía cạnh này, dành nhiều sự chú ý đến tính xác thực của từng khung hình hơn là đóng góp của từng khung hình vào tính toàn vẹn không gian và tính liên tục thời gian chung của video.

Từ bài viết: A) Sự khác biệt giữa các loại dữ liệu. Ở đây, chúng ta thấy rằng sự gián đoạn p-fake thay đổi chất lượng không gian-thời gian của hình ảnh theo cùng một cách như deepfake, mà không thay thế danh tính. B) Phân tích nhiễu của ba loại dữ liệu, cho thấy p-fake bắt chước sự gián đoạn deepfake. C) Một hình ảnh thời gian của ba loại dữ liệu, với dữ liệu thực chứng minh sự toàn vẹn lớn hơn trong dao động. D) hình ảnh T-SNE của các tính năng được trích xuất cho video thực, giả và p-fake. Nguồn: https://arxiv.org/pdf/2207.10402.pdf
Điều này không phải là cách một codec video xử lý một loạt các khung hình khi một bản ghi gốc đang được thực hiện hoặc xử lý. Để tiết kiệm dung lượng tệp hoặc làm cho video phù hợp với phát trực tuyến, một lượng lớn thông tin được loại bỏ bởi codec video. Ngay cả ở cài đặt chất lượng cao nhất, codec sẽ phân bổ khung hình chính (một biến có thể được đặt bởi người dùng) – các hình ảnh hoàn chỉnh, hầu như không bị nén, xảy ra ở khoảng thời gian cố định trong video.
Các khung hình giữa các khung hình chính được ước tính đến một mức độ nào đó như một biến thể của các khung hình và sẽ tái sử dụng càng nhiều thông tin càng có thể từ các khung hình chính liền kề, thay vì trở thành các khung hình hoàn chỉnh theo đúng nghĩa.

Bên trái, một khung hình chính hoàn chỉnh, hoặc ‘i-frame’, được lưu trữ trong video nén, với một chi phí nhất định về dung lượng tệp; bên phải, một khung hình ‘delta’ giữa các khung hình chính tái sử dụng bất kỳ phần nào của khung hình chính dữ liệu phong phú hơn. Nguồn: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/
Theo cách này, khối (chứa x số khung hình, tùy thuộc vào cài đặt khung hình chính) có thể được coi là đơn vị nhỏ nhất được xem xét trong một video nén điển hình, thay vì bất kỳ khung hình riêng lẻ nào. Ngay cả khung hình chính, được gọi là i-frame, cũng là một phần của đơn vị đó.
Về mặt hoạt hình truyền thống, một codec đang thực hiện một loài tweening, với các khung hình chính hoạt động như cột mốc cho các khung hình giữa các khung hình chính, được gọi là khung hình delta.

Ngược lại, việc chồng chập deepfake dành sự chú ý và tài nguyên khổng lồ cho từng khung hình riêng lẻ, mà không xem xét ngữ cảnh rộng lớn hơn của khung hình đó, và không cho phép cách nén và mã hóa dựa trên khối ảnh hưởng đến các đặc điểm của video ‘thực’.

Một cái nhìn gần hơn về sự gián đoạn giữa chất lượng thời gian của một video đích thực (bên trái) và cùng một video khi nó bị gián đoạn bởi deepfakes (bên phải).
Mặc dù một số deepfakers tốt hơn sử dụng hậu xử lý rộng rãi, trong các gói như After Effects, và mặc dù phân phối DeepFaceLab có khả năng bản địa để áp dụng các thủ tục ‘trộn’ như mờ chuyển động, nhưng những thủ thuật này không ảnh hưởng đến sự không khớp giữa chất lượng không gian và thời gian giữa các video đích thực và deepfaked.
<bài viết mới có tiêu đề Phát hiện Deepfake bằng cách tạo ra sự gián đoạn tính quy tắc không gian-thời gian, và đến từ các nhà nghiên cứu tại Đại học Tsinghua, Bộ phận Công nghệ Tầm nhìn Máy tính (VIS) tại Baidu Inc., và Đại học Melbourne
Video ‘giả’ giả
Các nhà nghiên cứu đứng sau bài viết đã kết hợp chức năng của nghiên cứu vào một mô-đun cắm và phát tên là Pseudo-fake Generator (P-fake Generator), biến các video thực thành video giả-deepfake, bằng cách làm gián đoạn chúng theo cùng một cách mà quá trình deepfake thực sự làm.
Các thử nghiệm chỉ ra rằng mô-đun này có thể được thêm vào tất cả các hệ thống phát hiện deepfake hiện có với chi phí tài nguyên gần như bằng không, và rằng nó cải thiện đáng kể hiệu suất của chúng.
Khám phá này có thể giúp giải quyết một trong những chướng ngại vật khác trong nghiên cứu phát hiện deepfake: sự thiếu hụt các tập dữ liệu đích thực và cập nhật. Vì việc tạo deepfake là một quá trình phức tạp và tốn thời gian, cộng đồng đã phát triển một số tập dữ liệu deepfake trong năm năm qua, nhiều trong số đó đã khá lỗi thời.
Bằng cách cô lập sự gián đoạn tính quy tắc như một tín hiệu deepfake-agnostic cho các video bị thay đổi sau khi thực tế, phương pháp mới này làm cho nó có thể tạo ra các mẫu và tập dữ liệu video không giới hạn tập trung vào khía cạnh này của deepfakes.

Tổng quan về khối STE, nơi convolution thời gian kênh được sử dụng như một kích thích để tạo ra mã hóa không gian-thời gian được tăng cường, dẫn đến cùng một chữ ký mà thậm chí một deepfake rất thuyết phục sẽ tạo ra. Bằng cách này, các video ‘giả’ giả có thể được tạo ra mang cùng các đặc điểm chữ ký như bất kỳ video nào bị thay đổi theo kiểu deepfake, và không phụ thuộc vào các phân phối cụ thể hoặc các khía cạnh dễ thay đổi như hành vi tính năng hoặc hiện tượng thuật toán.
Thử nghiệm
Các nhà nghiên cứu đã tiến hành các thí nghiệm trên sáu tập dữ liệu được chú ý trong nghiên cứu phát hiện deepfake: FaceForensics++ (FF++); WildDeepFake; Thử thách phát hiện Deepfake (DFDCP); Celeb-DF; Phát hiện Deepfake (DFD); và Face Shifter (FSh).
Đối với FF++, các nhà nghiên cứu đã đào tạo mô hình của họ trên tập dữ liệu ban đầu và thử nghiệm từng tập con riêng biệt. Không sử dụng bất kỳ tài liệu deepfake nào trong quá trình đào tạo, phương pháp mới này đã vượt qua kết quả của các phương pháp hiện có.

Phương pháp này cũng đứng đầu khi so sánh với tập dữ liệu FF++ C23 nén, cung cấp các ví dụ về các hiện象 nén mà đáng tin cậy trong môi trường xem deepfake thực tế.

Các tác giả nhận xét:
‘Hiệu suất trong FF++ xác nhận tính khả thi của ý tưởng chính của chúng tôi, trong khi tính tổng quát vẫn là một vấn đề lớn của các phương pháp phát hiện deepfake hiện có, vì hiệu suất không được đảm bảo khi thử nghiệm trên deepfakes được tạo ra bởi các kỹ thuật không được nhìn thấy.
‘Hãy xem xét thêm thực tế của cuộc chiến giữa các bộ phát hiện và tạo giả, tính tổng quát là một tiêu chí quan trọng để đo lường hiệu quả của một phương pháp phát hiện trong thế giới thực.’
Mặc dù các nhà nghiên cứu đã thực hiện một số thử nghiệm phụ (xem bài viết để biết chi tiết) xung quanh ‘khả năng chống chịu’, và thay đổi các loại video đầu vào (tức là thực, giả, p-fake, v.v.), kết quả thú vị nhất là từ thử nghiệm về hiệu suất giữa các tập dữ liệu.
Đối với thử nghiệm này, các tác giả đã đào tạo mô hình của họ trên phiên bản ‘thế giới thực’ c23 của FF++ và thử nghiệm nó với bốn tập dữ liệu, đạt được, theo các tác giả, hiệu suất vượt trội trên tất cả chúng.

Kết quả từ thử nghiệm giữa các tập dữ liệu. Bài viết lưu ý rằng SBI sử dụng một phương pháp tương tự như của các tác giả, trong khi, các nhà nghiên cứu tuyên bố, p-fake cho thấy hiệu suất tốt hơn về sự gián đoạn tính quy tắc không gian-thời gian.
Bài viết tuyên bố:
‘Trên Deepwild đầy thách thức, phương pháp của chúng tôi vượt qua phương pháp SOTA bằng khoảng 10 điểm phần trăm về AUC%. Chúng tôi nghĩ rằng điều này là do sự đa dạng lớn của deepfakes trong Deepwild, điều này khiến các phương pháp khác không thể tổng quát hóa tốt từ các deepfakes đã thấy.’
Các chỉ số được sử dụng cho các thử nghiệm là Điểm số Độ chính xác (ACC), Diện tích dưới Đường cong Receiver Operating Characteristic (AUC) và Tỷ lệ Lỗi Bình đẳng (EER).
Các cuộc tấn công phản công?
Mặc dù truyền thông mô tả căng thẳng giữa các nhà phát triển deepfake và các nhà nghiên cứu phát hiện deepfake theo thuật ngữ của một cuộc chiến công nghệ, nhưng có thể các nhà phát triển chỉ đơn giản là cố gắng tạo ra đầu ra thuyết phục hơn, và sự khó khăn ngày càng tăng trong việc phát hiện deepfake là một sản phẩm phụ của những nỗ lực này.
Liệu các nhà phát triển có cố gắng giải quyết điểm yếu mới được tiết lộ này hay không phụ thuộc vào việc họ có cảm thấy rằng sự gián đoạn tính quy tắc có thể được nhận thức trong một video deepfake bởi mắt thường như một dấu hiệu của sự không đích thực, và do đó chỉ số này đáng được giải quyết từ quan điểm chất lượng thuần túy.
Mặc dù đã năm năm kể từ khi các deepfake đầu tiên được đăng trực tuyến, deepfaking vẫn là một công nghệ tương đối non trẻ, và cộng đồng có thể đang bị ám ảnh bởi chi tiết và độ phân giải hơn là ngữ cảnh chính xác hoặc việc khớp với các chữ ký của video nén, cả hai điều này đòi hỏi phải ‘làm suy giảm’ đầu ra – chính là điều mà toàn bộ cộng đồng deepfake đang phải vật lộn.
Nếu quan điểm chung ở đó trở thành rằng sự gián đoạn tính quy tắc là một chữ ký non trẻ không ảnh hưởng đến chất lượng, có thể sẽ không có nỗ lực để bù đắp cho nó – ngay cả khi nó có thể được ‘hủy bỏ’ bởi một số thủ tục hậu xử lý hoặc kiến trúc, điều này còn xa mới rõ ràng.
Được xuất bản lần đầu tiên vào ngày 22 tháng 7 năm 2022.












