Trí tuệ nhân tạo

Sự Thay Đổi Là Cuộc Cách Mạng Deepfake Tiếp Theo

Published November 17, 2021

Updated April 28, 2026

Martin Anderson

CGI dữ liệu tăng cường đang được sử dụng trong một dự án mới để có được sự kiểm soát lớn hơn đối với hình ảnh deepfake. Mặc dù bạn vẫn không thể sử dụng hiệu quả các đầu CGI để lấp đầy các khoảng trống thiếu trong các tập dữ liệu khuôn mặt deepfake, nhưng một làn sóng nghiên cứu mới về việc tách biệt danh tính khỏi ngữ cảnh có nghĩa là sớm bạn có thể không cần phải làm như vậy.

Các nhà tạo ra một số video deepfake thành công nhất trong những năm gần đây chọn video nguồn của họ rất cẩn thận, tránh các góc chụp hồ sơ được duy trì (tức là loại ảnh chụp gần giống với các thủ tục bắt giữ của cảnh sát), các góc nhọn và các biểu cảm không bình thường hoặc quá mức. Ngày càng nhiều, các video trình diễn được sản xuất bởi các nhà tạo deepfake nổi tiếng là các bản biên tập tổng hợp chọn các góc và biểu cảm ‘dễ nhất’ để deepfake.

Thực tế, video mục tiêu dễ nhất để chèn một deepfaked nổi tiếng là một trong đó người gốc (các danh tính sẽ bị xóa bởi deepfake) đang nhìn thẳng vào máy ảnh, với một phạm vi biểu cảm tối thiểu.

Hầu hết các deepfakes phổ biến trong những năm gần đây đã hiển thị các đối tượng trực tiếp đối mặt với máy ảnh, và либо chỉ có các biểu cảm phổ biến (như mỉm cười), mà có thể dễ dàng trích xuất từ đầu ra của nhiếp ảnh gia báo chí trên thảm đỏ, hoặc (như với giả mạo năm 2019 của Sylvester Stallone như Terminator, hình bên trái), lý tưởng nhất là không có biểu cảm nào, vì các biểu cảm trung tính rất phổ biến, khiến chúng dễ dàng kết hợp vào các mô hình deepfake.

Bởi vì các công nghệ deepfake như DeepFaceLab và FaceSwap thực hiện các hoán đổi đơn giản rất tốt, chúng tôi đủ bị choáng ngợp bởi những gì họ đạt được để không nhận thấy những gì họ không thể làm, và – thường – không thậm chí cố gắng:

Grabs từ một video deepfake được hoan nghênh nơi Arnold Schwarzenegger được biến thành Sylvester Stallone – trừ khi các góc quá khó. Các hồ sơ vẫn là một vấn đề dai dẳng với các phương pháp deepfake hiện tại, một phần vì phần mềm mã nguồn mở được sử dụng để định nghĩa tư thế khuôn mặt trong các khung deepfake không được tối ưu hóa cho các góc nhìn bên, nhưng chủ yếu là do sự thiếu thốn của vật liệu nguồn phù hợp trong một hoặc cả hai tập dữ liệu cần thiết. Nguồn: https://www.youtube.com/watch?v=AQvCmQFScMA

Nghiên cứu mới từ Israel đề xuất một phương pháp mới để sử dụng dữ liệu tổng hợp, chẳng hạn như các đầu CGI, để đưa deepfaking vào những năm 2020, bằng cách thực sự tách biệt danh tính khuôn mặt (tức là các đặc điểm khuôn mặt thiết yếu của ‘Tom Cruise’, từ tất cả các góc) khỏi ngữ cảnh của chúng (tức là nhìn lên, nhìn sang bên, càu gắt, càu gắt trong bóng tối, nhăn nhó, đóng mắt, v.v.).

Hệ thống mới tách biệt tư thế và ngữ cảnh (tức là nháy mắt) từ mã hóa danh tính của cá nhân, sử dụng dữ liệu khuôn mặt tổng hợp không liên quan (hình bên trái). Ở hàng trên cùng, chúng ta thấy một ‘nháy’ được chuyển sang danh tính của Barack Obama, được kích hoạt bởi đường dẫn phi tuyến tính của không gian tiềm ẩn của GAN, được biểu diễn bởi hình ảnh CGI bên trái. Ở hàng dưới, chúng ta thấy góc miệng bị kéo giãn được chuyển sang cựu Tổng thống. Phía dưới bên phải, chúng ta thấy cả hai đặc điểm được áp dụng đồng thời. Nguồn: https://arxiv.org/pdf/2111.08419.pdf

Đây không phải là deepfake đầu rối, một kỹ thuật phù hợp hơn với các nhân vật và đồng bộ hóa môi lip một phần, và có tiềm năng hạn chế cho các biến đổi video deepfake đầy đủ.

Thay vào đó, đây đại diện cho một cách tiến bộ cho một sự tách biệt cơ bản giữa công cụ (chẳng hạn như ‘thay đổi góc của đầu’, ‘tạo một cau gắt’) từ danh tính, cung cấp một con đường đến một khung deepfake tổng hợp hình ảnh cao cấp hơn là ‘phụ’.

Tiêu đề của bài báo mới là Delta-GAN-Encoder: Mã hóa các thay đổi ngữ nghĩa cho chỉnh sửa hình ảnh rõ ràng, sử dụng ít mẫu tổng hợp, và đến từ các nhà nghiên cứu tại Technion – Viện Công nghệ Israel.

Để hiểu ý nghĩa của công việc này, hãy xem cách các deepfakes được sản xuất hiện nay từ các trang web deepfake khiêu dâm đến Industrial Light and Magic (kể từ khi kho lưu trữ mã nguồn mở DeepFaceLab hiện đang chiếm ưu thế trong cả ‘nghiệp dư’ và deepfaking chuyên nghiệp).

Điều Gì Đang Cản Trở Công Nghệ Deepfake Hiện Tại?

Deepfakes hiện được tạo ra bằng cách đào tạo một mô hình máy học mã hóa/đ解 mã trên hai thư mục hình ảnh khuôn mặt – người bạn muốn ‘vẽ chồng’ (trong ví dụ trước, đó là Arnie) và người bạn muốn chồng lên footage (Sly).

Ví dụ về các tư thế và điều kiện chiếu sáng khác nhau trên hai tập dữ liệu khuôn mặt khác nhau. Lưu ý biểu cảm đặc biệt ở cuối hàng thứ ba trong cột A, điều này không thể có một bản tương đương gần gũi trong tập dữ liệu khác.

Hệ thống mã hóa/đối mã hóa sau đó so sánh mỗi hình ảnh trong mỗi thư mục với nhau, duy trì, cải thiện và lặp lại hoạt động này hàng trăm nghìn lần (thường trong một tuần), cho đến khi nó hiểu các đặc điểm thiết yếu của cả hai danh tính đủ tốt để hoán đổi chúng theo ý muốn.

Đối với mỗi người trong hai người được hoán đổi trong quá trình này, những gì kiến trúc deepfake học được về danh tính là đan xen với ngữ cảnh. Nó không thể học và áp dụng các nguyên tắc về một tư thế ‘tốt và luôn luôn’, mà cần nhiều ví dụ trong tập dữ liệu đào tạo, cho mỗi và mọi danh tính sẽ được tham gia vào việc hoán đổi khuôn mặt.

Do đó, nếu bạn muốn hoán đổi hai danh tính đang làm điều gì đó không bình thường hơn là chỉ mỉm cười hoặc nhìn thẳng vào máy ảnh, bạn sẽ cần nhiều ví dụ về tư thế/đặc điểm đó trên cả hai tập dữ liệu khuôn mặt:

Bởi vì danh tính khuôn mặt và đặc điểm tư thế hiện được gắn kết chặt chẽ, một sự tương đương rộng rãi về biểu cảm, tư thế đầu và (đến mức độ thấp hơn) chiếu sáng là cần thiết trên hai tập dữ liệu khuôn mặt để đào tạo một mô hình deepfake hiệu quả trên hệ thống như DeepFaceLab. Càng ít một cấu hình cụ thể (chẳng hạn như ‘góc nhìn bên/mỉm cười/chiếu sáng mặt trời’) được trình bày trong cả hai tập dữ liệu khuôn mặt, càng ít chính xác nó sẽ hiển thị trong một video deepfake, nếu cần.

Nếu tập A chứa tư thế không bình thường, nhưng tập B thiếu nó, bạn hầu như không may mắn; dù bạn đào tạo mô hình trong bao lâu, nó sẽ không bao giờ học cách tái tạo tư thế đó tốt giữa các danh tính, vì nó chỉ có một nửa thông tin cần thiết khi nó được đào tạo.

Thậm chí nếu bạn có hình ảnh trùng khớp, nó có thể không đủ: nếu tập A có tư thế trùng khớp, nhưng với chiếu sáng bên mạnh, so với tư thế tương đương được chiếu sáng phẳng trong tập dữ liệu khuôn mặt khác, chất lượng của việc hoán đổi sẽ không tốt như nếu mỗi tập dữ liệu chia sẻ các đặc điểm chiếu sáng chung.

Tại Sao Dữ Liệu Là Hiếm?

Trừ khi bạn bị bắt thường xuyên, bạn có thể không có nhiều ảnh chụp hồ sơ của mình. Bất kỳ ảnh nào xuất hiện, bạn có thể đã vứt chúng đi. Vì các cơ quan ảnh cũng làm như vậy, các ảnh chụp hồ sơ khuôn mặt rất khó tìm.

Các nhà tạo deepfake thường bao gồm nhiều bản sao của dữ liệu hồ sơ góc nhìn bên hạn chế mà họ có cho một danh tính trong một tập dữ liệu khuôn mặt, chỉ để tư thế đó nhận được ít nhất một chút chú ý và thời gian trong quá trình đào tạo, thay vì bị loại bỏ như một dữ liệu ngoại lệ.

Nhưng có nhiều loại ảnh khuôn mặt góc nhìn bên có thể hơn là có thể có sẵn để bao gồm trong một tập dữ liệu – mỉm cười, càu gắt, hét lên, khóc, chiếu sáng yếu, khinh thường, chán, vui vẻ, chiếu sáng flash, nhìn lên, nhìn xuống, mắt mở, mắt đóng…v.v. Bất kỳ tư thế nào trong số này, trong nhiều kết hợp, có thể được cần thiết trong một video deepfake mục tiêu.

Và đó chỉ là hồ sơ. Bạn có bao nhiêu ảnh của mình nhìn thẳng lên? Bạn có đủ để đại diện rộng rãi cho 10.000 biểu cảm có thể bạn có thể đang mặc trong khi giữ tư thế chính xác đó từ góc máy ảnh chính xác đó, bao gồm ít nhất một số một triệu môi trường chiếu sáng có thể?

Có thể bạn không thậm chí có một ảnh của mình nhìn lên. Và đó chỉ là hai góc trong số hàng trăm góc cần thiết cho phạm vi đầy đủ.

Thậm chí nếu có thể tạo ra phạm vi đầy đủ của một khuôn mặt từ tất cả các góc dưới các điều kiện chiếu sáng khác nhau, tập dữ liệu kết quả sẽ quá lớn để đào tạo, thuộc hàng trăm nghìn ảnh; và thậm chí nếu nó có thể được đào tạo, bản chất của quá trình đào tạo cho các khung deepfake hiện tại sẽ loại bỏ phần lớn dữ liệu bổ sung này để ủng hộ một số tính năng phái sinh hạn chế, vì các khung hiện tại là giảm thiểu và không có khả năng mở rộng.

Thay Thế Tổng Hợp

Kể từ khi deepfakes ra đời, các nhà tạo deepfake đã thử nghiệm việc sử dụng hình ảnh kiểu CGI, đầu được tạo trong các ứng dụng 3D như Cinema4D và Maya, để tạo ra những ‘tư thế thiếu’.

Không cần AI; một nữ diễn viên được tái tạo trong một chương trình CGI truyền thống, Cinema 4D, sử dụng lưới và kết cấu bitmapped – công nghệ có từ những năm 1960, mặc dù chỉ được sử dụng rộng rãi từ những năm 1990. Về lý thuyết, mô hình khuôn mặt này có thể được sử dụng để tạo ra dữ liệu nguồn deepfake cho các tư thế và biểu cảm khuôn mặt không bình thường. Trong thực tế, nó đã không có hoặc ít có ích trong deepfaking, vì ‘sự giả tạo’ của các kết xuất có xu hướng thấm qua trong các video được hoán đổi. Nguồn: hình ảnh của tác giả bài viết tại https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Phương pháp này thường bị bỏ rơi sớm bởi những người thực hành deepfake mới, vì mặc dù nó có thể cung cấp các tư thế và biểu cảm không có sẵn khác, nhưng ngoại hình tổng hợp của các khuôn mặt CGI thường thấm qua vào các hoán đổi do sự đan xen của ID và thông tin ngữ cảnh/semantics.

Điều này có thể dẫn đến việc xuất hiện đột ngột của các khuôn mặt ‘thung lũng không thoải mái’ trong một video deepfake thuyết phục khác, khi thuật toán bắt đầu dựa vào dữ liệu duy nhất nó có thể có cho một tư thế hoặc biểu cảm không bình thường – khuôn mặt giả rõ ràng.

Trong số những chủ đề phổ biến nhất cho các nhà tạo deepfake, một thuật toán deepfake 3D cho nữ diễn viên người Úc Margot Robbie được bao gồm trong cài đặt mặc định của DeepFaceLive, một phiên bản của DeepFaceLab có thể thực hiện deepfakes trong một luồng trực tiếp, chẳng hạn như một phiên buổi quay webcam. Một phiên bản CGI, như hình trên, có thể được sử dụng để có được các ‘góc nhìn thiếu’ không bình thường trong các tập dữ liệu deepfake. Nguồn: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Khuôn Mặt CGI Là Hướng Dẫn Khái Niệm Độc Lập

Thay vào đó, phương pháp Delta-GAN Encoder (DGE) mới từ các nhà nghiên cứu Israel hiệu quả hơn, vì thông tin tư thế và ngữ cảnh từ các hình ảnh CGI đã được tách biệt hoàn toàn khỏi ‘danh tính’ thông tin của mục tiêu.

Chúng ta có thể thấy nguyên tắc này hoạt động trong hình ảnh dưới đây, nơi các hướng đầu khác nhau đã được thu được bằng cách sử dụng hình ảnh CGI làm hướng dẫn. Vì các đặc điểm danh tính không liên quan đến các đặc điểm ngữ cảnh, không có sự thấm qua nào của sự xuất hiện giả của khuôn mặt CGI, cũng không có sự thấm qua của danh tính được miêu tả trong đó:

Với phương pháp mới, bạn không cần tìm ba ảnh nguồn riêng biệt để thực hiện một deepfake từ nhiều góc – bạn chỉ cần xoay đầu CGI, các đặc điểm trừu tượng cao cấp của nó được áp đặt lên danh tính mà không rò rỉ bất kỳ thông tin ID nào.

Delta-GAN-Encoder. Nhóm trên cùng bên trái: góc của một ảnh nguồn có thể được thay đổi trong một giây để hiển thị một ảnh nguồn mới, được phản ánh trong đầu ra; nhóm trên cùng bên phải: chiếu sáng cũng được tách biệt khỏi danh tính, cho phép chồng lên các phong cách chiếu sáng; nhóm dưới cùng bên trái: nhiều chi tiết khuôn mặt được thay đổi để tạo ra một biểu cảm ‘buồn’; nhóm dưới cùng bên phải: một chi tiết biểu cảm khuôn mặt duy nhất được thay đổi, để mắt nhíu.

Sự tách biệt này giữa danh tính và ngữ cảnh được thực hiện trong giai đoạn đào tạo. Đường ống cho kiến trúc deepfake mới tìm kiếm vectơ tiềm ẩn trong một Mạng Đối Nghịch Tạo (GAN) được đào tạo trước đó mà khớp với ảnh cần biến đổi – một phương pháp Sim2Real xây dựng trên một dự án năm 2018 từ phần nghiên cứu AI của IBM.

Các nhà nghiên cứu quan sát:

‘Với chỉ một vài mẫu, khác nhau bởi một thuộc tính cụ thể, một người có thể học hành vi tách biệt của một mô hình tạo sinh đan xen được đào tạo trước. Không cần các mẫu thế giới thực chính xác để đạt được mục tiêu đó, điều này không nhất thiết khả thi.

‘Bằng cách sử dụng mẫu dữ liệu không thực tế, mục tiêu相同 có thể đạt được nhờ khai thác các ngữ nghĩa của vectơ tiềm ẩn được mã hóa. Áp dụng các thay đổi mong muốn trên các mẫu dữ liệu hiện có có thể được thực hiện mà không cần khám phá hành vi không gian tiềm ẩn rõ ràng.’

Các nhà nghiên cứu dự đoán rằng các nguyên tắc cơ bản của việc tách biệt được khám phá trong dự án có thể được chuyển sang các lĩnh vực khác, chẳng hạn như mô phỏng kiến trúc nội thất, và rằng phương pháp Sim2Real được áp dụng cho Delta-GAN-Encoder cuối cùng có thể cho phép deepfake dựa trên các bản phác thảo đơn giản, thay vì đầu vào kiểu CGI.

Có thể lập luận rằng mức độ mà hệ thống Israel mới có thể hoặc không thể tổng hợp các video deepfake là ít quan trọng hơn so với tiến bộ mà nghiên cứu đã thực hiện trong việc tách biệt ngữ cảnh khỏi danh tính, trong quá trình đạt được sự kiểm soát lớn hơn đối với không gian tiềm ẩn của một GAN.

Sự tách biệt là một lĩnh vực nghiên cứu tích cực trong tổng hợp hình ảnh; vào tháng 1 năm 2021, một bài báo nghiên cứu do Amazon dẫn đầu đã chứng minh việc kiểm soát tư thế và tách biệt tương tự, và vào năm 2018, một bài báo từ Viện Công nghệ Tiên tiến Thâm Quyến tại Học viện Khoa học Trung Quốc đã đạt được tiến bộ trong việc tạo ra các góc nhìn tùy ý trong một GAN.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]