Trí tuệ nhân tạo

Bình Minh Của Tình Cảm Deepfaked

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Các nhà nghiên cứu đã phát triển một kỹ thuật học máy mới để áp đặt tùy ý các cảm xúc mới lên khuôn mặt trong video, thích ứng với các công nghệ hiện có đã xuất hiện gần đây như giải pháp để khớp chuyển động môi với lồng tiếng ngôn ngữ nước ngoài.

Nghiên cứu là một sự hợp tác bình đẳng giữa Đại học Northeastern tại Boston và Phòng thí nghiệm Truyền thông tại MIT, và được đặt tên là Invertable Frowns: Video-to-Video Facial Emotion Translation. Mặc dù các nhà nghiên cứu thừa nhận rằng chất lượng ban đầu của kết quả phải được phát triển thông qua nghiên cứu thêm, họ tuyên bố rằng kỹ thuật, được gọi là Wav2Lip-Emotion, là kỹ thuật đầu tiên thuộc loại này để giải quyết trực tiếp việc sửa đổi biểu thức toàn bộ video thông qua các kỹ thuật mạng nơ-ron.

Mã cơ bản đã được phát hành trên GitHub, mặc dù các điểm kiểm tra mô hình sẽ được thêm vào kho lưu trữ mã nguồn mở sau này, các tác giả hứa.

Ở bên trái, một khung ‘buồn’ của video nguồn. Ở bên phải, một khung ‘hạnh phúc’. Ở trung tâm là hai phương pháp mới để tổng hợp các cảm xúc thay thế – hàng trên cùng: một khuôn mặt được che hoàn toàn nơi toàn bộ bề mặt biểu cảm đã được thay thế; hàng dưới cùng: một phương pháp Wav2Lip truyền thống hơn, chỉ thay thế phần dưới của khuôn mặt. Nguồn: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Video Đơn Là Dữ Liệu Nguồn

Trong lý thuyết, những thao túng như vậy có thể đạt được bây giờ thông qua đào tạo toàn diện trên các kho lưu trữ deepfake truyền thống như DeepFaceLab hoặc FaceSwap. Tuy nhiên, quy trình chuẩn sẽ liên quan đến việc sử dụng một bản sắc thay thế cho ‘bản sắc mục tiêu’, chẳng hạn như một diễn viên giả mạo bản sắc mục tiêu, những biểu cảm của họ sẽ được chuyển đến một cá nhân khác, cùng với phần còn lại của hiệu suất. Ngoài ra, các kỹ thuật nhân bản giọng nói deepfake thường được cần thiết để hoàn thành ảo giác.

Hơn nữa, thực sự thay đổi biểu cảm của mục tiêu1>mục tiêu1 trong một video nguồn duy nhất theo các khuôn khổ phổ biến này sẽ liên quan đến việc thay đổi vector căn chỉnh khuôn mặt theo cách mà các kiến trúc này không hiện tại hỗ trợ.

Wav2Lip-Emotion duy trì sự đồng bộ hóa môi của đối thoại âm thanh video gốc trong khi biến đổi các biểu cảm liên quan.

Thay vào đó, Wav2Lip-Emotion hiệu quả tìm cách ‘sao chép và dán’ biểu cảm liên quan đến cảm xúc từ một phần của video và thay thế chúng vào các điểm khác, với sự tiết kiệm dữ liệu nguồn tự áp đặt mà cuối cùng sẽ cung cấp một phương pháp thấp hơn để thao túng biểu cảm.

Các mô hình ngoại tuyến có thể được phát triển sau này được đào tạo trên các video thay thế của người nói, loại bỏ nhu cầu cho bất kỳ video nào chứa một ‘bảng màu’ của các trạng thái biểu cảm mà có thể được sử dụng để thao túng video.

Mục Đích Tiềm Năng

Các tác giả đề xuất một số ứng dụng cho việc sửa đổi biểu cảm, bao gồm một bộ lọc video trực tiếp để bù đắp cho các tác động của PTSD và những người mắc chứng liệt mặt. Bài báo quan sát:

‘Cá nhân với hoặc không có biểu cảm khuôn mặt bị hạn chế có thể được hưởng lợi từ việc điều chỉnh biểu cảm của họ để phù hợp hơn với hoàn cảnh xã hội của họ. Một người có thể muốn thay đổi biểu cảm trong video được hiển thị cho họ. Những người nói có thể đang la hét với nhau trong một hội nghị video, nhưng vẫn muốn thu thập nội dung trong trao đổi của họ mà không có biểu cảm khó chịu. Hoặc một đạo diễn phim có thể muốn tăng cường hoặc giảm bớt biểu cảm của một diễn viên.’

Vì biểu cảm khuôn mặt là một chỉ số chính và cốt lõi của ý định, ngay cả khi nó có thể mài mòn chống lại những lời đang được nói, khả năng thay đổi biểu cảm cũng cung cấp, ở một mức độ nào đó, khả năng thay đổi cách thức giao tiếp được nhận.

Công Việc Trước Đó

Sự quan tâm đến việc thay đổi biểu cảm bằng học máy có từ ít nhất năm 2012, khi một hợp tác giữa Adobe, Facebook và Đại học Rutgers đề xuất một phương pháp để thay đổi biểu cảm bằng cách sử dụng một cách tiếp cận tái tạo hình học 3D dựa trên Tensor, đã áp đặt một lưới CGI lên mỗi khung của video mục tiêu để thực hiện thay đổi.

Nghiên cứu của Adobe/Facebook năm 2012 đã thao túng biểu cảm bằng cách áp đặt các thay đổi CGI truyền thống lên video. Biểu cảm có thể được tăng cường hoặc ức chế. Nguồn: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Mặc dù kết quả rất hứa hẹn, kỹ thuật này rất tốn kém và tài nguyên cần thiết là đáng kể. Tại thời điểm này, CGI đã đi trước các phương pháp dựa trên tầm nhìn máy tính để thao túng không gian tính năng và pixel trực tiếp.

Closely liên quan đến bài báo mới là MEAD, một tập dữ liệu và mô hình tạo biểu cảm được phát hành vào năm 2020, có khả năng tạo ra video ‘đầu nói’, mặc dù không có mức độ tinh vi có thể đạt được bằng cách sửa đổi trực tiếp video nguồn.

Tạo biểu cảm với MEAD năm 2020, một sự hợp tác giữa SenseTime Research, Carnegie Mellon và ba trường đại học Trung Quốc. Nguồn: https://wywu.github.io/projects/MEAD/MEAD.html

Năm 2018, một bài báo khác, có tên GANimation: Hoạt hình khuôn mặt giải phẫu từ một hình ảnh đơn, xuất hiện như một sự hợp tác nghiên cứu học thuật Mỹ/Tây Ban Nha, và sử dụng Mạng Đối nghịch Generative để tăng cường hoặc thay đổi biểu cảm trong hình ảnh tĩnh chỉ.

Thay đổi biểu cảm trong hình ảnh tĩnh với GANimation. Nguồn: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Thay vào đó, dự án mới dựa trên Wav2Lip, đã gây được sự chú ý vào năm 2020 bằng cách cung cấp một phương pháp tiềm năng cho việc đồng bộ hóa lại chuyển động môi để phù hợp với đầu vào giọng nói hoặc bài hát mới (hoặc bài hát) không bao giờ có trong video gốc.

Kiến trúc Wav2Lip ban đầu đã được đào tạo trên một tập hợp các câu nói từ kho lưu trữ của BBC. Để thích ứng Wav2Lip với nhiệm vụ thay đổi biểu cảm, các nhà nghiên cứu ‘tinh chỉnh’ kiến trúc trên tập dữ liệu MEAD được đề cập ở trên.

MEAD bao gồm 40 giờ video với 60 diễn viên đọc cùng một câu trong khi thực hiện nhiều biểu cảm khuôn mặt khác nhau. Các diễn viên đến từ 15 quốc gia khác nhau và cung cấp một loạt các đặc điểm quốc tế nhằm giúp dự án (và các dự án phái sinh) tạo ra tổng hợp biểu cảm có thể áp dụng và tổng quát hóa tốt.

Tại thời điểm nghiên cứu, MEAD chỉ phát hành phần đầu tiên của tập dữ liệu, với 47 cá nhân thực hiện các biểu cảm như ‘tức giận’, ‘ghê tởm’, ‘sợ hãi’, ‘khinh thường’, ‘hạnh phúc’, ‘buồn’ và ‘bất ngờ’. Trong lần đầu tiên vào một phương pháp mới, các nhà nghiên cứu đã hạn chế phạm vi của dự án để áp đặt hoặc thay đổi các cảm xúc được nhận thức ‘hạnh phúc’ và ‘buồn’, vì đây là những cảm xúc dễ nhận biết nhất.

Phương Pháp và Kết Quả

Kiến trúc Wav2Lip ban đầu chỉ thay thế phần dưới của khuôn mặt, trong khi Wav2Lip-Emotion cũng thực nghiệm với một mặt nạ thay thế khuôn mặt đầy đủ và tổng hợp biểu cảm. Do đó, các nhà nghiên cứu cần phải sửa đổi các phương pháp đánh giá tích hợp, vì những phương pháp này không được thiết kế cho một cấu hình khuôn mặt đầy đủ.

Các tác giả cải thiện mã gốc bằng cách giữ nguyên đầu vào âm thanh gốc, duy trì sự nhất quán của chuyển động môi.

Phần tạo ra của mô hình bao gồm một mã hóa danh tính, mã hóa giọng nói và giải mã khuôn mặt, theo công việc trước đó. Phần giọng nói được mã hóa thêm như các tích lũy 2D được kết hợp sau đó với khung liên quan của nó.

Ngoài phần tạo ra, kiến trúc sửa đổi bao gồm三个 thành phần phân biệt chính, nhắm vào chất lượng của đồng bộ hóa môi, một yếu tố mục tiêu cảm xúc, và một mục tiêu chất lượng hình ảnh được đào tạo đối nghịch.

Đối với việc xây dựng lại khuôn mặt đầy đủ, công việc Wav2Lip ban đầu không có tiền lệ, và do đó mô hình được đào tạo từ đầu. Đối với đào tạo khuôn mặt dưới (nửa mặt nạ), các nhà nghiên cứu tiếp tục từ các điểm kiểm tra được bao gồm trong mã Wav2Lip ban đầu.

Ngoài việc đánh giá tự động, các nhà nghiên cứu sử dụng ý kiến của đám đông được cung cấp bởi một nền tảng dịch vụ bán tự động. Những người lao động nói chung đã đánh giá đầu ra rất cao về việc nhận ra các cảm xúc được áp đặt, trong khi chỉ báo cáo ‘đánh giá vừa phải’ về chất lượng hình ảnh.

Các tác giả đề xuất rằng, ngoài việc cải thiện chất lượng video được tạo ra với các tinh chỉnh thêm, các phiên bản tương lai của công việc có thể bao gồm một loạt các cảm xúc rộng hơn, và công việc có thể được áp dụng trong tương lai cho dữ liệu nguồn được gắn nhãn hoặc tự động suy luận và các tập dữ liệu, dẫn đến một hệ thống đích thực trong đó cảm xúc có thể được điều chỉnh lên hoặc xuống theo ý muốn của người dùng, hoặc cuối cùng được thay thế bằng các cảm xúc trái ngược với video nguồn ban đầu.