Trí tuệ nhân tạo
GAN as a Face Renderer for ‘Traditional’ CGI

Ý kiến Khi các Mạng Đối lập Sinh (GANs) đầu tiên chứng minh khả năng của chúng để tái tạo những khuôn mặt 3D thực tế một cách ấn tượng, sự kiện này đã kích hoạt một cuộc đổ xô để khai thác tiềm năng chưa được khai thác của GANs trong việc tạo ra các video có tính nhất quán về thời gian, đặc biệt là những video có khuôn mặt người.
Đâu đó trong không gian tiềm ẩn của GAN, dường như có một trật tự và tính hợp lý ẩn – một lược đồ logic ngữ nghĩa tiềm ẩn, bị chôn vùi trong mã tiềm ẩn, cho phép GAN tạo ra nhiều góc nhìn và nhiều cách giải thích (như thay đổi biểu cảm) của cùng một khuôn mặt – và sau đó cung cấp một phương pháp tạo video giả mạo sâu sắc về thời gian mà sẽ vượt qua autoencoders.
Đầu ra độ phân giải cao sẽ trở nên đơn giản so với môi trường độ phân giải thấp như slum, nơi các hạn chế của GPU buộc DeepFaceLab và FaceSwap phải hoạt động, trong khi ‘vùng hoán đổi’ của một khuôn mặt (trong các công việc của autoencoder) sẽ trở thành ‘vùng tạo’ của một GAN, được thông tin bởi một số hình ảnh đầu vào, hoặc thậm chí chỉ một hình ảnh.
Sẽ không còn sự không phù hợp giữa khuôn mặt ‘hoán đổi’ và ‘chủ’, vì toàn bộ hình ảnh sẽ được tạo từ đầu, bao gồm cả tóc, đường viền hàm và các đặc điểm ngoại vi nhất của đường nét khuôn mặt, những thứ thường chứng minh là một thách thức đối với các deepfakes truyền thống của autoencoder.
Mùa Đông GAN Mặt
Nhưng như nó đã diễn ra, nó không dễ dàng như vậy. Cuối cùng, phân tách đã chứng minh là vấn đề trung tâm, và vẫn là thách thức chính. Làm thế nào bạn có thể giữ một bản sắc khuôn mặt riêng biệt và thay đổi tư thế hoặc biểu cảm của nó mà không cần thu thập một bộ sưu tập hàng nghìn hình ảnh tham chiếu để dạy cho một mạng lưới thần kinh về những gì xảy ra khi những thay đổi này được thực hiện, giống như cách các hệ thống autoencoder làm một cách cẩn thận?
Thay vào đó, suy nghĩ tiếp theo trong nghiên cứu về việc tạo và tổng hợp khuôn mặt GAN là rằng một bản sắc đầu vào có thể được làm cho tuân theo các biến đổi chung, chung, theo mẫu không đặc异 cho bản sắc. Một ví dụ về điều này sẽ là áp dụng một biểu cảm lên một khuôn mặt GAN mà không có trong bất kỳ hình ảnh nào của người đó mà GAN biết.

Từ bài báo 2022 Tensor-based Emotion Editing in the StyleGAN Latent Space, các biểu cảm theo mẫu được áp dụng cho một khuôn mặt đầu vào từ bộ dữ liệu FFHQ. Nguồn: https://arxiv.org/pdf/2205.06102.pdf
Rõ ràng là một cách tiếp cận ‘một kích cỡ phù hợp với tất cả’ không thể bao gồm sự đa dạng của các biểu cảm khuôn mặt duy nhất cho từng cá nhân. Chúng ta phải tự hỏi liệu một nụ cười độc đáo như của Jack Nicholson hoặc Willem Dafoe có thể nhận được một sự diễn giải trung thành dưới ảnh hưởng của các mã tiềm ẩn ‘trung bình’ như vậy.

Ai là người lạ mặt Latin này? Mặc dù phương pháp GAN tạo ra một khuôn mặt ‘thực tế’ và độ phân giải cao hơn, sự biến đổi không được thông tin từ nhiều hình ảnh thực tế của diễn viên, như trong trường hợp của DeepFaceLab, mà đào tạo rộng rãi trên một cơ sở dữ liệu gồm hàng nghìn hình ảnh như vậy, và do đó sự giống nhau bị ảnh hưởng. Ở đây (phông nền) một mô hình DeepFaceLab được nhập vào DeepFaceLive, một triển khai trực tuyến của phần mềm phổ biến và gây tranh cãi này. Các ví dụ từ https://www.youtube.com/watch?v=9tr35y-yQRY (2022) và https://arxiv.org/pdf/2205.06102.pdf.
Một số trình chỉnh sửa biểu cảm khuôn mặt GAN đã được đưa ra trong những năm gần đây, hầu hết chúng xử lý các bản sắc không xác định, nơi tính trung thực của các biến đổi là không thể biết được đối với người đọc thông thường, vì những khuôn mặt này không quen thuộc.

Các bản sắc không rõ ràng được biến đổi trong đề xuất Cascade-EF-GAN năm 2020. Nguồn: https://arxiv.org/pdf/2003.05905.pdf
Có lẽ trình chỉnh sửa khuôn mặt GAN đã nhận được nhiều sự quan tâm (và trích dẫn) trong ba năm qua là InterFaceGAN, có thể thực hiện các chuyến đi không gian tiềm ẩn trong các mã tiềm ẩn liên quan đến tư thế (góc của máy ảnh/khuôn mặt), biểu cảm, tuổi tác, chủng tộc, giới tính và các đặc điểm thiết yếu khác.
Khả năng ‘hóa thân’ theo phong cách những năm 1980 của InterFaceGAN và các khung tương tự chủ yếu là một cách để minh họa con đường tới biến đổi như một hình ảnh được tái chiếu lại thông qua một mã tiềm ẩn phù hợp (như ‘tuổi’). Về việc sản xuất video với tính nhất quán về thời gian, những kế hoạch như vậy cho đến nay đã đủ điều kiện là ‘thảm họa ấn tượng’.
Nếu bạn thêm vào đó khó khăn trong việc tạo tóc nhất quán về thời gian, và thực tế là kỹ thuật khám phá/mạnip mã tiềm ẩn không có hướng dẫn thời gian nội tại để làm việc (và nó khó biết làm thế nào để tiêm những hướng dẫn như vậy vào một khung được thiết kế để hỗ trợ và tạo ra hình ảnh tĩnh, và không có quy định bản địa cho đầu ra video), thì có thể kết luận một cách hợp lý rằng GAN không phải là Tất cả những gì bạn Cần ™ cho tổng hợp video khuôn mặt.
Do đó, những nỗ lực tiếp theo đã tạo ra các cải tiến dần dần trong việc phân tách, trong khi những người khác đã gắn thêm các quy ước khác trong thị giác máy tính như một ‘lớp hướng dẫn’, chẳng hạn như sử dụng phân đoạn ngữ nghĩa như một cơ chế kiểm soát trong bài báo cuối năm 2021 SemanticStyleGAN: Học các Prior Sinh tổng hợp có thể điều khiển cho Tổng hợp và Chỉnh sửa Hình ảnh.

Phân đoạn ngữ nghĩa như một phương pháp công cụ không gian tiềm ẩn trong SemanticStyleGAN. Nguồn: https://semanticstylegan.github.io/
Hướng dẫn Parametric
Cộng đồng nghiên cứu tổng hợp khuôn mặt GAN đang ngày càng hướng tới việc sử dụng ‘truyền thống’ khuôn mặt CGI tham số như một phương pháp để hướng dẫn và mang lại trật tự cho các mã tiềm ẩn ấn tượng nhưng không kiểm soát được trong không gian tiềm ẩn của một GAN.
Mặc dù các nguyên tắc khuôn mặt tham số đã là một phần quan trọng của nghiên cứu thị giác máy tính trong hơn hai mươi năm, sự quan tâm đến cách tiếp cận này đã tăng lên gần đây, với việc sử dụng ngày càng nhiều các nguyên tắc CGI đa người tuyến tính có vỏ bọc (Skinned Multi-Person Linear Model) (SMPL) , một cách tiếp cận được tiên phong bởi Viện Max Planck và ILM, và kể từ đó được cải tiến với khung STAR (Sparse Trained Articulated Human Body Regressor).

SMPL (trong trường hợp này là một biến thể gọi là SMPL-X) có thể áp dụng một lưới tham số CGI phù hợp với tư thế ước tính (bao gồm cả biểu cảm, nếu cần) của toàn bộ cơ thể người trong một hình ảnh, cho phép thực hiện các hoạt động mới trên hình ảnh bằng cách sử dụng lưới tham số như một hướng dẫn thể tích hoặc nhận thức. Nguồn: https://arxiv.org/pdf/1904.05866.pdf
Phát triển được ca ngợi nhất trong dòng này là sáng kiến ”Rendering with Style” năm 2019 của Disney, đã kết hợp việc sử dụng các bản đồ kết cấu truyền thống với hình ảnh được tạo bởi GAN, trong một nỗ lực để tạo ra đầu ra hoạt hình được cải thiện, theo kiểu ‘giả mạo sâu’.

Cũ gặp mới, trong cách tiếp cận kết hợp của Disney đối với các deepfakes được tạo bởi GAN. Nguồn: https://www.youtube.com/watch?v=TwpLqTmvqVk
Cách tiếp cận của Disney áp đặt các khía cạnh CGI truyền thống vào một mạng lưới StyleGAN2 để ‘tô lại’ các chủ thể khuôn mặt người trong ‘các khu vực vấn đề’, nơi tính nhất quán về thời gian là một vấn đề đối với việc tạo video.

Quy trình làm việc Rendering with Style.
Vì đầu CGI tham số có thể được điều chỉnh và thay đổi để phù hợp với người dùng, khuôn mặt được tạo bởi GAN có thể phản ánh những thay đổi đó, bao gồm cả thay đổi tư thế và biểu cảm.
Mặc dù được thiết kế để kết hợp công cụ của CGI với tính thực tế tự nhiên của khuôn mặt GAN, cuối cùng, kết quả lại chứng minh sự kết hợp tồi tệ nhất của cả hai thế giới, và vẫn không thể giữ được tính nhất quán về kết cấu tóc và thậm chí cả vị trí đặc điểm cơ bản:

Một loại thung lũng không chắc chắn mới xuất hiện từ Rendering with Style, mặc dù nguyên tắc vẫn giữ một số tiềm năng.
Bài báo năm 2020 StyleRig: Rigging StyleGAN cho Kiểm soát 3D trên Hình ảnh Chân dung thực hiện một cách tiếp cận ngày càng phổ biến, với việc sử dụng mô hình khuôn mặt có thể biến dạng 3D (3DMMs) như các đại diện cho việc thay đổi các đặc điểm trong môi trường StyleGAN, trong trường hợp này thông qua một mạng lưới mạnip mới gọi là RigNet:

3DMMs đóng vai trò như các đại diện cho các giải thích không gian tiềm ẩn trong StyleRig. Nguồn: https://arxiv.org/pdf/2004.00121.pdf
Tuy nhiên, như thường lệ với những sáng kiến này, kết quả cho đến nay dường như bị giới hạn ở các thao tác tư thế tối thiểu, và các thay đổi biểu cảm / ảnh hưởng ‘không thông tin’.

StyleRig cải thiện mức độ kiểm soát, mặc dù tóc nhất quán về thời gian vẫn là một thách thức chưa được giải quyết. Nguồn: https://www.youtube.com/watch?v=eaW_P85wQ9k
Đầu ra tương tự có thể được tìm thấy từ MOST-GAN của Mitsubishi Research, một bài báo năm 2021 sử dụng 3DMM phi tuyến tính như một kiến trúc phân tách, nhưng cũng đấu tranh để đạt được chuyển động động và nhất quán.
Nghiên cứu mới nhất nhằm cố gắng tạo công cụ và phân tách là One-Shot Face Reenactment on Megapixels, lại sử dụng các đầu CGI tham số 3DMM như một giao diện thân thiện cho StyleGAN.

Trong luồng công việc MegaFR của One-Shot Face Reenactment, mạng lưới thực hiện tổng hợp khuôn mặt bằng cách kết hợp một hình ảnh thế giới thực đảo ngược với các tham số lấy từ một mô hình 3DMM được kết xuất. Nguồn: https://arxiv.org/pdf/2205.13368.pdf
OSFR thuộc về một lớp ngày càng tăng của các trình chỉnh sửa khuôn mặt GAN nhằm phát triển các luồng công việc chỉnh sửa tuyến tính theo kiểu Photoshop / After Effects, nơi người dùng có thể nhập một hình ảnh mong muốn mà các biến đổi có thể được áp dụng, thay vì tìm kiếm trong không gian tiềm ẩn cho các mã tiềm ẩn liên quan đến một bản sắc.
Một lần nữa, các biểu cảm tham số đại diện cho một phương pháp chung, không được cá nhân hóa để tiêm biểu cảm, dẫn đến các thao tác có vẻ ‘không chắc chắn’ theo cách không luôn tích cực.
Giống như các công việc trước đó, OSFR có thể suy luận gần như tư thế ban đầu từ một hình ảnh duy nhất, và cũng có thể thực hiện ‘phương pháp hóa trang’, nơi một hình ảnh được đặt ở tư thế lệch được dịch thành một ảnh chụp gần:

Hình ảnh gốc (trên) và hình ảnh chụp gần được suy luận từ một trong các triển khai của OSFR được mô tả trong bài báo mới.
Trong thực tế, loại suy luận này tương tự như một số nguyên tắc photogrammetry mà underpin Trường Quang học Neuronal (NeRF), ngoại trừ việc hình học ở đây phải được xác định bởi một hình ảnh duy nhất, chứ không phải 3-4 điểm nhìn mà cho phép NeRF diễn giải các tư thế và tạo ra các cảnh 3D neural có thể khám phá được với các nhân vật.
(Tuy nhiên, NeRF cũng không phải là Tất cả những gì bạn Cần ™, vì nó mang một tập hợp các chướng ngại vật hoàn toàn khác đối với GANs về việc sản xuất tổng hợp video khuôn mặt)
GAN Có Một Vị trí trong Tổng hợp Video Khuôn mặt?
Việc đạt được các biểu cảm động và tư thế ngoài phân phối từ một hình ảnh nguồn duy nhất dường như là một sự ám ảnh giống như thuật giả kim trong nghiên cứu tổng hợp khuôn mặt GAN tại thời điểm này, chủ yếu vì GANs là phương pháp duy nhất hiện có khả năng tạo ra khuôn mặt neural độ phân giải cao và trung thực tương đối cao: trong khi các khung deepfake autoencoder có thể đào tạo trên nhiều tư thế và biểu cảm thực tế, chúng phải hoạt động ở độ phân giải đầu vào/đầu ra bị hạn chế bởi VRAM, và yêu cầu một ‘chủ’; trong khi NeRF cũng bị hạn chế, và không giống như hai phương pháp khác – hiện tại không có phương pháp thiết lập để thay đổi biểu cảm khuôn mặt, và bị hạn chế về khả năng chỉnh sửa chung.
Dường như cách duy nhất để tiến về phía trước cho một hệ thống tổng hợp khuôn mặt CGI / GAN chính xác là một sáng kiến mới tìm cách lắp ráp một thực thể bản sắc đa ảnh trong không gian tiềm ẩn, nơi một mã tiềm ẩn cho bản sắc của một người không cần phải đi qua toàn bộ không gian tiềm ẩn để khai thác các tham số tư thế không liên quan, mà có thể tham khảo các hình ảnh thực tế liên quan của chính nó làm tài liệu tham khảo cho các biến đổi.
Thậm chí trong một trường hợp như vậy, hoặc thậm chí nếu một mạng lưới StyleGAN hoàn toàn được đào tạo trên một tập hợp khuôn mặt đơn nhất (tương tự như các tập hợp đào tạo mà các autoencoder sử dụng), logic ngữ nghĩa thiếu vẫn có thể cần được cung cấp bởi các công nghệ phụ trợ như phân đoạn ngữ nghĩa hoặc khuôn mặt 3DMM tham số, những thứ sẽ có ít nhất nhiều tài liệu hơn để làm việc.











