Trí tuệ nhân tạo
Xử lý ‘Những ngày tóc xấu’ trong Tổng hợp Hình ảnh Con người

Kể từ thời kỳ hoàng kim của điêu khắc La Mã, việc描绘 tóc người đã là một thách thức đầy gai góc. Đầu người trung bình chứa 100.000 sợi tóc, có chỉ số khúc xạ khác nhau tùy theo màu sắc, và ngoài một độ dài nhất định, sẽ di chuyển và thay đổi theo cách chỉ có thể được mô phỏng bằng các mô hình vật lý phức tạp – cho đến nay, chỉ có thể áp dụng thông qua phương pháp CGI truyền thống.

Từ nghiên cứu năm 2017 của Disney, một mô hình dựa trên vật lý cố gắng áp dụng chuyển động thực tế cho một kiểu tóc lỏng trong quy trình CGI. Nguồn: https://www.youtube.com/watch?v=-6iF3mufDW0
Vấn đề này không được giải quyết tốt bởi các phương pháp deepfakes hiện đại. Trong một số năm, gói hàng đầu DeepFaceLab đã có một mô hình ‘toàn đầu’ có thể chỉ bắt được các hình thức cứng nhắc của các kiểu tóc ngắn (thường là nam); và gần đây, DFL stablemate FaceSwap (cả hai gói đều được派 sinh từ mã nguồn DeepFakes năm 2017) đã cung cấp một triển khai của mô hình BiseNet phân đoạn ngữ nghĩa, cho phép người dùng bao gồm tai và tóc trong đầu ra deepfake.
Ngay cả khi mô tả các kiểu tóc rất ngắn, kết quả thường hạn chế về chất lượng, với toàn bộ đầu xuất hiện chồng lên footage, chứ không phải tích hợp vào nó.
Tóc GAN
Hai phương pháp cạnh tranh chính để mô phỏng con người là Trực giác Quang học Neural (NeRF), có thể bắt một cảnh từ nhiều góc nhìn và bao gồm một biểu diễn 3D của các góc nhìn này trong một mạng nơ-ron có thể khám phá; và Mạng Đối kháng Generative (GANs), đáng chú ý hơn về mặt tổng hợp hình ảnh con người (không ít nhất vì NeRF chỉ xuất hiện vào năm 2020).
Sự hiểu biết được suy diễn của NeRF về hình học 3D cho phép nó复制 một cảnh với độ trung thực và nhất quán cao, ngay cả khi hiện tại nó có rất ít hoặc không có phạm vi cho việc áp đặt các mô hình vật lý – và, trên thực tế, phạm vi tương đối hạn chế cho bất kỳ loại biến đổi nào trên dữ liệu thu thập được mà không liên quan đến việc thay đổi góc nhìn của máy ảnh. Hiện tại, NeRF có khả năng rất hạn chế về khả năng tái tạo chuyển động tóc người.
Các phương pháp dựa trên GAN tương đương với NeRF bắt đầu từ một điểm bất lợi gần như致命, vì, không giống như NeRF, không gian tiềm ẩn của một GAN không tự nhiên bao gồm sự hiểu biết về thông tin 3D. Do đó, tổng hợp hình ảnh khuôn mặt 3D-aware GAN đã trở thành một mục tiêu nóng trong nghiên cứu tạo hình ảnh trong những năm gần đây, với InterFaceGAN năm 2019 là một trong những đột phá hàng đầu.
Tuy nhiên, ngay cả kết quả được展示 và cherry-picked của InterFaceGAN cũng chứng minh rằng sự nhất quán của tóc thần kinh vẫn là một thách thức khó khăn về tính nhất quán thời gian, cho các quy trình làm việc VFX tiềm năng:

Tóc ‘sizzling’ trong chuyển đổi tư thế từ InterFaceGAN. Nguồn: https://www.youtube.com/watch?v=uoftpl3Bj6w
Khi nó trở nên rõ ràng hơn rằng việc tạo ra góc nhìn nhất quán thông qua việc điều khiển không gian tiềm ẩn alone có thể là một việc theo đuổi giống như luyện kim, ngày càng nhiều bài báo đang xuất hiện rằng kết hợp thông tin 3D dựa trên CGI vào một quy trình GAN như một ràng buộc ổn định và chuẩn hóa.
Phần tử CGI có thể được đại diện bởi các nguyên tắc 3D trung gian như Mô hình tuyến tính đa người có vỏ bọc (SMPL), hoặc bằng cách áp dụng các kỹ thuật suy diễn 3D theo cách tương tự như NeRF, nơi hình học được đánh giá từ hình ảnh hoặc video nguồn.
Một công việc mới theo hướng này, được phát hành tuần này, là Mạng Đối kháng Generative Consistent đa góc nhìn cho Tổng hợp Hình ảnh 3D-aware (MVCGAN), một sự hợp tác giữa ReLER, AAII, Đại học Công nghệ Sydney, Học viện DAMO tại Tập đoàn Alibaba và Đại học Zhejiang.

Các tư thế khuôn mặt mới được tạo ra một cách thuyết phục và mạnh mẽ bởi MVCGAN trên hình ảnh được lấy từ bộ dữ liệu CELEBA-HQ. Nguồn: https://arxiv.org/pdf/2204.06307.pdf
MVCGAN kết hợp một mạng lưới bức xạ sinh (GRAF) có khả năng cung cấp các ràng buộc hình học trong một Mạng Đối kháng Generative, có thể đạt được một số khả năng tạo tư thế chân thực nhất trong các phương pháp dựa trên GAN tương tự.
Tuy nhiên, tài liệu bổ sung cho MVCGAN tiết lộ rằng việc có được sự nhất quán về thể tích, vị trí, sắp xếp và hành vi của tóc là một vấn đề không dễ dàng giải quyết thông qua các ràng buộc dựa trên hình học 3D bên ngoài.

Từ tài liệu bổ sung không được phát hành công khai tại thời điểm viết, chúng ta thấy rằng trong khi tổng hợp tư thế khuôn mặt từ MVCGAN đại diện cho một bước tiến đáng kể so với hiện trạng, sự nhất quán thời gian của tóc vẫn là một vấn đề.
Vì các quy trình CGI ‘trực tiếp’ vẫn tìm thấy việc tái tạo tóc thời gian một thách thức, không có lý do gì để tin rằng các phương pháp dựa trên hình học truyền thống của nature này sẽ mang lại sự nhất quán tổng hợp tóc cho không gian tiềm ẩn bất cứ lúc nào sớm.
Stabilizing Hair với Convolutional Neural Networks
Tuy nhiên, một bài báo sắp tới từ ba nhà nghiên cứu tại Viện Công nghệ Chalmers ở Thụy Điển có thể cung cấp một bước tiến thêm trong mô phỏng tóc thần kinh.

Bên trái, biểu diễn tóc được ổn định bởi CNN, bên phải, sự thật. Xem video nhúng ở cuối bài viết để có độ phân giải tốt hơn và các ví dụ thêm. Nguồn: https://www.youtube.com/watch?v=AvnJkwCmsT4
Tiêu đề Real-Time Hair Filtering with Convolutional Neural Networks, bài báo sẽ được xuất bản cho i3D symposium vào đầu tháng Năm.
Hệ thống bao gồm một mạng nơ-ron tự động mã hóa có khả năng đánh giá độ phân giải tóc, bao gồm cả tự bóng và tính đến độ dày của tóc, trong thời gian thực, dựa trên một số lượng mẫu ngẫu nhiên hạn chế được gieo bởi hình học OpenGL.
Phương pháp này kết xuất một số lượng mẫu hạn chế với minh bạch ngẫu nhiên và sau đó đào tạo một U-net để tái tạo hình ảnh ban đầu.

Dưới MVCGAN, một CNN lọc các yếu tố màu được lấy mẫu ngẫu nhiên, các điểm nổi bật, tiếp tuyến, độ sâu và alpha, lắp ráp các kết quả tổng hợp vào một hình ảnh hợp thành.
Mạng nơ-ron được đào tạo trên PyTorch, hội tụ trong khoảng từ sáu đến mười hai giờ, tùy thuộc vào khối lượng mạng và số lượng tính năng đầu vào. Các tham số đã được đào tạo (trọng số) sau đó được sử dụng trong việc triển khai thời gian thực của hệ thống.
Dữ liệu đào tạo được tạo ra bằng cách kết xuất hàng trăm hình ảnh cho các kiểu tóc thẳng và gợn sóng, sử dụng các khoảng cách và tư thế ngẫu nhiên, cũng như các điều kiện chiếu sáng đa dạng.

Các ví dụ về đầu vào đa dạng.
Minh bạch tóc trên các mẫu được tính trung bình từ hình ảnh được kết xuất với minh bạch ngẫu nhiên ở độ phân giải siêu mẫu. Dữ liệu độ phân giải cao ban đầu được giảm mẫu để phù hợp với giới hạn mạng và phần cứng, và sau đó được tăng mẫu, trong một quy trình tự động mã hóa điển hình.
Ứng dụng suy luận thời gian thực (phần mềm ‘trực tiếp’ tận dụng thuật toán được dẫn xuất từ mô hình đã được đào tạo) sử dụng sự kết hợp của NVIDIA CUDA với cuDNN và OpenGL. Các tính năng đầu vào ban đầu được đổ vào các bộ đệm màu đa mẫu OpenGL, và kết quả được chuyển đến các tensor cuDNN trước khi được xử lý trong CNN. Những tensor sau đó được sao chép trở lại vào một ‘trực tiếp’ OpenGL texture để áp đặt vào hình ảnh cuối cùng.
Hệ thống thời gian thực hoạt động trên một NVIDIA RTX 2080, tạo ra độ phân giải 1024×1024 pixel.
Vì các giá trị màu tóc hoàn toàn được tách rời trong các giá trị cuối cùng được mạng nơ-ron thu được, việc thay đổi màu tóc là một việc đơn giản, mặc dù các hiệu ứng như độ dốc và sọc vẫn còn là một thách thức trong tương lai.

Các tác giả đã phát hành mã được sử dụng trong các đánh giá của bài báo tại GitLab. Xem video bổ sung cho MVCGAN dưới đây.
Kết luận
Đی điều hướng không gian tiềm ẩn của một tự động mã hóa hoặc GAN vẫn còn giống như đi biển hơn là lái xe chính xác. Chỉ trong giai đoạn rất gần đây, chúng ta mới bắt đầu thấy các kết quả đáng tin cậy cho việc tạo tư thế của ‘hình học đơn giản’ như khuôn mặt, trong các phương pháp như NeRF, GANs và các khung tự động mã hóa không phải deepfake (2017).
Sự phức tạp kiến trúc đáng kể của tóc người, kết hợp với nhu cầu phải kết hợp các mô hình vật lý và các đặc điểm khác mà các phương pháp tổng hợp hình ảnh hiện tại không có quy định, cho thấy rằng tổng hợp tóc không thể sẽ vẫn là một thành phần tích hợp trong tổng hợp khuôn mặt chung, nhưng sẽ đòi hỏi các mạng lưới chuyên dụng và riêng biệt có một số mức độ tinh vi – ngay cả khi các mạng lưới như vậy có thể cuối cùng sẽ được tích hợp vào các khuôn khổ tổng hợp khuôn mặt rộng lớn và phức tạp hơn.
Được xuất bản lần đầu tiên vào ngày 15 tháng 4 năm 2022.











