Góc nhìn Anderson

Tạo Full Body Deepfakes bằng cách Kết hợp Nhiều NeRFs

mm

Nghiên cứu tổng hợp hình ảnh đang phát triển với nhiều đề xuất mới về các hệ thống có thể tạo ra video và hình ảnh toàn thân của người trẻ – chủ yếu là phụ nữ trẻ – trong các loại trang phục khác nhau. Hầu hết các hình ảnh được tạo ra là tĩnh; thỉnh thoảng, các biểu diễn thậm chí còn di chuyển, mặc dù không thường rất tốt.

Tốc độ của lĩnh vực nghiên cứu này là rất chậm so với tiến bộ chóng mặt trong các lĩnh vực liên quan như mô hình khuếch tán tiềm ẩn; tuy nhiên, các nhóm nghiên cứu, phần lớn ở châu Á, tiếp tục làm việc không ngừng nghỉ để giải quyết vấn đề này.

Một trong hàng chục, nếu không phải hàng trăm hệ thống 'thử nghiệm ảo' được đề xuất hoặc ra mắt một phần trong 10-15 năm qua, nơi cơ thể được đánh giá thông qua nhận dạng đối tượng dựa trên học máy và thích nghi với các món đồ quần áo được đề xuất. Nguồn: https://www.youtube.com/watch?v=2ZXrgGyhbak

Một trong hàng chục, nếu không phải hàng trăm hệ thống ‘thử nghiệm ảo’ được đề xuất hoặc ra mắt một phần trong 10-15 năm qua, nơi cơ thể được đánh giá thông qua nhận dạng đối tượng dựa trên học máy và thích nghi với các món đồ quần áo được đề xuất. Nguồn: https://www.youtube.com/watch?v=2ZXrgGyhbak

Mục tiêu là tạo ra các hệ thống mới để cho phép ‘thử nghiệm ảo’ cho thị trường thời trang và quần áo – các hệ thống có thể thích nghi với cả khách hàng và sản phẩm cụ thể hiện có hoặc sắp được phát hành, mà không cần sự cồng kềnh của siêu định vị thời gian thực của quần áo, hoặc cần phải yêu cầu khách hàng gửi hình ảnh hơi không an toàn cho đường ống dẫn xuất dựa trên học máy.

Không có kiến trúc tổng hợp phổ biến nào dường như dễ dàng thích nghi với nhiệm vụ này: không gian tiềm ẩn của Mạng đối lập sinh (GAN) không phù hợp để tạo ra chuyển động thời gian thuyết phục (hoặc thậm chí chỉnh sửa nói chung); mặc dù có khả năng tạo ra chuyển động con người thực tế, Trường bức xạ thần kinh (NeRF) thường tự nhiên kháng lại loại chỉnh sửa cần thiết để ‘thay thế’ người hoặc quần áo tùy ý; các bộ tự mã hóa sẽ yêu cầu đào tạo cụ thể cho người và quần áo; và mô hình khuếch tán tiềm ẩn, giống như GAN, không có cơ chế thời gian bản địa, để tạo video.

EVA3D

Tuy nhiên, các bài báo và đề xuất vẫn tiếp tục. Bài báo mới nhất là một phương pháp rất thú vị trong một lĩnh vực nghiên cứu chủ yếu là kinh doanh.

EVA3D, từ Đại học Công nghệ Nanyang ở Singapore, là dấu hiệu đầu tiên của một phương pháp đã được chờ đợi từ lâu – sử dụng nhiều mạng lưới Trường bức xạ thần kinh, mỗi mạng lưới dành riêng cho một phần của cơ thể, và sau đó được tổng hợp thành một hình ảnh nhất quán.

Một phụ nữ di động được tổng hợp từ nhiều mạng lưới NeRF, cho EVA3D. Nguồn: https://hongfz16.github.io/projects/EVA3D.html

Một phụ nữ di động được tổng hợp từ nhiều mạng lưới NeRF, cho EVA3D. Nguồn: https://hongfz16.github.io/projects/EVA3D.html

Kết quả, về mặt chuyển động, là…okay. Mặc dù hình ảnh của EVA3D không hoàn toàn thoát khỏi thung lũng kỳ lạ, nhưng ít nhất chúng có thể nhìn thấy lối ra từ nơi chúng đang đứng.

Điều làm cho EVA3D nổi bật là các nhà nghiên cứu đứng sau nó, gần như duy nhất trong lĩnh vực tổng hợp hình ảnh toàn thân, đã nhận ra rằng một mạng lưới đơn (GAN, NeRF hoặc khác) sẽ không thể xử lý việc tạo ra hình ảnh toàn thân con người có thể chỉnh sửa và linh hoạt trong một vài năm – một phần do tốc độ nghiên cứu và một phần do hạn chế về phần cứng và các hạn chế khác.

Do đó, nhóm Nanyang đã chia nhỏ nhiệm vụ thành 16 mạng lưới và nhiều công nghệ – một phương pháp đã được áp dụng cho việc kết xuất thần kinh của môi trường đô thị trong Block-NeRFCityNeRF, và có vẻ sẽ trở thành một biện pháp hữu ích và có khả năng sinh lời để đạt được hình ảnh giả toàn thân trong năm năm tới, tùy thuộc vào sự phát triển mới về khái niệm hoặc phần cứng.

Không phải tất cả các thách thức trong việc tạo ra loại ‘thử nghiệm ảo’ này là kỹ thuật hoặc hậu cần, và bài báo phác thảo một số vấn đề về dữ liệu, đặc biệt là liên quan đến học không giám sát:

‘[Bộ dữ liệu thời trang] hầu hết có rất ít tư thế con người (hầu hết là tư thế đứng tương tự), và góc nhìn không cân bằng (hầu hết là góc nhìn phía trước). Sự phân bố dữ liệu 2D không cân bằng này có thể cản trở việc học không giám sát của các mạng GAN 3D, dẫn đến khó khăn trong việc tổng hợp mới về góc nhìn / tư thế. Do đó, một chiến lược đào tạo phù hợp là cần thiết để giảm bớt vấn đề này.’

Quy trình làm việc của EVA3D chia cơ thể con người thành 16 phần riêng biệt, mỗi phần được tạo ra thông qua mạng lưới NeRF riêng của nó. Điều này tạo ra đủ ‘phần không bị đóng băng’ để có thể kích hoạt hình ảnh thông qua bắt chuyển động hoặc các loại dữ liệu chuyển động khác. Ngoài lợi thế này, nó cũng cho phép hệ thống phân bổ tài nguyên tối đa cho các phần của cơ thể ‘bán’ ấn tượng chung.

Ví dụ, chân người có phạm vi khớp rất hạn chế, trong khi tính xác thực của khuôn mặt và đầu, ngoài chất lượng của toàn bộ chuyển động cơ thể nói chung, có khả năng là dấu hiệu xác thực của việc kết xuất.

So sánh định tính giữa EVA3D và các phương pháp trước đó. Các tác giả tuyên bố đạt được kết quả SOTA trong khía cạnh này.

So sánh định tính giữa EVA3D và các phương pháp trước đó. Các tác giả tuyên bố đạt được kết quả SOTA trong khía cạnh này.

Phương pháp này khác biệt hoàn toàn với dự án NeRF tập trung mà nó liên quan đến – A-NeRF năm 2021, từ Đại học British Columbia và Reality Labs Research, đã cố gắng thêm một bộ xương điều khiển nội bộ vào một biểu diễn NeRF ‘một mảnh’ thông thường, khiến nó trở nên khó khăn hơn để phân bổ tài nguyên xử lý cho các phần khác nhau của cơ thể dựa trên nhu cầu.

Các chuyển động trước đó - A-NeRF trang bị cho một NeRF 'nấu chín' với cùng loại giá đỡ trung tâm linh hoạt và khớp như ngành công nghiệp VFX đã sử dụng trong thời gian dài để tạo hoạt hình cho các nhân vật CGI. Nguồn: https://lemonatsu.github.io/anerf/

Các chuyển động trước đó – A-NeRF trang bị cho một NeRF ‘nấu chín’ với cùng loại giá đỡ trung tâm linh hoạt và khớp như ngành công nghiệp VFX đã sử dụng trong thời gian dài để tạo hoạt hình cho các nhân vật CGI. Nguồn: https://lemonatsu.github.io/anerf/

Giống như hầu hết các dự án tập trung vào con người khác, EVA3D sử dụng Mô hình tuyến tính đa người có vỏ bọc (SMPL), một phương pháp truyền thống dựa trên CGI để thêm công cụ cho sự trừu tượng của các phương pháp tổng hợp hiện tại.

Kết quả định tính của EVA3D trên DeepFashion.

Kết quả định tính của EVA3D trên DeepFashion.

Phương pháp

Mô hình SMPL được sử dụng trong quá trình này được điều chỉnh cho ‘trước’ của con người – người thực sự đang được ‘deepfake’ tự nguyện bởi EVA3D, và trọng lượng vỏ bọc của nó đàm phán sự khác biệt giữa không gian tiêu chuẩn (tức là tư thế ‘nghỉ ngơi’ hoặc ‘trung lập’ của mô hình SMPL) và cách mà hình ảnh cuối cùng được kết xuất.

Quy trình công việc khái niệm của EVA3D. Nguồn: https://arxiv.org/pdf/2210.04888.pdf

Quy trình công việc khái niệm của EVA3D. Nguồn: https://arxiv.org/pdf/2210.04888.pdf

Como được thấy trong hình minh họa trên, các hộp giới hạn của SMPL được sử dụng làm định nghĩa ranh giới cho 16 mạng lưới sẽ cuối cùng tạo thành cơ thể. Thuật toán Vỏ bọc tuyến tính ngược (LBS) của SMPL sau đó được sử dụng để chuyển các tia lấy mẫu có thể nhìn thấy sang không gian tư thế thụ động (tư thế trung lập). Sau đó, 16 mạng lưới con được truy vấn dựa trên các cấu hình này và cuối cùng được hợp thành một hình ảnh cuối cùng.

Toàn bộ hợp chất NeRF sau đó được sử dụng để xây dựng một khuôn khổ GAN 3D cho con người.

Các kết xuất của khuôn khổ GAN giai đoạn hai sẽ cuối cùng được đào tạo chống lại các bộ sưu tập hình ảnh 2D thực sự của con người / thời trang.

Các kết xuất của khuôn khổ GAN giai đoạn hai sẽ cuối cùng được đào tạo chống lại các bộ sưu tập hình ảnh 2D thực sự của con người / thời trang.

Mỗi mạng lưới con đại diện cho một phần của cơ thể con người được tạo thành từ các mạng nơ-ron đa lớp (MLP) xếp chồng lên nhau với SIREN (Mạng lưới biểu diễn sin) hoạt động. Mặc dù SIREN giải quyết nhiều vấn đề trong một quy trình như thế này và trong các dự án tương tự, nhưng nó có xu hướng quá拟 hợp hơn là tổng quát hóa, và các nhà nghiên cứu đề xuất rằng các thư viện thay thế có thể được sử dụng trong tương lai (xem cuối bài viết).

Dữ liệu, Đào tạo và Kiểm tra

EVA3D phải đối mặt với các vấn đề dữ liệu không thường見, do hạn chế và phong cách có mẫu của các tư thế có sẵn trong các bộ dữ liệu thời trang, thường thiếu các góc nhìn thay thế hoặc mới, và có thể là có chủ ý, lặp đi lặp lại, để tập trung sự chú ý vào quần áo hơn là người mặc chúng.

Do sự phân bố tư thế không cân bằng này, EVA3D sử dụng ‘trước’ của con người (xem trên) dựa trên hình học của mô hình SMPL, và sau đó dự đoán một trường khoảng cách đã ký (SDF) của tư thế này, thay vì một tư thế mục tiêu trực tiếp.

Đối với các thí nghiệm hỗ trợ, các nhà nghiên cứu đã sử dụng bốn bộ dữ liệu: DeepFashion; SHHQ; UBCFashion; và Cơ sở dữ liệu video nhảy AIST (AIST Dance DB).

Hai bộ dữ liệu cuối cùng chứa nhiều tư thế đa dạng hơn hai bộ đầu tiên, nhưng đại diện cho cùng một cá nhân một cách lặp đi lặp lại, điều này hủy bỏ sự đa dạng hữu ích này; nói ngắn gọn, dữ liệu thì hơn thách thức, cho nhiệm vụ này.

Ví dụ từ SSHQ. Nguồn: https://arxiv.org/pdf/2204.11823.pdf

Ví dụ từ SSHQ. Nguồn: https://arxiv.org/pdf/2204.11823.pdf

Các đường cơ sở được sử dụng là ENARF-GAN, dự án đầu tiên kết xuất hình ảnh NeRF từ các bộ dữ liệu hình ảnh 2D; EG3D của Stanford và NVIDIA; và StyleSDF, một sự hợp tác giữa Đại học Washington, Adobe Research và Đại học Stanford – tất cả các phương pháp yêu cầu các thư viện siêu phân giải để mở rộng từ bản địa sang độ phân giải cao.

Các chỉ số được áp dụng là khoảng cách Frechet Inception (đã gây tranh cãi) và khoảng cách Inception hạt nhân (KID), cùng với Tỷ lệ điểm chính xác ([email protected]).

Trong các đánh giá định lượng, EVA3D dẫn đầu tất cả các chỉ số trong bốn bộ dữ liệu:

Kết quả định lượng.

Kết quả định lượng.

Các nhà nghiên cứu lưu ý rằng EVA3D đạt được tỷ lệ lỗi thấp nhất cho việc kết xuất hình học, một yếu tố quan trọng trong một dự án như thế này. Họ cũng quan sát thấy rằng hệ thống của họ có thể kiểm soát tư thế được tạo ra và đạt được điểm số [email protected] cao hơn, trái ngược với EG3D, phương pháp cạnh tranh duy nhất đạt điểm cao hơn trong một hạng mục.

EVA3D hoạt động ở độ phân giải 512x512px tiêu chuẩn, mặc dù nó có thể dễ dàng và hiệu quả được nâng cấp lên độ phân giải HD bằng cách thêm các lớp nâng cấp, như Google đã làm gần đây với đề xuất video từ văn bản 1024 độ phân giải Imagen Video.

Phương pháp này không hoàn hảo. Bài báo lưu ý rằng hoạt động kích hoạt SIREN có thể gây ra các hiện tượng hình tròn, điều này có thể được khắc phục trong các phiên bản tương lai bằng cách sử dụng một biểu diễn cơ sở thay thế, chẳng hạn như EG3D, kết hợp với một bộ giải mã 2D. Ngoài ra, việc phù hợp với SMPL một cách chính xác với các nguồn dữ liệu thời trang là khó khăn.

Cuối cùng, hệ thống không thể dễ dàng thích nghi với các món đồ quần áo lớn hơn và linh hoạt hơn, chẳng hạn như váy dài; các loại quần áo này thể hiện cùng loại động lực học chất lỏng làm cho việc tạo ra tóc được kết xuất bằng thần kinh trở thành một thách thức. Presumably, một giải pháp phù hợp có thể giúp giải quyết cả hai vấn đề.

 

Được xuất bản lần đầu vào ngày 12 tháng 10 năm 2022.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]