Trí tuệ nhân tạo
Tạo Deepfakes toàn thân bằng cách kết hợp nhiều NeRF

Lĩnh vực nghiên cứu tổng hợp hình ảnh có rất nhiều đề xuất mới cho các hệ thống có khả năng tạo video và hình ảnh toàn thân của những người trẻ tuổi – chủ yếu là phụ nữ trẻ – trong các loại trang phục khác nhau. Chủ yếu là các hình ảnh được tạo ra tĩnh; đôi khi, các biểu tượng thậm chí còn di chuyển, mặc dù thường không được tốt lắm.
Tốc độ của chuỗi nghiên cứu cụ thể này là băng giá so với mức độ tiến bộ chóng mặt hiện nay trong các lĩnh vực liên quan như mô hình khuếch tán tiềm ẩn; tuy nhiên các nhóm nghiên cứu, phần lớn ở châu Á, vẫn tiếp tục không ngừng nỗ lực giải quyết vấn đề.

Một trong hàng chục, nếu không phải là hàng trăm hệ thống 'thử ảo' được đề xuất hoặc bán ra mắt từ 10-15 năm qua, trong đó cơ thể được đánh giá thông qua nhận dạng đối tượng dựa trên máy học và điều chỉnh cho phù hợp với các loại quần áo được đề xuất. Nguồn: https://www.youtube.com/watch?v=2ZXrgGyhbak
Mục tiêu là tạo ra các hệ thống mới để kích hoạt 'thử đồ ảo' cho thị trường thời trang và quần áo – các hệ thống có thể thích ứng với cả khách hàng và sản phẩm cụ thể hiện có sẵn hoặc sắp được phát hành mà không có sự phức tạp của sản phẩm thực. -thời gian chồng chất lên nhau of quần áohoặc nhu cầu yêu cầu khách hàng gửi hình ảnh hơi NSFW cho các đường ống kết xuất dựa trên ML.
Không có kiến trúc tổng hợp phổ biến nào có vẻ dễ thích nghi với nhiệm vụ này: không gian tiềm ẩn của Mạng đối thủ sáng tạo (GAN) không phù hợp để tạo ra chuyển động thời gian thuyết phục (hoặc thậm chí để chỉnh sửa nói chung); mặc dù có năng lực tốt tạo ra chuyển động thực tế của con người, Trường ánh sáng thần kinh (NeRF) thường tự nhiên kháng đến kiểu chỉnh sửa cần thiết để 'hoán đổi' người hoặc quần áo theo ý muốn; bộ mã hóa tự động sẽ yêu cầu đào tạo cụ thể về người/quần áo; và các mô hình khuếch tán tiềm ẩn, như GAN, không có cơ chế tạm thời riêng để tạo video.
EVA3D
Tuy nhiên, các giấy tờ và đề xuất vẫn tiếp tục. Mới nhất là mối quan tâm bất thường trong một dòng nghiên cứu theo định hướng kinh doanh độc quyền và không có gì nổi bật.
EVA3D, từ Đại học Công nghệ Nanyang của Singapore, là dấu hiệu đầu tiên của một cách tiếp cận đã có từ lâu – việc sử dụng nhiều Các mạng Trường bức xạ thần kinh, mỗi mạng được dành cho một phần riêng biệt của cơ thể, và sau đó được tổng hợp thành một hình ảnh trực quan được lắp ráp và gắn kết.

Một phụ nữ trẻ di động được tổng hợp từ nhiều mạng NeRF, cho EVA3D. Nguồn: https://hongfz16.github.io/projects/EVA3D.html
Kết quả, về mặt di chuyển, là…được. Mặc dù hình ảnh của EVA3D không nằm ngoài thung lũng kỳ lạ, nhưng ít nhất họ có thể nhìn thấy đoạn đường tắt từ nơi họ đang đứng.
Điều làm cho EVA3D trở nên nổi bật là các nhà nghiên cứu đằng sau nó, gần như duy nhất trong lĩnh vực tổng hợp hình ảnh toàn thân, đã nhận ra rằng một mạng duy nhất (GAN, NeRF hoặc cách khác) sẽ không thể xử lý toàn bộ hình ảnh con người có thể chỉnh sửa và linh hoạt. cơ thể trong một số năm – một phần do tốc độ nghiên cứu và một phần do phần cứng và các hạn chế hậu cần khác.
Do đó, nhóm Nanyang đã chia nhỏ nhiệm vụ thành 16 mạng và nhiều công nghệ – một cách tiếp cận đã được áp dụng để kết xuất thần kinh môi trường đô thị trong Khối-NeRF và Thành PhốNeRFvà dường như có khả năng trở thành một biện pháp nửa chặng đường ngày càng thú vị và có khả năng hiệu quả để đạt được các tác phẩm sâu toàn thân trong 5 năm tới, trong khi chờ phát triển phần cứng hoặc khái niệm mới.
Không phải tất cả những thách thức hiện có trong việc tạo ra loại 'thử nghiệm ảo' này đều là về mặt kỹ thuật hoặc hậu cần và bài báo nêu ra một số vấn đề về dữ liệu, đặc biệt là liên quan đến học tập không giám sát:
'Bộ dữ liệu [Thời trang] hầu hết có rất hạn chế các tư thế của con người (hầu hết là các tư thế đứng tương tự nhau) và các góc nhìn rất mất cân bằng (hầu hết là các góc nhìn từ phía trước). Việc phân phối dữ liệu 2D không cân bằng này có thể cản trở việc học GAN 3D không được giám sát, dẫn đến khó khăn trong việc tổng hợp chế độ xem/tư thế mới. Do đó, cần có một chiến lược đào tạo phù hợp để giảm bớt vấn đề này.'
Quy trình công việc EVA3D phân chia cơ thể con người thành 16 phần riêng biệt, mỗi phần được tạo thông qua mạng NeRF của chính nó. Rõ ràng, điều này tạo ra đủ các phần 'không bị đóng băng' để có thể tôn lên hình ảnh thông qua ghi lại chuyển động hoặc các loại dữ liệu chuyển động khác. Tuy nhiên, bên cạnh lợi thế này, nó cũng cho phép hệ thống chỉ định nguồn lực tối đa cho các bộ phận của cơ thể 'bán' ấn tượng tổng thể.
Ví dụ, bàn chân con người có phạm vi khớp nối rất hạn chế, trong khi tính xác thực của khuôn mặt và đầu, bên cạnh chất lượng của toàn bộ chuyển động cơ thể nói chung, có thể là dấu hiệu xác thực tiêu điểm cho kết xuất.

So sánh định tính giữa EVA3D và các phương pháp trước đó. Các tác giả tuyên bố kết quả SOTA về mặt này.
Cách tiếp cận hoàn toàn khác với dự án lấy NeRF làm trung tâm mà nó có liên quan về mặt khái niệm – năm 2021 A-NeRF, từ Đại học British Columbia và Nghiên cứu Phòng thí nghiệm Thực tế, đã tìm cách thêm bộ xương điều khiển bên trong vào biểu diễn NeRF 'một mảnh' thông thường khác, khiến việc phân bổ tài nguyên xử lý cho các bộ phận khác nhau của cơ thể trên cơ sở nhu cầu trở nên khó khăn hơn .

Chuyển động trước – A-NeRF trang bị cho một NeRF 'nướng' với cùng loại thiết bị trung tâm dễ uốn và khớp nối mà ngành VFX từ lâu đã sử dụng để tạo hoạt ảnh cho các nhân vật CGI. Nguồn: https://lemonatsu.github.io/anerf/
Điểm chung với hầu hết các dự án lấy con người làm trung tâm tương tự nhằm tìm cách tận dụng không gian tiềm ẩn của các phương pháp tiếp cận phổ biến khác nhau, EVA3D sử dụng Mô hình tuyến tính nhiều người có giao diện (NHỎ), một phương pháp dựa trên CGI 'truyền thống' để thêm công cụ vào phần trừu tượng chung của các phương pháp tổng hợp hiện tại. Đầu năm nay, một bài báo khác, lần này là từ Đại học Chiết Giang ở Hàng Châu và Trường Truyền thông Sáng tạo tại Đại học Thành phố Hồng Kông, đã sử dụng các phương pháp như vậy để thực hiện định hình lại cơ thể thần kinh.
Phương pháp
Mô hình SMPL được sử dụng trong quá trình này được điều chỉnh theo 'người trước' của con người - người về cơ bản là người được EVA3D giả mạo sâu một cách tự nguyện và các trọng số lột xác của nó thương lượng sự khác biệt giữa không gian chính tắc (tức là 'ở trạng thái nghỉ' hoặc ' trung lập' của một mô hình SMPL) và cách mà giao diện cuối cùng được hiển thị.
Như đã thấy trong hình minh họa ở trên, các hộp giới hạn của SMPL được sử dụng làm định nghĩa ranh giới cho 16 mạng cuối cùng sẽ tạo thành phần thân. nghịch đảo Lột da hỗn hợp tuyến tính Thuật toán (LBS) của SMPL sau đó được sử dụng để chuyển các tia được lấy mẫu nhìn thấy được sang không gian chuẩn (tư thế thụ động). Sau đó, 16 mạng con được truy vấn, dựa trên các cấu hình này và cuối cùng tuân theo kết xuất cuối cùng.
Toàn bộ hỗn hợp NeRF sau đó được sử dụng để xây dựng khung GAN người 3D.

Kết xuất của khung GAN giai đoạn hai cuối cùng sẽ được đào tạo dựa trên bộ sưu tập hình ảnh 2D chân thực của con người/thời trang.
Mỗi mạng con đại diện cho một phần của cơ thể con người bao gồm các Perceptron nhiều lớp (MLP) xếp chồng lên nhau với còi báo động (Mạng đại diện hình sin) kích hoạt. Mặc dù SIREN giải quyết rất nhiều vấn đề trong quy trình làm việc như thế này và trong các dự án tương tự, nhưng nó có xu hướng quá khớp thay vì khái quát hóa và các nhà nghiên cứu gợi ý rằng có thể sử dụng các thư viện thay thế trong tương lai (xem phần cuối của bài viết).
Dữ liệu, đào tạo và kiểm tra
EVA3D đang phải đối mặt với các vấn đề dữ liệu bất thường, do những hạn chế và kiểu tạo khuôn mẫu của các tư thế có sẵn trong các bộ dữ liệu dựa trên thời trang, có xu hướng thiếu các chế độ xem thay thế hoặc mới lạ và có lẽ cố tình lặp lại để tập trung sự chú ý vào quần áo hơn là con người mặc chúng.
Do sự phân bố tư thế không cân bằng này, EVA3D sử dụng các linh mục của con người (xem bên trên) dựa trên hình dạng mẫu SMPL, sau đó dự đoán Trường khoảng cách đã ký (SDF) của tư thế này, thay vì tư thế mục tiêu đơn giản.
Đối với các thí nghiệm hỗ trợ, các nhà nghiên cứu đã sử dụng bốn bộ dữ liệu: SâuThời trang; SHHQ; UBCThời trang; và Cơ sở dữ liệu video khiêu vũ AIST (AIST Dance DB).
Hai cái sau chứa nhiều tư thế đa dạng hơn so với hai cái đầu tiên, nhưng đại diện cho cùng một cá nhân lặp đi lặp lại, điều này loại bỏ sự đa dạng hữu ích này; nói tóm lại, dữ liệu không chỉ là thách thức, được giao cho nhiệm vụ.

Ví dụ từ SSHQ. Nguồn: https://arxiv.org/pdf/2204.11823.pdf
Các đường cơ sở được sử dụng là ENARF-GAN, dự án đầu tiên hiển thị hình ảnh NeRF từ bộ dữ liệu hình ảnh 2D; Stanford và NVIDIA EG3D; Và Phong cáchSDF, một sự hợp tác giữa Đại học Washington, Adobe Research và Đại học Stanford – tất cả các phương pháp đều yêu cầu thư viện có độ phân giải siêu cao để mở rộng quy mô từ độ phân giải gốc sang độ phân giải cao.
Các số liệu được thông qua là gây tranh cãi Khoảng cách khởi động Frechet (FID) và Khoảng cách khởi động hạt nhân (KID), cùng với Tỷ lệ điểm chính xác ([email được bảo vệ]).
Trong các đánh giá định lượng, EVA3D dẫn đầu về tất cả các số liệu trong bốn bộ dữ liệu:

Kết quả định lượng.
Các nhà nghiên cứu lưu ý rằng EVA3D đạt được tỷ lệ lỗi thấp nhất đối với kết xuất hình học, một yếu tố quan trọng trong dự án thuộc loại này. Họ cũng quan sát thấy rằng hệ thống của họ có thể kiểm soát tư thế được tạo ra và đạt được kết quả cao hơn. [email được bảo vệ] điểm, trái ngược với EG3D, phương pháp cạnh tranh duy nhất đạt điểm cao hơn, trong một hạng mục.
EVA3D hoạt động tự nhiên ở độ phân giải 512x512px tiêu chuẩn hiện nay, mặc dù nó có thể được nâng cấp lên độ phân giải HD một cách dễ dàng và hiệu quả bằng cách xếp chồng lên các lớp cao cấp, như Google đã thực hiện gần đây với dịch vụ chuyển văn bản thành video có độ phân giải 1024 Video Imagen.
Phương pháp không phải là không có giới hạn. Bài báo lưu ý rằng việc kích hoạt SIREN có thể gây ra các tạo tác vòng tròn, có thể khắc phục được trong các phiên bản tương lai bằng cách sử dụng một biểu diễn cơ sở thay thế, chẳng hạn như EG3D, kết hợp với bộ giải mã 2D. Ngoài ra, rất khó để khớp SMPL một cách chính xác với các nguồn dữ liệu thời trang.
Cuối cùng, hệ thống không thể dễ dàng chứa các mặt hàng quần áo lớn hơn và linh hoạt hơn, chẳng hạn như váy lớn; quần áo loại này thể hiện cùng một loại động lực học chất lỏng tạo ra tóc kết xuất thần kinh một thách thức như vậy. Có lẽ, một giải pháp thích hợp có thể giúp giải quyết cả hai vấn đề.
Xuất bản lần đầu vào ngày 12 tháng 2022 năm XNUMX.