Connect with us

NeRF: Thử thách của việc chỉnh sửa nội dung của các trường bức xạ thần kinh

Trí tuệ nhân tạo

NeRF: Thử thách của việc chỉnh sửa nội dung của các trường bức xạ thần kinh

mm

Đầu năm nay, NVIDIA đã phát triển đáng kể nghiên cứu về các trường bức xạ thần kinh (NeRF) với NeRF đáng chú ý với InstantNeRF, rõ ràng có khả năng tạo ra các cảnh thần kinh có thể khám phá được trong vài giây – từ một kỹ thuật mà, khi nó xuất hiện vào năm 2020, thường mất hàng giờ hoặc thậm chí hàng ngày để đào tạo.

NVIDIA's InstantNeRF cung cấp kết quả ấn tượng và nhanh chóng.

NVIDIA’s InstantNeRF cung cấp kết quả ấn tượng và nhanh chóng. Source: https://www.youtube.com/watch?v=DJ2hcC1orc4

Mặc dù loại nội suy này tạo ra một cảnh tĩnh, NeRF cũng có khả năng trình bày chuyển động, và chỉnh sửa cơ bản ‘copy-and-paste’, nơi các NeRF riêng lẻ có thể được kết hợp thành cảnh tổng hợp hoặc chèn vào các cảnh hiện có.

Nested NeRFs, được giới thiệu trong nghiên cứu năm 2021 từ Đại học Shanghai Tech và DGene Digital Technology.

Nested NeRFs, được giới thiệu trong nghiên cứu năm 2021 từ Đại học Shanghai Tech và DGene Digital Technology. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Tuy nhiên, nếu bạn muốn can thiệp vào một NeRF đã tính toán và thực sự thay đổi một điều gì đó đang xảy ra bên trong nó (giống như cách bạn có thể thay đổi các yếu tố trong một cảnh CGI truyền thống), thì tốc độ quan tâm của lĩnh vực này đã đưa ra rất ít giải pháp cho đến nay, và không có giải pháp nào bắt đầu匹 với khả năng của các công việc CGI.

Mặc dù ước tính hình học là điều cần thiết để tạo ra một cảnh NeRF, kết quả cuối cùng được tạo thành từ các giá trị khá ‘khóa’. Mặc dù có một số tiến bộ đang được thực hiện để thay đổi các giá trị texture trong NeRF, các đối tượng thực sự trong một cảnh NeRF không phải là các lưới tham số có thể được chỉnh sửa và chơi với, mà giống như các đám mây điểm giòn và đông lạnh.

Trong kịch bản này, một người được kết xuất trong một NeRF về cơ bản là một bức tượng (hoặc một loạt các bức tượng, trong các video NeRF); các bóng mà họ tạo ra trên chính họ và các đối tượng khác là các texture, chứ không phải các tính toán linh hoạt dựa trên nguồn ánh sáng; và khả năng chỉnh sửa nội dung NeRF bị giới hạn ở các lựa chọn được thực hiện bởi nhiếp ảnh gia chụp các bức ảnh nguồn thưa thớt từ đó NeRF được tạo ra. Các tham số như bóng và tư thế vẫn không thể chỉnh sửa, theo bất kỳ nghĩa sáng tạo nào.

NeRF-Editing

Một sự hợp tác nghiên cứu học thuật mới giữa Trung Quốc và Vương quốc Anh giải quyết thách thức này với NeRF-Editing, nơi các lưới CGI kiểu proxy được trích xuất từ một NeRF, bị biến dạng theo ý muốn của người dùng, và các biến dạng được truyền lại qua các tính toán thần kinh của NeRF:

NeRF puppetry với NeRF-editing, khi các biến dạng được tính toán từ footage được áp dụng cho các điểm tương đương bên trong một biểu diễn NeRF.

NeRF puppetry với NeRF-editing, khi các biến dạng được tính toán từ footage được áp dụng cho các điểm tương đương bên trong một biểu diễn NeRF. Source: http://geometrylearning.com/NeRFEditing/

Phương pháp này thích nghi với NeuS kỹ thuật tái tạo 2021 của Mỹ / Trung Quốc, nó trích xuất một Hàm khoảng cách có dấu (SDF, một phương pháp tái tạo thể tích cũ hơn) có thể học hình học được biểu diễn bên trong NeRF.

Đối tượng SDF này trở thành cơ sở điêu khắc của người dùng, với khả năng uốn cong và tạo hình được cung cấp bởi kỹ thuật As-Rigid-As-Possible (ARAP) lâu đời.

ARAP cho phép người dùng biến dạng lưới SDF được trích xuất, mặc dù các phương pháp khác, chẳng hạn như phương pháp dựa trên khung xương và dựa trên lồng (tức là NURBs), cũng sẽ hoạt động tốt.

ARAP cho phép người dùng biến dạng lưới SDF được trích xuất, mặc dù các phương pháp khác, chẳng hạn như phương pháp dựa trên khung xương và dựa trên lồng (tức là NURBs), cũng sẽ hoạt động tốt. Source: https://arxiv.org/pdf/2205.04978.pdf

Với các biến dạng được áp dụng, cần phải dịch thông tin này từ vector sang mức RGB / pixel bản địa của NeRF, đó là một hành trình稍 dài hơn.

Các đỉnh tam giác của lưới mà người dùng đã biến dạng đầu tiên được dịch sang một lưới tetrahedral, tạo thành một lớp da xung quanh lưới người dùng. Một trường biến dạng không gian rời rạc được trích xuất từ lưới bổ sung này, và cuối cùng một trường biến dạng liên tục NeRF-friendly được thu được, có thể được truyền lại vào môi trường bức xạ thần kinh, phản ánh các thay đổi và chỉnh sửa của người dùng, và ảnh hưởng trực tiếp đến các tia được giải thích trong NeRF mục tiêu.

Các đối tượng bị biến dạng và được hoạt hình hóa bởi phương pháp mới.

Các đối tượng bị biến dạng và được hoạt hình hóa bởi phương pháp mới.

Bài báo cho biết:

‘Sau khi chuyển biến dạng bề mặt sang lưới tetrahedral, chúng tôi có thể thu được trường biến dạng rời rạc của “không gian hiệu quả”. Chúng tôi hiện sử dụng các biến đổi rời rạc này để uốn cong các tia chiếu. Để tạo ra một hình ảnh của trường bức xạ bị biến dạng, chúng tôi chiếu các tia vào không gian chứa lưới tetrahedral bị biến dạng.’

Bài báo có tiêu đề NeRF-Editing: Chỉnh sửa hình học của các trường bức xạ thần kinh, và đến từ các nhà nghiên cứu tại ba trường đại học và tổ chức Trung Quốc, cùng với một nhà nghiên cứu từ Trường Khoa học Máy tính và Thông tin tại Đại học Cardiff, và hai nhà nghiên cứu khác từ Tập đoàn Alibaba.

Giới hạn

Như đã đề cập trước đó, hình học biến dạng sẽ không ‘cập nhật’ bất kỳ khía cạnh nào trong NeRF mà không được chỉnh sửa, cũng không phản ánh các hậu quả thứ cấp của yếu tố bị biến dạng, chẳng hạn như bóng.

Các nhà nghiên cứu cung cấp một ví dụ, nơi bóng dưới của một hình người trong NeRF vẫn không thay đổi, ngay cả khi biến dạng nên thay đổi ánh sáng:

Từ bài báo: chúng tôi thấy rằng bóng dưới nằm trên cánh tay của hình người vẫn còn nguyên vẹn ngay cả khi cánh tay được di chuyển lên trên.

Từ bài báo: chúng tôi thấy rằng bóng dưới nằm trên cánh tay của hình người vẫn còn nguyên vẹn ngay cả khi cánh tay được di chuyển lên trên.

Thử nghiệm

Các tác giả nhận thấy rằng hiện tại không có phương pháp nào có thể can thiệp trực tiếp vào hình học NeRF. Do đó, các thí nghiệm được thực hiện cho nghiên cứu này chủ yếu là khám phá hơn là so sánh.

Các nhà nghiên cứu đã chứng minh NeRF-Editing trên một số tập dữ liệu công khai, bao gồm các nhân vật từ Mixamo, và chiếc máy ủi và ghế Lego nổi tiếng từ thực hiện NeRF ban đầu. Họ cũng đã thử nghiệm trên một bức tượng ngựa thật được chụp từ tập dữ liệu FVS, cũng như các bản chụp gốc của họ.

Đầu ngựa được nghiêng.

Đầu ngựa được nghiêng.

Đối với công việc trong tương lai, các tác giả dự định sẽ phát triển hệ thống của họ trong khuôn khổ học máy được biên dịch ngay lập tức (JIT) Jittor.

 

Được xuất bản lần đầu vào ngày 16 tháng 5 năm 2022.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]