sơ khai NeRF: Thử thách chỉnh sửa nội dung của trường bức xạ thần kinh - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

NeRF: Thách thức chỉnh sửa nội dung của trường bức xạ thần kinh

mm
cập nhật on

Đầu năm nay, Trường bức xạ thần kinh tiên tiến của NVIDIA (NeRF) nghiên cứu đáng chú ý với Tức thìNeRF, dường như có khả năng tạo ra các cảnh thần kinh có thể khám phá chỉ trong vài giây – từ một kỹ thuật mà khi nó xuất hiện vào năm 2020, thường mất hàng giờ hoặc thậm chí hàng ngày để đào tạo.

InstantNeRF của NVIDIA cung cấp kết quả ấn tượng và nhanh chóng. Nguồn: https://www.youtube.com/watch?v=DJ2hcC1orc4

InstantNeRF của NVIDIA cung cấp kết quả ấn tượng và nhanh chóng. Nguồn: https://www.youtube.com/watch?v=DJ2hcC1orc4

Mặc dù kiểu nội suy này tạo ra một cảnh tĩnh, NeRF cũng có khả năng miêu tả chuyển độngvà chỉnh sửa 'sao chép và dán' cơ bản, trong đó các NeRF riêng lẻ có thể được đối chiếu thành cảnh tổng hợp or đã chèn vào các cảnh hiện có.

NeRF lồng nhau, được giới thiệu trong nghiên cứu năm 2021 của Đại học Công nghệ Thượng Hải và Công nghệ kỹ thuật số DGene. Nguồn: https://www.youtube.com/watch?v=Wp4HfOwFGP4

NeRF lồng nhau, được giới thiệu trong nghiên cứu năm 2021 của Đại học Công nghệ Thượng Hải và Công nghệ kỹ thuật số DGene. Nguồn: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Tuy nhiên, nếu bạn đang tìm cách can thiệp vào một NeRF đã được tính toán và thực sự thay đổi điều gì đó đang diễn ra bên trong nó (giống như cách bạn có thể thay đổi các yếu tố trong một cảnh CGI truyền thống), tốc độ nhanh chóng của sự quan tâm đến lĩnh vực này đã xuất hiện. rất vài giải pháp cho đến nay và không có cái nào thậm chí bắt đầu phù hợp với khả năng của quy trình công việc CGI.

Mặc dù ước tính hình học là điều cần thiết để tạo cảnh NeRF, nhưng kết quả cuối cùng bao gồm các giá trị khá 'bị khóa'. Trong khi có một số tiến bộ được thực hiện theo hướng thay đổi giá trị kết cấu trong NeRF, các đối tượng thực tế trong cảnh NeRF không phải là các lưới tham số có thể được chỉnh sửa và chơi cùng, mà giống với các đám mây điểm dễ vỡ và bị đóng băng hơn.

Trong trường hợp này, một người được kết xuất trong NeRF về cơ bản là một bức tượng (hoặc một loạt các bức tượng, trong NeRF video); bóng mà chúng đổ lên mình và các vật thể khác là kết cấu, chứ không phải là sự tính toán linh hoạt dựa trên nguồn sáng; và khả năng chỉnh sửa nội dung NeRF được giới hạn trong các lựa chọn của nhiếp ảnh gia, người chụp các bức ảnh nguồn thưa thớt mà từ đó NeRF được tạo ra. Các tham số như bóng đổ và tư thế vẫn không thể chỉnh sửa, theo bất kỳ ý nghĩa sáng tạo nào.

Chỉnh sửa NeRF

Một sự hợp tác nghiên cứu học thuật mới giữa Trung Quốc và Vương quốc Anh giải quyết thách thức này với Chỉnh sửa NeRF, trong đó các mắt lưới kiểu CGI proxy được trích xuất từ ​​​​NeRF, bị biến dạng theo ý muốn của người dùng và các biến dạng được chuyển trở lại tính toán thần kinh của NeRF:

Múa rối NeRF với chỉnh sửa NeRF, vì các biến dạng được tính toán từ cảnh quay được áp dụng cho các điểm tương đương bên trong biểu diễn NeRF. Nguồn: http://geometrylearning.com/NeRFEditing/

Múa rối NeRF với chỉnh sửa NeRF, vì các biến dạng được tính toán từ cảnh quay được áp dụng cho các điểm tương đương bên trong biểu diễn NeRF. Nguồn: http://geometrylearning.com/NeRFEditing/

Phương pháp điều chỉnh các NeuS 2021 Kỹ thuật tái tạo của Hoa Kỳ/Trung Quốc, trích xuất một Chức năng khoảng cách đã ký (SDF, một phương pháp tái tạo thể tích cũ hơn nhiều) có thể tìm hiểu hình học được biểu diễn bên trong NeRF.

Đối tượng SDF này trở thành cơ sở điêu khắc của người dùng, với khả năng uốn cong và đúc được cung cấp bởi As-Rigid-As-Possible đáng kính (ARAP) kỹ thuật.

ARAP cho phép người dùng biến dạng lưới SDF được trích xuất, mặc dù các phương pháp khác, chẳng hạn như phương pháp tiếp cận dựa trên khung và lồng (tức là NURB), cũng sẽ hoạt động tốt. Nguồn: https://arxiv.org/pdf/2205.04978.pdf

ARAP cho phép người dùng biến dạng lưới SDF được trích xuất, mặc dù các phương pháp khác, chẳng hạn như phương pháp tiếp cận dựa trên khung và lồng (tức là NURB), cũng sẽ hoạt động tốt. Nguồn: https://arxiv.org/pdf/2205.04978.pdf

Với các biến dạng được áp dụng, cần phải dịch thông tin này từ vectơ sang mức RGB/pixel vốn có của NeRF, đây là hành trình dài hơn một chút.

Các đỉnh tam giác của lưới mà người dùng đã biến dạng trước tiên được dịch thành lưới tứ diện, tạo thành một lớp da xung quanh lưới người dùng. Trường biến dạng rời rạc trong không gian được trích xuất từ ​​lưới bổ sung này và cuối cùng thu được trường biến dạng liên tục thân thiện với NeRF, trường biến dạng này có thể được truyền trở lại môi trường bức xạ thần kinh, phản ánh các thay đổi và chỉnh sửa của người dùng, đồng thời ảnh hưởng trực tiếp đến các tia được diễn giải trong mục tiêu NeRF.

Các đối tượng bị biến dạng và sinh động bằng phương pháp mới.

Các đối tượng bị biến dạng và sinh động bằng phương pháp mới.

Bài báo viết:

'Sau khi chuyển biến dạng bề mặt sang lưới tứ diện, chúng ta có thể thu được trường biến dạng rời rạc của “không gian hiệu dụng”. Bây giờ chúng tôi sử dụng các phép biến đổi rời rạc này để bẻ cong các tia đúc. Để tạo ra hình ảnh của trường bức xạ bị biến dạng, chúng tôi chiếu các tia tới không gian chứa lưới tứ diện bị biến dạng.'

Sản phẩm giấy có tiêu đề Chỉnh sửa NeRF: Chỉnh sửa hình học của trường bức xạ thần kinhvà đến từ các nhà nghiên cứu tại ba trường đại học và tổ chức của Trung Quốc, cùng với một nhà nghiên cứu từ Trường Khoa học Máy tính & Tin học tại Đại học Cardiff và hai nhà nghiên cứu khác từ Tập đoàn Alibaba.

Hạn chế

Như đã đề cập trước đó, hình học được biến đổi sẽ không 'cập nhật' bất kỳ khía cạnh liên quan nào trong NeRF chưa được chỉnh sửa, cũng như không phản ánh hậu quả thứ cấp của phần tử bị biến dạng, chẳng hạn như bóng đổ. Các nhà nghiên cứu đưa ra một ví dụ, trong đó bóng tối trên hình người trong NeRF vẫn không thay đổi, mặc dù sự biến dạng sẽ làm thay đổi ánh sáng:

Từ tờ giấy: chúng ta thấy rằng bóng nằm ngang trên cánh tay của hình vẫn giữ nguyên vị trí ngay cả khi cánh tay được di chuyển lên trên.

Từ tờ giấy: chúng ta thấy rằng bóng nằm ngang trên cánh tay của hình vẫn giữ nguyên vị trí ngay cả khi cánh tay được di chuyển lên trên.

Thí nghiệm

Các tác giả nhận thấy rằng hiện tại không có phương pháp nào có thể so sánh được để can thiệp trực tiếp vào hình học NeRF. Do đó, các thí nghiệm được tiến hành cho nghiên cứu mang tính thăm dò hơn là so sánh.

Các nhà nghiên cứu đã trình diễn NeRF-Editing trên một số bộ dữ liệu công khai, bao gồm các nhân vật từ Mixamo, và chiếc ghế và máy ủi Lego mang tính biểu tượng hiện nay từ NeRF gốc thực hiện. Họ cũng đã thử nghiệm trên một bức tượng ngựa thật được bắt từ Bộ dữ liệu FVS, cũng như ảnh chụp ban đầu của chính họ.

Một con ngựa nghiêng đầu.

Một con ngựa nghiêng đầu.

Đối với công việc trong tương lai, các tác giả dự định phát triển hệ thống của họ trong khung học máy được biên soạn đúng lúc (JIT) Jittor.

 

Xuất bản lần đầu vào ngày 16 tháng 2022 năm XNUMX.