Connect with us

Trí tuệ nhân tạo

Tái chiếu sáng các trường Neural Radiance với bất kỳ bản đồ môi trường nào

mm

Một bài báo mới từ Viện Max Planck và MIT đã đề xuất một kỹ thuật để thu được sự tách rời thực sự của nội dung trường Neural Radiance Fields (NeRF) khỏi ánh sáng hiện diện khi thu thập dữ liệu, cho phép ad hoc bản đồ môi trường hoàn toàn thay thế độ chiếu sáng trong một cảnh NeRF:

Kỹ thuật mới được áp dụng cho dữ liệu thực. Điều đáng chú ý là phương pháp này hoạt động ngay cả trên dữ liệu lưu trữ của loại này, không tính đến đường ống mới khi thu thập dữ liệu. Mặc dù vậy, vẫn đạt được kiểm soát ánh sáng thực tế và theo chỉ định của người dùng Source: https://arxiv.org/pdf/2207.13607.pdf

Kỹ thuật mới được áp dụng cho dữ liệu thực. Điều đáng chú ý là phương pháp này hoạt động ngay cả trên dữ liệu lưu trữ của loại này, không tính đến đường ống mới khi thu thập dữ liệu. Mặc dù vậy, vẫn đạt được kiểm soát ánh sáng thực tế và theo chỉ định của người dùng. Source: https://arxiv.org/pdf/2207.13607.pdf

Phương pháp mới sử dụng chương trình hoạt hình 3D mã nguồn mở phổ biến Blender để tạo một ‘sân khấu ánh sáng ảo’, nơi nhiều lần lặp của các kịch bản ánh sáng có thể được kết xuất và cuối cùng được đào tạo vào một lớp đặc biệt trong mô hình NeRF có thể chứa bất kỳ bản đồ môi trường nào mà người dùng muốn sử dụng để chiếu sáng cảnh.

Một hình ảnh của phần đường ống tận dụng Blender để tạo ra các cảnh ảo của hình học được trích xuất. Các phương pháp trước đây theo các dòng tương tự đã sử dụng các sân khấu ánh sáng thực để cung cấp dữ liệu này, điều này là một yêu cầu tốn kém cho các đối tượng riêng lẻ và không thể đối với các cảnh môi trường bên ngoài. Ở góc trên bên trái của hai hình ảnh bên phải, chúng ta có thể thấy các bản đồ môi trường quy định độ chiếu sáng của cảnh. Những bản đồ này có thể được tạo ra một cách tùy ý bởi người dùng cuối, đưa NeRF đến gần hơn với sự linh hoạt của một phương pháp CGI hiện đại.

Một hình ảnh của phần đường ống tận dụng Blender để tạo ra các cảnh ảo của hình học được trích xuất. Các phương pháp trước đây theo các dòng tương tự đã sử dụng các sân khấu ánh sáng thực để cung cấp dữ liệu này, điều này là một yêu cầu tốn kém cho các đối tượng riêng lẻ và không thể đối với các cảnh môi trường bên ngoài. Ở góc trên bên trái của hai hình ảnh bên phải, chúng ta có thể thấy các bản đồ môi trường quy định độ chiếu sáng của cảnh. Những bản đồ này có thể được tạo ra một cách tùy ý bởi người dùng cuối, đưa NeRF đến gần hơn với sự linh hoạt của một phương pháp CGI hiện đại.

Phương pháp này đã được thử nghiệm chống lại khuôn khổ Mitsuba2 và cũng chống lại các công việc trước đây PhySG, RNR, Neural-PILNeRFactor, chỉ sử dụng một mô hình chiếu sáng trực tiếp và đạt được điểm số tốt nhất:

Kết quả của kỹ thuật mới, so sánh với các phương pháp tương đương dưới các hàm mất mát khác nhau. Các nhà nghiên cứu tuyên bố rằng phương pháp của họ mang lại phương pháp chất lượng cao nhất, với kết quả được đánh giá thông qua Tỷ lệ tín hiệu trên tiếng ồn đỉnh (PSNR), Chỉ số đo lường tương đồng cấu trúc (SSIM) và độ tương đồng hình ảnh học được học hiệu quả nếu không đều (LPIPS).

Kết quả của kỹ thuật mới, so sánh với các phương pháp tương đương dưới các hàm mất mát khác nhau. Các nhà nghiên cứu tuyên bố rằng phương pháp của họ mang lại phương pháp chất lượng cao nhất, với kết quả được đánh giá thông qua Tỷ lệ tín hiệu trên tiếng ồn đỉnh (PSNR), Chỉ số đo lường tương đồng cấu trúc (SSIM) và độ tương đồng hình ảnh học được học hiệu quả nếu không đều (LPIPS).

Bài báo tuyên bố:

‘Kết quả định lượng và định tính của chúng tôi chứng minh một bước tiến rõ ràng về việc thu hồi các tham số cảnh cũng như chất lượng tổng hợp của phương pháp của chúng tôi dưới các góc nhìn và điều kiện chiếu sáng mới khi so sánh với trạng thái nghệ thuật trước đó.’

Các nhà nghiên cứu tuyên bố rằng họ sẽ cuối cùng phát hành mã cho dự án.

Cần thiết phải chỉnh sửa NeRF

Loại tách rời này đã chứng minh là một thách thức đáng kể cho các nhà nghiên cứu về trường Neural Radiance Fields, vì NeRF cơ bản là một kỹ thuật photogrammetry tính toán giá trị pixel của hàng nghìn đường khả dĩ từ một điểm nhìn, gán giá trị RGBD và lắp ráp một ma trận của các giá trị này thành một biểu diễn thể tích. Ở cốt lõi của nó, NeRF được định nghĩa bởi ánh sáng.

Trên thực tế, mặc dù nó có hình ảnh ấn tượng và được áp dụng rộng rãi bởi NVIDIA, NeRF đáng chú ý là ‘cứng’ – theo thuật ngữ CGI, ‘nướng’. Do đó, cộng đồng nghiên cứu đã tập trung vào việc cải thiện tính linh hoạt và khả năng thích ứng của nó trong khía cạnh này trong 12-18 tháng qua.

Về tầm quan trọng, các ставка cho loại cột mốc này là cao và bao gồm khả năng biến đổi ngành công nghiệp hiệu ứng hình ảnh từ một mô hình sáng tạo và hợp tác tập trung vào việc tạo lưới, động lực học và kết cấu, sang một mô hình được xây dựng xung quanh đảo ngược kết xuất, nơi đường ống VFX được cung cấp bởi hình ảnh thế giới thực của các vật thể thực (hoặc thậm chí các mô hình tổng hợp), chứ không phải là các ước tính, xấp xỉ thủ công.

Đối với hiện tại, có ít lý do để lo lắng trong cộng đồng hiệu ứng hình ảnh, ít nhất là từ trường Neural Radiance Fields. NeRF chỉ có khả năng non trẻ về định hình, lồng ghép, kiểm soát độ sâu, điều chỉnh…và chắc chắn cũng trong quan hệ đến độ chiếu sáng. Video đi kèm cho một bài báo mới, cung cấp biến dạng cơ bản cho hình học NeRF, minh họa sự khác biệt lớn giữa trạng thái nghệ thuật hiện tại trong CGI và những nỗ lực mang tính cách mạng của các kỹ thuật kết xuất thần kinh.

Lọc các yếu tố

Dù vậy, vì cần phải bắt đầu từ đâu đó, các nhà nghiên cứu cho bài báo mới đã áp dụng CGI như một cơ chế kiểm soát và sản xuất trung gian, bây giờ là một phương pháp phổ biến hướng tới không gian tiềm ẩn cứng nhắc của GAN và mạng tuyến tính gần như không thể xâm nhập của NeRF.

Hiệu quả, thách thức trung tâm là tính toán chiếu sáng toàn cầu (GI, không có ứng dụng trực tiếp trong kết xuất thần kinh) thành một tính toán Truyền tải Quang học đã tính trước (PRT, có thể được thích ứng với kết xuất thần kinh) .

GI là một kỹ thuật kết xuất CGI lâu đời mô hình hóa cách ánh sáng bật ra từ các bề mặt và vào các bề mặt khác, và kết hợp các khu vực ánh sáng phản chiếu này vào một kết xuất, để tăng thêm tính thực tế.

PRT được sử dụng như một hàm chiếu sáng trung gian trong phương pháp mới, và thực tế nó là một thành phần rời rạc và có thể chỉnh sửa là điều đạt được sự tách rời. Phương pháp mới mô hình hóa vật liệu của đối tượng NeRF với một PRT đã học.

Độ chiếu sáng thực tế của cảnh ban đầu được thu hồi như một bản đồ môi trường trong quá trình này, và hình học cảnh bản thân được trích xuất như một Trường khoảng cách đã ký (SDF) sẽ cung cấp một lưới truyền thống cho Blender để hoạt động trong sân khấu ánh sáng ảo.

Tổng quan về đường ống cho kỹ thuật mới.

Tổng quan về đường ống cho kỹ thuật mới.

Giai đoạn đầu tiên trong quá trình này là trích xuất hình học cảnh từ các hình ảnh đa góc nhìn có sẵn thông qua việc xây dựng lại bề mặt ngầm, thông qua các kỹ thuật được sử dụng trong sự hợp tác nghiên cứu NeuS năm 2021.

Để phát triển một trường truyền tải Quang học thần kinh (NRTF, sẽ chứa dữ liệu chiếu sáng), các nhà nghiên cứu đã sử dụng trình theo dõi đường khác biệt Mitsuba 2.

Điều này tạo điều kiện cho việc tối ưu hóa chung của một hàm phân bố tán xạ hai chiều (BSDF), cũng như việc tạo ra một bản đồ môi trường ban đầu. Một khi BSDF được tạo ra, trình theo dõi đường có thể được sử dụng trong Blender (xem video nhúng trực tiếp trên) để tạo ra các kết xuất cảnh ảo một ánh sáng tại một thời điểm (OLAT).

NRTF sau đó được đào tạo với một sự kết hợp giữa mất mát của các hiệu ứng vật liệu thực tế và dữ liệu tổng hợp, không bị混 lẫn với nhau.

So sánh với NeRFactor tiền nhiệm, về các thách thức của tổng hợp góc nhìn mới và chiếu sáng lại.

So sánh với NeRFactor tiền nhiệm, về các thách thức của tổng hợp góc nhìn mới và chiếu sáng lại.

Con đường đến độ chiếu sáng

Yêu cầu đào tạo cho kỹ thuật này, mặc dù thấp hơn đáng kể so với thời gian đào tạo NeRF ban đầu, không đáng kể. Trên một NVIDIA Quadro RTX 8000 với 48GB VRAM, đào tạo sơ bộ cho ước tính ánh sáng và kết cấu ban đầu mất 30 phút; đào tạo OLAT (tức là đào tạo các cảnh ảo sân khấu ánh sáng) mất 8 giờ; và tối ưu hóa chung cuối cùng giữa dữ liệu tổng hợp và thực bị tách rời mất thêm 16 giờ để đạt được chất lượng tối ưu.

Hơn nữa, đại diện thần kinh kết quả không thể chạy trong thời gian thực, mất ‘vài giây mỗi khung hình’ theo các nhà nghiên cứu.

Các nhà nghiên cứu kết luận:

‘Kết quả của chúng tôi chứng minh một sự cải thiện rõ ràng so với trạng thái nghệ thuật hiện tại trong khi công việc trong tương lai có thể liên quan đến việc cải thiện thời gian chạy và lý luận chung của hình học, vật liệu và độ chiếu sáng cảnh.’

 

Được xuất bản lần đầu vào ngày 28 tháng 7 năm 2022.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]