Trí tuệ nhân tạo

NeRFocus: Mang lại Kiểm soát Tiêu điểm Nhẹ cho Các Trường Tia Neural

Published March 12, 2022

Updated April 5, 2026

Martin Anderson

Nghiên cứu mới từ Trung Quốc cung cấp một phương pháp để đạt được kiểm soát chi phí hợp lý đối với các hiệu ứng độ sâu trường cho Các Trường Tia Neural (NeRF), cho phép người dùng cuối cùng điều chỉnh tiêu điểm và thay đổi động cấu hình của ống kính ảo trong không gian kết xuất.

Được đặt tên là NeRFocus, kỹ thuật này triển khai một cách tiếp cận ‘hình ảnh ống kính mỏng’ mới để điều khiển tiêu điểm và đổi mới P-training, một chiến lược đào tạo xác suất mà loại bỏ nhu cầu về các tập dữ liệu chuyên dụng về độ sâu trường và đơn giản hóa quy trình đào tạo cho phép tiêu điểm.

Bài báo bài báo có tiêu đề NeRFocus: Trường Tia Neural cho Tán xạ Tổng hợp 3D, và đến từ bốn nhà nghiên cứu từ Trường Đại học Sư phạm Thâm Quyến tại Đại học Bắc Kinh, và Phòng thí nghiệm Peng Cheng tại Thâm Quyến, một viện được tài trợ bởi Chính phủ tỉnh Quảng Đông.

Địa chỉ Foveated Locus của Chú ý trong NeRF

Nếu NeRF từng muốn chiếm vị trí là một công nghệ lái xe hợp lệ cho thực tế ảo và thực tế tăng cường, nó sẽ cần một phương pháp nhẹ để cho phép kết xuất foveated thực tế, nơi phần lớn tài nguyên kết xuất tập trung xung quanh tầm nhìn của người dùng, chứ không phải được phân phối không phân biệt ở độ phân giải thấp hơn trên toàn bộ không gian hình ảnh có sẵn.

Từ bài báo năm 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, chúng ta thấy locus chú ý trong một sơ đồ kết xuất foveated mới cho NeRF. Nguồn: https://arxiv.org/pdf/2103.16365.pdf

Một phần quan trọng của tính xác thực của các triển khai tương lai của NeRF egocentric sẽ là khả năng của hệ thống phản ánh khả năng của mắt người để chuyển đổi tiêu điểm trên một mặt phẳng góc nhìn lùi.

Gradient tiêu điểm này cũng là một chỉ số nhận thức về quy mô của cảnh; tầm nhìn từ một chiếc trực thăng bay trên một thành phố sẽ có không có trường tiêu điểm có thể điều hướng, vì toàn bộ cảnh tồn tại ngoài khả năng tập trung ngoài cùng của người xem, trong khi việc kiểm tra một cảnh nhỏ hoặc ‘gần’ sẽ không chỉ cho phép ‘điều chỉnh tiêu điểm’, mà còn nên, vì tính xác thực, chứa một trường tiêu điểm hẹp theo mặc định.

Dưới đây là một video trình diễn các khả năng ban đầu của NeRFocus, được cung cấp bởi tác giả tương ứng của bài báo:

Beyond Restricted Focal Planes

Nhận thức được các yêu cầu về kiểm soát tiêu điểm, một số dự án NeRF trong những năm gần đây đã cung cấp các phương tiện cho nó, mặc dù tất cả các nỗ lực cho đến nay đều là các giải pháp thay thế một cách nào đó, hoặc yêu cầu các quy trình hậu xử lý đáng kể khiến chúng trở thành những đóng góp không thể tin cậy cho các môi trường thời gian thực cuối cùng được hình dung cho Công nghệ Trường Tia Neural.

Kiểm soát tiêu điểm tổng hợp trong các khung kết xuất neural đã được thử nghiệm bằng các phương pháp khác nhau trong 5-6 năm qua – ví dụ, bằng cách sử dụng một mạng phân đoạn để ngăn cách dữ liệu tiền cảnh và hậu cảnh, và sau đó làm mờ hậu cảnh một cách chung chung – một giải pháp phổ biến cho các hiệu ứng tiêu điểm hai mặt phẳng đơn giản.

Từ bài báo ‘Automatic Portrait Segmentation for Image Stylization’, một sự tách biệt tiêu điểm theo phong cách hoạt hình đơn giản. Nguồn: https://jiaya.me/papers/portrait_eg16.pdf

Các biểu diễn đa mặt phẳng thêm một số ‘tấm hoạt hình ảo’ vào mô hình này, ví dụ bằng cách sử dụng ước tính độ sâu để cắt cảnh thành một gradient tiêu điểm riêng biệt nhưng có thể quản lý, và sau đó dàn xếp các hạt nhân phụ thuộc vào độ sâu để tổng hợp độ mờ.

Ngoài ra, và rất liên quan đến các môi trường AR/VR tiềm năng, sự chênh lệch giữa hai góc nhìn của một bộ thiết lập máy ảnh stereo có thể được sử dụng như một đại diện cho độ sâu – một phương pháp được đề xuất bởi Google Research vào năm 2015.

Từ bài báo dẫn đầu bởi Google Fast Bilateral-Space Stereo for Synthetic Defocus, sự khác biệt giữa hai góc nhìn cung cấp một bản đồ độ sâu có thể tạo điều kiện cho việc làm mờ. Tuy nhiên, cách tiếp cận này không chính xác trong tình huống được hình dung ở trên, nơi bức ảnh rõ ràng được chụp bằng ống kính 35-50mm (tiêu chuẩn SLR), nhưng việc làm mờ hậu cảnh cực độ sẽ chỉ xảy ra với ống kính vượt quá 200mm, có loại mặt phẳng tiêu điểm bị hạn chế tạo ra trường tiêu điểm hẹp trong môi trường bình thường, kích thước con người. Nguồn

Các cách tiếp cận như vậy có xu hướng thể hiện các hiện tượng artifact cạnh, vì chúng cố gắng đại diện cho hai quả cầu tiêu điểm riêng biệt và bị giới hạn cạnh như một gradient tiêu điểm liên tục.

Vào năm 2021, sáng kiến RawNeRF đã cung cấp chức năng High Dynamic Range (HDR), với khả năng kiểm soát tốt hơn trong các tình huống ánh sáng yếu, và khả năng điều chỉnh tiêu điểm ấn tượng:

RawNeRF điều chỉnh tiêu điểm một cách đẹp (mặc dù trong trường hợp này, không chính xác do các mặt phẳng tiêu điểm không thực tế), nhưng đi kèm với chi phí tính toán cao. Nguồn: https://bmild.github.io/rawnerf/

Tuy nhiên, RawNeRF yêu cầu tiền xử lý tốn kém cho các biểu diễn đa mặt phẳng của NeRF được đào tạo, dẫn đến một quy trình làm việc không thể dễ dàng thích nghi với các triển khai NeRF nhẹ hơn hoặc thấp hơn.

Mô hình hóa Ống kính ảo

NeRF bản thân nó dựa trên mô hình hình ảnh lỗ kim, điều này kết xuất toàn bộ cảnh một cách sắc nét theo cách tương tự như một cảnh CGI mặc định (trước khi các phương pháp khác nhau kết xuất độ mờ như một hiệu ứng hậu xử lý hoặc hiệu ứng nội tại dựa trên độ sâu trường).

NeRFocus tạo ra một ống kính ảo ‘mỏng’ (thay vì một ‘khẩu độ không kính’) tính toán đường dẫn của mỗi pixel nhập và kết xuất nó trực tiếp, hiệu quả đảo ngược quá trình thu hình ảnh thông thường, hoạt động sau khi ánh sáng đã bị ảnh hưởng bởi các tính chất khúc xạ của thiết kế ống kính.

Mô hình này giới thiệu một loạt các khả năng cho việc kết xuất nội dung bên trong frustum (vòng tròn ảnh hưởng lớn nhất được mô tả trong hình ảnh trên).

Tính toán màu sắc và mật độ chính xác cho mỗi perceptron đa lớp (MLP) trong phạm vi các khả năng rộng hơn này là một nhiệm vụ bổ sung. Điều này đã được giải quyết trước đó bằng cách áp dụng đào tạo giám sát cho một số lượng lớn hình ảnh DSLR, bao gồm việc tạo ra các tập dữ liệu bổ sung cho một quy trình đào tạo xác suất – hiệu quả liên quan đến việc chuẩn bị và lưu trữ tốn kém các tài nguyên tính toán có thể cần hoặc không cần.

NeRFocus vượt qua điều này bằng cách P-training, nơi các tập dữ liệu đào tạo được tạo ra dựa trên các hoạt động làm mờ cơ bản. Do đó, mô hình được hình thành với các hoạt động làm mờ được tích hợp và có thể điều hướng.

Đường kính khẩu độ được đặt thành không trong quá trình đào tạo, và các xác suất được định nghĩa trước được sử dụng để chọn một hạt nhân làm mờ một cách ngẫu nhiên. Đường kính này được sử dụng để tăng tỷ lệ đường kính của mỗi hình nón tổng hợp, cho phép MLP dự đoán chính xác độ sáng và mật độ của các frustum (các vòng tròn rộng trong hình ảnh trên, đại diện cho vùng biến đổi tối đa cho mỗi pixel)

Các tác giả của bài báo mới quan sát thấy rằng NeRFocus có khả năng tương thích với cách tiếp cận HDR của RawNeRF, điều này có thể giúp trong việc kết xuất một số phần khó khăn, chẳng hạn như các điểm nổi bật mờ và nhiều hiệu ứng tính toán khác mà đã thách thức các quy trình làm việc CGI trong ba mươi năm hoặc hơn.

Quá trình này không yêu cầu thêm thời gian và/hoặc tham số so với các phương pháp trước đó như NeRF cốt lõi và Mip-NeRF (và, theo giả định Mip-NeRF 360, mặc dù điều này không được đề cập trong bài báo), và có thể được áp dụng như một phần mở rộng chung cho phương pháp luận trung tâm của các trường tia neural.

Được xuất bản lần đầu tiên vào ngày 12 tháng 3 năm 2022.

Related Topics:image synthesis NeRF research

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]