Trí tuệ nhân tạo

NeRF: Nghiên cứu chung của Facebook Phát triển Tổng hợp Video Tĩnh / Động

Published May 14, 2021

Updated April 5, 2026

Martin Anderson

Một sự hợp tác giữa Viện Bách khoa và Đại học bang Virginia và Facebook đã giải quyết một trong những thách thức chính trong tổng hợp video NeRF: trộn tự do hình ảnh tĩnh và động và video trong đầu ra của Trường Quang (NeRF).

Hệ thống có thể tạo ra các cảnh có thể điều hướng có cả các yếu tố video động và môi trường tĩnh, mỗi yếu tố được ghi lại tại địa điểm, nhưng được tách ra thành các mặt có thể điều khiển của môi trường ảo:

https://www.youtube.com/watch?v=j8CUzIR0f8M

Hơn nữa, nó đạt được điều này từ một góc nhìn duy nhất, mà không cần đến loại mảng máy ảnh đa camera có thể ràng buộc các sáng kiến như này vào môi trường phòng thu.

Bài báo bài báo, có tiêu đề Tổng hợp View Động từ Video Monocular Động, không phải là đầu tiên để phát triển một quy trình làm việc monocular NeRF, nhưng dường như là đầu tiên để đào tạo đồng thời một mô hình thay đổi theo thời gian và một mô hình tĩnh theo thời gian từ cùng một đầu vào, và để tạo ra một khuôn khổ cho phép video chuyển động tồn tại trong một vị trí ‘đã được lập bản đồ trước’ của NeRF, tương tự như loại môi trường ảo thường bao gồm các diễn viên trong các bộ phim khoa học viễn tưởng có kinh phí cao.

Beyond D-NeRF

Các nhà nghiên cứu đã phải tái tạo bản chất đa năng của Dynamic NeRF (D-NeRF) chỉ với một điểm nhìn duy nhất, và không phải là nhiều máy ảnh mà D-NeRF sử dụng. Để giải quyết điều này, họ đã dự đoán luồng cảnh quay forward và backward và sử dụng thông tin này để phát triển một trường phát xạ bị biến dạng theo thời gian.

Với chỉ một điểm nhìn, nó cần thiết để sử dụng phân tích dòng quang 2D để có được các điểm 3D trong khung hình tham chiếu. Điểm 3D được tính toán sau đó được đưa trở lại vào máy ảnh ảo để thiết lập một ‘luồng cảnh’ phù hợp với dòng quang tính toán với dòng quang ước tính.

Tại thời điểm đào tạo, các yếu tố động và tĩnh được hòa giải thành một mô hình đầy đủ như các mặt riêng biệt có thể truy cập.

Bằng cách bao gồm tính toán mất mát thứ tự độ sâu, mô hình và áp dụng quy định nghiêm ngặt về dự đoán luồng cảnh trong D-NeRF, vấn đề về hiệu ứng mờ chuyển động được giảm thiểu đáng kể.

Mặc dù nghiên cứu này có nhiều điều để cung cấp về việc quy định tính toán NeRF, và cải thiện đáng kể sự linh hoạt và khả năng khám phá cho đầu ra từ một điểm nhìn duy nhất, ít nhất cũng đáng chú ý là sự tách biệt và tái tích hợp mới của các yếu tố NeRF động và tĩnh.

Tùy thuộc vào một máy ảnh duy nhất, một hệ thống như vậy không thể sao chép lại tầm nhìn toàn diện của các thiết lập NeRF đa camera, nhưng nó có thể đi bất cứ nơi nào, và không cần đến một chiếc xe tải.

NeRF – Tĩnh Hay Video?

Gần đây chúng tôi đã xem xét một số nghiên cứu ấn tượng mới về NeRF từ Trung Quốc, có khả năng tách ra các yếu tố trong một cảnh NeRF động được quay với 16 máy ảnh.

ST-NeRF

ST-NeRF (ở trên) cho phép người xem tái định vị các yếu tố riêng biệt trong một cảnh được quay, và thậm chí thay đổi kích thước của chúng, thay đổi tốc độ phát lại, đóng băng chúng hoặc chạy chúng ngược lại. Ngoài ra, ST-NeRF còn cho phép người dùng ‘cuộn’ qua bất kỳ phần nào của cung 180 độ được quay bởi 16 máy ảnh.

Tuy nhiên, các nhà nghiên cứu của bài báo ST-NeRF thừa nhận trong kết luận rằng thời gian luôn chạy trong một hướng nào đó dưới hệ thống này, và rằng nó khó để thay đổi ánh sáng và áp dụng hiệu ứng cho môi trường thực sự là video, chứ không phải là môi trường NeRF ‘đã được lập bản đồ tĩnh’ vốn không chứa các thành phần chuyển động, và không cần phải được quay như video.

Môi trường NeRF Tĩnh Có thể Chỉnh sửa Cao

Một cảnh NeRF tĩnh, bây giờ được phân lập khỏi bất kỳ đoạn video chuyển động nào, dễ dàng được xử lý và tăng cường theo nhiều cách, bao gồm cả việc thay đổi ánh sáng, như được đề xuất vào đầu năm nay bởi NeRV (Trường Quang và Trường Tính khả kiến cho Thay đổi Ánh sáng và Tổng hợp View), cung cấp một bước đầu tiên trong việc thay đổi ánh sáng và / hoặc kết cấu của một môi trường hoặc vật thể NeRF:

Thay đổi ánh sáng cho một vật thể NeRF với NeRV. Nguồn: https://www.youtube.com/watch?v=4XyDdvhhjVo

Thay đổi kết cấu trong NeRV, thậm chí bao gồm cả hiệu ứng specular photorealistic. Vì cơ sở của mảng hình ảnh là tĩnh, nên nó dễ dàng hơn để xử lý và tăng cường một mặt NeRF theo cách này so với việc bao gồm hiệu ứng trên một loạt các khung hình video, làm cho việc tiền xử lý ban đầu và đào tạo cuối cùng trở nên nhẹ và dễ dàng hơn.

Related Topics:image synthesis NeRF research video

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]