Connect with us

Sztuczna inteligencja

NeRFocus: Przynosząc lekki kontrolę ostrości do Neural Radiance Fields

mm

Nowe badania z Chin oferują metodę uzyskania niedrogiej kontroli nad efektami głębi ostrości dla Neural Radiance Fields (NeRF), umożliwiając użytkownikowi zmianę ostrości i dynamiczną zmianę konfiguracji wirtualnej soczewki w przestrzeni renderowania.

Tytuł NeRFocus, technika ta implementuje nowy ‘cienki obraz soczewki’ do przejścia ostrości, i innowacyjny P-training, strategię treningu probabilistycznego, która eliminuje potrzebę dedykowanych zestawów danych głębi ostrości, i upraszcza przepływ pracy treningu z obsługą ostrości.

Artykuł paper nosi tytuł NeRFocus: Neural Radiance Field for 3D Synthetic Defocus, i pochodzi od czterech badaczy ze Szkoły Podyplomowej w Shenzhen na Uniwersytecie Pekińskim, oraz z Laboratorium Peng Cheng w Shenzhen, instytutu finansowanego przez rząd prowincji Guangdong.

Adresowanie fovealnego locus uwagi w NeRF

Jeśli NeRF ma kiedykolwiek zająć swoje miejsce jako ważna technologia napędzająca wirtualną i rozszerzoną rzeczywistość, potrzebuje lekkiej metody umożliwiającej realistyczne foveated rendering, gdzie większość zasobów renderowania koncentruje się wokół spojrzenia użytkownika, a nie jest rozproszona w sposób losowy w niższej rozdzielczości na całej dostępnej przestrzeni wizualnej.

Z artykułu z 2021 roku Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, widzimy locus uwagi w nowym schemacie renderowania foveated dla NeRF. Źródło: https://arxiv.org/pdf/2103.16365.pdf

Z artykułu z 2021 roku Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, widzimy locus uwagi w nowym schemacie renderowania foveated dla NeRF. Źródło: https://arxiv.org/pdf/2103.16365.pdf

Istotną częścią autentyczności przyszłych wdrożeń egocentrycznego NeRF będzie zdolność systemu do odzwierciedlenia ludzkiej zdolności do przełączania ostrości na odległej płaszczyźnie perspektywy (patrz pierwszy obraz powyżej).

Ten gradient ostrości jest również wskaźnikiem percepcyjnym skali sceny; widok z helikoptera latającego nad miastem nie będzie miał żadnych pól ostrości, ponieważ cała scena istnieje poza zewnętrzną możliwością ostrości widza, podczas gdy oglądanie miniatury lub “bliskiej” sceny nie tylko pozwoli na “racking focus”, ale również powinno, dla realizmu, zawierać wąską głębię ostrości domyślnie.

Poniżej znajduje się film demonstrujący początkowe możliwości NeRFocus, dostarczony nam przez autora artykułu:

Poza ograniczonymi płaszczyznami ostrości

Świadomi wymagań dotyczących kontroli ostrości, wiele projektów NeRF w ostatnich latach zapewniło jej obsługę, choć wszystkie dotychczasowe próby były skutecznie rozwiązaniami obejścia lub wymagały znaczących rutyn post-processing, które sprawiają, że są mało prawdopodobne do wkroczenia do środowisk czasu rzeczywistego, które ostatecznie są wyobrażane dla technologii Neural Radiance Fields.

Syntetyczna kontrola ostrości w ramach renderowania neuronowego była próbowana przez różne metody w ciągu ostatnich 5-6 lat – na przykład, używając sieci segmentacji do oddzielenia danych przedniego i tylnego planu, a następnie do defokusowania tła – powszechne rozwiązanie dla prostych efektów ostrości dwupłaszczyznowej.

Z artykułu Automatic Portrait Segmentation for Image Stylization, banalne, animowane rozdzielenie płaszczyzn ostrości. Źródło: https://jiaya.me/papers/portrait_eg16.pdf

Z artykułu ‘Automatic Portrait Segmentation for Image Stylization’, banalne, animowane rozdzielenie płaszczyzn ostrości. Źródło: https://jiaya.me/papers/portrait_eg16.pdf

Wielopłaszczyznowe reprezentacje dodają kilka wirtualnych “komórek animowanych” do tego paradygmatu, na przykład używając estymacji głębi do rozcięcia sceny na szorstką, ale zarządzalną gradient głębi ostrości, a następnie orchestracji jąder zależnych od głębi w celu syntetyzowania rozmycia.

Dodatkowo, i bardzo istotnie dla potencjalnych środowisk AR/VR, różnica między dwoma punktami widzenia zestawu stereo może być wykorzystana jako proxy głębi – metoda zaproponowana przez Google Research w 2015 roku.

Z artykułu Google-led Fast Bilateral-Space Stereo for Synthetic Defocus, różnica między dwoma punktami widzenia zapewnia mapę głębi, która może ułatwić rozmycie. Jednakże, ten podejście jest nieautentyczne w sytuacji wyobrażonej powyżej, gdzie zdjęcie jest wyraźnie zrobione z obiektywem 35-50mm (standard SLR), ale ekstremalne rozmycie tła wystąpiłoby tylko z obiektywem przekraczającym 200mm, który ma rodzaj silnie ograniczonej płaszczyzny ostrości, produkującej wąską głębię ostrości w normalnych, ludzkich środowiskach. Źródło

Z artykułu Google-led Fast Bilateral-Space Stereo for Synthetic Defocus, różnica między dwoma punktami widzenia zapewnia mapę głębi, która może ułatwić rozmycie. Jednakże, ten podejście jest nieautentyczne w sytuacji wyobrażonej powyżej, gdzie zdjęcie jest wyraźnie zrobione z obiektywem 35-50mm (standard SLR), ale ekstremalne rozmycie tła wystąpiłoby tylko z obiektywem przekraczającym 200mm, który ma rodzaj silnie ograniczonej płaszczyzny ostrości, produkującej wąską głębię ostrości w normalnych, ludzkich środowiskach. Źródło

Podejścia tego rodzaju mają tendencję do demonstrowania artefaktów krawędzi, ponieważ próbują reprezentować dwie odrębne i ograniczone sfery ostrości jako ciągły gradient ostrości.

W 2021 roku inicjatywa RawNeRF oferowała funkcjonalność High Dynamic Range (HDR), z większą kontrolą nad sytuacjami o niskim świetle, i zdawała się mieć imponującą zdolność do rackowania ostrości:

RawNeRF rackuje ostrość pięknie (choć w tym przypadku nieautentycznie, ze względu na niewiarygodne płaszczyzny ostrości), ale wymaga dużej mocy obliczeniowej. Źródło: https://bmild.github.io/rawnerf/

RawNeRF rackuje ostrość pięknie (choć w tym przypadku nieautentycznie, ze względu na niewiarygodne płaszczyzny ostrości), ale wymaga dużej mocy obliczeniowej. Źródło: https://bmild.github.io/rawnerf/

Jednak RawNeRF wymaga uciążliwych obliczeń wstępnych dla swoich wielopłaszczyznowych reprezentacji wytrenowanego NeRF, wynikających w przepływie pracy, który nie może być łatwo adaptowany do lżejszych lub niskiej latencji wdrożeń NeRF.

Modelowanie wirtualnej soczewki

NeRF sam w sobie opiera się na modelu pinhole, który renderuje całą scenę ostro w sposób podobny do domyślnego CGI (przed różnymi podejściami, które renderują rozmycie jako efekt post-processing lub wrodzony efekt oparty na głębi ostrości).

NeRFocus tworzy wirtualną ‘cienką soczewkę’ (zamiast ‘bezszklanej’ apertury), która oblicza ścieżkę wiązki każdego wejściowego piksela i renderuje ją bezpośrednio, efektywnie odwracając standardowy proces przechwytywania obrazu, który działa post facto na wejściu światła, które już zostało poddane właściwościom refrakcyjnym projektu soczewki.

Ten model wprowadza szereg możliwości renderowania treści wewnątrz frustum (największy krąg wpływu przedstawiony na powyższym obrazie).

Obliczanie poprawnego koloru i gęstości dla każdego wielowarstwowego perceptronu (MLP) w tym szerszym zakresie możliwości jest dodatkowym zadaniem. To zostało rozwiązane wcześniej przez zastosowanie nadzorowanego treningu do dużej liczby zdjęć DLSR, co wymagało stworzenia dodatkowych zestawów danych dla probabilistycznego przepływu pracy treningu – efektywnie obejmującego pracochłonne przygotowanie i przechowywanie wielu obliczonych zasobów, które mogą lub nie mogą być potrzebne.

NeRFocus pokonuje to przez P-training, gdzie zestawy danych treningowych są generowane na podstawie podstawowych operacji rozmycia. W ten sposób model jest utworzony z operacjami rozmycia wbudowanymi i dostępnymi.

Średnica apertury jest ustawiona na zero podczas treningu, a przeddefiniowane prawdopodobieństwa są używane do losowego wyboru jądra rozmycia. Otrzymana średnica jest używana do skalowania każdej złożonej średnicy stożka, pozwalając MLP na dokładne przewidywanie promieniowania i gęstości frustum (szerokie kręgi na powyższych obrazach, reprezentujące maksymalną strefę transformacji dla każdego piksela)

Średnica apertury jest ustawiona na zero podczas treningu, a przeddefiniowane prawdopodobieństwa są używane do losowego wyboru jądra rozmycia. Otrzymana średnica jest używana do skalowania każdej złożonej średnicy stożka, pozwalając MLP na dokładne przewidywanie promieniowania i gęstości frustum (szerokie kręgi na powyższych obrazach, reprezentujące maksymalną strefę transformacji dla każdego piksela)

Autorzy nowego artykułu zauważają, że NeRFocus jest potencjalnie kompatybilny z podejściem HDR-driven RawNeRF, co mogłoby potencjalnie pomóc w renderowaniu pewnych wymagających sekcji, takich jak rozmyte światła specular, i wiele innych efektów, które wymagają dużych obliczeń i które wyzwalały przepływy pracy CGI przez trzydzieści lub więcej lat.

Proces ten nie wymaga dodatkowych wymagań czasu i/lub parametrów w porównaniu z poprzednimi podejściami, takimi jak NeRF i Mip-NeRF (i, przypuszczalnie Mip-NeRF 360, choć to nie jest omówione w artykule), i jest stosowalny jako ogólne rozszerzenie podstawowej metodyki pól promieniowania neuronowych.

 

Pierwotnie opublikowane 12 marca 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.