Umělá inteligence
NeRFocus: Přinášející Lehké Ovládání Zaostření do Neurálních Radiance Fields

Nová výzkum z Číny nabízí metodu, jak dosáhnout dostupného ovládání efektů hloubky ostrosti pro Neurální Radiance Fields (NeRF), což umožňuje uživateli zaostřit a dynamicky měnit konfiguraci virtuální čočky v renderovacím prostoru.
Tato technika, nazvaná NeRFocus, implementuje novou ‘tenkou čočku’ přístup k přechodu zaostření a inovuje P-training, probabilistickou tréninkovou strategii, která eliminuje potřebu speciálních datových sad pro hloubku ostrosti a zjednodušuje tréninkový workflow s možností zaostření.

Článek paper je nazvaný NeRFocus: Neurální Radiance Field pro 3D Syntetické Rozostření a pochází od čtyř výzkumníků ze Šen-čenského postgraduálního ústavu na Pekingské univerzitě a z Peng Cheng Laboratory v Šen-čenu, institutu financovaného provincií Kuang-tung.
Řešení Foveovaného Locusu Pozornosti v NeRF
Pokud NeRF má jednou zastávat místo platné technologie pro virtuální a rozšířenou realitu, bude potřebovat lehkou metodu pro realistické foveované renderování, kde většina renderovacích zdrojů se soustředí kolem pohledu uživatele, místo aby byla nespecificky rozložena v nižším rozlišení po celém dostupném vizuálním prostoru.

Z článku z roku 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality vidíme locus pozornosti v novém foveovaném renderovacím schématu pro NeRF. Source: https://arxiv.org/pdf/2103.16365.pdf
Důležitou součástí autenticity budoucích nasazení egocentrického NeRF bude schopnost systému odrážet lidské oko vlastní kapacitu přepínat zaostření přes recedující rovinu perspektivy (viz první obrázek výše).
Tento gradient zaostření je také percepčním indikátorem měřítka scény; pohled z vrtulníku letícího nad městem nebude mít žádné procházené oblasti zaostření, protože celá scéna existuje za vnějším největším rozsahem zaostření diváka, zatímco prohlížení miniatury nebo ‘blízké’ scény nebude nejen umožňovat ‘zaostřování’, ale také by mělo, pro realistické účely, obsahovat úzkou hloubku ostrosti výchozí.
Níže je video demonstrující počáteční schopnosti NeRFocus, které nám poskytla korespondenční autor článku:
Mimo Omezené Fokální Roviny
Vědomi požadavků na ovládání zaostření, řada projektů NeRF v posledních letech zavedla pro něj ustanovení, ačkoli všechny pokusy do dneška jsou efektivními workarounds nebo zahrnují pozoruhodné post-procesní rutiny, které je činí nepravděpodobnými příspěvky k reálným prostředím, které jsou nakonec pro technologie Neurálních Radiance Fields zamýšleny.
Syntetické ovládání zaostření v neurálních renderovacích rámcích bylo pokoušeno různými metodami v posledních 5-6 letech – například pomocí segmentační sítě pro oddělení popředí a pozadí a následné generické rozostření pozadí – společné řešení pro jednoduché dvourovinové efekty zaostření.

Z článku ‘Automatic Portrait Segmentation for Image Stylization’, banální, animační styl oddělení fokálních rovin. Source: https://jiaya.me/papers/portrait_eg16.pdf
Mnohorovinové reprezentace přidávají několik virtuálních ‘animovaných cel’ k tomuto paradigmatu, například pomocí odhadu hloubky pro rozřezání scény na hrubý, ale zvládnutelný gradient různých fokálních rovin, a poté orchestraci hloubkově závislých jader pro syntézu rozostření.
Navíc, a vysoce relevantní pro potenciální AR/VR prostředí, lze rozdílnost mezi dvěma pohledy stereo kamery použít jako proxy pro hloubku – metodu navrženou Google Research v roce 2015.

Z článku vedeného Google Fast Bilateral-Space Stereo for Synthetic Defocus, rozdíl mezi dvěma pohledy poskytuje mapu hloubky, která může usnadnit rozostření. Nicméně, tento přístup je neautentický v situaci, jak je popsáno výše, kde je fotografie jasně pořízena s 35-50mm (SLR standard) objektivem, ale extrémní rozostření pozadí by se nikdy nestalo s objektivem přesahujícím 200mm, který má tak omezenou fokální rovinu, že produkuje úzkou hloubku ostrosti v normálních, lidských prostředích. Source
Přístupy této povahy tendují k demonstraci artefaktů na hranách, protože se snaží reprezentovat dvě různé a omezené sféry zaostření jako kontinuální fokální gradient.
V roce 2021 nabídla iniciativa RawNeRF funkci High Dynamic Range (HDR) s větší kontrolou nad nízkointenzivními situacemi a zdánlivě působivou kapacitou zaostřit:

RawNeRF zaostřuje krásně (i když v tomto případě neautenticky, kvůli nereálným fokálním rovinám), ale vyžaduje vysoké výpočetní náklady. Source: https://bmild.github.io/rawnerf/
Nicméně, RawNeRF vyžaduje náročné předvýpočty pro své mnohorovinové reprezentace trénovaného NeRF, což vede k workflow, který se nemůže snadno přizpůsobit lehčím nebo nižší latenci implementacím NeRF.
Modelování Virtuální Čočky
NeRF sám o sobě je založen na modelu pinhole, který vykresluje celou scénu ostře způsobem podobným výchozí CGI scéně (před různými přístupy, které vykreslují rozostření jako post-proces nebo vrozený efekt na základě hloubky ostrosti).
NeRFocus vytváří virtuální ‘tenkou čočku’ (místo ‘bezsklené’ apertury), která vypočítává dráhu paprsku pro každý příchozí pixel a vykresluje jej přímo, efektivní inverzí standardního procesu zachycení obrazu, který funguje post facto na světelném vstupu, který již byl ovlivněn refrakčními vlastnostmi designu čočky.

Tento model zavedl řadu možností pro vykreslování obsahu uvnitř frustumu (největší kruh vlivu zobrazený na obrázku výše).
Vypočítání správné barvy a hustoty pro každý multilayer perceptron (MLP) v tomto širším rozsahu možností je další úkolem. To bylo řešeno dříve aplikací dohledovaného tréninku na velký počet DLSR obrázků, což vyžadovalo vytvoření dalších datových sad pro probabilistický tréninkový workflow – efektivní zapojení do náročné přípravy a uložení mnoha možných vypočtených zdrojů, které mohou nebo nemusí být potřeba.
NeRFocus překonává toto omezení P-trainingem, kde tréninkové datové sady jsou generovány na základě základních operací rozostření. Takže model je vytvořen s rozostřovacími operacemi vrozenými a procházenými.

Průměr apertury je nastaven na nulu během tréninku a předem definované pravděpodobnosti se používají k výběru rozostřovacího jádra náhodně. Získaný průměr se používá k navýšení každého kompozitního kužele, což umožňuje MLP přesně předpovědět radiaci a hustotu frustumů (širokých kruhů na obrázcích výše, reprezentujících maximální zónu transformace pro každý pixel)
Autoři nového článku pozorují, že NeRFocus je potenciálně kompatibilní s HDR-poháněným přístupem RawNeRF, který by mohl potenciálně pomoci při vykreslování určitých náročných částí, jako jsou rozostřené speculární zvýraznění, a mnoha dalších výpočetně náročných efektů, které výpočetně náročné efekty CGI workflow vyvíjely po třicet nebo více let.
Proces nevyžaduje žádné další požadavky na čas a/nebo parametry ve srovnání s předchozími přístupy, jako je jádro NeRF a Mip-NeRF (a, předpokládá se Mip-NeRF 360, i když to není zmíněno v článku), a je aplikovatelný jako obecné rozšíření centrální metodologie neurálních radiance fields.
Poprvé publikováno 12. března 2022.










