Umělá inteligence
Přesvětlování neuronových polí radiance s libovolnou mapou prostředí

Nová práce z Max Planck Institute a MIT navrhla techniku, která umožňuje získat skutečné disentanglement obsahu neuronových polí radiance (NeRF) z osvětlení, které bylo přítomno při sběru dat, což umožňuje ad hoc mapám prostředí kompletně vyměnit osvětlení v scéně NeRF:

Nová technika aplikovaná na reálná data. Je pozoruhodné, že metoda funguje i na archivovaných datech tohoto typu, které nezohledňovaly novou pipeline při sběru dat. Přesto je dosaženo realistického a uživatelsky specifikovaného osvětlení. Source: https://arxiv.org/pdf/2207.13607.pdf
Nový přístup využívá populární open source program pro 3D animaci Blender k vytvoření “virtuálního světelného jeviště”, kde jsou renderovány numerous iterace možných osvětlovacích scénářů a nakonec jsou trénovány do speciální vrstvy modelu NeRF, která může akceptovat libovolnou mapu prostředí, kterou uživatel chce použít pro osvětlení scény.

Zobrazení části pipeline, která využívá Blender k vytvoření virtuálních světelných scénářů extrahované geometrie. Předchozí metody podobného typu využívaly skutečná světelná jeviště k poskytnutí těchto dat, což je náročné požadavkem pro diskrétní objekty a nemožné pro exteriérové pohledy. V horním levém rohu pravých dvou obrázků lze vidět mapy prostředí, které určují osvětlení scény. Tyto lze libovolně vytvořit koncovým uživatelem, což přivádí NeRF o krok blíže flexibility moderního CGI přístupu.
Metoda byla testována proti Mitsuba2 inverse rendering framework a také proti předchozím pracím PhySG, RNR, Neural-PIL a NeRFactor, využívající pouze přímý osvětlovací model, a dosáhla nejlepších výsledků:

Výsledky nové techniky, porovnány s ostatními přístupy pod různými ztrátovými funkcemi. Výzkumníci tvrdí, že jejich přístup poskytuje nejvyšší kvalitu, s výsledky hodnocenými prostřednictvím Peak Signal-to-noise Ratio (PSNR), Structural Similarity Index Measure (SSIM) a efektivní, i když excentrické, Learned Perceptual Image Patch Similarity (LPIPS).
Práce uvádí:
‘Naše kvalitativní a kvantitativní výsledky prokazují jasný krok vpřed v oblasti zotavení scénických parametrů a syntézy kvality našeho přístupu v novém pohledu a osvětlovacích podmínkách ve srovnání s předchozím stavem umění.’
Výzkumníci uvádějí, že nakonec vydají kód pro projekt.
Potřebnost editovatelnosti NeRF
Tento typ disentanglementu se ukázal jako významná výzva pro výzkumníky v oblasti neuronových polí radiance, protože NeRF je v podstatě technika fotogrammetrie, která vypočítává pixelovou hodnotu tisíců možných cest z pohledu, přiřazuje hodnoty RGBD a sestavuje matici těchto hodnot do objemového представления. V jádru je NeRF definován osvětlením.
Skutečností je, že navzdory jeho působivým vizuálům a hojnému přijetí společností NVIDIA, je NeRF pozoruhodně “tučný” – v CGI termínech, “upečený”. Proto se výzkumná komunita soustředila na zlepšení jeho traktability a flexibility v tomto ohledu během posledních 12-18 měsíců.
Z hlediska významu jsou sázky pro tento typ milníku vysoké a zahrnují možnost transformace vizuálních efektů průmyslu z kreativního a spolupracujícího modelu soustředěného kolem generování sítí, dynamiky pohybu a texturování, na model postavený kolem inverzního vykreslování, kde je pipeline VFX poháněn reálnými fotografiemi skutečných věcí (nebo dokonce syntetizovaných modelů), spíše než odhadovanými, řemeslnými aproximacemi.
Prozatím je relativně málo důvodu k obavám mezi vizuálními efektivními komunitami, alespoň z neuronových polí radiance. NeRF má pouze zárodečné schopnosti v oblasti riggingu, nestingu, hloubkového řízení, artikulace…a určitě také v oblasti osvětlení. Doprovodné video pro další novou práci, která nabízí základní deformace pro geometrii NeRF, ilustruje obrovský propast mezi současným stavem umění v CGI a seminárními úsilími neuronových vykreslovacích technik.
Prosívání prvků
Nicméně, protože je nutné začít někde, výzkumníci pro novou práci přijali CGI jako mezilehlý kontrolní a produkční mechanismus, nyní běžný přístup k rigidním latentním prostorám GAN a téměř nepropustným a lineárním sítím NeRF.
Efektivně, centrální výzvou je vypočítat globální osvětlení (GI, které nemá přímou aplikovatelnost v neuronovém vykreslování) do ekvivalentní Precomputed Radiance Transfer (PRT, které lze přizpůsobit neuronovému vykreslování) výpočtu.
GI je nyní uznávaná CGI vykreslovací technika, která modeluje způsob, jakým světlo odskakuje od povrchů a na jiné povrchy, a zahrnuje tyto oblasti odraženého světla do vykreslení, pro zvýšenou realističnost.
https://www.youtube.com/watch?v=DOt28ooFMR4
PRT se používá jako mezilehlá osvětlovací funkce v novém přístupu, a skutečnost, že je to diskrétní a editovatelná součást, je to, co dosahuje disentanglement. Nová metoda modeluje materiál NeRF objektu s naučeným PRT.
https://www.youtube.com/watch?v=tsn42PIwpgk
Skutečné scénické osvětlení původních dat je získáno jako mapa prostředí v procesu, a scénická geometrie je extrahována jako Signed Distance Field (SDF), které nakonec poskytne tradiční síť pro Blender k operaci ve virtuálním světelném jevišti.
První fáze procesu spočívá v extrahování scénické geometrie z dostupných více Pohledových obrázků prostřednictvím implicitní povrchové rekonstrukce, pomocí technik používaných v roce 2021 NeuS výzkumné spolupráce.
Za účelem vývoje neuronového radiance transfer pole (NRTF, které bude akceptovat osvětlovací data), výzkumníci použili Mitsuba 2 differentiable path tracer.
https://www.youtube.com/watch?v=hECUnfkhAm4
To umožňuje společnou optimalizaci bidirectional scattering distribution funkce (BSDF), stejně jako generování počáteční mapy prostředí. Jakmile je BSDF vytvořen, path tracer lze použít v Blenderu (viz vložené video přímo výše) k vytvoření virtuálních jeden-světlo-na-čas (OLAT) scénických renderů.
NRTF je pak trénován s kombinovanou ztrátou mezi fotorealistickými materiálovými efekty a syntetickými daty, která nejsou propojena navzájem.
Cesta k osvětlení
Tréninkové požadavky pro tuto techniku, ačkoli jsou pozoruhodně menší než původní časy trénování NeRF, nejsou zanedbatelné. Na NVIDIA Quadro RTX 8000 s 48GB VRAM, předběžný trénink pro počáteční světlo a texturovou estimaci trvá 30 minut; OLAT trénink (tj. trénink virtuálních světelných scénářů) trvá osm hodin; a konečná společná optimalizace mezi disentangled syntetickými a reálnými daty trvá dalších 16 hodin, aby dosáhla optimální kvality.
Navíc, výsledná neuronová reprezentace nemůže běžet v reálném čase, trvá podle výzkumníků ‘několik sekund na snímek’.
Výzkumníci uzavírají:
‘Naše výsledky prokazují jasnou zlepšení oproti současnému stavu umění, zatímco budoucí práce by mohla zahrnovat další zlepšení běhu a společné uvažování geometrie, materiálu a scénického osvětlení.’
Poprvé zveřejněno 28. července 2022.












