Artificiell intelligens
Omlysning av Neurala Radiancefält med Valfri Miljökarta

En ny artikel från Max Planck-institutet och MIT har föreslagit en teknik för att uppnå sann disentanglement av Neural Radiance Fields (NeRF) innehåll från belysningen som var närvarande när data samlades in, vilket möjliggör ad hoc miljökartor för att helt byta ut belysningen i en NeRF-scen:

Den nya tekniken tillämpad på riktiga data. Det är värt att notera att metoden fungerar även på arkiverade data av denna typ, som inte tog den nya pipelineen i beaktande när data samlades in. Trots detta uppnås realistisk och användarspecifik belysningskontroll. Källa: https://arxiv.org/pdf/2207.13607.pdf
Den nya metoden använder den populära öppna källkods-3D-animationsprogrammet Blender för att skapa en “virtuell ljus scen”, där många iterationer av möjliga belysnings scenarier renderas ut och till slut tränas in i ett speciallager i NeRF-modellen som kan ta emot valfri miljökarta som användaren vill använda för att belysa scenen.

En avbildning av den delen av pipelineen som använder Blender för att skapa virtuella ljusscener av den extraherade geometrin. Tidigare metoder som följer liknande linjer har använt riktiga ljusscener för att tillhandahålla denna data, vilket är ett betungande krav för diskreta objekt och en omöjlig uppgift för yttre miljövyer. I övre vänstra delen av de två högra bilderna kan vi se miljökartorna som dikterar belysningen av scenen. Dessa kan skapas godtyckligt av slutanvändaren, vilket bringar NeRF ett steg närmare flexibiliteten hos en modern CGI-approach.
Metoden testades mot Mitsuba2 inverse rendering-ramverk och även mot tidigare arbeten PhySG, RNR, Neural-PIL och NeRFactor, med endast en direkt belysningsmodell, och uppnådde de bästa resultaten:

Resultat av den nya tekniken, jämfört med jämförbara tillvägagångssätt under en mängd olika förlustfunktioner. Forskarna hävdar att deras tillvägagångssätt ger de högkvalitativa metoderna, med resultaten utvärderade genom Peak Signal-to-noise Ratio (PSNR), Structural Similarity Index Measure (SSIM) och den effektiva om eccentric Learned Perceptual Image Patch Similarity (LPIPS).
Artikeln hävdar:
‘Våra kvalitativa och kvantitativa resultat visar ett tydligt steg framåt i termer av återvinning av scenparametrar samt syntes kvalitet på vår metod under nya vyer och belysningsförhållanden när jämfört med tidigare tillstånd i konsten.’
Forskarna hävdar att de kommer att släppa koden för projektet.
Behovet av NeRF Redigerbarhet
Denna typ av disentanglement har visat sig vara en betydande utmaning för forskare inom Neurala Radiancefält, eftersom NeRF i grunden är en fotogrammetri-teknik som beräknar pixlarvärdet av tusentals möjliga vägar från en vy, tilldelar RGBD-värden och monterar en matris av dessa värden till en volymetrisk representation. I sin kärna är NeRF definierad av belysning.
I själva verket, trots dess imponerande visuella och rikliga antagande av NVIDIA, är NeRF anmärkningsvärt “rigid” – i CGI-termer, “baked”. Därför har forskarsamhället fokuserat på att förbättra dess hanterbarhet och flexibilitet i detta avseende under de senaste 12-18 månaderna.
I termer av betydelse, insatserna för denna typ av milstolpe är höga och inkluderar möjligheten att omvandla den visuella effektindustrin från en kreativ och samarbetsinriktad modell centrerad kring mesh-generering, rörelsedynamik och texturering, till en modell byggd kring inverse rendering, där VFX-pipelineen drivs av riktiga världens foton av riktiga saker (eller till och med, konceptuellt, av riktiga och syntetiska modeller), snarare än uppskattade, konstnärliga approximationer.
För tillfället finns det relativt lite anledning till oro bland den visuella effektgemenskapen, åtminstone från Neurala Radiancefält. NeRF har endast embryonala förmågor i termer av riggning, införlivning, djupkontroll, artikulering… och säkert också i fråga om belysning. Den åtföljande videon för en annan ny artikel, som erbjuder rudimentära deformationer för NeRF-geometri, illustrerar den enorma klyftan mellan den nuvarande tillståndet i konsten och de banbrytande insatserna inom neural rendering-teknik.
Sikta på Elementen
Ändå, eftersom det är nödvändigt att börja någonstans, har forskarna för den nya artikeln antagit CGI som en intermediär kontroll- och produktionsmekanism, vilket nu är en vanlig tillvägagångssätt mot de rigida latenta utrymmena i GAN och de nästan ogenomträngliga och linjära nätverken i NeRF.
Effektivt, den centrala utmaningen är att beräkna global belysning (GI, som inte har någon direkt tillämpbarhet i neural rendering) till en ekvivalent Precomputed Radiance Transfer (PRT, som kan anpassas till neural rendering) beräkning.
GI är en nu-venerabel CGI-renderingteknik som modellerar hur ljus studsar mot ytor och mot andra ytor, och inkorporerar dessa områden av reflekterat ljus i en render, för ökad realism.
PRT används som en intermediär belysningsfunktion i den nya metoden, och det faktum att det är en diskret och redigerbar komponent är vad som uppnår disentanglement. Den nya metoden modellerar materialet i NeRF-objektet med en inlärningsbar PRT.
Den faktiska scenbelysningen i den ursprungliga data återvinns som en miljökarta i processen, och scengeometrin i sig extraheras som ett Signerat AvståndsFält (SDF) som kommer att ge en traditionell mesh för Blender att arbeta på i den virtuella ljusscenen.
Den första etappen i processen är att extrahera scengeometrin från de tillgängliga multipla vybilderna genom implicit ytrekonstruktion, via tekniker som används i 2021 NeuS forskning samarbete.
För att utveckla ett neuralt radiansöverföringsfält (NRTF, som kommer att ta emot belysningsdata), använde forskarna Mitsuba 2 differentiable path tracer.
Detta möjliggör den gemensamma optimeringen av en bidirektional spridningsfördelningsfunktion (BSDF), samt genereringen av en initial miljökarta. När BSDF skapas kan path tracer användas i Blender (se inbäddad video direkt ovan) för att skapa virtuella en-ljus-åt-gången (OLAT) scenrenderingar.
NRTF tränas sedan med en kombinerad förlust mellan fotorealistiska materialeffekter och de syntetiska data, som inte är sammanflätade med varandra.
Vägen till Belysning
Träningskraven för denna metod, även om de är betydligt mindre än de ursprungliga NeRF-tränings tiderna, är inte obetydliga. På en NVIDIA Quadro RTX 8000 med 48GB VRAM, tar den preliminära träningsför initial ljus och texturuppskattning 30 minuter; OLAT-träning (dvs. träningsfasen för de virtuella ljusscenerna) tar 8 timmar; och den slutliga gemensamma optimeringen mellan de disentanglaterade syntetiska och riktiga data tar ytterligare 16 timmar för att nå optimal kvalitet.
Förutom att den resulterande neurala representationen inte kan köras i realtid, tar den enligt forskarna “flera sekunder per bildruta”.












