Connect with us

Artificiell intelligens

NeRFocus: Bringing Lightweight Focus Control to Neural Radiance Fields

mm

Ny forskning från Kina erbjuder en metod för att uppnå överkomlig kontroll över djupets effekter för Neural Radiance Fields (NeRF), vilket möjliggör för slutanvändaren att justera fokus och dynamiskt ändra konfigurationen av den virtuella linsen i renderingsutrymmet.

Titled NeRFocus, tekniken implementerar en ny ‘tunn lins-avbildning’ tillvägagångssätt för fokusgenomgång, och innovativa P-training, en probabilistisk träningsstrategi som eliminerar behovet av dedikerade djupets dataset, och förenklar en fokusaktiverad träningsarbetsflöde.

Artikeln paper är titulerad NeRFocus: Neural Radiance Field för 3D Synthetic Defocus, och kommer från fyra forskare från Shenzhen Graduate School vid Peking University, och Peng Cheng Laboratory i Shenzhen, ett institut som finansieras av Guangdong Provincial Government.

Att hantera foveated locus of attention i NeRF

Om NeRF någonsin ska ta sin plats som en giltig drivteknologi för virtuell och förstärkt verklighet, kommer det att behöva en lättviktig metod för att tillåta realistisk foveated rendering, där de flesta av renderingsresurserna ackumuleras runt användarens blick, snarare än att distribueras slumpmässigt i lägre upplösning över hela tillgängliga visuella utrymmet.

Från 2021 års artikel Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, ser vi attention locus i en ny foveated rendering-schema för NeRF. Källa: https://arxiv.org/pdf/2103.16365.pdf

Från 2021 års artikel Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, ser vi attention locus i en ny foveated rendering-schema för NeRF. Källa: https://arxiv.org/pdf/2103.16365.pdf

En väsentlig del av autenticiteten för framtida distributioner av egocentriska NeRF kommer att vara systemets förmåga att reflektera det mänskliga ögats egen förmåga att växla fokus över en avtagande plan av perspektiv (se första bilden ovan).

Denna gradient av fokus är också en perceptuell indikator för scenens skala; vy från en helikopter som flyger över en stad kommer att ha noll navigerbara fokusfält, eftersom hela scenen finns bortom användarens yttre fokusförmåga, medan granskning av en miniatyr eller ‘närfält’ scen inte bara tillåter ‘fokus racking’, utan också bör, för realismens skull, innehålla en smal djup av fält som standard.

Nedan visas en video som demonstrerar de initiala förmågorna hos NeRFocus, som tillhandahålls av artikelförfattaren:

Bortom begränsade fokalplan

Medvetna om kraven för fokuskontroll, har ett antal NeRF-projekt under de senaste åren gjort provision för det, även om alla försök hittills är effektivt trollkonster-omvägar av något slag, eller också kräver betydande post-processing-rutiner som gör dem osannolika bidrag till de realtidsmiljöer som slutligen är tänkta för Neural Radiance Fields-teknologier.

Syntetisk fokuskontroll i neurala rendering-ramverk har försökts med olika metoder under de senaste 5-6 åren – till exempel genom att använda ett segmenteringsnätverk för att stänga av förgrunden och bakgrunden, och sedan generiskt urfokusera bakgrunden – en vanlig lösning för enkla tvåplansfokuseffekter.

Från artikeln Automatic Portrait Segmentation for Image Stylization, en trivial, animeringsstil-separation av fokalplan. Källa: https://jiaya.me/papers/portrait_eg16.pdf

Från artikeln ‘Automatic Portrait Segmentation for Image Stylization’, en trivial, animeringsstil-separation av fokalplan. Källa: https://jiaya.me/papers/portrait_eg16.pdf

Multiplans-representationer lägger till några virtuella ‘animeringscels’ till denna paradigm, till exempel genom att använda djupuppskattning för att skära scenen i en hackig men hanterbar gradient av distinkta fokalplan, och sedan orkestrera djup-beroende kärnor för att syntetisera suddighet.

Dessutom, och högt relevant för potentiella AR/VR-miljöer, kan dispariteten mellan de två vyerna i en stereo-kamerainställning användas som en djup-proxy – en metod som föreslagits av Google Research 2015.

Från den Google-ledda artikeln Fast Bilateral-Space Stereo for Synthetic Defocus, skillnaden mellan de två vyerna ger en djupkarta som kan underlätta oskärpa. Men detta tillvägagångssätt är oäkta i situationen som beskrivs ovan, där bilden är tydligt tagen med en 35-50mm (SLR-standard) lins, men den extrema urfokuseringen av bakgrunden skulle bara någonsin inträffa med en lins som överstiger 200mm, som har den typ av kraftigt begränsad fokalplan som producerar smal djup av fält i normala, mänskliga miljöer

Från den Google-ledda artikeln Fast Bilateral-Space Stereo for Synthetic Defocus, skillnaden mellan de två vyerna ger en djupkarta som kan underlätta oskärpa. Men detta tillvägagångssätt är oäkta i situationen som beskrivs ovan, där bilden är tydligt tagen med en 35-50mm (SLR-standard) lins, men den extrema urfokuseringen av bakgrunden skulle bara någonsin inträffa med en lins som överstiger 200mm, som har den typ av kraftigt begränsad fokalplan som producerar smal djup av fält i normala, mänskliga miljöer

Tillvägagångssätt av denna typ tenderar att demonstrera kantartefakter, eftersom de försöker representera två distinkta och kantbegränsade sfärer av fokus som en kontinuerlig fokalgradient.

År 2021 erbjöd RawNeRF-initiativet High Dynamic Range (HDR)-funktioner, med större kontroll över låg ljus situationer, och en tydligt imponerande förmåga att justera fokus:

RawNeRF justerar fokus vackert (om, i detta fall, oäkta, på grund av orealistiska fokalplan), men kommer at en hög beräkningskostnad. Källa: https://bmild.github.io/rawnerf/

RawNeRF justerar fokus vackert (om, i detta fall, oäkta, på grund av orealistiska fokalplan), men kommer at en hög beräkningskostnad. Källa: https://bmild.github.io/rawnerf/

Men RawNeRF kräver betungande förberäkning för dess multiplans-representationer av den tränade NeRF, vilket resulterar i ett arbetsflöde som inte kan anpassas till lättare eller låg-latens-implementationer av NeRF.

Modellering av en virtuell lins

NeRF i sig är baserat på pinhole-avbildningsmodellen, som återger hela scenen skarpt på ett sätt som liknar en standard-CGI-scen (före de olika tillvägagångssätten som återger suddighet som en post-processing eller medfödd effekt baserad på djup av fält).

NeRFocus skapar en virtuell ‘tunn lins’ (snarare än en ‘glaslös’ aperture) som beräknar strålbana för varje inkommande pixel och återger den direkt, effektivt inverterande den standardiserade bildinspelningsprocessen, som fungerar post facto på ljusinmatning som redan har påverkats av linsdesignens refraktiva egenskaper.

Denna modell introducerar en rad möjligheter för innehållsrendering inom frustum (den största cirkeln av inflytande som visas i bilden ovan).

Att beräkna den korrekta färgen och densiteten för varje multilayer perceptron (MLP) i detta bredare utbud av möjligheter är en ytterligare uppgift. Detta har lösts tidigare genom att tillämpa övervakad tränings på ett stort antal DLSR-bilder, vilket innebär skapandet av ytterligare dataset för en probabilistisk träningsarbetsflöde – effektivt innebärande den mödosamma förberedelsen och lagringen av flera möjliga beräknade resurser som kan eller inte kan behövas.

NeRFocus övervinner detta genom P-training, där träningsdataset genereras baserat på grundläggande suddningsoperationer. Således formas modellen med suddningsoperationer som är medfödda och navigerbara.

Bländar diameter är inställd på noll under träningsprocessen, och fördefinierade sannolikheter används för att slumpmässigt välja en suddningskärna. Denna erhållna diameter används för att skala upp varje sammansatt kon diametrar, vilket låter MLP exakt förutsäga strålning och densitet för frustum (de breda cirklarna i ovanstående bilder, som representerar zonen för transformation för varje pixel)

Bländar diameter är inställd på noll under träningsprocessen, och fördefinierade sannolikheter används för att slumpmässigt välja en suddningskärna. Denna erhållna diameter används för att skala upp varje sammansatt kon diametrar, vilket låter MLP exakt förutsäga strålning och densitet för frustum (de breda cirklarna i ovanstående bilder, som representerar zonen för transformation för varje pixel)

Författarna till den nya artikeln observerar att NeRFocus potentiellt är kompatibelt med HDR-driven tillvägagångssättet för RawNeRF, som potentiellt kan hjälpa till att återge vissa utmanande sektioner, såsom urfokuserade spekulara höjdpunkter, och många av de andra beräkningsintensiva effekter som har utmanat CGI-arbetsflöden i trettio eller fler år.

Processen kräver inte ytterligare krav på tid och/eller parametrar i jämförelse med tidigare tillvägagångssätt som NeRF och Mip-NeRF (och, förmodligen Mip-NeRF 360, även om detta inte behandlas i artikeln), och är tillämplig som en allmän utvidgning av den centrala metodiken för neurala strålningsfält.

 

Publicerad första gången 12 mars 2022.

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.