Connect with us

NeRF: Utmaningen med att redigera innehÄllet i neurala strÄlningsfÀlt

Artificiell intelligens

NeRF: Utmaningen med att redigera innehÄllet i neurala strÄlningsfÀlt

mm

Tidigare i år förbättrade NVIDIA avsevärt forskningen kring neurala strålningsfält (NeRF) med NeRF forskning, främst med InstantNeRF, som tydligen kan generera utforskbara neurala scener på bara några sekunder – från en teknik som, när den uppstod 2020, ofta tog timmar eller till och med dagar att träna.

NVIDIA's InstantNeRF ger imponerande och snabba resultat.

NVIDIA’s InstantNeRF ger imponerande och snabba resultat. Källa: https://www.youtube.com/watch?v=DJ2hcC1orc4

Även om denna typ av interpolation producerar en statisk scen, kan NeRF också avbilda rörelse, och grundläggande ‘kopiera-och-klistra-in’ redigering, där enskilda NeRF kan antingen sammanfogas till sammansatta scener eller infogas i befintliga scener.

InbÀddade NeRF, som presenterades i 2021 Ärs forskning frÄn Shanghai Tech University och DGene Digital Technology.

Inbäddade NeRF, som presenterades i 2021 års forskning från Shanghai Tech University och DGene Digital Technology. Källa: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Men om du vill ingripa i en beräknad NeRF och faktiskt ändra något som händer inuti den (på samma sätt som du kan ändra element i en traditionell CGI-scen), har den snabba takten i sektorns intresse kommit med mycket lösningar hittills, och ingen som ens börjar matcha CGI-arbetsflödets funktioner.

Även om geometriuppskattning är avgörande för att skapa en NeRF-scen, består det slutliga resultatet av ganska “låsta” värden. Medan det sker viss framsteg mot att ändra texturvärderna i NeRF, är de faktiska objekten i en NeRF-scen inte parametriska nät som kan redigeras och lekas med, utan mer liknar sköra och frusna punktmoln.

I detta scenario är en återgiven person i en NeRF i princip en staty (eller en serie statyer, i video NeRF); skuggorna de kastar på sig själva och andra objekt är texturer, snarare än flexibla beräkningar baserade på ljuskällor; och redigerbarheten av NeRF-innehåll är begränsad till de val som fotografen som tar de glesa källfotona från vilka NeRF genereras.

NeRF-Redigering

En ny akademisk forskningssamarbete mellan Kina och Storbritannien möter denna utmaning med NeRF-Redigering, där proxy-CGI-liknande nät extraheras från en NeRF, deformerats efter behag av användaren, och deformationerna skickas tillbaka till NeRF:s neuronnätberäkningar:

NeRF-dockning med NeRF-redigering, när deformationerna beräknade från filmen appliceras på motsvarande punkter inom en NeRF-representation.

NeRF-dockning med NeRF-redigering, när deformationerna beräknade från filmen appliceras på motsvarande punkter inom en NeRF-representation. Källa: http://geometrylearning.com/NeRFEditing/

Metoden anpassar NeuS 2021 års rekonstruktiva teknik från USA/Kina, som extraherar en Underskriven AvståndsFunktion (SDF, en mycket äldre metod för volymrekonstruktion) som kan lära sig geometrin som representeras inom NeRF.

Denna SDF-objekt blir användarens skulpteringsbas, med krökning och formningsförmåga som tillhandahålls av den ärevördiga As-Rigid-As-Possible (ARAP) tekniken.

ARAP tillÄter anvÀndare att deformera det extraherade SDF-nÀtet, Àven om andra metoder, som skelettbaserade och burbaserade tillvÀgagÄngssÀtt (t.ex. NURBs), ocksÄ skulle fungera bra.

ARAP tillåter användare att deformera det extraherade SDF-nätet, även om andra metoder, som skelettbaserade och burbaserade tillvägagångssätt (t.ex. NURBs), också skulle fungera bra. Källa: https://arxiv.org/pdf/2205.04978.pdf

Med deformationerna applicerade, är det nödvändigt att översätta denna information från vektor till RGB/pixelnivån som är naturlig för NeRF, vilket är en aning längre resa.

De triangulära vertexen i nätet som användaren har deformerat översätts först till ett tetraedriskt nät, som bildar en hud runt användarnätet. Ett rumsligt diskret deformationssfält extraheras från detta tilläggsnät, och slutligen erhålls ett NeRF-vänligt kontinuerligt deformationssfält som kan skickas tillbaka till det neurala strålningsmiljön, som reflekterar användarens ändringar och redigeringar, och direkt påverkar de tolkade strålarna i mål-NeRF.

Objekt deformerade och animerade med den nya metoden.

Objekt deformerade och animerade med den nya metoden.

Artikeln säger:

‘Efter att ha överfört ytan deformation till det tetraedriska nätet, kan vi erhålla det diskreta deformationssfältet för “effektivt utrymme”. Vi använder nu dessa diskreta transformationer för att böja strålar. För att generera en bild av det deformerade strålningsfältet, kastar vi strålar till utrymmet som innehåller det deformerade tetraedriska nätet.’

Artikeln är titlad NeRF-Redigering: Geometriredigering av Neurala Strålningsfält, och kommer från forskare på tre kinesiska universitet och institutioner, tillsammans med en forskare från School of Computer Science & Informatics vid Cardiff University, och ytterligare två forskare från Alibaba Group.

Begränsningar

Som nämnts tidigare, kommer transformerad geometri inte att “uppdatera” några relaterade aspekter i NeRF som inte har redigerats, eller reflektera sekundära konsekvenser av det deformerade elementet, såsom skuggor. Forskarna tillhandahåller ett exempel, där underskuggor på en människfigur i en NeRF förblir oförändrade, även om deformationen borde ändra belysningen:

FrÄn artikeln: vi ser att den horisontella skuggan pÄ figurens arm förblir pÄ plats, Àven om armen flyttas uppÄt.

Från artikeln: vi ser att den horisontella skuggan på figurens arm förblir på plats, även om armen flyttas uppåt.

Experiment

Författarna observerar att det för närvarande inte finns några jämförbara metoder för direkt ingripande i NeRF-geometri. Därför var de experiment som utfördes för forskningen mer utforskande än jämförande.

Forskarna demonstrerade NeRF-Redigering på ett antal offentliga datamängder, inklusive karaktärer från Mixamo, och den numera ikoniska Lego-bulldozeren och stolen från den ursprungliga NeRF implementeringen. De experimenterade också på en riktigt inspelad häststaty från FVS-datasetet, samt deras egna ursprungliga inspelningar.

En hÀsts huvud lutas.

En hästs huvud lutas.

För framtida arbete avser författarna att utveckla sitt system i just-in-time (JIT) kompilera maskinlärningsramverket Jittor.

 

Publicerad första gången den 16 maj 2022.

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.