Artificiell intelligens

NeRF: Utmaningen att redigera innehållet i neurala strålningsfält

Uppdaterad on December 9, 2022

Tidigare i år avancerade NVIDIA Neural Radiance Fields (NeRF) forskning särskilt med InstantNeRF, uppenbarligen kapabel att generera utforskande neurala scener på bara några sekunder – från en teknik som, när den dykt 2020 tog det ofta timmar eller till och med dagar att träna.

NVIDIAs InstantNeRF ger imponerande och snabba resultat. Källa: https://www.youtube.com/watch?v=DJ2hcC1orc4

Även om denna typ av interpolation producerar en statisk scen, är NeRF också kapabel till skildrar rörelse, och grundläggande "kopiera-och-klistra"-redigering, där enskilda NeRF:er antingen kan sammanställas till sammansatta scener or införd in i befintliga scener.

Kapslade NeRFs, med i 2021 års forskning från Shanghai Tech University och DGene Digital Technology. Källa: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Men om du funderar på att ingripa i en beräknad NeRF och faktiskt ändra något som pågår inuti den (på samma sätt som du kan ändra element i en traditionell CGI-scen), har den snabba takten i sektorintresset kommit fram till mycket få lösningar hittills, och ingen som ens börjar matcha funktionerna i CGI-arbetsflöden.

Även om geometriuppskattning är väsentlig för att skapa en NeRF-scen, är slutresultatet sammansatt av ganska "låsta" värden. Medan det finns några framsteg De faktiska objekten i en NeRF-scen är gjorda för att ändra texturvärden i NeRF, inte parametriska maskor som kan redigeras och lekas med, utan mer besläktade med spröda och frusna punktmoln.

I detta scenario är en återgiven person i en NeRF i huvudsak en staty (eller en serie statyer, i video NeRFs); skuggorna de kastar på sig själva och andra föremål är texturer, snarare än flexibla beräkningar baserade på ljuskällor; och redigerbarheten av NeRF-innehåll är begränsad till de val som görs av fotografen som tar de glesa källfoton från vilka NeRF genereras. Parametrar som skuggor och pose förblir icke redigerbara, i någon kreativ mening.

NeRF-redigering

Ett nytt akademiskt forskningssamarbete mellan Kina och Storbritannien tar upp denna utmaning med NeRF-redigering, där proxy-CGI-liknande nät extraheras från en NeRF, deformeras efter behag av användaren, och deformationerna passerar tillbaka till NeRF:s neurala beräkningar:

NeRF dockteater med NeRF-redigering, eftersom deformationerna beräknade från filmer appliceras på ekvivalenta punkter inuti en NeRF-representation. Källa: http://geometrylearning.com/NeRFEditing/

Metoden anpassar NeuS 2021 USA/Kina rekonstruktionsteknik, som extraherar en Signerad avståndsfunktion (SDF, en mycket äldre metod för volymetrisk rekonstruktion) som kan lära sig geometrin som representeras inuti NeRF.

Detta SDF-objekt blir användarens skulpterande bas, med vridnings- och formningsmöjligheter som tillhandahålls av den ärevördiga As-Rigid-As-Possible (ARABISKA) Metod.

ARAP tillåter användare att deformera det extraherade SDF-nätet, även om andra metoder, såsom skelettbaserade och burbaserade tillvägagångssätt (dvs. NURBs), också skulle fungera bra. Källa: https://arxiv.org/pdf/2205.04978.pdf

Med de applicerade deformationerna är det nödvändigt att översätta denna information från vektorn till RGB/pixelnivån inbyggd till NeRF, vilket är en lite längre resa.

De triangulära hörnen på nätet som användaren har deformerat översätts först till ett tetraedriskt nät, som bildar en hud runt användarnätet. Ett rumsligt diskret deformationsfält extraheras från detta extra nät, och slutligen erhålls ett NeRF-vänligt kontinuerligt deformationsfält som kan skickas tillbaka in i den neurala strålningsmiljön, vilket reflekterar användarens ändringar och redigeringar och direkt påverkar de tolkade strålarna i målet NeRF.

Föremål deformerade och animerade med den nya metoden.

I uppsatsen anges:

"Efter att ha överfört ytdeformationen till det tetraedriska nätet kan vi erhålla det diskreta deformationsfältet för det "effektiva utrymmet". Vi använder nu dessa diskreta transformationer för att böja gjutstrålarna. För att generera en bild av det deformerade strålningsfältet, kastar vi strålar till utrymmet som innehåller det deformerade tetraedriska nätet.'

Smakämnen papper har titeln NeRF-redigering: Geometriredigering av neurala strålningsfält, och kommer från forskare från tre kinesiska universitet och institutioner, tillsammans med en forskare från School of Computer Science & Informatics vid Cardiff University, och ytterligare två forskare från Alibaba Group.

Begränsningar

Som nämnts tidigare kommer transformerad geometri inte att "uppdatera" några relaterade aspekter i NeRF som inte har redigerats, och inte heller spegla sekundära konsekvenser av det deformerade elementet, såsom skuggor. Forskarna ger ett exempel där underskuggor på en mänsklig figur i en NeRF förblir oförändrade, även om deformationen borde förändra belysningen:

Från tidningen: vi ser att den horisontella skuggan på figurens arm förblir på plats även när armen flyttas uppåt.

Experiment

Författarna observerar att det för närvarande inte finns några jämförbara metoder för direkt ingrepp i NeRF-geometri. Därför var experimenten som utfördes för forskningen mer utforskande än jämförande.

Forskarna demonstrerade NeRF-redigering på ett antal offentliga datauppsättningar, inklusive karaktärer från Mixamo och den nu ikoniska Lego-buldozern och stolen från den ursprungliga NeRF genomförande. De experimenterade också på en riktig fången häststaty från FVS-datauppsättning, såväl som sina egna originalfångster.

En hästs huvud lutade.

För framtida arbete avser författarna att utveckla sitt system i det just-in-time (JIT) kompilerade maskininlärningsramverket Jittor.

Första gången publicerad 16 maj 2022.

Relaterade ämnen:bildsyntes NeRF forskning

Strax

AI-hårdvaruteknik imiterar förändringar i neural nätverkstopologi

Missa inte

Bedömning av den historiska riktigheten av ImageNet

Martin Anderson

Författare om maskininlärning, artificiell intelligens och big data.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai

Unite.AI

NeRF: Utmaningen att redigera innehållet i neurala strålningsfält

Artificiell intelligens