Connect with us

NeRF: Udfordringen ved at redigere indholdet af neurale lysfelt

Kunstig intelligens

NeRF: Udfordringen ved at redigere indholdet af neurale lysfelt

mm

Tidligere på året avancerede NVIDIA neurale lysfelter (NeRF) forskning betydeligt med InstantNeRF, som åbenbart er i stand til at generere gennemforskellige neurale scener på få sekunder – fra en teknik, der, da den opstod i 2020, ofte tog timer eller endda dage at træne.

NVIDIA's InstantNeRF giver imponerende og hurtige resultater.

NVIDIA’s InstantNeRF giver imponerende og hurtige resultater. Kilde: https://www.youtube.com/watch?v=DJ2hcC1orc4

Selvom denne type interpolation producerer en statisk scene, er NeRF også i stand til at afbilde bevægelse, og grundlæggende ‘kopier-og-lim’-redigering, hvor enkeltstående NeRF kan samles i sammensatte scener eller indføjes i eksisterende scener.

Indlejrede NeRF, fremhævet i 2021-forskning fra Shanghai Tech University og DGene Digital Technology.

Indlejrede NeRF, fremhævet i 2021-forskning fra Shanghai Tech University og DGene Digital Technology. Kilde: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Men hvis du ønsker at intervenere i en beregnet NeRF og faktisk ændre noget, der sker inde i den (på samme måde, som du kan ændre elementer i en traditionel CGI-scene), har det hurtige tempo i sektorens interesse ført til meget løsninger indtil videre, og ingen, der matcher CGI-arbejdsgange.

Selvom geometriestimation er afgørende for at oprette en NeRF-scene, består det endelige resultat af ret “låste” værdier. Mens der er en vis fremgang i at ændre teksturværdier i NeRF, er de faktiske objekter i en NeRF-scene ikke parametriske mesh, der kan redigeres og leges med, men mere ligner skrøbelige og frosne punktskyer.

I denne situation er en renderet person i en NeRF essentielt en statue (eller en række statuer i video NeRF); skyggerne, de kaster på sig selv og andre objekter, er teksturer, snarere end fleksible beregninger baseret på lyskilder; og redigeringen af NeRF-indhold er begrænset til valg gjort af fotografen, der tager de sparsomme kildebilleder, som NeRF genereres fra. Parametre som skygger og holdning forbliver ikke-redigerbare i nogen kreativ forstand.

NeRF-Redigering

En ny akademisk forskningssamarbejde mellem Kina og Storbritannien løser denne udfordring med NeRF-Redigering, hvor proxy CGI-lignende mesh udtrækkes fra en NeRF, forvrænges efter behag af brugeren og forvrængningerne overføres tilbage til NeRF’s neurale beregninger:

NeRF-dukke med NeRF-redigering, da forvrængningerne beregnet fra optagelser anvendes på tilsvarende punkter i en NeRF-repræsentation.

NeRF-dukke med NeRF-redigering, da forvrængningerne beregnet fra optagelser anvendes på tilsvarende punkter i en NeRF-repræsentation. Kilde: http://geometrylearning.com/NeRFEditing/

Metoden tilpasser NeuS-teknikken fra 2021, som udtrækker en Signed Distance Function (SDF, en meget ældre metode til volumetrisk rekonstruktion), der kan lære geometrien, der er repræsenteret inde i NeRF.

Dette SDF-objekt bliver brugerens skulpturbasis, med forvrængnings- og formningsmuligheder leveret af den værdsatte As-Rigid-As-Possible (ARAP)-teknik.

ARAP giver brugeren mulighed for at forvrænge det udtrukne SDF-mesh, selvom andre metoder, såsom skelet- og bur-baserede tilgange (f.eks. NURBs), også ville fungere godt.

ARAP giver brugeren mulighed for at forvrænge det udtrukne SDF-mesh, selvom andre metoder, såsom skelet- og bur-baserede tilgange (f.eks. NURBs), også ville fungere godt. Kilde: https://arxiv.org/pdf/2205.04978.pdf

Med forvrængningerne anvendt, er det nødvendigt at oversætte denne information fra vektor til RGB/pixel-niveau, der er naturligt for NeRF, hvilket er en lidt længere rejse.

De triangulære vertex af mesh’en, som brugeren har forvrænget, oversættes først til en tetraedrisk mesh, der danner en hud omkring bruger-mesh’en. En rummeligt diskret forvrængningsfelt udtrækkes fra denne yderligere mesh, og endelig opnås et NeRF-venligt kontinuerligt forvrængningsfelt, der kan overføres tilbage til den neurale lysmiljø, hvilket afspejler brugerens ændringer og redigeringer og påvirker direkte de fortolkede stråler i mål-NeRF.

Objekter, der er forvrænget og animeret med den nye metode.

Objekter, der er forvrænget og animeret med den nye metode.

Artiklen siger:

‘Efter at have overført overflade-forvrængning til den tetraedriske mesh, kan vi opnå det diskrete forvrængningsfelt for “effektivt rum”. Vi anvender disse diskrete transformationer til at bøje strålerne. For at generere et billede af det forvrængede lysfelt, kaster vi stråler til rummet, der indeholder den forvrængede tetraedriske mesh.’

Artiklen er titleret NeRF-Redigering: Geometrisk Redigering af Neurale Lysfelter og kommer fra forskere på tre kinesiske universiteter og institutioner samt en forsker fra School of Computer Science & Informatics på Cardiff University og to andre forskere fra Alibaba Group.

Begrænsninger

Som nævnt tidligere, vil transformeret geometri ikke “opdatere” nogen relaterede aspekter i NeRF, der ikke er redigeret, eller afspejle sekundære konsekvenser af det forvrængede element, såsom skygger. Forskerne giver et eksempel, hvor under-skygger på en menneskefigur i en NeRF forbliver uændrede, selvom forvrængningen burde ændre belysningen:

Fra artiklen: Vi ser, at den vandrette skygge på figurens arm forbliver på plads, selv om armen flyttes opad.

Fra artiklen: Vi ser, at den vandrette skygge på figurens arm forbliver på plads, selv om armen flyttes opad.

Eksperimenter

Forfatterne observerer, at der ikke er sammenlignelige metoder til direkte intervention i NeRF-geometri. Derfor var eksperimenterne, der blev udført for forskningen, mere eksploratoriske end sammenlignende.

Forskerne demonstrerede NeRF-Redigering på en række offentlige datasæt, herunder karakterer fra Mixamo og den nu ikoniske Lego-bulldozer og stol fra den oprindelige NeRF implementering. De eksperimenterede også på en virkelig fanget hestestatue fra FVS-datasættet samt deres egne originale optagelser.

En hests hoved, der er vrider.

En hests hoved, der er vrider.

Til fremtidigt arbejde har forfatterne til hensigt at udvikle deres system i just-in-time (JIT)-kompileret maskinelæring-rammeværk Jittor.

 

Offentliggjort første gang 16. maj 2022.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.