Kunstmatige intelligentie
NeRF: De uitdaging van het bewerken van de inhoud van neurale stralingsvelden

Earlier dit jaar heeft NVIDIA geavanceerde neurale stralingsvelden (NeRF) onderzoek aanzienlijk verbeterd met InstantNeRF, die ogenschijnlijk in staat is om te bewerkbare neurale scènes in enkele seconden te genereren – van een techniek die, toen het in 2020 ontstond, vaak uren of zelfs dagen nodig had om te trainen.

NVIDIA’s InstantNeRF levert indrukwekkende en snelle resultaten. Source: https://www.youtube.com/watch?v=DJ2hcC1orc4
Hoewel dit type interpolatie een statische scène produceert, is NeRF ook in staat om beweging weer te geven, en van basis ‘kopieer-en-plak’ bewerking, waarbij individuele NeRFs kunnen worden samengevoegd tot samengestelde scènes of ingevoegd in bestaande scènes.

Geneste NeRFs, die in 2021 onderzoek van Shanghai Tech University en DGene Digital Technology zijn gepresenteerd. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4
Echter, als u wilt ingrijpen in een berekende NeRF en daadwerkelijk iets veranderen dat erin gebeurt (op dezelfde manier als u elementen in een traditionele CGI-scène kunt veranderen), heeft de snelle ontwikkeling van sectorbelang tot nu toe zeer weinig oplossingen opgeleverd, en geen enkele die de mogelijkheden van CGI-workflows benadert.
Hoewel geometrieschatting essentieel is voor het creëren van een NeRF-scène, bestaat het eindresultaat uit vrijwel ‘vaste’ waarden. Terwijl er enige vooruitgang wordt geboekt bij het veranderen van textuurwaarden in NeRF, zijn de daadwerkelijke objecten in een NeRF-scène geen parametrische netwerken die kunnen worden bewerkt en gespeeld, maar meer vergelijkbaar met broze en bevroren puntenwolken.
In deze situatie is een weergegeven persoon in een NeRF in wezen een standbeeld (of een reeks standbeelden, in video NeRFs); de schaduwen die ze op zichzelf en andere objecten werpen, zijn texturen, in plaats van flexibele berekeningen op basis van lichtbronnen; en de bewerkbaarheid van NeRF-inhoud is beperkt tot de keuzes die zijn gemaakt door de fotograaf die de schaarse bronfoto’s neemt waaruit de NeRF is gegenereerd. Parameters zoals schaduwen en houding blijven niet-bewerkbaar, in enige creatieve zin.
NeRF-Bewerken
Een nieuwe academische onderzoeks samenwerking tussen China en het VK adresseert deze uitdaging met NeRF-Bewerken, waarbij proxy CGI-achtige netwerken uit een NeRF worden geëxtraheerd, op elk gewenst moment door de gebruiker kunnen worden vervormd, en de vervormingen worden doorgegeven aan de neurale berekeningen van de NeRF:

NeRF-poppenspel met NeRF-bewerken, waarbij de vervormingen berekend uit beeldmateriaal worden toegepast op overeenkomstige punten in een NeRF-weergave. Source: http://geometrylearning.com/NeRFEditing/
De methode past de NeuS 2021 reconstructietechniek aan, die een Signed Distance Function (SDF, een veel oudere methode voor volumetrische reconstructie) extracteert die in staat is om de geometrie weer te geven die in de NeRF wordt weergegeven.
Deze SDF-object wordt de basis voor het bewerken door de gebruiker, met buig- en vormgevingsmogelijkheden die worden geboden door de As-Rigid-As-Possible (ARAP) techniek.

ARAP stelt gebruikers in staat om het geëxtraheerde SDF-netwerk te vervormen, hoewel andere methoden, zoals skelet- en kooi-gebaseerde benaderingen (d.w.z. NURBs), ook goed zouden werken. Source: https://arxiv.org/pdf/2205.04978.pdf
Met de vervormingen toegepast, is het noodzakelijk om deze informatie van vector naar het RGB/pixel-niveau dat native is voor NeRF om te zetten, wat een iets langere reis is.
De driehoekige vertices van het netwerk dat de gebruiker heeft vervormd, worden eerst vertaald naar een tetraëdervormig netwerk, dat een huid vormt rond het gebruikersnetwerk. Een ruimtelijk discrete vervormingsveld wordt geëxtraheerd uit dit extra netwerk, en tenslotte wordt een NeRF-vriendelijk continu vervormingsveld verkregen dat kan worden doorgegeven aan de neurale stralingsomgeving, waardoor de veranderingen en bewerkingen van de gebruiker worden weerspiegeld en rechtstreeks van invloed zijn op de geïnterpreteerde stralen in het doel-NeRF.

Objecten die zijn vervormd en geanimeerd door de nieuwe methode.
Het artikel vermeldt:
‘Nadat we de oppervlaktevervorming naar het tetraëdervormige netwerk hebben overgebracht, kunnen we het discrete vervormingsveld van de “effectieve ruimte” verkrijgen. We gebruiken nu deze discrete transformaties om de stralen te buigen. Om een afbeelding van het vervormde stralingsveld te genereren, sturen we stralen naar de ruimte die het vervormde tetraëdervormige netwerk bevat.’
Het artikel is getiteld NeRF-Bewerken: geometrische bewerking van neurale stralingsvelden, en komt van onderzoekers van drie Chinese universiteiten en instellingen, samen met een onderzoeker van de School of Computer Science & Informatics aan de Cardiff University, en nog twee onderzoekers van de Alibaba Group.
Beperkingen
Zoals eerder vermeld, zal getransformeerde geometrie geen ‘update’ uitvoeren van gerelateerde aspecten in de NeRF die niet zijn bewerkt, noch reflecteren van secundaire gevolgen van het vervormde element, zoals schaduwen. De onderzoekers geven een voorbeeld, waarbij onder-schaduwen op een menselijke figuur in een NeRF ongewijzigd blijven, zelfs als de vervorming de verlichting zou moeten veranderen:

Uit het artikel: we zien dat de horizontale schaduw op de arm van de figuur op zijn plaats blijft, zelfs als de arm omhoog wordt bewogen.
Experimenten
De auteurs merken op dat er momenteel geen vergelijkbare methoden zijn voor directe interventie in NeRF-geometrie. Daarom waren de experimenten die voor het onderzoek zijn uitgevoerd meer exploratoir dan vergelijkend.
De onderzoekers hebben NeRF-Bewerken gedemonstreerd op een aantal openbare datasets, waaronder personages van Mixamo, en de inmiddels iconische Lego-bulldozer en stoel van de oorspronkelijke NeRF-implementatie. Ze hebben ook geëxperimenteerd met een echt vastgelegd paardenstandbeeld uit de FVS-dataset, evenals hun eigen originele opnames.

Het hoofd van een paard wordt gekanteld.
Voor toekomstig werk zijn de auteurs van plan om hun systeem te ontwikkelen in het just-in-time (JIT) gecompileerde machine learning-framework Jittor.
Voor het eerst gepubliceerd op 16 mei 2022.












