Künstliche Intelligenz
NeRF: Die Herausforderung der Bearbeitung des Inhalts von Neuralen Radiance-Feldern

Anfang dieses Jahres hat NVIDIA die Forschung zu Neuralen Radiance-Feldern (NeRF) mit InstantNeRF wesentlich vorangetrieben, das offensichtlich in der Lage ist, in nur wenigen Sekunden explorable neuronale Szenen zu generieren – aus einer Technik, die, als sie 2020 aufkam, häufig Stunden oder sogar Tage zum Trainieren benötigte.

NVIDIA’s InstantNeRF liefert beeindruckende und schnelle Ergebnisse. Quelle: https://www.youtube.com/watch?v=DJ2hcC1orc4
Obwohl diese Art der Interpolation eine statische Szene erzeugt, ist NeRF auch in der Lage, Bewegung darzustellen, und einfache ‘Kopieren-und-Einfügen’-Bearbeitung, wobei einzelne NeRFs entweder zu kompositen Szenen zusammengefügt oder in bestehende Szenen eingefügt werden können.

Nested NeRFs, die in der 2021-Forschung der Shanghai Tech University und DGene Digital Technology vorgestellt wurden. Quelle: https://www.youtube.com/watch?v=Wp4HfOwFGP4
Wenn Sie jedoch in einen berechneten NeRF eingreifen und tatsächlich etwas ändern möchten, was in ihm passiert (genauso wie Sie Elemente in einer traditionellen CGI-Szene ändern können), hat der schnelle Tempo des Interesses in diesem Sektor bislang sehr wenige Lösungen hervorgebracht, und keine davon kommt auch nur annähernd an die Fähigkeiten von CGI-Workflows heran.
Obwohl die Geometrieschätzung für die Erstellung einer NeRF-Szene unerlässlich ist, besteht das Endresultat aus ziemlich ‘festen’ Werten. Während es einige Fortschritte bei der Änderung von Texturwerten in NeRF gibt, sind die tatsächlichen Objekte in einer NeRF-Szene keine parametrischen Netze, die bearbeitet und manipuliert werden können, sondern eher ähnlich wie spröde und gefrorene Punktwolken.
In diesem Szenario ist eine gerenderte Person in einem NeRF im Wesentlichen eine Statue (oder eine Reihe von Statuen in Video-NeRFs); die Schatten, die sie auf sich selbst und andere Objekte wirft, sind Texturen und keine flexiblen Berechnungen auf der Grundlage von Lichtquellen; und die Bearbeitbarkeit von NeRF-Inhalten ist auf die Entscheidungen des Fotografen beschränkt, der die spärlichen Quellfotos macht, aus denen der NeRF generiert wird. Parameter wie Schatten und Pose bleiben unbearbeitbar, in jedem kreativen Sinne.
NeRF-Bearbeitung
Eine neue akademische Forschungszusammenarbeit zwischen China und dem Vereinigten Königreich geht auf diese Herausforderung mit NeRF-Bearbeitung ein, bei der Proxy-CGI-Netze aus einem NeRF extrahiert, vom Benutzer beliebig deformiert und die Deformationen an die neuronalen Berechnungen des NeRF weitergegeben werden:

NeRF-Puppenkunst mit NeRF-Bearbeitung, wenn die Deformationen, die aus Footage berechnet werden, auf äquivalente Punkte in einer NeRF-Darstellung angewendet werden. Quelle: http://geometrylearning.com/NeRFEditing/
Die Methode passt die NeuS-2021-US/China-Rekonstruktionstechnik an, die eine Signaturdistanzfunktion (SDF, eine viel ältere Methode der volumetrischen Rekonstruktion) extrahiert, die in der Lage ist, die in NeRF dargestellte Geometrie zu lernen.
Dieses SDF-Objekt wird zur Grundlage für die Bearbeitung durch den Benutzer, wobei Verformungs- und Formungsfähigkeiten durch die altbewährte As-Rigid-As-Possible-(ARAP)-Technik bereitgestellt werden.

ARAP ermöglicht es Benutzern, das extrahierte SDF-Netz zu verformen, obwohl auch andere Methoden, wie skelett- und korbartige Ansätze (z. B. NURBs), gut funktionieren würden. Quelle: https://arxiv.org/pdf/2205.04978.pdf
Mit den angewendeten Deformationen ist es notwendig, diese Informationen vom Vektor- zum RGB/Pixel-Niveau, das für NeRF native ist, zu übersetzen, was ein etwas längerer Weg ist.
Die dreieckigen Vertices des Netzes, das der Benutzer verformt hat, werden zunächst in ein tetraedrisches Netz übersetzt, das eine Haut um das Benutzer-Netz bildet. Ein räumlich diskretes Deformationsfeld wird aus diesem zusätzlichen Netz extrahiert, und schließlich wird ein NeRF-freundliches kontinuierliches Deformationsfeld erhalten, das in die neuronale Radiance-Umgebung zurückgegeben werden kann, wodurch die Änderungen und Bearbeitungen des Benutzers widergespiegelt werden und direkt die interpretierten Strahlen im Ziel-NeRF beeinflussen.

Objekte, die mit der neuen Methode verformt und animiert werden.
Das Papier besagt:
‘Nach der Übertragung der Oberflächendeformation auf das tetraedrische Netz können wir das diskrete Deformationsfeld des “effektiven Raums” erhalten. Wir nutzen nun diese diskreten Transformationen, um die Strahlen zu biegen. Um ein Bild des verformten Radiance-Felds zu erzeugen, werfen wir Strahlen in den Raum, der das verformte tetraedrische Netz enthält.’
Das Papier ist betitelt NeRF-Bearbeitung: Geometriebearbeitung von Neuronalen Radiance-Feldern und stammt von Forschern aus drei chinesischen Universitäten und Institutionen, zusammen mit einem Forscher von der School of Computer Science & Informatics an der Cardiff University und zwei weiteren Forschern von der Alibaba Group.
Einschränkungen
Wie bereits erwähnt, wird die transformierte Geometrie keine damit verbundenen Aspekte in NeRF aktualisieren, die nicht bearbeitet wurden, noch die sekundären Folgen des verformten Elements widerspiegeln, wie z. B. Schatten. Die Forscher liefern ein Beispiel, in dem die Unter-Schatten auf einer menschlichen Figur in einem NeRF unverändert bleiben, obwohl die Deformation die Beleuchtung ändern sollte:

Aus dem Papier: Wir sehen, dass der horizontale Schatten auf dem Arm der Figur an Ort und Stelle bleibt, auch wenn der Arm nach oben bewegt wird.
Experimente
Die Autoren bemerken, dass es derzeit keine vergleichbaren Methoden für direktes Eingreifen in die NeRF-Geometrie gibt. Daher waren die für die Forschung durchgeführten Experimente eher explorativ als vergleichend.
Die Forscher demonstrierten NeRF-Bearbeitung auf einer Reihe von öffentlichen Datensätzen, einschließlich Charakteren von Mixamo und dem mittlerweile ikonischen Lego-Bulldozer und -Stuhl aus der ursprünglichen NeRF-Implementierung. Sie experimentierten auch mit einer echten aufgenommenen Pferdestatue aus dem FVS-Datensatz sowie mit eigenen Aufnahmen.

Ein Pferdekopf, der geneigt wird.
Für zukünftige Arbeiten planen die Autoren, ihr System im just-in-time (JIT) kompilierten Machine-Learning-Framework Jittor zu entwickeln.
Erstveröffentlichung 16. Mai 2022.












