Connect with us

Künstliche Intelligenz

NeRFocus: Bringing Lightweight Focus Control to Neural Radiance Fields

mm

Neue Forschung aus China bietet eine Methode, um erschwingliche Kontrolle über Tiefenschärfe-Effekte für Neural Radiance Fields (NeRF) zu erzielen, sodass der Endbenutzer die Schärfe einstellen und die Konfiguration der virtuellen Linse im Renderingspace dynamisch ändern kann.

Titled NeRFocus, die Technik implementiert einen neuen ‘thin lens imaging’-Ansatz für die Fokus-Traversal und innoviert P-training, eine probabilistische Trainingsstrategie, die die Notwendigkeit für dedizierte Tiefenschärfe-Datensätze eliminiert und einen fokus-aktivierten Trainingsworkflow vereinfacht.

Das Papier ist betitelt NeRFocus: Neural Radiance Field for 3D Synthetic Defocus und stammt von vier Forschern der Shenzhen Graduate School an der Peking-Universität und dem Peng Cheng Laboratory in Shenzhen, einem vom Guangdong-Provinzregierung finanzierten Institut.

Addressing the Foveated Locus of Attention in NeRF

Wenn NeRF jemals seinen Platz als gültige Technologie für virtuelle und erweiterte Realität einnehmen soll, benötigt es eine leichte Methode, um realistische foveated Rendering zu ermöglichen, bei der die meisten Renderressourcen um den Blick des Benutzers herum akkumulieren, anstatt sie ununterscheidbar über den gesamten verfügbaren visuellen Raum zu verteilen.

Aus dem 2021-Papier Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality sehen wir den Aufmerksamkeitslocus in einem neuen foveated Rendering-Schema für NeRF. Quelle: https://arxiv.org/pdf/2103.16365.pdf

Aus dem 2021-Papier Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality sehen wir den Aufmerksamkeitslocus in einem neuen foveated Rendering-Schema für NeRF. Quelle: https://arxiv.org/pdf/2103.16365.pdf

Ein wesentlicher Teil der Authentizität zukünftiger NeRF-Implementierungen wird die Fähigkeit des Systems sein, die Fähigkeit des menschlichen Auges zu reflektieren, den Fokus über eine zurücktretende Ebene der Perspektive zu schalten (siehe erstes Bild oben).

Dieser Fokus-Gradient ist auch ein wahrnehmbarer Indikator für die Größe der Szene; die Ansicht aus einem Hubschrauber, der über eine Stadt fliegt, hat keine navigierbaren Fokusebenen, da die gesamte Szene jenseits der äußersten Fokuskapazität des Betrachters liegt, während die Untersuchung einer Miniatur oder einer “Nahfeld”-Szene nicht nur “Fokus-Racken” ermöglicht, sondern auch aus Realismusgründen standardmäßig eine enge Tiefenschärfe enthalten sollte.

Unten ist ein Video zu sehen, das die anfänglichen Fähigkeiten von NeRFocus demonstriert, das uns von dem entsprechierenden Autor des Papiers zur Verfügung gestellt wurde:

Beyond Restricted Focal Planes

Bewusst für die Anforderungen an die Fokuskontrolle haben verschiedene NeRF-Projekte in den letzten Jahren Vorkehrungen dafür getroffen, obwohl alle bisherigen Versuche irgendwie als Workarounds oder mit bemerkenswerten Post-Processing-Routinen arbeiten, die sie unwahrscheinliche Beiträge zu den letztendlich für Neural Radiance Fields-Technologien vorgesehenen Echtzeitumgebungen machen.

Synthetische Fokuskontrolle in neuronalen Rendering-Frameworks wurde in der Vergangenheit mit verschiedenen Methoden versucht – zum Beispiel durch die Verwendung eines Segmentierungsnetzwerks, um die Vorder- und Hintergrunddaten abzutrennen und dann den Hintergrund generisch zu entfokussieren – eine gängige Lösung für einfache Zwei-Ebenen-Fokus-Effekte.

Aus dem Papier Automatic Portrait Segmentation for Image Stylization, eine alltägliche, animationsähnliche Trennung von Fokusebenen. Quelle: https://jiaya.me/papers/portrait_eg16.pdf

Aus dem Papier ‘Automatic Portrait Segmentation for Image Stylization’, eine alltägliche, animationsähnliche Trennung von Fokusebenen. Quelle: https://jiaya.me/papers/portrait_eg16.pdf

Mehrere Ebenen-Representationen fügen diesem Paradigma einige virtuelle ‘Animation Cels’ hinzu, zum Beispiel durch die Verwendung von Tiefenschätzung, um die Szene in eine hackige, aber handhabbare Gradientenfolge von unterschiedlichen Fokusebenen zu schneiden, und dann tiefenabhängige Kerne zu synthetisieren.

Zusätzlich und hoch relevant für potenzielle AR/VR-Umgebungen kann die Disparität zwischen den beiden Blickwinkeln einer Stereokamera-Anordnung als Tiefenproxy verwendet werden – eine Methode, die 2015 von Google Research vorgeschlagen wurde.

Aus dem Google-geführten Papier Fast Bilateral-Space Stereo for Synthetic Defocus, die Differenz zwischen zwei Blickwinkeln liefert eine Tiefenkarte, die das Verschwommachen ermöglichen kann. Allerdings ist dieser Ansatz in der oben beschriebenen Situation unecht, in der das Foto offensichtlich mit einer 35-50mm-(SLR-Standard)-Linse aufgenommen wurde, aber die extreme Entfokussierung des Hintergrunds nur mit einer Linse über 200mm auftreten würde, die die Art von stark eingeschränkter Fokusebene hat, die in normalen, menschlichen Umgebungen eine enge Tiefenschärfe erzeugt

Aus dem Google-geführten Papier Fast Bilateral-Space Stereo for Synthetic Defocus, die Differenz zwischen zwei Blickwinkeln liefert eine Tiefenkarte, die das Verschwommachen ermöglichen kann. Quelle

Ansätze dieser Art neigen dazu, Kantenausfälle zu zeigen, da sie versuchen, zwei unterschiedliche und kantengrenzte Sphären des Fokus als kontinuierlichen Fokus-Gradienten darzustellen.

Im Jahr 2021 bot die RawNeRF-Initiative High Dynamic Range (HDR)-Funktionalität mit größerer Kontrolle über Niedriglichtsituationen und einer scheinbar beeindruckenden Fähigkeit, den Fokus zu ändern:

RawNeRF ändert den Fokus wunderschön (wenn auch in diesem Fall unecht, aufgrund unrealistischer Fokusebenen), aber kommt mit hohem Rechenaufwand. Quelle: https://bmild.github.io/rawnerf/

RawNeRF ändert den Fokus wunderschön (wenn auch in diesem Fall unecht, aufgrund unrealistischer Fokusebenen). Quelle: https://bmild.github.io/rawnerf/

Allerdings erfordert RawNeRF eine aufwändige Vorrechnung für seine Mehrfachebenen-Darstellungen des trainierten NeRF, was zu einem Workflow führt, der nicht leicht auf leichtere oder niedrigere Latenz-Implementierungen von NeRF adaptiert werden kann.

Modeling a Virtual Lens

NeRF selbst basiert auf dem Pinhole-Imaging-Modell, das die gesamte Szene scharf in einer ähnlichen Weise wie eine Standard-CGI-Szene (vor den verschiedenen Ansätzen, die Verschwommachen als Post-Processing- oder innate-Effekt basierend auf Tiefenschärfe rendern) darstellt.

NeRFocus erstellt eine virtuelle ‘Dünne Linse’ (anstatt einer ‘glaslosen’ Blende), die den Strahlweg jedes eingehenden Pixels berechnet und ihn direkt rendern kann, effektiv die Standardbildaufnahmeprozess umkehrend, der post facto auf Lichtinput arbeitet, der bereits von den brechenden Eigenschaften des Linsendesigns beeinflusst wurde.

Dieses Modell ermöglicht eine Reihe von Möglichkeiten für die Inhaltswiedergabe innerhalb des Frustums (der größten Kreis der Einflussnahme, der in dem Bild oben dargestellt ist).

Die Berechnung der richtigen Farbe und Dichte für jeden Multilayer-Perzeptron (MLP) in diesem breiteren Bereich von Möglichkeiten ist eine zusätzliche Aufgabe. Dies wurde früher durch die Anwendung von überwachtem Training auf eine große Anzahl von DLSR-Bildern gelöst, was die Erstellung zusätzlicher Datensätze für einen probabilistischen Trainingsworkflow beinhaltet – effektiv die mühsame Vorbereitung und Speicherung von mehreren möglichen berechneten Ressourcen, die möglicherweise nicht benötigt werden.

NeRFocus überwindet dies durch P-training, bei dem Trainingsdatensätze auf der Grundlage von grundlegenden Verschwommachungsoperationen generiert werden. Somit wird das Modell mit Verschwommachungsoperationen gebildet, die angeboren und navigierbar sind.

Der Blendenradius wird während des Trainings auf Null gesetzt und vordefinierte Wahrscheinlichkeiten werden verwendet, um einen Verschwommachungs-Kernel zufällig auszuwählen. Dieser erhaltene Radius wird verwendet, um die Durchmesser jedes zusammengesetzten Kegels zu skalieren, sodass das MLP die Strahlung und Dichte des Frustums (die breiten Kreise in den obigen Bildern, die die Zone der Transformation für jeden Pixel darstellen) genau vorhersagen kann

Der Blendenradius wird während des Trainings auf Null gesetzt und vordefinierte Wahrscheinlichkeiten werden verwendet, um einen Verschwommachungs-Kernel zufällig auszuwählen.

Die Autoren des neuen Papiers bemerken, dass NeRFocus möglicherweise kompatibel mit dem HDR-geführten Ansatz von RawNeRF ist, der möglicherweise bei der Wiedergabe bestimmter herausfordernder Abschnitte helfen könnte, wie z.B. entfokussierte spekularische Highlights und viele der anderen rechenintensiven Effekte, die CGI-Workflows seit dreißig oder mehr Jahren herausfordern.

Der Prozess erfordert keine zusätzlichen Anforderungen an Zeit und/oder Parameter im Vergleich zu vorherigen Ansätzen wie Core NeRF und Mip-NeRF (und, vermutlich Mip-NeRF 360, obwohl dies im Papier nicht angesprochen wird) und ist als allgemeine Erweiterung der zentralen Methodik von neuronalen Radiance-Feldern anwendbar.

 

Erstveröffentlichung 12. März 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.