Stummel NeRFocus: Leichte Fokuskontrolle in neuronale Strahlungsfelder bringen – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

NeRFocus: Leichte Fokuskontrolle für neuronale Strahlungsfelder

mm
Aktualisiert on

Neue Forschungsergebnisse aus China bieten eine Methode zur kostengünstigen Kontrolle der Tiefenschärfeeffekte neuronaler Strahlungsfelder (Nerf), wodurch der Endbenutzer den Fokus verschieben und die Konfiguration der virtuellen Linse im Renderraum dynamisch ändern kann.

Betitelt NeRFocusDie Technik implementiert einen neuartigen „Thin-Lens-Imaging“-Ansatz zur Fokusdurchquerung und ist innovativ P-Training, eine probabilistische Trainingsstrategie, die die Notwendigkeit dedizierter Tiefenschärfe-Datensätze überflüssig macht und einen fokussierten Trainingsworkflow vereinfacht.

Das Krepppapier ist betitelt NeRFocus: Neuronales Strahlungsfeld für synthetische 3D-Defokussierung, und stammt von vier Forschern der Shenzhen Graduate School der Peking-Universität und des Peng Cheng Laboratory in Shenzhen, einem von der Regierung der Provinz Guangdong finanzierten Institut.

Adressierung des Foveated Locus of Attention in NeRF

Wenn NeRF jemals seinen Platz als gültige Antriebstechnologie für virtuelle und erweiterte Realität einnehmen soll, ist eine einfache Methode erforderlich, die realistische Ergebnisse ermöglicht foveated Rendering, bei dem sich der Großteil der Rendering-Ressourcen um den Blick des Benutzers herum ansammelt, anstatt wahllos bei niedrigerer Auflösung über den gesamten verfügbaren visuellen Raum verteilt zu werden.

Aus dem Artikel Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality aus dem Jahr 2021 sehen wir den Aufmerksamkeitsort in einem neuartigen foveierten Rendering-Schema für NeRF. Quelle: https://arxiv.org/pdf/2103.16365.pdf

Aus dem Artikel Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality aus dem Jahr 2021 sehen wir den Aufmerksamkeitsort in einem neuartigen foveierten Rendering-Schema für NeRF. Quelle: https://arxiv.org/pdf/2103.16365.pdf

Ein wesentlicher Teil der Authentizität künftiger Einsätze von egozentrischem NeRF wird in der Fähigkeit des Systems liegen, die Fähigkeit des menschlichen Auges widerzuspiegeln, den Fokus über eine zurückweichende Perspektivenebene zu wechseln (siehe erstes Bild oben).

Dieser Fokusgradient ist auch ein wahrnehmungsbezogener Indikator für den Maßstab der Szene; Der Blick von einem Hubschrauber, der über eine Stadt fliegt, hat keine navigierbaren Fokusfelder, da die gesamte Szene außerhalb der äußersten Fokussierungskapazität des Betrachters existiert, während die Untersuchung einer Miniatur- oder „Nahfeld“-Szene nicht nur eine „Fokusverschiebung“ ermöglicht, sondern auch sollte aus Gründen des Realismus standardmäßig eine geringe Schärfentiefe enthalten.

Nachfolgend finden Sie ein Video, das die anfänglichen Fähigkeiten von NeRFocus demonstriert und uns vom korrespondierenden Autor des Artikels zur Verfügung gestellt wurde:

Jenseits eingeschränkter Bildebenen

Im Bewusstsein der Anforderungen an die Fokussteuerung haben eine Reihe von NeRF-Projekten in den letzten Jahren entsprechende Vorkehrungen getroffen, obwohl alle bisherigen Versuche im Grunde nur eine Art Taschenspielertrick sind oder ansonsten erhebliche Nachbearbeitungsroutinen erfordern Sie stellen unwahrscheinliche Beiträge zu den Echtzeitumgebungen dar, die letztendlich für die Neural Radiance Fields-Technologien vorgesehen sind.

In den letzten 5 bis 6 Jahren wurde mit verschiedenen Methoden eine synthetische Fokussteuerung in neuronalen Rendering-Frameworks versucht – zum Beispiel durch die Verwendung eines Segmentierungsnetzwerks, um die Vorder- und Hintergrunddaten abzugrenzen und dann den Hintergrund generisch zu defokussieren – a gemeinsame Lösung für einfache Zwei-Ebenen-Fokuseffekte.

Aus dem Artikel „Automatische Porträtsegmentierung zur Bildstilisierung“, eine alltägliche Trennung von Fokusebenen im Animationsstil. Quelle: https://jiaya.me/papers/portrait_eg16.pdf

Aus dem Artikel „Automatic Portrait Segmentation for Image Stylization“, eine alltägliche Trennung von Fokusebenen im Animationsstil. Quelle: https://jiaya.me/papers/portrait_eg16.pdf

Mehrebenen-Darstellungen fügen diesem Paradigma einige virtuelle „Animations-Cels“ hinzu, indem sie beispielsweise mithilfe der Tiefenschätzung die Szene in einen unregelmäßigen, aber beherrschbaren Gradienten unterschiedlicher Fokusebenen zerlegen und anschließend tiefenabhängige Kernel orchestrieren Unschärfe synthetisieren.

Darüber hinaus kann die Ungleichheit zwischen den beiden Blickwinkeln eines Stereokamera-Setups als Tiefenproxy genutzt werden, was für potenzielle AR/VR-Umgebungen von großer Bedeutung ist – eine von Google Research im Jahr 2015 vorgeschlagene Methode.

Aus dem von Google herausgegebenen Artikel „Fast Bilateral-Space Stereo for Synthetic Defocus“ geht hervor, dass der Unterschied zwischen zwei Blickwinkeln eine Tiefenkarte liefert, die die Unschärfe erleichtern kann. Dieser Ansatz ist jedoch in der oben dargestellten Situation unecht, da das Foto eindeutig mit einem 35-50-mm-Objektiv (SLR-Standard) aufgenommen wurde, die extreme Defokussierung des Hintergrunds jedoch nur bei einem Objektiv über 200 mm auftreten würde, was diese Art hat einer stark eingeschränkten Brennebene, die in normalen, menschengroßen Umgebungen eine geringe Schärfentiefe erzeugt. Quelle

Aus dem von Google herausgegebenen Artikel „Fast Bilateral-Space Stereo for Synthetic Defocus“ geht hervor, dass der Unterschied zwischen zwei Blickwinkeln eine Tiefenkarte liefert, die die Unschärfe erleichtern kann. Dieser Ansatz ist jedoch in der oben dargestellten Situation unecht, da das Foto eindeutig mit einem 35-50-mm-Objektiv (SLR-Standard) aufgenommen wurde, die extreme Defokussierung des Hintergrunds jedoch immer nur bei einem Objektiv über 200 mm auftreten würde, was diese Art hat einer stark eingeschränkten Brennebene, die in normalen, menschengroßen Umgebungen eine geringe Schärfentiefe erzeugt. Quelle

Ansätze dieser Art neigen dazu, Kantenartefakte zu zeigen, da sie versuchen, zwei unterschiedliche und kantenbegrenzte Fokusbereiche als kontinuierlichen Fokusgradienten darzustellen.

In 2021 die RawNeRF Die Initiative bot High Dynamic Range (HDR)-Funktionalität mit besserer Kontrolle über Situationen mit schlechten Lichtverhältnissen und einer scheinbar beeindruckenden Fähigkeit, den Fokus zu erhöhen:

RawNeRF-Racks fokussieren wunderbar (wenn auch in diesem Fall aufgrund unrealistischer Fokusebenen unecht), sind aber mit hohen Rechenkosten verbunden. Quelle: https://bmild.github.io/rawnerf/

RawNeRF-Racks fokussieren wunderbar (wenn auch in diesem Fall aufgrund unrealistischer Fokusebenen unecht), sind aber mit hohen Rechenkosten verbunden. Quelle: https://bmild.github.io/rawnerf/

Allerdings erfordert RawNeRF eine aufwändige Vorberechnung für seine Mehrebenendarstellungen des trainierten NeRF, was zu einem Arbeitsablauf führt, der nicht einfach an einfachere Implementierungen oder Implementierungen mit geringerer Latenz von NeRF angepasst werden kann.

Modellierung einer virtuellen Linse

NeRF selbst basiert auf dem Pinhole-Bildgebungsmodell, das die gesamte Szene ähnlich einer Standard-CGI-Szene scharf wiedergibt (vor den verschiedenen Ansätzen, die Unschärfe als Nachbearbeitung oder angeborenen Effekt basierend auf der Schärfentiefe rendern).

NeRFocus erstellt eine virtuelle „dünne Linse“ (anstelle einer „glaslosen“ Blende), die den Strahlengang jedes eingehenden Pixels berechnet und ihn direkt rendert, wodurch der standardmäßige Bilderfassungsprozess, der funktioniert, effektiv umgekehrt wird Post facto auf den Lichteinfall, der bereits durch die Brechungseigenschaften des Linsendesigns beeinflusst wurde.

Dieses Modell führt eine Reihe von Möglichkeiten für die Inhaltswiedergabe innerhalb des Kegelstumpfs ein (der größte Einflussbereich, der im Bild oben dargestellt ist).

Die Berechnung der richtigen Farbe und Dichte für jedes mehrschichtige Perzeptron (MLP) in diesem breiteren Spektrum an Möglichkeiten ist eine zusätzliche Aufgabe. Das war schon mal gelöst durch die Anwendung überwachten Trainings auf eine große Anzahl von DLSR-Bildern, was die Erstellung zusätzlicher Datensätze für einen probabilistischen Trainingsworkflow mit sich bringt – was effektiv die mühsame Vorbereitung und Speicherung mehrerer möglicher Rechenressourcen beinhaltet, die möglicherweise benötigt werden oder nicht.

NeRFocus überwindet dieses Problem P-Training, wo Trainingsdatensätze basierend auf grundlegenden Unschärfeoperationen generiert werden. Somit wird das Modell mit angeborenen und navigierbaren Unschärfeoperationen gebildet.

Der Blendendurchmesser wird während des Trainings auf Null gesetzt und vordefinierte Wahrscheinlichkeiten werden verwendet, um zufällig einen Unschärfekern auszuwählen. Dieser erhaltene Durchmesser wird verwendet, um die Durchmesser der einzelnen zusammengesetzten Kegel zu vergrößern, sodass das MLP die Strahldichte und Dichte der Kegelstümpfe genau vorhersagen kann (die breiten Kreise in den obigen Bildern stellen die Transformationszone für jedes Pixel dar).

Der Blendendurchmesser wird während des Trainings auf Null gesetzt und vordefinierte Wahrscheinlichkeiten werden verwendet, um zufällig einen Unschärfekern auszuwählen. Dieser erhaltene Durchmesser wird verwendet, um die Durchmesser jedes zusammengesetzten Kegels zu vergrößern, sodass das MLP die Strahldichte und Dichte der Kegelstümpfe genau vorhersagen kann (die breiten Kreise in den obigen Bildern stellen die maximale Transformationszone für jedes Pixel dar).

Die Autoren des neuen Artikels stellen fest, dass NeRFocus möglicherweise mit dem HDR-gesteuerten Ansatz von RawNeRF kompatibel ist, was möglicherweise bei der Darstellung bestimmter anspruchsvoller Abschnitte, wie z. B. defokussierter Glanzlichter, und vieler anderer rechenintensiver Effekte hilfreich sein könnte dreißig oder mehr Jahre lang anspruchsvolle CGI-Workflows.

Der Prozess erfordert im Vergleich zu früheren Ansätzen wie Kern-NeRF und anderen keine zusätzlichen Anforderungen an Zeit und/oder Parameter Mip-NeRF (und vermutlich Mip-NeRF 360(obwohl dies in der Arbeit nicht angesprochen wird) und ist als allgemeine Erweiterung der zentralen Methodik neuronaler Strahlungsfelder anwendbar.

 

Erstveröffentlichung am 12. März 2022.