Künstliche Intelligenz
Kann Apples HDR-erweiterte Realitätsumgebungen Reflexionen für neuronales Rendering lösen?

Apples energische, langfristige Investition in erweiterte Realitätstechnologien beschleunigt sich in diesem Jahr, mit einer neuen Reihe von Entwickler-Tools, um echte Weltobjekte in AR-Aspekte zu erfassen und zu konvertieren und eine wachsende Branchenüberzeugung, dass dedizierte AR-Brillen kommen, um die immersiven Erfahrungen zu unterstützen, die dieser Schneesturm an Forschung und Entwicklung ermöglichen kann.
Unter einer Reihe neuer Informationen über Apples Bemühungen in erweiterten Realitäten zeigt ein neues Papier aus der Computer-Vision-Forschungsabteilung des Unternehmens eine Methode, um 360-Grad-Panorama-HDR-Bilder zu verwenden, um szene-spezifische Reflexionen und Beleuchtung für Objekte bereitzustellen, die in erweiterte Realitätsszenen überlagert werden.
Mit dem Titel HDR-Umgebungs-Karten-Schätzung für Echtzeit-erweiterte Realität schlagen die Autoren, Apple-Computer-Vision-Forschungsingenieur Gowri Somanath und Senior Machine Learning Manager Daniel Kurz, die dynamische Erstellung von Echtzeit-HDR-Umgebungen via einer convolutionalen neuronalen Netzwerk (CNN) in einer mobilen Verarbeitungsumgebung vor. Das Ergebnis ist, dass reflektierende Objekte buchstäblich neue, ungeladene Umgebungen auf Abruf spiegeln können:

In Apples neuem AR-Objekt-Generierungs-Workflow wird ein Druckkocher durch Photogrammetrie instanziert, komplett mit seiner Umgebungsbeleuchtung, was zu überzeugenden Reflexionen führt, die nicht in die Textur ‘gebacken’ sind. Quelle: https://docs-assets.developer.apple.com/
Die Methode, die auf der CVPR 2021 vorgestellt wurde, macht ein Foto der gesamten Szene und verwendet das EnvMapNet-CNN, um eine visuell vollständige panoramische HDR-Bild zu schätzen, auch bekannt als ‘Lichtsonde’.

Die resultierende Karte identifiziert starke Lichtquellen (am Ende der obigen Animation umrandet) und berücksichtigt sie bei der Rendering von virtuellen Objekten.

Die Architektur von EnvMapNet, die begrenzte Bilder in vollständige Szene-HDR-Lichtsonden verarbeitet. Quelle: https://arxiv.org/pdf/2011.10687.pdf
Der Algorithmus kann in weniger als 9 ms auf einem iPhone XS ausgeführt werden und ist in der Lage, reflektierende Objekte in Echtzeit zu rendern, mit einer reduzierten gerichteten Fehlerrate von 50 % im Vergleich zu früheren und unterschiedlichen Ansätzen für das Problem.

Lichtsonden
HDR-Beleuchtungsumgebungen sind seit den 1990er Jahren ein Faktor in visuellen Effekten, als hochauflösende Bilder (erfunden 1986) durch Fortschritte in der Computertechnologie zu einer bemerkenswerten Kraft wurden. Jeder, der Hintergrund-Footage beobachtet, hat vielleicht bemerkt, dass Techniker mit Spiegelsphären auf Stöcken auftraten – Referenzbilder, die als Umgebungsmerkmale bei der Rekonstruktion von CGI-Elementen für die Szene verwendet werden.

Quelle: https://beforesandafters.com/
Allerdings geht die Verwendung von Chromkugeln für Reflexionskartierung-Texturen auf die 1980er Jahre zurück, als sie in dem 1983er SIGGRAPH-Papier Pyramidal Parametrics vorgestellt wurden, das Stillbilder eines reflektierenden CGI-Roboters in einem Stil zeigte, der fast ein Jahrzehnt später durch die ‘Flüssigmetall’-Effekte von James Camerons Terminator 2: Tag der Abrechnung berühmt wurde.
HDR-Umgebungen im neuronalen Rendering
Neuronales Rendering bietet die Möglichkeit, photorealistische Videos aus sehr sparsamen Eingaben zu generieren, einschließlich grober Segmentierungskarten.

Bild-Neuronales Rendering (2017). Quelle: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISLs Segmentierung > Bild-Neuronales Rendering (2017). Quelle: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
Im Mai enthüllten Intel-Forscher eine neue Initiative in neuronalen Bildsynthesen, bei der Footage aus Grand Theft Auto V verwendet wurde, um photorealistische Ausgaben auf der Grundlage von Daten deutscher Straßenbilder zu generieren.

Quelle: https://www.youtube.com/watch?v=0fhUJT21-bs
Die Herausforderung bei der Entwicklung von neuronalen Rendering-Umgebungen, die an verschiedene Beleuchtungsbedingungen angepasst werden können, besteht darin, den Objektinhalt von den Umgebungsmerkmalen zu trennen, die ihn beeinflussen.
Wie es steht, bleiben Reflexionen und anisotrope Effekte entweder Funktionen des ursprünglichen Datensatz-Footage (was sie inflexibel macht) oder erfordern das gleiche Schema, das die Intel-Forscher eingesetzt haben, das semi-photorealistische Ausgaben aus einem groben (Spiel-) Engine generiert, Segmentierung auf ihm anwendet und dann Stil-Transfer von einem ‘gebackenen’ Datensatz (wie dem deutschen Mapillary-Straßenansichten-Set, das in der jüngsten Forschung verwendet wurde) anwendet.

In diesem neuronalen Rendering (GTA V-Footage ist links), zeigt das Fahrzeug vorne überzeugende Glanz und sogar sättigt den Sensor der fiktiven virtuellen Kamera mit Reflexionen von der Sonne. Aber dieser Beleuchtungsaspekt wird aus dem ursprünglichen Spiel-Footage abgeleitet, da die neuronalen Aspekte in der Szene keine autonomen und selbstbezüglichen Beleuchtungsstrukturen haben, die geändert werden können.
Reflexion in NeRF
Bilder, die aus Neuralen Radiance-Feldern (NeRF) abgeleitet werden, sind ähnlich herausgefordert. Obwohl jüngste Forschung zu NeRF Fortschritte bei der Trennung der Elemente gemacht hat, die eine neuronale Szene ausmachen (z. B. die MIT/Google-Zusammenarbeit auf NeRFactor), sind Reflexionen ein Hindernis geblieben.

Der MIT- und Google-NeRFactor-Ansatz trennt Normale, Sichtbarkeit (Schatten), Textur und lokale Albedo, aber es spiegelt keine Umgebung wider, da es in einem Vakuum existiert. Quelle: https://arxiv.org/pdf/2106.01970.pdf
NeRF kann dieses Problem mit der gleichen Art von HDR-Kartierung lösen, die Apple verwendet. Jedes Pixel in einem neuronalen Radiance-Feld wird auf einer Traektorie von einer virtuellen Kamera bis zum Punkt berechnet, an dem der ‘Strahl’ nicht weiter reisen kann, ähnlich wie bei der Ray-Tracing-Technik in traditionellem CGI. Das Hinzufügen von HDR-Eingaben zur Berechnung dieses Strahls ist eine potenzielle Methode, um echte Umgebungsreflexionen zu erreichen, und ist im Wesentlichen ein Analogon zu CGI-Methoden wie ‘globale Beleuchtung’ oder Radiositäts-Rendering, bei denen eine Szene oder ein Objekt teilweise durch wahrgenommene Reflexionen seiner eigenen Umgebung beleuchtet wird.
Obwohl es garantiert ist, dass eine HDR-Matrix nichts zur Entlastung der bemerkenswerten Rechenlast von NeRF beiträgt, konzentriert sich ein großer Teil der Forschung in diesem Bereich derzeit darauf, diesen Aspekt der Verarbeitungspipeline anzugehen. Unvermeidlich ist Reflexion eine der vielen Faktoren, die in den Flügeln warten, um die neu optimierte Architektur zu füllen und herauszufordern. Allerdings kann NeRF sein volles Potenzial als diskrete neuronale Bild- und Videosynthesemethode nicht erreichen, ohne eine Möglichkeit zu entwickeln, eine umgebende Umgebung zu berücksichtigen.
Reflexion in neuronalen Rendering-Pipelines
In einer putativen HDR-aktivierte Version des Intel-GTA-V-Neural-Rendering-Szenarios kann ein einzelnes HDR die dynamischen Reflexionen nicht aufnehmen, die in bewegten Objekten zum Ausdruck gebracht werden müssen. Zum Beispiel muss das Fahrzeug vorne sein eigenes animiertes HDR-Licht haben, dessen Auflösung sich schrittweise verringert, wenn es sich vom Endbenutzer entfernt, um low-res und repräsentativ zu werden, wenn es in die Ferne fährt – ein proximity-basiertes LOD-Ähnliches wie ‘Draw Distance’-Grenzwerte in Videospielen.
Das wahre Potenzial von Apples Arbeit an HDR-Beleuchtung und Reflexionskarten liegt nicht darin, dass es besonders innovativ ist, da es auf früheren Arbeiten in allgemeiner Bildsynthese und in AR-Szenen-Entwicklung aufbaut. Vielmehr liegt der mögliche Durchbruch in der Art und Weise, wie strenge lokale Rechenbeschränkungen mit Apples M-Serie-Machine-Learning-Hardware-Innovationen kombiniert wurden, um leichtes, niedriges Latenz-HDR-Mapping zu produzieren, das für den Betrieb unter eingeschränkten Ressourcen konzipiert ist.
Wenn dieses Problem wirtschaftlich gelöst werden kann, kommt die Einführung der semantischen Segmentierung > photorealistischen Video-Synthese einen bedeutenden Schritt näher.
Quelle: https://docs-assets.developer.apple.com/












