Stummel Können Apples HDR-Augmented-Reality-Umgebungen Reflexionen für neuronales Rendering auflösen? - Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Können Apples HDR-Augmented-Reality-Umgebungen Reflexionen für neuronales Rendering auflösen?

mm
Aktualisiert on

Apples kräftige, langfristige Investitionen in Augmented-Reality-Technologien werden in diesem Jahr mit einer neuen Reihe von Entwicklertools beschleunigt erfassen und konvertieren reale Objekte in AR-Facetten und a wachsende Überzeugung der Branche dass spezielle AR-Brillen kommen, um die immersiven Erlebnisse zu unterstützen, die dieser Blizzard an Forschung und Entwicklung ermöglichen kann.

Zu den neuen Informationen zu Apples Bemühungen im Bereich Augmented Reality gehören u. a neues Papier aus der Computer-Vision-Forschungsabteilung des Unternehmens enthüllt eine Methode zur Verwendung von 360-Grad-Panoramabildern mit hohem Dynamikbereich (HDR), um szenenspezifische Reflexionen und Beleuchtung für Objekte bereitzustellen, die in Augmented-Reality-Szenen eingeblendet werden.

Berechtigt HDR-Umgebungskartenschätzung für Augmented Reality in EchtzeitIn dem Artikel von Apple Computer Vision Research Engineer Gowri Somanath und Senior Machine Learning Manager Daniel Kurz wird die dynamische Erstellung von Echtzeit-HDR-Umgebungen über ein Convolutional Neural Network (CNN) vorgeschlagen, das in einer mobilen Verarbeitungsumgebung ausgeführt wird. Das Ergebnis ist, dass reflektierende Objekte bei Bedarf buchstäblich neuartige, unsichtbare Umgebungen widerspiegeln können:

Im neuen AR-Objektgenerierungsworkflow von Apple wird ein Schnellkochtopf mithilfe der Photogrammetrie zusammen mit seiner Umgebungsumgebung instanziiert, was zu überzeugenden Reflexionen führt, die nicht in die Textur „eingebrannt“ sind. Quelle: https://docs-assets.developer.apple.com/

Im neuen AR-Objektgenerierungsworkflow von Apple wird ein Schnellkochtopf mithilfe der Photogrammetrie zusammen mit seiner Umgebungsumgebung instanziiert, was zu überzeugenden Reflexionen führt, die nicht in die Textur „eingebrannt“ sind. Quelle: https://docs-assets.developer.apple.com/

Die auf der CVPR 2021 erstmals vorgestellte Methode erstellt einen Schnappschuss der gesamten Szene und verwendet die EnvMapNet CNN zur Schätzung eines visuell vollständigen HDR-Panoramabilds, auch bekannt als „Lichtsonde“.

Die resultierende Karte identifiziert starke Lichtquellen (am Ende in der obigen Animation dargestellt) und berücksichtigt sie beim Rendern der virtuellen Objekte.

Die Architektur von EnvMapNet, die begrenzte Bilder in vollständige HDR-Lichtsonden verarbeitet. Quelle: https://arxiv.org/pdf/2011.10687.pdf

Die Architektur von EnvMapNet, die begrenzte Bilder in vollständige HDR-Lichtsonden verarbeitet. Quelle: https://arxiv.org/pdf/2011.10687.pdf

Der Algorithmus kann auf einem iPhone XS in weniger als 9 ms ausgeführt werden und ist in der Lage, reflexionsempfindliche Objekte in Echtzeit darzustellen, mit einem um 50 % reduzierten Richtungsfehler im Vergleich zu früheren und anderen Lösungsansätzen für das Problem.

Lichtsonden

HDR-Beleuchtungsumgebungen sind ein Faktor für visuelle Effekte, seit Bilder mit hohem Dynamikbereich (erfunden 1986) durch Fortschritte in der Computertechnologie in den 1990er Jahren zu einer bemerkenswerten Kraft wurden. Jedem, der sich die Aufnahmen hinter den Kulissen ansieht, ist vielleicht die surreale Anwesenheit von Technikern am Set aufgefallen, die verspiegelte Bälle auf Stöcken hochhalten – Referenzbilder, die als Umgebungsfaktoren bei der Rekonstruktion von CGI-Elementen für die Szene berücksichtigt werden sollen.

Quelle: https://beforesandafters.com/

Quelle: https://beforesandafters.com/

Allerdings verwendet man Chromkugeln für Reflexionsmapping Texturen geht auf die Zeit vor den 1990er Jahren zurück und gehen auf das SIGGRAPH-Papier von 1983 zurück Pyramidale Parameter, das Standbilder eines reflektierenden CGI-Roboters in einem Stil zeigte, der fast ein Jahrzehnt später durch die „Liquid Metal“-Effekte von James Cameron berühmt werden sollte Terminator 2: Jüngster Tag.

HDR-Umgebungen im neuronalen Rendering?

Neuronales Rendering bietet die Möglichkeit, fotorealistische Videos aus sehr spärlichen Eingaben, einschließlich grober Segmentierungskarten, zu generieren.

Segmentierung>Bild neuronales Rendering von Intel ISL (2017). Quelle: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Segmentierung>Bild neuronales Rendering von Intel ISL (2017). Quelle: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Im Mai, Intel-Forscher enthüllt eine neue Initiative zur neuronalen Bildsynthese, bei der Filmmaterial aus Grand Theft Auto V verwendet wurde, um eine fotorealistische Ausgabe basierend auf Datensätzen deutscher Straßenbilder zu generieren.

Quelle: https://www.youtube.com/watch?v=0fhUJT21-bs

Quelle: https://www.youtube.com/watch?v=0fhUJT21-bs

Die Herausforderung bei der Entwicklung neuronaler Rendering-Umgebungen, die an verschiedene Lichtverhältnisse angepasst werden können, besteht darin, den Objektinhalt von den ihn beeinflussenden Umgebungsfaktoren zu trennen.

So wie es aussieht, bleiben Reflexionen und anisotrope Effekte Funktionen entweder des Originaldatensatzmaterials (was sie unflexibel macht) oder erfordern denselben Schematyp, den die Intel-Forscher verwendet haben, der eine halbfotorealistische Ausgabe aus einer groben (Spiel-)Engine generiert. führt eine Segmentierung durch und wendet dann einen Stiltransfer aus einem „gebackenen“ Datensatz an (wie etwa dem in der jüngsten Forschung verwendeten German Mapillary Street View-Set).

In diesem neuronalen Rendering (GTA V-Aufnahmen sind links) zeigt das vorausfahrende Fahrzeug eine überzeugende Blendung und sättigt sogar den Sensor der fiktiven virtuellen Kamera mit Reflexionen der Sonne. Dieser Beleuchtungsaspekt ist jedoch vom ursprünglichen Spielmaterial abgeleitet, da die neuronalen Facetten in der Szene keine autonomen und selbstbezogenen Beleuchtungsstrukturen haben, die geändert werden können.

In diesem aus GTA V-Filmmaterial abgeleiteten neuronalen Rendering (links) zeigt das vorausfahrende Fahrzeug eine überzeugende Blendung und sättigt sogar den Sensor der fiktiven virtuellen Kamera mit Reflexionen der Sonne. Dieser Beleuchtungsaspekt wird jedoch von der Beleuchtungs-Engine des ursprünglichen Spielmaterials abgeleitet, da die neuronalen Facetten in der Szene über keine autonomen und selbstbezogenen Beleuchtungsstrukturen verfügen, die geändert werden können.

Reflexion in NeRF

Bilder abgeleitet von Neuronale Strahlungsfelder (NeRF) ist ähnlich herausgefordert. Obwohl neuere Forschungen zu NeRF Fortschritte bei der Trennung der Elemente gemacht haben, die eine neuronale Szene ausmachen (zum Beispiel das MIT/Google Mitarbeit an NeRFactor) sind Überlegungen ein Hindernis geblieben.

Der NeRFactor-Ansatz von MIT und Google trennt Normalen, Sichtbarkeit (Schatten), Textur und lokale Albedo, spiegelt jedoch keine Umgebung wider, da sie in einem Vakuum existiert. Quelle: https://arxiv.org/pdf/2106.01970.pdf

Der NeRFactor-Ansatz von MIT und Google trennt Normalen, Sichtbarkeit (Schatten), Textur und lokale Albedo, spiegelt jedoch keine breitere (oder sich bewegende) Umgebung wider, da sie im Wesentlichen in einem Vakuum existiert. Quelle: https://arxiv.org/pdf/2106.01970.pdf

NeRF kann dieses Problem mit der gleichen Art von HDR-Mapping lösen, die Apple verwendet. Jedes Pixel in einem neuronalen Strahlungsfeld wird auf einer Flugbahn von einer virtuellen Kamera bis zu dem Punkt berechnet, an dem der „Strahl“ nicht mehr weiter wandern kann, ähnlich wie beim Raytracing in herkömmlicher CGI. Das Hinzufügen von HDR-Eingaben zur Berechnung dieses Strahls ist eine potenzielle Methode, um ein echtes Umgebungsreflexionsvermögen zu erzielen, und ist im Grunde ein Analogon zu den „Global Illumination“- oder Radiosity-Rendering-Methoden von CGI, bei denen eine Szene oder ein Objekt teilweise durch wahrgenommene Reflexionen selbst beleuchtet wird Umfeld.

Es ist jedoch garantiert, dass eine HDR-Matrix nicht dazu beitragen wird, den erheblichen Rechenaufwand von NeRF erheblich zu verringern Forschungsprojekte in diesem Bereich konzentriert sich derzeit auf die Behandlung dieses Aspekts der Verarbeitungspipeline. Zwangsläufig ist das Reflexionsvermögen einer der vielen Faktoren, die in den Startlöchern stehen, um die neu optimierte Architektur wieder aufzufüllen und herauszufordern. Allerdings kann NeRF sein volles Potenzial als diskrete neuronale Bild- und Videosynthesemethode nicht entfalten, ohne eine Möglichkeit zu übernehmen, die Umgebung zu berücksichtigen.

Reflexion in neuronalen Rendering-Pipelines

In einer mutmaßlichen HDR-fähigen Version des neuronalen Rendering-Szenarios von Intel GTA V konnte ein einzelnes HDR die dynamischen Reflexionen, die in sich bewegenden Objekten ausgedrückt werden müssen, nicht berücksichtigen. Um zum Beispiel das Spiegelbild des eigenen Fahrzeugs im vorausfahrenden Fahrzeug zu sehen, wenn es an die Ampel heranfährt, könnte die vordere Fahrzeugeinheit über eine eigene animierte HDR-Lichtsonde verfügen, deren Auflösung sich mit zunehmender Entfernung vom Ende schrittweise verringert aus der Sicht des Benutzers, um niedrigauflösend und lediglich repräsentativ zu werden, während es sich in die Ferne entfernt – ein auf Nähe basierender LOD, ähnlich den „Entfernungszeichen“-Begrenzern in Videospielen.

Das wahre Potenzial von Apples Arbeit an HDR-Beleuchtungs- und Reflexionskarten besteht nicht darin, dass sie besonders innovativ ist, da sie auf früheren Arbeiten in der allgemeinen Bildsynthese aufbaut Entwicklung der AR-Szene. Der mögliche Durchbruch liegt vielmehr in der Art und Weise, wie strenge lokale Rechenbeschränkungen mit Apples M-Serie-Hardwareinnovationen für maschinelles Lernen kombiniert wurden, um ein leichtes HDR-Mapping mit geringer Latenz zu erzeugen, das für den Betrieb unter begrenzten Ressourcen ausgelegt ist.

Wenn dieses Problem wirtschaftlich gelöst werden kann, könnte die Einführung semantischer Segmentierung und fotorealistischer Videosynthese einen wesentlichen Schritt näher rücken.

Quelle: https://docs-assets.developer.apple.com/