Angle d’Anderson

Peuvent-ils les environnements de rĂ©alitĂ© augmentĂ©e HDR d’Apple rĂ©soudre les rĂ©flexions pour le rendu neuronal ?

mm

Les investissements vigoureux et à long terme d’Apple dans les technologies de réalité augmentée s’accélèrent cette année, avec une nouvelle série d’outils de développement pour capturer et convertir des objets du monde réel en facettes de réalité augmentée, et une conviction grandissante de l’industrie que des lunettes de réalité augmentée dédiées sont en cours de développement pour supporter les expériences immersives que cette tempête de R&D peut permettre.

Parmi un ensemble de nouvelles informations sur les efforts d’Apple dans la réalité augmentée, un nouvel article de la division de recherche en vision par ordinateur de l’entreprise révèle une méthode pour utiliser des images panoramiques à 360 degrés à haute plage dynamique (HDR) pour fournir des réflexions et des éclairages spécifiques à la scène pour les objets superposés dans les scènes de réalité augmentée.

Intitulé Estimation de la carte d’environnement HDR pour la réalité augmentée en temps réel, l’article, rédigé par l’ingénieur de recherche en vision par ordinateur d’Apple, Gowri Somanath, et le responsable de l’apprentissage automatique, Daniel Kurz, propose la création dynamique d’environnements HDR en temps réel via un réseau de neurones convolutifs (CNN) exécuté dans un environnement de traitement mobile. Le résultat est que les objets réfléchissants peuvent littéralement refléter de nouveaux environnements non vus sur demande :

Dans le nouveau flux de travail de génération d'objets AR d'Apple, une cocotte-minute est instanciée par photogrammétrie complète avec son environnement ambiant, ce qui conduit à des réflexions convaincantes qui ne sont pas 'cuites' dans la texture. Source: https://docs-assets.developer.apple.com/

Dans le nouveau flux de travail de génération d’objets AR d’Apple, une cocotte-minute est instanciée par photogrammétrie complète avec son environnement ambiant, ce qui conduit à des réflexions convaincantes qui ne sont pas ‘cuites’ dans la texture. Source: https://docs-assets.developer.apple.com/

La méthode, présentée à CVPR 2021, prend une photo de la scène entière et utilise le EnvMapNet CNN pour estimer une image panoramique HDR visuellement complète, également appelée ‘sonde de lumière’.

La carte résultante identifie les sources de lumière fortes (délimitées à la fin de l’animation ci-dessus) et les prend en compte pour le rendu des objets virtuels.

L'architecture d'EnvMapNet, qui traite des images limitées en sondes de lumiÚre HDR complÚtes. Source: https://arxiv.org/pdf/2011.10687.pdf

L’architecture d’EnvMapNet, qui traite des images limitées en sondes de lumière HDR complètes. Source: https://arxiv.org/pdf/2011.10687.pdf

L’algorithme peut s’exécuter en moins de 9 ms sur un iPhone XS et est capable de rendre des objets réfléchissants en temps réel, avec une erreur directionnelle réduite de 50 % par rapport aux approches précédentes et différentes du problème.

Sondes de lumière

Les environnements d’éclairage HDR ont été un facteur dans les effets visuels depuis que les images à haute plage dynamique (inventées en 1986) sont devenues une force notable grâce aux progrès de la technologie informatique dans les années 1990. Quiconque regardant des séquences de tournage peut avoir remarqué la présence surréaliste de techniciens tenant des boules de miroir sur des bâtons – des images de référence à incorporer en tant que facteurs environnementaux lors de la reconstruction d’éléments CGI pour la scène.

Source: https://beforesandafters.com/

Source: https://beforesandafters.com/

Cependant, l’utilisation de boules de chrome pour la cartographie de réflexion des textures précède les années 1990, remontant à l’article SIGGRAPH 1983 Pyramidal Parametrics, qui présentait des images fixes d’un robot CGI réfléchissant dans un style qui deviendrait célèbre près d’une décennie plus tard grâce aux effets ‘métal liquide’ de Terminator 2: Le Jugement Dernier.

Environnements HDR dans le rendu neuronal ?

Le rendu neuronal offre la possibilité de générer des vidéos photoréalistes à partir de données d’entrée très parcimonieuses, y compris des cartes de segmentation grossières.

SynthĂšse d'image:segmentation>image de rendu neuronal d'Intel ISL (2017). Source: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Synthèse d’image:segmentation>image de rendu neuronal d’Intel ISL (2017). Source: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

En mai, les chercheurs d’Intel ont révélé une nouvelle initiative en synthèse d’images neuronales où des images de Grand Theft Auto V ont été utilisées pour générer des sorties photoréalistes basées sur des jeux de données d’images de rue allemandes.

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

Le défi dans le développement d’environnements de rendu neuronal qui peuvent être adaptés à différentes conditions d’éclairage est de séparer le contenu de l’objet des facteurs environnementaux qui l’affectent.

Actuellement, les réflexions et les effets anisotropes restent des fonctions soit de la séquence d’images d’origine (ce qui les rend inflexibles), soit nécessitent le même type de schéma que les chercheurs d’Intel ont employé, qui génère des sorties semi-photréalistes à partir d’un (moteur de jeu) grossier, effectue une segmentation sur celui-ci, puis applique un transfert de style à partir d’un jeu de données ‘cuit’ (tel que l’ensemble de vues de rue Mapillary allemand utilisé dans la recherche récente).

Dans ce rendu neuronal (les images de GTA V sont à gauche), le véhicule avant démontre des éblouissements convaincants et même sature le capteur de la caméra virtuelle avec des réflexions du soleil. Mais cet aspect d'éclairage est dérivé de la séquence d'images de jeu d'origine, puisque les facettes neuronales de la scène n'ont pas de structures d'éclairage autonomes et auto-référentielles qui peuvent être modifiées.

Dans ce rendu neuronal dérivé des images de GTA V (à gauche), le véhicule avant démontre des éblouissements convaincants et même sature le capteur de la caméra virtuelle avec des réflexions du soleil. Mais cet aspect d’éclairage est dérivé de la séquence d’images de jeu d’origine, puisque les facettes neuronales de la scène n’ont pas de structures d’éclairage autonomes et auto-référentielles qui peuvent être modifiées.

Réflexion dans NeRF

Les images dérivées des champs de radiance neuronale (NeRF) sont similaires à celles-ci. Bien que des recherches récentes sur NeRF aient fait des progrès dans la séparation des éléments qui composent une scène neuronale (par exemple, la collaboration MIT/Google sur NeRFactor), les réflexions sont restées un obstacle.

L'approche NeRFactor de MIT et Google sépare les normales, la visibilité (ombres), la texture et l'albédo local, mais elle ne reflÚte pas un environnement, car elle existe dans le vide. Source: https://arxiv.org/pdf/2106.01970.pdf

L’approche NeRFactor de MIT et Google sépare les normales, la visibilité (ombres), la texture et l’albédo local, mais elle ne reflète pas un environnement plus large (ou en mouvement), car elle existe essentiellement dans le vide. Source: https://arxiv.org/pdf/2106.01970.pdf

NeRF peut résoudre ce problème avec le même type de cartographie HDR qu’Apple utilise. Chaque pixel dans un champ de radiance neuronal est calculé sur une trajectoire à partir d’une caméra virtuelle jusqu’au point où le ‘rayon’ ne peut plus voyager, similaire au traçage de rayons dans les CGI traditionnels. L’ajout d’une entrée HDR au calcul de ce rayon est une méthode potentielle pour atteindre une réflexion environnementale réelle, et est en effet un analogue aux méthodes de rendu d’éclairage global ou de radiance dans les CGI, dans lesquelles une scène ou un objet est partiellement éclairé par des réflexions perçues de son propre environnement.

Bien qu’il soit garanti qu’une matrice HDR ne fera rien pour alléger les lourdes charges de calcul de NeRF, une grande partie de la recherche dans ce domaine actuellement se concentre sur la résolution de cet aspect du pipeline de traitement. Inévitablement, la réflexion est l’un des nombreux facteurs qui attendent dans les coulisses pour réapprovisionner et défier cette nouvelle architecture optimisée. Cependant, NeRF ne peut pas atteindre son plein potentiel en tant que méthode de synthèse d’images et de vidéos neuronales discrètes sans adopter un moyen de tenir compte d’un environnement entourant.

Réflexion dans les pipelines de rendu neuronal

Dans une version putative d’Intel GTA V avec un rendu neuronal HDR, une seule HDR ne pourrait pas accueillir les réflexions dynamiques qui doivent être exprimées dans les objets en mouvement. Par exemple, pour voir son propre véhicule réfléchi dans le véhicule avant alors qu’il s’approche des feux, l’entité du véhicule avant pourrait avoir sa propre sonde de lumière HDR animée, dont la résolution se dégraderait progressivement à mesure qu’il s’éloigne du point de vue de l’utilisateur, pour devenir basse résolution et simplement représentative lorsqu’il s’éloigne dans la distance – un LOD basé sur la proximité similaire aux délimiteurs de ‘distance de dessin’ dans les jeux vidéo.

Le véritable potentiel du travail d’Apple sur les cartes de réflexion et les éclairages HDR ne réside pas dans le fait qu’il est particulièrement innovant, puisqu’il s’appuie sur des travaux précédents en synthèse d’images générales et en développement de scènes AR. Plutôt, la percée potentielle est représentée par la façon dont les contraintes de calcul locales sévères se sont combinées avec les innovations matérielles d’apprentissage automatique de la série M d’Apple pour produire une cartographie HDR légère et à faible latence conçue pour fonctionner sous des ressources contraintes.

Si ce problème peut être résolu économiquement, l’avènement de la segmentation sémantique > synthèse de vidéo photoréaliste peut se rapprocher d’un pas important.

Source: https://docs-assets.developer.apple.com/

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.