Intelligence artificielle
Peut-on résoudre les réflexions pour le rendu neuronal avec les environnements de réalité augmentée HDR d’Apple ?

Les investissements vigoureux et à long terme d’Apple dans les technologies de réalité augmentée sont accélérés cette année, avec une nouvelle série d’outils de développement pour capturer et convertir les objets du monde réel en facettes de réalité augmentée, et une conviction grandissante de l’industrie que des lunettes de réalité augmentée dédiées sont en route pour supporter les expériences immersives que cette tempête de R&D peut permettre.
Parmi un ensemble de nouvelles informations sur les efforts d’Apple dans la réalité augmentée, un nouvel article de la division de recherche en vision par ordinateur de l’entreprise révèle une méthode pour utiliser des images panoramiques à 360 degrés à haute plage dynamique (HDR) pour fournir des réflexions et des éclairages spécifiques à la scène pour les objets superposés dans les scènes de réalité augmentée.
Intitulé Estimation de la carte d’environnement HDR pour la réalité augmentée en temps réel, l’article, rédigé par l’ingénieur de recherche en vision par ordinateur d’Apple, Gowri Somanath, et le responsable principal de l’apprentissage automatique, Daniel Kurz, propose la création dynamique d’environnements HDR en temps réel via un réseau de neurones convolutionnels (CNN) exécuté dans un environnement de traitement mobile. Le résultat est que les objets réfléchissants peuvent littéralement refléter de nouveaux environnements inédits sur demande :

Dans le nouveau flux de travail de génération d’objets AR d’Apple, une cocotte-minute est instanciée par photogrammétrie complète avec son environnement ambiant, conduisant à des réflexions convaincantes qui ne sont pas ‘cuites’ dans la texture. Source : https://docs-assets.developer.apple.com/
La méthode, présentée à CVPR 2021, prend une photo de la scène entière et utilise le EnvMapNet CNN pour estimer une image panoramique HDR visuellement complète, également appelée ‘sonde de lumière’.

La carte résultante identifie les sources de lumière fortes (délimitées à la fin de l’animation ci-dessus) et les prend en compte dans le rendu des objets virtuels.

L’architecture d’EnvMapNet, qui traite des images limitées en sondes de lumière HDR complètes. Source : https://arxiv.org/pdf/2011.10687.pdf
L’algorithme peut s’exécuter en moins de 9 ms sur un iPhone XS et est capable de rendre des objets réfléchissants en temps réel, avec une erreur directionnelle réduite de 50 % par rapport aux approches précédentes et différentes du problème.

Sondes de lumière
Les environnements d’éclairage HDR ont été un facteur dans les effets visuels depuis que les images à haute plage dynamique (inventées en 1986) sont devenues une force notable grâce aux progrès de la technologie informatique dans les années 1990. Quiconque regarde les séquences de making-of peut avoir remarqué la présence surréaliste de techniciens tenant des boules miroirs sur des bâtons – des images de référence à incorporer en tant que facteurs environnementaux lors de la reconstruction d’éléments CGI pour la scène.

Source : https://beforesandafters.com/
Cependant, l’utilisation de boules chromées pour la cartographie de réflexions textures précède les années 1990, remontant à l’article SIGGRAPH 1983 Pyramidal Parametrics, qui présentait des images fixes d’un robot CGI réfléchissant dans un style qui deviendrait célèbre près d’une décennie plus tard grâce aux effets ‘métal liquide’ de James Cameron dans Terminator 2 : Le Jugement Dernier.
Environnements HDR dans le rendu neuronal ?
Le rendu neuronal offre la possibilité de générer des vidéos photoréalistes à partir d’entrées très parcimonieuses, y compris des cartes de segmentation grossières.

Intel ISL’s segmentation>image neural rendering (2017). Source : https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
En mai, les chercheurs d’Intel ont révélé une nouvelle initiative en synthèse d’images neuronales où des séquences de Grand Theft Auto V ont été utilisées pour générer des sorties photoréalistes basées sur des jeux de données d’images de rues allemandes.

Source : https://www.youtube.com/watch?v=0fhUJT21-bs
Le défi dans le développement d’environnements de rendu neuronal qui peuvent être adaptés à diverses conditions d’éclairage est de séparer le contenu de l’objet des facteurs environnementaux qui l’affectent.
Comme il en est, les réflexions et les effets anisotropiques restent des fonctions soit de la séquence d’images d’origine (ce qui les rend inflexibles), soit nécessitent le même type de schéma que les chercheurs d’Intel ont employé, qui génère des sorties semi-photréalistes à partir d’un (jeu) moteur, effectue une segmentation sur celui-ci et applique ensuite un transfert de style à partir d’un jeu de données ‘cuit’ (comme l’ensemble de vues de rue Mapillary allemand utilisé dans la recherche récente).

Dans ce rendu neuronal dérivé de la séquence de GTA V (à gauche), le véhicule à l’avant démontre des éclairs convaincants et même sature le capteur de la caméra virtuelle avec des réflexions du soleil. Mais cet aspect d’éclairage est dérivé du moteur d’éclairage de la séquence de jeu d’origine, puisque les facettes neuronales de la scène n’ont pas de structures d’éclairage autonomes et auto-référentielles qui peuvent être modifiées.
Réflexion dans NeRF
Les images dérivées de Neural Radiance Fields (NeRF) sont similaires à ce défi. Bien que des recherches récentes sur NeRF aient fait des progrès dans la séparation des éléments qui constituent une scène neuronale (par exemple, la collaboration MIT/Google sur NeRFactor), les réflexions sont restées un obstacle.

L’approche NeRFactor de MIT et Google sépare les normales, la visibilité (ombres), la texture et l’albédo local, mais elle ne reflète pas un environnement plus large (ou en mouvement), car elle existe essentiellement dans le vide. Source : https://arxiv.org/pdf/2106.01970.pdf
NeRF peut résoudre ce problème avec le même type de cartographie HDR qu’Apple utilise. Chaque pixel dans un champ de rayonnement neuronal est calculé sur une trajectoire à partir d’une caméra virtuelle jusqu’au point où le ‘rayon’ ne peut plus voyager, similaire au traçage de rayons dans la CGI traditionnelle. L’ajout d’une entrée HDR au calcul de ce rayon est une méthode potentielle pour atteindre une réflexion environnementale réelle, et est en effet un analogue aux méthodes de rendu d’éclairage global ou de radiance de la CGI, dans lesquelles une scène ou un objet est partiellement éclairé par des réflexions perçues de son propre environnement.
Bien qu’il soit garanti qu’une matrice HDR ne fera rien pour alléger les fardeaux de calcul notables de NeRF, une grande partie de la recherche dans ce domaine en ce moment se concentre sur la résolution de cet aspect de la chaîne de traitement. Inévitablement, la réflexion est l’un des nombreux facteurs qui attendent dans les coulisses pour réapprovisionner et défier cette architecture nouvellement optimisée. Cependant, NeRF ne peut pas atteindre son plein potentiel en tant que méthode de synthèse d’images et de vidéos neuronales discrètes sans adopter un moyen de tenir compte d’un environnement entourant.
Réflexion dans les pipelines de rendu neuronal
Dans une version putative HDR activée du scénario de rendu neuronal Intel GTA V, une seule sonde de lumière HDR ne pourrait pas accommoder les réflexions dynamiques qui doivent être exprimées dans les objets en mouvement. Par exemple, pour voir son propre véhicule réfléchi dans le véhicule qui se présente à la lumière, l’entité du véhicule avant pourrait avoir sa propre sonde de lumière HDR animée, dont la résolution se dégraderait de manière incrémentielle à mesure qu’il s’éloigne du point de vue de l’utilisateur final, pour devenir basse résolution et simplement représentative lorsqu’il s’éloigne dans la distance – un LOD basé sur la proximité similaire aux délimiteurs de ‘distance d’affichage’ dans les jeux vidéo.
Le véritable potentiel du travail d’Apple sur les cartes de réflexions et les environnements d’éclairage HDR ne réside pas dans le fait qu’il est particulièrement innovant, puisqu’il s’appuie sur des travaux précédents dans la synthèse d’images générales et dans le développement de scènes AR. Plutôt, la percée potentielle est représentée par la façon dont les contraintes de calcul locales sévères se sont combinées avec les innovations matérielles d’apprentissage automatique de la série M d’Apple pour produire une cartographie HDR légère et à faible latence conçue pour fonctionner sous des ressources contraintes.
Si ce problème peut être résolu de manière économique, l’avènement de la synthèse d’images photoréalistes à partir de la segmentation sémantique peut se rapprocher d’un grand pas.
Source : https://docs-assets.developer.apple.com/












