Intelligence Artificielle
Image éclaboussée : reconstruction 3D ultra-rapide à vue unique

La reconstruction d'objets 3D à vue unique avec des réseaux convolutifs a démontré des capacités remarquables. Les modèles de reconstruction 3D à vue unique génèrent le modèle 3D de n’importe quel objet en utilisant une seule image comme référence, ce qui en fait l’un des sujets de recherche les plus brûlants en vision par ordinateur.
Par exemple, considérons la moto dans l’image ci-dessus. La génération de sa structure 3D nécessite un pipeline complexe qui combine d'abord des indices provenant d'images de bas niveau avec des informations sémantiques de haut niveau et des connaissances sur la disposition structurelle des pièces.
En raison de la complexité du processus, la reconstruction 3D à vue unique constitue un défi majeur en vision par ordinateur. Dans le but d'améliorer l'efficacité de la reconstruction 3D à vue unique, les développeurs ont travaillé sur Splatter Image, une méthode qui vise à obtenir une construction ultra-rapide de forme 3D à vue unique et d'apparence 3D des objets. À la base, le framework Splatter Image utilise la méthode Gaussian Splatting pour analyser les représentations 3D, en profitant de la vitesse et de la qualité qu'il offre.
Récemment, la méthode Gaussian Splatting a été implémentée dans de nombreux modèles de reconstruction multi-vues pour un rendu en temps réel, une mise à l'échelle améliorée et un entraînement rapide. Cela étant dit, Splatter Image est le premier framework qui implémente la méthode Gaussian Splatting pour les tâches de reconstruction à vue unique.
Dans cet article, nous explorerons comment le framework Splatter Image utilise le Splatting gaussien pour réaliser une reconstruction 3D ultra-rapide à vue unique. Alors, commençons.
Splatter Image : une tentative de reconstruction 3D ultra-rapide Ă vue unique
Comme mentionné précédemment, Splatter Image est une approche ultra-rapide pour la reconstruction d'objets 3D à vue unique basée sur la méthode Gaussian Splatting. Splatter Image est le tout premier framework de vision par ordinateur à implémenter le Splatting gaussien pour la génération d'objets 3D monoculaires puisque, traditionnellement, le Splatting gaussien alimente les frameworks de reconstruction d'objets 3D multi-vues. Cependant, ce qui différencie le cadre Splatter Image des méthodes antérieures est qu'il s'agit d'une approche basée sur l'apprentissage, et que la reconstruction lors des tests ne nécessite que l'évaluation anticipée du réseau neuronal.
Splatter Image s'appuie fondamentalement sur les qualités de rendu de Gaussian Splatting et sur la vitesse de traitement élevée pour générer Reconstitutions 3D. Le framework Splatter Image présente une conception simple : le framework utilise un réseau neuronal image à image 2D pour prédire une gaussienne 3D par pixel d'image d'entrée et mappe l'image d'entrée à une gaussienne 3D par pixel. Les Gaussiennes 3D résultantes ont la forme d'une image, connue sous le nom d'image Splatter, et ces Gaussiennes fournissent également une représentation à 360 degrés de l'image. Le processus est démontré dans l’image suivante.
Bien que le processus soit simple et direct, le cadre Splatter Image est confronté à certains défis clés lors de l'utilisation du Splatting gaussien pour générer des Gaussiennes 3D pour représentations 3D à vue unique. Le premier obstacle majeur consiste à concevoir un réseau neuronal qui accepte l’image d’un objet en entrée et génère un mélange gaussien correspondant représentant tous les côtés de l’image en sortie. Pour résoudre ce problème, Splatter Image profite du fait que même si le mélange gaussien généré est un ensemble ou une collection non ordonnée d'éléments, il peut toujours être stocké dans une structure de données ordonnée. En conséquence, le cadre utilise une image 2D comme conteneur pour les gaussiennes 3D, de sorte que chaque pixel du conteneur contient les paramètres d'une gaussienne, y compris ses propriétés telles que la forme, l'opacité et la couleur.
En stockant des ensembles gaussiens 3D dans une image, le cadre Splatter Image est capable de réduire les obstacles à la reconstruction rencontrés lors de l'apprentissage d'un réseau neuronal image à image. En utilisant cette approche, le processus de reconstruction ne peut être mis en œuvre qu'en utilisant des opérateurs 2D efficaces au lieu de s'appuyer sur des opérateurs 3D. De plus, dans le framework Splatter Image, la représentation 3D est un mélange de Gaussiennes 3D lui permettant d'exploiter les avantages de vitesse de rendu et d'efficacité de la mémoire offerts par Gaussian Splatting qui améliore l'efficacité de la formation ainsi que de l'inférence. En progressant, le framework Splatter Image génère non seulement des représentations 3D à vue unique, mais il démontre également une efficacité remarquable car il peut être entraîné même sur un seul GPU sur des références d'objets 3D standard. De plus, le framework Splatter Image peut être étendu pour prendre plusieurs images en entrée. Il est capable d'y parvenir en enregistrant les mélanges gaussiens individuels sur une référence commune, puis en prenant la combinaison des mélanges gaussiens prédits à partir de vues individuelles. Le framework injecte également des couches légères d'attention croisée dans son architecture qui permettent à différentes vues de communiquer entre elles pendant la prédiction.
D'un point de vue empirique, il convient de noter que le framework Splatter Image peut produire une reconstruction à 360 degrés de l'objet même s'il ne voit qu'un seul côté de l'objet. Le framework a ensuite alloué différentes Gaussiennes dans un voisinage 2D à différentes parties de l'objet 3D pour coder les informations à 360 degrés générées dans l'image 2D. De plus, le framework met à zéro l'opacité de plusieurs gaussiennes, ce qui les désactive, permettant ainsi de les éliminer lors du post-traitement.
Pour résumer, le framework Splatter Image est
- Une nouvelle approche pour générer des reconstructions d'objets 3D à vue unique en portant l'approche Gaussian Splatting.
- Étend la méthode de reconstruction d'objets 3D multi-vues.
- Atteint des performances de reconstruction d’objets 3D de pointe sur des références standard avec une vitesse et une qualité exceptionnelles.
Splatter Image : Méthodologie et Architecture
Éclaboussures gaussiennes
Comme mentionné précédemment, le Splatting gaussien est la principale méthode implémentée par le framework Splatter Image pour générer des reconstructions d'objets 3D à vue unique. En termes simples, Gaussian Splatting est une méthode de rastérisation permettant de reconstruire des images 3D en temps réel et de restituer des images ayant plusieurs points de vue. L'espace 3D dans l'image est appelé Gaussiens, et des techniques d'apprentissage automatique sont mises en œuvre pour apprendre les paramètres de chaque Gaussien. L'éclaboussure gaussienne ne nécessite pas de formation pendant le rendu, ce qui facilite des temps de rendu plus rapides. L'image suivante résume l'architecture du Splatting gaussien 3D.
Le Splatting gaussien 3D utilise d’abord l’ensemble des images d’entrée pour générer un nuage de points. Gaussian Splatting utilise ensuite les images d'entrée pour estimer les paramètres externes de la caméra comme l'inclinaison et la position en faisant correspondre les pixels entre les images, et ces paramètres sont ensuite utilisés pour calculer le nuage de points. En utilisant différentes méthodes d'apprentissage automatique, Gaussian Splatting optimise ensuite quatre paramètres pour chaque Gaussien à savoir : Position (où se trouve-t-il), Covariance (l'étendue de son étirement ou de sa mise à l'échelle dans une matrice 3×3), Couleur (quelle est la palette de couleurs RVB) , et Alpha (mesurant la transparence). Le processus d'optimisation restitue l'image pour chaque position de caméra et l'utilise pour déterminer les paramètres les plus proches de l'image d'origine. En conséquence, la sortie d'éclaboussure gaussienne 3D résultante est une image, appelée image d'éclaboussure, qui ressemble le plus à l'image originale à la position de la caméra à partir de laquelle elle a été capturée.
De plus, la fonction d'opacité et la fonction de couleur dans Gaussian Splatting donnent un champ de radiance avec la direction de visualisation du point 3D. Le cadre restitue ensuite le champ de radiance sur une image en intégrant les couleurs observées le long du rayon qui traverse le pixel. L'éclaboussure gaussienne représente ces fonctions comme une combinaison de gaussiennes colorées où la moyenne ou le centre gaussien ainsi que la covariance gaussienne aident à déterminer sa forme et sa taille. Chaque gaussienne possède également une propriété d'opacité et une propriété de couleur dépendante de la vue qui définissent ensemble le champ de radiance.
Image éclaboussée
Le composant de rendu mappe l'ensemble des Gaussiennes 3D à une image. Pour effectuer une reconstruction 3D à vue unique, le cadre recherche ensuite une fonction inverse pour les gaussiennes 3D qui reconstruisent le mélange de gaussiennes 3D à partir d'une image. L'inclusion clé ici est de proposer une conception efficace mais simple pour la fonction inverse. Plus précisément, pour une image d'entrée, le cadre prédit une gaussienne pour chaque pixel individuel en utilisant une architecture de réseau neuronal image à image pour produire une image, l'image Splatter. Le réseau prédit également la forme, l'opacité et la couleur.
Maintenant, on pourrait spéculer sur la façon dont le framework Splatter Image peut reconstruire la représentation 3D d'un objet alors qu'il n'a accès qu'à une seule de ses vues ? En temps réel, le framework Splatter Image apprend à utiliser certaines des gaussiennes disponibles pour reconstruire la vue, et utilise les gaussiennes restantes pour reconstruire automatiquement les parties invisibles de l'image. Pour maximiser son efficacité, le framework peut désactiver automatiquement toutes les gaussiennes en prédisant si l'opacité est nulle. Si l'opacité est nulle, les gaussiennes sont désactivées et le framework ne restitue pas ces points, mais sont plutôt éliminés en post-traitement.
Perte de niveau d'image
Un avantage majeur de l’exploitation de la vitesse et de l’efficacité offertes par la méthode Splatter Gaussian est qu’elle facilite le rendu de toutes les images à chaque itération, même pour les lots de taille relativement plus grande. De plus, cela implique que non seulement le cadre est capable d'utiliser des pertes décomposables, mais qu'il peut également utiliser les pertes au niveau de l'image qui ne se décomposent pas en pertes par pixel.
Normalisation d'échelle
Il est difficile d'estimer la taille d'un objet en regardant une seule vue, et c'est une tâche difficile de résoudre cette ambiguïté lorsqu'il est entraîné avec une perte. Le même problème n'est pas observé dans les ensembles de données synthétiques, car tous les objets sont rendus avec des caractéristiques intrinsèques de caméra identiques et les objets sont à une distance fixe de la caméra, ce qui aide finalement à dissiper l'ambiguïté. Cependant, dans les ensembles de données contenant des images réelles, l'ambiguïté est assez évidente et le framework Splatter Image utilise plusieurs méthodes de prétraitement pour fixer approximativement l'échelle de tous les objets.
Afficher la couleur dépendante
Pour représenter les couleurs dépendant de la vue, le framework Splatter Image utilise des harmoniques sphériques pour généraliser les couleurs au-delà du modèle de couleur lambertien. Pour toute gaussienne spécifique, le modèle définit les coefficients prédits par le réseau et les harmoniques sphériques. Le changement de point de vue transforme une direction de visualisation dans la source de caméra en sa direction de visualisation correspondante dans le cadre de référence. Le modèle trouve ensuite les coefficients correspondants pour trouver la fonction de couleur transformée. Le modèle est capable de le faire car lors d’une rotation, les harmoniques sphériques sont fermées, ainsi que tous les autres ordres.
Architecture de réseau de neurones
La majorité de l'architecture du prédicteur mappant l'image d'entrée à la combinaison de gaussienne est identique au processus utilisé dans le framework SongUNet. La dernière couche de l'architecture est remplacée par une couche convolutive 1×1 avec le modèle de couleur déterminant la largeur des canaux de sortie. Étant donné l'image d'entrée, le réseau produit un tenseur de canal de sortie en sortie et, pour chaque canal de pixel, code les paramètres qui sont ensuite transformés en décalage, opacité, rotation, profondeur et couleur. Le framework utilise ensuite des fonctions non linéaires pour activer les paramètres et obtenir les paramètres gaussiens.
Pour reconstruire des représentations 3D avec plusieurs vues, le framework Splatter Image applique le même réseau à chaque vue d'entrée, puis utilise l'approche du point de vue pour combiner les reconstructions individuelles. De plus, pour faciliter une coordination et un échange efficaces d'informations entre les vues du réseau, le framework Splatter Image apporte deux modifications au réseau. Premièrement, le cadre conditionne le modèle avec sa pose de caméra respective et transmet les vecteurs en codant chaque entrée à l'aide d'une intégration de position sinusoïdale résultant en plusieurs dimensions. Deuxièmement, le cadre ajoute des couches d’attention croisée pour faciliter la communication entre les caractéristiques des différentes vues.
Image éclaboussée : expériences et résultats
Le framework Splatter Image mesure la qualité de ses reconstructions en évaluant la qualité de Novel View Synthesis puisque le framework utilise la vue source et restitue la forme 3D pour cibler les vues invisibles afin d'effectuer des reconstructions. Le cadre évalue ses performances en mesurant les scores SSIM ou similarité structurelle, le rapport signal/bruit de pointe ou PSNR et la qualité perceptuelle ou LPIPS.
Performances de reconstruction 3D Ă vue unique
Le tableau suivant montre les performances du modèle Splatter Image dans une tâche de reconstruction 3D à vue unique sur le benchmark ShapeNet.
Comme on peut l'observer, le cadre Splatter Image surpasse toutes les méthodes de reconstruction déterministes sur les scores LPIPS et SSIM. Les scores indiquent que le modèle Splatter Image génère des images avec des reconstructions plus nettes. De plus, le modèle Splatter Image surpasse également toutes les références déterministes en termes de score PSNR, ce qui indique que les reconstructions générées sont également plus précises. De plus, en plus de surpasser toutes les méthodes déterministes, le framework Splatter Image ne nécessite que les poses relatives de la caméra pour améliorer son efficacité dans les phases de formation et de test.
L'image suivante démontre les prouesses qualitatives du framework Splatter Image et, comme on peut le voir, le modèle génère des reconstructions avec des géométries fines et intéressantes, et capture les détails des vues de conditionnement.
L'image suivante montre que les reconstructions générées par le cadre Splatter Image sont non seulement plus nettes, mais ont également une meilleure précision que les modèles précédents, en particulier dans des conditions non conventionnelles avec des structures minces et une visibilité limitée.
Reconstruction 3D multi-vues
Pour évaluer ses capacités de reconstruction 3D multi-vues, le framework Splatter Image est formé sur l'ensemble de données SpaneNet-SRN Cars pour des prédictions à deux vues. Les méthodes existantes utilisent le conditionnement absolu de la pose de la caméra pour les tâches de reconstruction 3D multi-vues, ce qui signifie que le modèle apprend à s'appuyer principalement sur l'orientation canonique de l'objet dans l'objet. Bien que cela fasse l'affaire, cela limite l'applicabilité des modèles car la pose absolue de la caméra est souvent inconnue pour une nouvelle image d'un objet.
Réflexions finales
Dans cet article, nous avons parlé de Splatter Image, une méthode qui vise à obtenir une construction ultra-rapide de forme 3D à vue unique et d'apparence 3D des objets. À la base, le framework Splatter Image utilise la méthode Gaussian Splatting pour analyser les représentations 3D, en profitant de la vitesse et de la qualité qu'il offre. Le framework Splatter Image traite les images à l'aide d'une architecture CNN 2D standard pour prédire une pseudo-image contenant une gaussienne colorée pour chaque pixel. En utilisant la méthode Gaussian Splatting, le framework Splatter Image est capable de combiner un rendu rapide avec une inférence rapide qui se traduit par une formation et une évaluation plus rapides sur des benchmarks réels et synthétiques.