Suivez nous sur

Image Ă©claboussĂ©e : reconstruction 3D ultra-rapide Ă  vue unique

Intelligence Artificielle

Image Ă©claboussĂ©e : reconstruction 3D ultra-rapide Ă  vue unique

mm
Image Ă©claboussĂ©e : reconstruction 3D ultra-rapide Ă  vue unique

La reconstruction d'objets 3D Ă  vue unique avec des rĂ©seaux convolutifs a dĂ©montrĂ© des capacitĂ©s remarquables. Les modèles de reconstruction 3D Ă  vue unique gĂ©nèrent le modèle 3D de n’importe quel objet en utilisant une seule image comme rĂ©fĂ©rence, ce qui en fait l’un des sujets de recherche les plus brĂ»lants en vision par ordinateur. 

Par exemple, considĂ©rons la moto dans l’image ci-dessus. La gĂ©nĂ©ration de sa structure 3D nĂ©cessite un pipeline complexe qui combine d'abord des indices provenant d'images de bas niveau avec des informations sĂ©mantiques de haut niveau et des connaissances sur la disposition structurelle des pièces. 

En raison de la complexitĂ© du processus, la reconstruction 3D Ă  vue unique constitue un dĂ©fi majeur en vision par ordinateur. Dans le but d'amĂ©liorer l'efficacitĂ© de la reconstruction 3D Ă  vue unique, les dĂ©veloppeurs ont travaillĂ© sur Splatter Image, une mĂ©thode qui vise Ă  obtenir une construction ultra-rapide de forme 3D Ă  vue unique et d'apparence 3D des objets. Ă€ la base, le framework Splatter Image utilise la mĂ©thode Gaussian Splatting pour analyser les reprĂ©sentations 3D, en profitant de la vitesse et de la qualitĂ© qu'il offre. 

RĂ©cemment, la mĂ©thode Gaussian Splatting a Ă©tĂ© implĂ©mentĂ©e dans de nombreux modèles de reconstruction multi-vues pour un rendu en temps rĂ©el, une mise Ă  l'Ă©chelle amĂ©liorĂ©e et un entraĂ®nement rapide. Cela Ă©tant dit, Splatter Image est le premier framework qui implĂ©mente la mĂ©thode Gaussian Splatting pour les tâches de reconstruction Ă  vue unique. 

Dans cet article, nous explorerons comment le framework Splatter Image utilise le Splatting gaussien pour rĂ©aliser une reconstruction 3D ultra-rapide Ă  vue unique. Alors, commençons. 

Splatter Image : une tentative de reconstruction 3D ultra-rapide Ă  vue unique

Comme mentionnĂ© prĂ©cĂ©demment, Splatter Image est une approche ultra-rapide pour la reconstruction d'objets 3D Ă  vue unique basĂ©e sur la mĂ©thode Gaussian Splatting. Splatter Image est le tout premier framework de vision par ordinateur Ă  implĂ©menter le Splatting gaussien pour la gĂ©nĂ©ration d'objets 3D monoculaires puisque, traditionnellement, le Splatting gaussien alimente les frameworks de reconstruction d'objets 3D multi-vues. Cependant, ce qui diffĂ©rencie le cadre Splatter Image des mĂ©thodes antĂ©rieures est qu'il s'agit d'une approche basĂ©e sur l'apprentissage, et que la reconstruction lors des tests ne nĂ©cessite que l'Ă©valuation anticipĂ©e du rĂ©seau neuronal. 

Splatter Image s'appuie fondamentalement sur les qualitĂ©s de rendu de Gaussian Splatting et sur la vitesse de traitement Ă©levĂ©e pour gĂ©nĂ©rer Reconstitutions 3D. Le framework Splatter Image prĂ©sente une conception simple : le framework utilise un rĂ©seau neuronal image Ă  image 2D pour prĂ©dire une gaussienne 3D par pixel d'image d'entrĂ©e et mappe l'image d'entrĂ©e Ă  une gaussienne 3D par pixel. Les Gaussiennes 3D rĂ©sultantes ont la forme d'une image, connue sous le nom d'image Splatter, et ces Gaussiennes fournissent Ă©galement une reprĂ©sentation Ă  360 degrĂ©s de l'image. Le processus est dĂ©montrĂ© dans l’image suivante. 

Bien que le processus soit simple et direct, le cadre Splatter Image est confrontĂ© Ă  certains dĂ©fis clĂ©s lors de l'utilisation du Splatting gaussien pour gĂ©nĂ©rer des Gaussiennes 3D pour reprĂ©sentations 3D Ă  vue unique. Le premier obstacle majeur consiste Ă  concevoir un rĂ©seau neuronal qui accepte l’image d’un objet en entrĂ©e et gĂ©nère un mĂ©lange gaussien correspondant reprĂ©sentant tous les cĂ´tĂ©s de l’image en sortie. Pour rĂ©soudre ce problème, Splatter Image profite du fait que mĂŞme si le mĂ©lange gaussien gĂ©nĂ©rĂ© est un ensemble ou une collection non ordonnĂ©e d'Ă©lĂ©ments, il peut toujours ĂŞtre stockĂ© dans une structure de donnĂ©es ordonnĂ©e. En consĂ©quence, le cadre utilise une image 2D comme conteneur pour les gaussiennes 3D, de sorte que chaque pixel du conteneur contient les paramètres d'une gaussienne, y compris ses propriĂ©tĂ©s telles que la forme, l'opacitĂ© et la couleur. 

En stockant des ensembles gaussiens 3D dans une image, le cadre Splatter Image est capable de rĂ©duire les obstacles Ă  la reconstruction rencontrĂ©s lors de l'apprentissage d'un rĂ©seau neuronal image Ă  image. En utilisant cette approche, le processus de reconstruction ne peut ĂŞtre mis en Ĺ“uvre qu'en utilisant des opĂ©rateurs 2D efficaces au lieu de s'appuyer sur des opĂ©rateurs 3D. De plus, dans le framework Splatter Image, la reprĂ©sentation 3D est un mĂ©lange de Gaussiennes 3D lui permettant d'exploiter les avantages de vitesse de rendu et d'efficacitĂ© de la mĂ©moire offerts par Gaussian Splatting qui amĂ©liore l'efficacitĂ© de la formation ainsi que de l'infĂ©rence. En progressant, le framework Splatter Image gĂ©nère non seulement des reprĂ©sentations 3D Ă  vue unique, mais il dĂ©montre Ă©galement une efficacitĂ© remarquable car il peut ĂŞtre entraĂ®nĂ© mĂŞme sur un seul GPU sur des rĂ©fĂ©rences d'objets 3D standard. De plus, le framework Splatter Image peut ĂŞtre Ă©tendu pour prendre plusieurs images en entrĂ©e. Il est capable d'y parvenir en enregistrant les mĂ©langes gaussiens individuels sur une rĂ©fĂ©rence commune, puis en prenant la combinaison des mĂ©langes gaussiens prĂ©dits Ă  partir de vues individuelles. Le framework injecte Ă©galement des couches lĂ©gères d'attention croisĂ©e dans son architecture qui permettent Ă  diffĂ©rentes vues de communiquer entre elles pendant la prĂ©diction. 

D'un point de vue empirique, il convient de noter que le framework Splatter Image peut produire une reconstruction Ă  360 degrĂ©s de l'objet mĂŞme s'il ne voit qu'un seul cĂ´tĂ© de l'objet. Le framework a ensuite allouĂ© diffĂ©rentes Gaussiennes dans un voisinage 2D Ă  diffĂ©rentes parties de l'objet 3D pour coder les informations Ă  360 degrĂ©s gĂ©nĂ©rĂ©es dans l'image 2D. De plus, le framework met Ă  zĂ©ro l'opacitĂ© de plusieurs gaussiennes, ce qui les dĂ©sactive, permettant ainsi de les Ă©liminer lors du post-traitement. 

Pour résumer, le framework Splatter Image est

  1. Une nouvelle approche pour gĂ©nĂ©rer des reconstructions d'objets 3D Ă  vue unique en portant l'approche Gaussian Splatting. 
  2. Étend la mĂ©thode de reconstruction d'objets 3D multi-vues. 
  3. Atteint des performances de reconstruction d’objets 3D de pointe sur des rĂ©fĂ©rences standard avec une vitesse et une qualitĂ© exceptionnelles. 

Splatter Image : MĂ©thodologie et Architecture

Éclaboussures gaussiennes

Comme mentionnĂ© prĂ©cĂ©demment, le Splatting gaussien est la principale mĂ©thode implĂ©mentĂ©e par le framework Splatter Image pour gĂ©nĂ©rer des reconstructions d'objets 3D Ă  vue unique. En termes simples, Gaussian Splatting est une mĂ©thode de rastĂ©risation permettant de reconstruire des images 3D en temps rĂ©el et de restituer des images ayant plusieurs points de vue. L'espace 3D dans l'image est appelĂ© Gaussiens, et des techniques d'apprentissage automatique sont mises en Ĺ“uvre pour apprendre les paramètres de chaque Gaussien. L'Ă©claboussure gaussienne ne nĂ©cessite pas de formation pendant le rendu, ce qui facilite des temps de rendu plus rapides. L'image suivante rĂ©sume l'architecture du Splatting gaussien 3D. 

Le Splatting gaussien 3D utilise d’abord l’ensemble des images d’entrĂ©e pour gĂ©nĂ©rer un nuage de points. Gaussian Splatting utilise ensuite les images d'entrĂ©e pour estimer les paramètres externes de la camĂ©ra comme l'inclinaison et la position en faisant correspondre les pixels entre les images, et ces paramètres sont ensuite utilisĂ©s pour calculer le nuage de points. En utilisant diffĂ©rentes mĂ©thodes d'apprentissage automatique, Gaussian Splatting optimise ensuite quatre paramètres pour chaque Gaussien Ă  savoir : Position (oĂą se trouve-t-il), Covariance (l'Ă©tendue de son Ă©tirement ou de sa mise Ă  l'Ă©chelle dans une matrice 3Ă—3), Couleur (quelle est la palette de couleurs RVB) , et Alpha (mesurant la transparence). Le processus d'optimisation restitue l'image pour chaque position de camĂ©ra et l'utilise pour dĂ©terminer les paramètres les plus proches de l'image d'origine. En consĂ©quence, la sortie d'Ă©claboussure gaussienne 3D rĂ©sultante est une image, appelĂ©e image d'Ă©claboussure, qui ressemble le plus Ă  l'image originale Ă  la position de la camĂ©ra Ă  partir de laquelle elle a Ă©tĂ© capturĂ©e. 

De plus, la fonction d'opacitĂ© et la fonction de couleur dans Gaussian Splatting donnent un champ de radiance avec la direction de visualisation du point 3D. Le cadre restitue ensuite le champ de radiance sur une image en intĂ©grant les couleurs observĂ©es le long du rayon qui traverse le pixel. L'Ă©claboussure gaussienne reprĂ©sente ces fonctions comme une combinaison de gaussiennes colorĂ©es oĂą la moyenne ou le centre gaussien ainsi que la covariance gaussienne aident Ă  dĂ©terminer sa forme et sa taille. Chaque gaussienne possède Ă©galement une propriĂ©tĂ© d'opacitĂ© et une propriĂ©tĂ© de couleur dĂ©pendante de la vue qui dĂ©finissent ensemble le champ de radiance. 

Image éclaboussée

Le composant de rendu mappe l'ensemble des Gaussiennes 3D Ă  une image. Pour effectuer une reconstruction 3D Ă  vue unique, le cadre recherche ensuite une fonction inverse pour les gaussiennes 3D qui reconstruisent le mĂ©lange de gaussiennes 3D Ă  partir d'une image. L'inclusion clĂ© ici est de proposer une conception efficace mais simple pour la fonction inverse. Plus prĂ©cisĂ©ment, pour une image d'entrĂ©e, le cadre prĂ©dit une gaussienne pour chaque pixel individuel en utilisant une architecture de rĂ©seau neuronal image Ă  image pour produire une image, l'image Splatter. Le rĂ©seau prĂ©dit Ă©galement la forme, l'opacitĂ© et la couleur. 

Maintenant, on pourrait spĂ©culer sur la façon dont le framework Splatter Image peut reconstruire la reprĂ©sentation 3D d'un objet alors qu'il n'a accès qu'Ă  une seule de ses vues ? En temps rĂ©el, le framework Splatter Image apprend Ă  utiliser certaines des gaussiennes disponibles pour reconstruire la vue, et utilise les gaussiennes restantes pour reconstruire automatiquement les parties invisibles de l'image. Pour maximiser son efficacitĂ©, le framework peut dĂ©sactiver automatiquement toutes les gaussiennes en prĂ©disant si l'opacitĂ© est nulle. Si l'opacitĂ© est nulle, les gaussiennes sont dĂ©sactivĂ©es et le framework ne restitue pas ces points, mais sont plutĂ´t Ă©liminĂ©s en post-traitement. 

Perte de niveau d'image

Un avantage majeur de l’exploitation de la vitesse et de l’efficacitĂ© offertes par la mĂ©thode Splatter Gaussian est qu’elle facilite le rendu de toutes les images Ă  chaque itĂ©ration, mĂŞme pour les lots de taille relativement plus grande. De plus, cela implique que non seulement le cadre est capable d'utiliser des pertes dĂ©composables, mais qu'il peut Ă©galement utiliser les pertes au niveau de l'image qui ne se dĂ©composent pas en pertes par pixel. 

Normalisation d'échelle

Il est difficile d'estimer la taille d'un objet en regardant une seule vue, et c'est une tâche difficile de rĂ©soudre cette ambiguĂŻtĂ© lorsqu'il est entraĂ®nĂ© avec une perte. Le mĂŞme problème n'est pas observĂ© dans les ensembles de donnĂ©es synthĂ©tiques, car tous les objets sont rendus avec des caractĂ©ristiques intrinsèques de camĂ©ra identiques et les objets sont Ă  une distance fixe de la camĂ©ra, ce qui aide finalement Ă  dissiper l'ambiguĂŻtĂ©. Cependant, dans les ensembles de donnĂ©es contenant des images rĂ©elles, l'ambiguĂŻtĂ© est assez Ă©vidente et le framework Splatter Image utilise plusieurs mĂ©thodes de prĂ©traitement pour fixer approximativement l'Ă©chelle de tous les objets. 

Afficher la couleur dépendante

Pour reprĂ©senter les couleurs dĂ©pendant de la vue, le framework Splatter Image utilise des harmoniques sphĂ©riques pour gĂ©nĂ©raliser les couleurs au-delĂ  du modèle de couleur lambertien. Pour toute gaussienne spĂ©cifique, le modèle dĂ©finit les coefficients prĂ©dits par le rĂ©seau et les harmoniques sphĂ©riques. Le changement de point de vue transforme une direction de visualisation dans la source de camĂ©ra en sa direction de visualisation correspondante dans le cadre de rĂ©fĂ©rence. Le modèle trouve ensuite les coefficients correspondants pour trouver la fonction de couleur transformĂ©e. Le modèle est capable de le faire car lors d’une rotation, les harmoniques sphĂ©riques sont fermĂ©es, ainsi que tous les autres ordres. 

Architecture de réseau de neurones

La majoritĂ© de l'architecture du prĂ©dicteur mappant l'image d'entrĂ©e Ă  la combinaison de gaussienne est identique au processus utilisĂ© dans le framework SongUNet. La dernière couche de l'architecture est remplacĂ©e par une couche convolutive 1Ă—1 avec le modèle de couleur dĂ©terminant la largeur des canaux de sortie. Étant donnĂ© l'image d'entrĂ©e, le rĂ©seau produit un tenseur de canal de sortie en sortie et, pour chaque canal de pixel, code les paramètres qui sont ensuite transformĂ©s en dĂ©calage, opacitĂ©, rotation, profondeur et couleur. Le framework utilise ensuite des fonctions non linĂ©aires pour activer les paramètres et obtenir les paramètres gaussiens. 

Pour reconstruire des reprĂ©sentations 3D avec plusieurs vues, le framework Splatter Image applique le mĂŞme rĂ©seau Ă  chaque vue d'entrĂ©e, puis utilise l'approche du point de vue pour combiner les reconstructions individuelles. De plus, pour faciliter une coordination et un Ă©change efficaces d'informations entre les vues du rĂ©seau, le framework Splatter Image apporte deux modifications au rĂ©seau. Premièrement, le cadre conditionne le modèle avec sa pose de camĂ©ra respective et transmet les vecteurs en codant chaque entrĂ©e Ă  l'aide d'une intĂ©gration de position sinusoĂŻdale rĂ©sultant en plusieurs dimensions. Deuxièmement, le cadre ajoute des couches d’attention croisĂ©e pour faciliter la communication entre les caractĂ©ristiques des diffĂ©rentes vues. 

Image Ă©claboussĂ©e : expĂ©riences et rĂ©sultats

Le framework Splatter Image mesure la qualitĂ© de ses reconstructions en Ă©valuant la qualitĂ© de Novel View Synthesis puisque le framework utilise la vue source et restitue la forme 3D pour cibler les vues invisibles afin d'effectuer des reconstructions. Le cadre Ă©value ses performances en mesurant les scores SSIM ou similaritĂ© structurelle, le rapport signal/bruit de pointe ou PSNR et la qualitĂ© perceptuelle ou LPIPS. 

Performances de reconstruction 3D Ă  vue unique

Le tableau suivant montre les performances du modèle Splatter Image dans une tâche de reconstruction 3D Ă  vue unique sur le benchmark ShapeNet. 

Comme on peut l'observer, le cadre Splatter Image surpasse toutes les mĂ©thodes de reconstruction dĂ©terministes sur les scores LPIPS et SSIM. Les scores indiquent que le modèle Splatter Image gĂ©nère des images avec des reconstructions plus nettes. De plus, le modèle Splatter Image surpasse Ă©galement toutes les rĂ©fĂ©rences dĂ©terministes en termes de score PSNR, ce qui indique que les reconstructions gĂ©nĂ©rĂ©es sont Ă©galement plus prĂ©cises. De plus, en plus de surpasser toutes les mĂ©thodes dĂ©terministes, le framework Splatter Image ne nĂ©cessite que les poses relatives de la camĂ©ra pour amĂ©liorer son efficacitĂ© dans les phases de formation et de test. 

L'image suivante dĂ©montre les prouesses qualitatives du framework Splatter Image et, comme on peut le voir, le modèle gĂ©nère des reconstructions avec des gĂ©omĂ©tries fines et intĂ©ressantes, et capture les dĂ©tails des vues de conditionnement. 

L'image suivante montre que les reconstructions gĂ©nĂ©rĂ©es par le cadre Splatter Image sont non seulement plus nettes, mais ont Ă©galement une meilleure prĂ©cision que les modèles prĂ©cĂ©dents, en particulier dans des conditions non conventionnelles avec des structures minces et une visibilitĂ© limitĂ©e. 

Reconstruction 3D multi-vues

Pour Ă©valuer ses capacitĂ©s de reconstruction 3D multi-vues, le framework Splatter Image est formĂ© sur l'ensemble de donnĂ©es SpaneNet-SRN Cars pour des prĂ©dictions Ă  deux vues. Les mĂ©thodes existantes utilisent le conditionnement absolu de la pose de la camĂ©ra pour les tâches de reconstruction 3D multi-vues, ce qui signifie que le modèle apprend Ă  s'appuyer principalement sur l'orientation canonique de l'objet dans l'objet. Bien que cela fasse l'affaire, cela limite l'applicabilitĂ© des modèles car la pose absolue de la camĂ©ra est souvent inconnue pour une nouvelle image d'un objet. 

Réflexions finales

Dans cet article, nous avons parlĂ© de Splatter Image, une mĂ©thode qui vise Ă  obtenir une construction ultra-rapide de forme 3D Ă  vue unique et d'apparence 3D des objets. Ă€ la base, le framework Splatter Image utilise la mĂ©thode Gaussian Splatting pour analyser les reprĂ©sentations 3D, en profitant de la vitesse et de la qualitĂ© qu'il offre. Le framework Splatter Image traite les images Ă  l'aide d'une architecture CNN 2D standard pour prĂ©dire une pseudo-image contenant une gaussienne colorĂ©e pour chaque pixel. En utilisant la mĂ©thode Gaussian Splatting, le framework Splatter Image est capable de combiner un rendu rapide avec une infĂ©rence rapide qui se traduit par une formation et une Ă©valuation plus rapides sur des benchmarks rĂ©els et synthĂ©tiques. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.