Suivez nous sur

Comment fonctionne la reconstruction 3D Ă  vue unique ?

Intelligence Artificielle

Comment fonctionne la reconstruction 3D Ă  vue unique ?

mm

Traditionnellement, les modèles de reconstruction d'objets à vue unique basés sur des réseaux de neurones convolutifs ont montré des performances remarquables dans les tâches de reconstruction. Ces dernières années, la reconstruction 3D à vue unique est devenue un sujet de recherche populaire dans la communauté de l’IA. Quelle que soit la méthodologie spécifique utilisée, tous les modèles de reconstruction 3D à vue unique partagent l'approche commune consistant à incorporer un réseau codeur-décodeur dans leur cadre. Ce réseau effectue un raisonnement complexe sur la structure 3D dans l'espace de sortie.

Dans cet article, nous explorerons le fonctionnement de la reconstruction 3D à vue unique en temps réel et les défis actuels auxquels ces cadres sont confrontés dans les tâches de reconstruction. Nous discuterons de divers composants et méthodes clés utilisés par les modèles de reconstruction 3D à vue unique et explorerons des stratégies qui pourraient améliorer les performances de ces cadres. De plus, nous analyserons les résultats produits par des frameworks de pointe qui utilisent des méthodes codeur-décodeur. Allons-y.

Reconstruction d'objets 3D Ă  vue unique

La reconstruction d'objet 3D à vue unique consiste à générer un modèle 3D d'un objet à partir d'un seul point de vue, ou en termes plus simples, à partir d'une seule image. Par exemple, déduire la structure 3D d’un objet, comme une moto, à partir d’une image, est un processus complexe. Il combine la connaissance de la disposition structurelle des pièces, des images de bas niveau et des informations sémantiques de haut niveau. Ce spectre englobe deux aspects principaux : reconstruction ou reconnaissance. Le processus de reconstruction discerne la structure 3D de l'image d'entrée à l'aide d'indices tels que l'ombrage, la texture et les effets visuels. En revanche, le processus de reconnaissance classe l'image d'entrée et récupère un modèle 3D approprié à partir d'une base de données.

Les modèles actuels de reconstruction d'objets 3D à vue unique peuvent varier en termes d'architecture, mais ils sont unifiés par l'inclusion d'une structure codeur-décodeur dans leur cadre. Dans cette structure, l'encodeur mappe l'image d'entrée sur une représentation latente, tandis que le décodeur fait des inférences complexes sur la structure 3D de l'espace de sortie. Pour exécuter cette tâche avec succès, le réseau doit intégrer des informations de haut niveau et de bas niveau. De plus, de nombreuses méthodes de codage-décodeur de pointe reposent sur la reconnaissance des tâches de reconstruction 3D à vue unique, ce qui limite leurs capacités de reconstruction. De plus, les performances des réseaux de neurones convolutifs modernes dans la reconstruction d'objets 3D à vue unique peuvent être surpassées sans déduire explicitement la structure de l'objet 3D. Cependant, la prédominance de la reconnaissance dans les réseaux convolutifs dans les tâches de reconstruction d'objets à vue unique est influencée par diverses procédures expérimentales, notamment les protocoles d'évaluation et la composition des ensembles de données. De tels facteurs permettent au framework de trouver une solution raccourcie, en l’occurrence la reconnaissance d’images.

Traditionnellement, les cadres de reconstruction d'objets 3D Ă  vue unique abordent les tâches de reconstruction en utilisant l'approche de forme Ă  partir d'ombrage, la texture et la dĂ©focalisation servant de vues exotiques pour les tâches de reconstruction. Étant donnĂ© que ces techniques utilisent un seul indicateur de profondeur, elles sont capables de raisonner sur les parties visibles d’une surface. Par ailleurs, beaucoup de cadres de reconstruction 3D Ă  vue unique utilisez plusieurs indices ainsi que des connaissances structurelles pour estimer la profondeur Ă  partir d’une seule image monoculaire, une combinaison qui permet Ă  ces cadres de prĂ©dire la profondeur des surfaces visibles. Les cadres d'estimation de profondeur plus rĂ©cents dĂ©ploient des structures de rĂ©seaux neuronaux convolutifs pour extraire la profondeur dans une image monoculaire. 

Cependant, pour une reconstruction 3D efficace Ă  vue unique, les modèles doivent non seulement raisonner sur la structure 3D des objets visibles dans l’image, mais ils doivent Ă©galement halluciner les parties invisibles de l’image en utilisant certains a priori tirĂ©s des donnĂ©es. Pour y parvenir, la majoritĂ© des modèles dĂ©ploient actuellement des structures de rĂ©seaux neuronaux convolutifs entraĂ®nĂ©s pour mapper des images 2D en formes 3D Ă  l'aide d'une supervision 3D directe, alors que de nombreux autres frameworks dĂ©ployaient des reprĂ©sentations de forme 3D basĂ©es sur des voxels et utilisaient une reprĂ©sentation latente pour gĂ©nĂ©rer des convolutions ascendantes 3D. Certains frameworks partitionnent Ă©galement l'espace de sortie de manière hiĂ©rarchique pour amĂ©liorer l'efficacitĂ© du calcul et de la mĂ©moire, ce qui permet au modèle de prĂ©dire des formes 3D Ă  plus haute rĂ©solution. Des recherches rĂ©centes se concentrent sur l'utilisation de formes de supervision plus faibles pour les prĂ©dictions de formes 3D Ă  vue unique Ă  l'aide de rĂ©seaux neuronaux convolutifs, soit en comparant les formes prĂ©dites et leurs prĂ©dictions de vĂ©ritĂ© terrain pour entraĂ®ner des rĂ©gresseurs de forme, soit en utilisant plusieurs signaux d'apprentissage pour entraĂ®ner des formes moyennes qui aident le modèle Ă  prĂ©dire. dĂ©formations. Une autre raison qui explique les progrès limitĂ©s dans la reconstruction 3D Ă  vue unique est la quantitĂ© limitĂ©e de donnĂ©es d'entraĂ®nement disponibles pour cette tâche. 

En progressant, la reconstruction 3D Ă  vue unique est une tâche complexe car elle interprète non seulement les donnĂ©es visuelles gĂ©omĂ©triquement, mais Ă©galement sĂ©mantiquement. Bien qu’ils ne soient pas complètement diffĂ©rents, ils couvrent des spectres diffĂ©rents, de la reconstruction gĂ©omĂ©trique Ă  la reconnaissance sĂ©mantique. Tâches de reconstruction raisonnement par pixel de la structure 3D de l'objet dans l'image. Les tâches de reconstruction ne nĂ©cessitent pas de comprĂ©hension sĂ©mantique du contenu de l'image et peuvent ĂŞtre rĂ©alisĂ©es Ă  l'aide d'indices d'image de bas niveau, notamment la texture, la couleur, l'ombrage, les ombres, la perspective et la mise au point. La reconnaissance, en revanche, est un cas extrĂŞme d'utilisation de la sĂ©mantique des images car les tâches de reconnaissance utilisent des objets entiers et reviennent Ă  classer l'objet dans l'entrĂ©e et Ă  rĂ©cupĂ©rer la forme correspondante dans la base de donnĂ©es. Bien que les tâches de reconnaissance puissent fournir un raisonnement robuste sur les parties de l'objet non visibles dans les images, la solution sĂ©mantique n'est rĂ©alisable que si elle peut ĂŞtre expliquĂ©e par un objet prĂ©sent dans la base de donnĂ©es. 

Bien que les tâches de reconnaissance et de reconstruction puissent diffĂ©rer considĂ©rablement les unes des autres, elles ont toutes deux tendance Ă  ignorer les informations prĂ©cieuses contenues dans l’image d’entrĂ©e. Il est conseillĂ© d'utiliser ces deux tâches Ă  l'unisson pour obtenir les meilleurs rĂ©sultats possibles et des formes 3D prĂ©cises pour la reconstruction d'objets, c'est-Ă -dire que pour des tâches optimales de reconstruction 3D Ă  vue unique, le modèle doit utiliser des connaissances structurelles, des indices d'image de bas niveau, et une comprĂ©hension de haut niveau de l'objet. 

Reconstruction 3D Ă  vue unique : configuration conventionnelle

Pour expliquer la configuration conventionnelle et analyser la configuration d'un cadre de reconstruction 3D à vue unique, nous déploierons une configuration standard pour estimer la forme 3D à l'aide d'une vue ou d'une image unique de l'objet. L'ensemble de données utilisé à des fins de formation est l'ensemble de données ShapeNet et évalue les performances de 13 classes, ce qui permet au modèle de comprendre comment le nombre de classes dans un ensemble de données détermine les performances d'estimation de forme du modèle.

La majoritĂ© des rĂ©seaux de neurones convolutifs modernes utilisent une seule image pour prĂ©dire les modèles 3D haute rĂ©solution, et ces cadres peuvent ĂŞtre classĂ©s en fonction de la reprĂ©sentation de leur sortie : cartes de profondeur, nuages ​​de points et grilles de voxels. Le modèle utilise OGN ou Octree Generating Networks comme mĂ©thode reprĂ©sentative qui a historiquement surpassĂ© l'approche de la grille de voxels et/ou peut couvrir les reprĂ©sentations de sortie dominantes. Contrairement aux mĂ©thodes existantes qui utilisent des reprĂ©sentations de sortie, l'approche OGN permet au modèle de prĂ©dire des formes Ă  haute rĂ©solution et utilise des octrees pour reprĂ©senter efficacement l'espace occupĂ©. 

Lignes de base

Pour Ă©valuer les rĂ©sultats, le modèle dĂ©ploie deux lignes de base qui considèrent le problème uniquement comme une tâche de reconnaissance. La première rĂ©fĂ©rence est basĂ©e sur le clustering tandis que la seconde effectue la rĂ©cupĂ©ration de base de donnĂ©es. 

regroupement

Sur la base de rĂ©fĂ©rence de clustering, le modèle utilise l'algorithme K-Means pour regrouper ou regrouper les formes d'entraĂ®nement en K sous-catĂ©gories, et exĂ©cute l'algorithme sur 32*32*32 voxĂ©lisations aplaties en un vecteur. Après avoir dĂ©terminĂ© les affectations de cluster, le modèle revient Ă  travailler avec des modèles avec une rĂ©solution plus Ă©levĂ©e. Le modèle calcule ensuite la forme moyenne au sein de chaque cluster et seuille les formes moyennes oĂą la valeur optimale est calculĂ©e en maximisant l'IoU ou l'intersection sur Union moyenne sur les modèles. Étant donnĂ© que le modèle connaĂ®t la relation entre les formes 3D et les images dans les donnĂ©es d'entraĂ®nement, le modèle peut facilement faire correspondre l'image avec son cluster correspondant. 

Récupération

La ligne de base de rĂ©cupĂ©ration apprend Ă  intĂ©grer des formes et des images dans un espace commun. Le modèle prend en compte la similaritĂ© par paire des formes de matrice 3D dans l'ensemble d'apprentissage pour construire l'espace d'intĂ©gration. Le modèle y parvient en utilisant l'approche de mise Ă  l'Ă©chelle multidimensionnelle avec Sammon pour compresser chaque ligne de la matrice en un descripteur de faible dimension. De plus, pour calculer la similaritĂ© entre deux formes arbitraires, le modèle utilise le descripteur de champ lumineux. De plus, le modèle entraĂ®ne un rĂ©seau neuronal convolutif pour mapper les images Ă  un descripteur afin d'intĂ©grer les images dans l'espace. 

Analyse

Les modèles de reconstruction 3D Ă  vue unique suivent diffĂ©rentes stratĂ©gies, ce qui leur permet de surpasser les autres modèles dans certains domaines alors qu'ils sont insuffisants dans d'autres. Pour comparer diffĂ©rents frameworks et Ă©valuer leurs performances, nous disposons de diffĂ©rentes mĂ©triques, l'une d'entre elles Ă©tant le score IoU moyen. 

Comme le montre l'image ci-dessus, malgrĂ© leurs architectures diffĂ©rentes, les modèles de reconstruction 3D de pointe actuels offrent des performances presque similaires. Cependant, il est intĂ©ressant de noter que bien qu’il s’agisse d’une pure mĂ©thode de reconnaissance, le cadre de rĂ©cupĂ©ration surpasse les autres modèles en termes de scores IoU moyens et mĂ©dians. Le framework Clustering fournit des rĂ©sultats solides surpassant les frameworks AtlasNet, OGN et Matryoshka. Cependant, le rĂ©sultat le plus inattendu de cette analyse reste qu'Oracle NN surpasse toutes les autres mĂ©thodes malgrĂ© l'utilisation d'une architecture de rĂ©cupĂ©ration parfaite. Bien que le calcul du score IoU moyen facilite la comparaison, il ne donne pas une image complète puisque la variance des rĂ©sultats est Ă©levĂ©e quel que soit le modèle. 

Paramètres d'évaluation courants

Les modèles de reconstruction 3D Ă  vue unique utilisent souvent diffĂ©rentes mesures d'Ă©valuation pour analyser leurs performances sur un large Ă©ventail de tâches. Voici quelques-unes des mesures d’évaluation couramment utilisĂ©es. 

Intersection sur union

La moyenne d'intersection sur l'union est une mesure couramment utilisĂ©e comme mesure quantitative pour servir de rĂ©fĂ©rence pour modèles de reconstruction 3D Ă  vue unique. Bien que l'IoU fournisse un aperçu des performances du modèle, elle n'est pas considĂ©rĂ©e comme la seule mesure permettant d'Ă©valuer une mĂ©thode puisqu'elle indique la qualitĂ© de la forme prĂ©dite par le modèle uniquement si les valeurs sont suffisamment Ă©levĂ©es, un Ă©cart significatif Ă©tant observĂ© entre les scores faibles et moyens pour deux formes donnĂ©es. 

Distance du chanfrein

La distance de chanfrein est dĂ©finie sur des nuages ​​de points et a Ă©tĂ© conçue de manière Ă  pouvoir ĂŞtre appliquĂ©e de manière satisfaisante Ă  diffĂ©rentes reprĂ©sentations 3D. Cependant, la mĂ©trique d'Ă©valuation de la distance de chanfrein est très sensible aux valeurs aberrantes, ce qui en fait une mesure problĂ©matique pour Ă©valuer les performances du modèle, la distance de la valeur aberrante par rapport Ă  la forme de rĂ©fĂ©rence dĂ©terminant de manière significative la qualitĂ© de la gĂ©nĂ©ration. 

Score F

Le F-Score est une mesure d'Ă©valuation courante activement utilisĂ©e par la majoritĂ© des modèles de reconstruction 3D multi-vues. La mĂ©trique F-Score est dĂ©finie comme la moyenne harmonique entre le rappel et la prĂ©cision, et elle Ă©value explicitement la distance entre les surfaces des objets. La prĂ©cision compte le pourcentage de points reconstruits situĂ©s Ă  une distance prĂ©dĂ©finie de la vĂ©ritĂ© terrain, pour mesurer la prĂ©cision de la reconstruction. Le rappel, quant Ă  lui, compte le pourcentage de points sur la vĂ©ritĂ© terrain se trouvant Ă  une distance prĂ©dĂ©finie de la reconstruction pour mesurer l'exhaustivitĂ© de la reconstruction. De plus, en faisant varier le seuil de distance, les dĂ©veloppeurs peuvent contrĂ´ler la rigueur de la mĂ©trique F-Score. 

Analyse par classe

La similaritĂ© des performances fournies par les frameworks ci-dessus ne peut pas ĂŞtre le rĂ©sultat de mĂ©thodes exĂ©cutĂ©es sur diffĂ©rents sous-ensembles de classes, et la figure suivante dĂ©montre les performances relatives cohĂ©rentes entre diffĂ©rentes classes, la ligne de base de rĂ©cupĂ©ration Oracle NN obtenant le meilleur rĂ©sultat de toutes, et de toutes. mĂ©thodes observant une variance Ă©levĂ©e pour toutes les classes.  

De plus, le nombre d’échantillons d’entraĂ®nement disponibles pour une classe pourrait laisser penser qu’il influence les performances par classe. Cependant, comme le montre la figure suivante, le nombre d'Ă©chantillons d'entraĂ®nement disponibles pour une classe n'influence pas les performances par classe, et le nombre d'Ă©chantillons dans une classe et son score IoU moyen ne sont pas corrĂ©lĂ©s. 

Analyse qualitative

Les rĂ©sultats quantitatifs discutĂ©s dans la section ci-dessus sont Ă©tayĂ©s par des rĂ©sultats qualitatifs, comme le montre l'image suivante. 

Pour la majoritĂ© des classes, il n’y a pas de diffĂ©rence significative entre la base de regroupement et les prĂ©dictions faites par les mĂ©thodes basĂ©es sur un dĂ©codeur. L'approche de clustering ne parvient pas Ă  fournir des rĂ©sultats lorsque la distance entre l'Ă©chantillon et la forme moyenne de la grappe est Ă©levĂ©e, ou dans les situations oĂą la forme moyenne elle-mĂŞme ne peut pas dĂ©crire suffisamment bien la grappe. D'un autre cĂ´tĂ©, les frameworks employant des mĂ©thodes basĂ©es sur un dĂ©codeur et une architecture de rĂ©cupĂ©ration fournissent les rĂ©sultats les plus prĂ©cis et les plus attrayants car ils sont capables d'inclure des dĂ©tails fins dans le modèle 3D gĂ©nĂ©rĂ©. 

Reconstruction 3D Ă  vue unique : rĂ©flexions finales

Dans cet article, nous avons parlĂ© de la reconstruction d'objets 3D Ă  vue unique, de son fonctionnement et de deux lignes de base : la rĂ©cupĂ©ration et la classification, l'approche de base de rĂ©cupĂ©ration surpassant les modèles de pointe actuels. Enfin, mĂŞme si Reconstruction d'objets 3D Ă  vue unique est l'un des sujets les plus brĂ»lants et les plus Ă©tudiĂ©s dans la communautĂ© de l'IA, et malgrĂ© des progrès significatifs au cours des dernières annĂ©es, la reconstruction d'objets 3D Ă  vue unique est loin d'ĂŞtre parfaite et d'importants obstacles Ă  surmonter dans les annĂ©es Ă  venir. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.