Intelligence Artificielle
Comment fonctionne la reconstruction 3D Ă vue unique ?

Traditionnellement, les modèles de reconstruction d'objets à vue unique basés sur des réseaux de neurones convolutifs ont montré des performances remarquables dans les tâches de reconstruction. Ces dernières années, la reconstruction 3D à vue unique est devenue un sujet de recherche populaire dans la communauté de l’IA. Quelle que soit la méthodologie spécifique utilisée, tous les modèles de reconstruction 3D à vue unique partagent l'approche commune consistant à incorporer un réseau codeur-décodeur dans leur cadre. Ce réseau effectue un raisonnement complexe sur la structure 3D dans l'espace de sortie.
Dans cet article, nous explorerons le fonctionnement de la reconstruction 3D à vue unique en temps réel et les défis actuels auxquels ces cadres sont confrontés dans les tâches de reconstruction. Nous discuterons de divers composants et méthodes clés utilisés par les modèles de reconstruction 3D à vue unique et explorerons des stratégies qui pourraient améliorer les performances de ces cadres. De plus, nous analyserons les résultats produits par des frameworks de pointe qui utilisent des méthodes codeur-décodeur. Allons-y.
Reconstruction d'objets 3D Ă vue unique
La reconstruction d'objet 3D à vue unique consiste à générer un modèle 3D d'un objet à partir d'un seul point de vue, ou en termes plus simples, à partir d'une seule image. Par exemple, déduire la structure 3D d’un objet, comme une moto, à partir d’une image, est un processus complexe. Il combine la connaissance de la disposition structurelle des pièces, des images de bas niveau et des informations sémantiques de haut niveau. Ce spectre englobe deux aspects principaux : reconstruction ou reconnaissance. Le processus de reconstruction discerne la structure 3D de l'image d'entrée à l'aide d'indices tels que l'ombrage, la texture et les effets visuels. En revanche, le processus de reconnaissance classe l'image d'entrée et récupère un modèle 3D approprié à partir d'une base de données.
Les modèles actuels de reconstruction d'objets 3D à vue unique peuvent varier en termes d'architecture, mais ils sont unifiés par l'inclusion d'une structure codeur-décodeur dans leur cadre. Dans cette structure, l'encodeur mappe l'image d'entrée sur une représentation latente, tandis que le décodeur fait des inférences complexes sur la structure 3D de l'espace de sortie. Pour exécuter cette tâche avec succès, le réseau doit intégrer des informations de haut niveau et de bas niveau. De plus, de nombreuses méthodes de codage-décodeur de pointe reposent sur la reconnaissance des tâches de reconstruction 3D à vue unique, ce qui limite leurs capacités de reconstruction. De plus, les performances des réseaux de neurones convolutifs modernes dans la reconstruction d'objets 3D à vue unique peuvent être surpassées sans déduire explicitement la structure de l'objet 3D. Cependant, la prédominance de la reconnaissance dans les réseaux convolutifs dans les tâches de reconstruction d'objets à vue unique est influencée par diverses procédures expérimentales, notamment les protocoles d'évaluation et la composition des ensembles de données. De tels facteurs permettent au framework de trouver une solution raccourcie, en l’occurrence la reconnaissance d’images.
Traditionnellement, les cadres de reconstruction d'objets 3D à vue unique abordent les tâches de reconstruction en utilisant l'approche de forme à partir d'ombrage, la texture et la défocalisation servant de vues exotiques pour les tâches de reconstruction. Étant donné que ces techniques utilisent un seul indicateur de profondeur, elles sont capables de raisonner sur les parties visibles d’une surface. Par ailleurs, beaucoup de cadres de reconstruction 3D à vue unique utilisez plusieurs indices ainsi que des connaissances structurelles pour estimer la profondeur à partir d’une seule image monoculaire, une combinaison qui permet à ces cadres de prédire la profondeur des surfaces visibles. Les cadres d'estimation de profondeur plus récents déploient des structures de réseaux neuronaux convolutifs pour extraire la profondeur dans une image monoculaire.
Cependant, pour une reconstruction 3D efficace à vue unique, les modèles doivent non seulement raisonner sur la structure 3D des objets visibles dans l’image, mais ils doivent également halluciner les parties invisibles de l’image en utilisant certains a priori tirés des données. Pour y parvenir, la majorité des modèles déploient actuellement des structures de réseaux neuronaux convolutifs entraînés pour mapper des images 2D en formes 3D à l'aide d'une supervision 3D directe, alors que de nombreux autres frameworks déployaient des représentations de forme 3D basées sur des voxels et utilisaient une représentation latente pour générer des convolutions ascendantes 3D. Certains frameworks partitionnent également l'espace de sortie de manière hiérarchique pour améliorer l'efficacité du calcul et de la mémoire, ce qui permet au modèle de prédire des formes 3D à plus haute résolution. Des recherches récentes se concentrent sur l'utilisation de formes de supervision plus faibles pour les prédictions de formes 3D à vue unique à l'aide de réseaux neuronaux convolutifs, soit en comparant les formes prédites et leurs prédictions de vérité terrain pour entraîner des régresseurs de forme, soit en utilisant plusieurs signaux d'apprentissage pour entraîner des formes moyennes qui aident le modèle à prédire. déformations. Une autre raison qui explique les progrès limités dans la reconstruction 3D à vue unique est la quantité limitée de données d'entraînement disponibles pour cette tâche.
En progressant, la reconstruction 3D à vue unique est une tâche complexe car elle interprète non seulement les données visuelles géométriquement, mais également sémantiquement. Bien qu’ils ne soient pas complètement différents, ils couvrent des spectres différents, de la reconstruction géométrique à la reconnaissance sémantique. Tâches de reconstruction raisonnement par pixel de la structure 3D de l'objet dans l'image. Les tâches de reconstruction ne nécessitent pas de compréhension sémantique du contenu de l'image et peuvent être réalisées à l'aide d'indices d'image de bas niveau, notamment la texture, la couleur, l'ombrage, les ombres, la perspective et la mise au point. La reconnaissance, en revanche, est un cas extrême d'utilisation de la sémantique des images car les tâches de reconnaissance utilisent des objets entiers et reviennent à classer l'objet dans l'entrée et à récupérer la forme correspondante dans la base de données. Bien que les tâches de reconnaissance puissent fournir un raisonnement robuste sur les parties de l'objet non visibles dans les images, la solution sémantique n'est réalisable que si elle peut être expliquée par un objet présent dans la base de données.
Bien que les tâches de reconnaissance et de reconstruction puissent différer considérablement les unes des autres, elles ont toutes deux tendance à ignorer les informations précieuses contenues dans l’image d’entrée. Il est conseillé d'utiliser ces deux tâches à l'unisson pour obtenir les meilleurs résultats possibles et des formes 3D précises pour la reconstruction d'objets, c'est-à -dire que pour des tâches optimales de reconstruction 3D à vue unique, le modèle doit utiliser des connaissances structurelles, des indices d'image de bas niveau, et une compréhension de haut niveau de l'objet.
Reconstruction 3D Ă vue unique : configuration conventionnelle
Pour expliquer la configuration conventionnelle et analyser la configuration d'un cadre de reconstruction 3D à vue unique, nous déploierons une configuration standard pour estimer la forme 3D à l'aide d'une vue ou d'une image unique de l'objet. L'ensemble de données utilisé à des fins de formation est l'ensemble de données ShapeNet et évalue les performances de 13 classes, ce qui permet au modèle de comprendre comment le nombre de classes dans un ensemble de données détermine les performances d'estimation de forme du modèle.
La majorité des réseaux de neurones convolutifs modernes utilisent une seule image pour prédire les modèles 3D haute résolution, et ces cadres peuvent être classés en fonction de la représentation de leur sortie : cartes de profondeur, nuages ​​de points et grilles de voxels. Le modèle utilise OGN ou Octree Generating Networks comme méthode représentative qui a historiquement surpassé l'approche de la grille de voxels et/ou peut couvrir les représentations de sortie dominantes. Contrairement aux méthodes existantes qui utilisent des représentations de sortie, l'approche OGN permet au modèle de prédire des formes à haute résolution et utilise des octrees pour représenter efficacement l'espace occupé.
Lignes de base
Pour évaluer les résultats, le modèle déploie deux lignes de base qui considèrent le problème uniquement comme une tâche de reconnaissance. La première référence est basée sur le clustering tandis que la seconde effectue la récupération de base de données.
regroupement
Sur la base de référence de clustering, le modèle utilise l'algorithme K-Means pour regrouper ou regrouper les formes d'entraînement en K sous-catégories, et exécute l'algorithme sur 32*32*32 voxélisations aplaties en un vecteur. Après avoir déterminé les affectations de cluster, le modèle revient à travailler avec des modèles avec une résolution plus élevée. Le modèle calcule ensuite la forme moyenne au sein de chaque cluster et seuille les formes moyennes où la valeur optimale est calculée en maximisant l'IoU ou l'intersection sur Union moyenne sur les modèles. Étant donné que le modèle connaît la relation entre les formes 3D et les images dans les données d'entraînement, le modèle peut facilement faire correspondre l'image avec son cluster correspondant.
Récupération
La ligne de base de récupération apprend à intégrer des formes et des images dans un espace commun. Le modèle prend en compte la similarité par paire des formes de matrice 3D dans l'ensemble d'apprentissage pour construire l'espace d'intégration. Le modèle y parvient en utilisant l'approche de mise à l'échelle multidimensionnelle avec Sammon pour compresser chaque ligne de la matrice en un descripteur de faible dimension. De plus, pour calculer la similarité entre deux formes arbitraires, le modèle utilise le descripteur de champ lumineux. De plus, le modèle entraîne un réseau neuronal convolutif pour mapper les images à un descripteur afin d'intégrer les images dans l'espace.
Analyse
Les modèles de reconstruction 3D à vue unique suivent différentes stratégies, ce qui leur permet de surpasser les autres modèles dans certains domaines alors qu'ils sont insuffisants dans d'autres. Pour comparer différents frameworks et évaluer leurs performances, nous disposons de différentes métriques, l'une d'entre elles étant le score IoU moyen.
Comme le montre l'image ci-dessus, malgré leurs architectures différentes, les modèles de reconstruction 3D de pointe actuels offrent des performances presque similaires. Cependant, il est intéressant de noter que bien qu’il s’agisse d’une pure méthode de reconnaissance, le cadre de récupération surpasse les autres modèles en termes de scores IoU moyens et médians. Le framework Clustering fournit des résultats solides surpassant les frameworks AtlasNet, OGN et Matryoshka. Cependant, le résultat le plus inattendu de cette analyse reste qu'Oracle NN surpasse toutes les autres méthodes malgré l'utilisation d'une architecture de récupération parfaite. Bien que le calcul du score IoU moyen facilite la comparaison, il ne donne pas une image complète puisque la variance des résultats est élevée quel que soit le modèle.
Paramètres d'évaluation courants
Les modèles de reconstruction 3D à vue unique utilisent souvent différentes mesures d'évaluation pour analyser leurs performances sur un large éventail de tâches. Voici quelques-unes des mesures d’évaluation couramment utilisées.
Intersection sur union
La moyenne d'intersection sur l'union est une mesure couramment utilisée comme mesure quantitative pour servir de référence pour modèles de reconstruction 3D à vue unique. Bien que l'IoU fournisse un aperçu des performances du modèle, elle n'est pas considérée comme la seule mesure permettant d'évaluer une méthode puisqu'elle indique la qualité de la forme prédite par le modèle uniquement si les valeurs sont suffisamment élevées, un écart significatif étant observé entre les scores faibles et moyens pour deux formes données.
Distance du chanfrein
La distance de chanfrein est définie sur des nuages ​​de points et a été conçue de manière à pouvoir être appliquée de manière satisfaisante à différentes représentations 3D. Cependant, la métrique d'évaluation de la distance de chanfrein est très sensible aux valeurs aberrantes, ce qui en fait une mesure problématique pour évaluer les performances du modèle, la distance de la valeur aberrante par rapport à la forme de référence déterminant de manière significative la qualité de la génération.
Score F
Le F-Score est une mesure d'évaluation courante activement utilisée par la majorité des modèles de reconstruction 3D multi-vues. La métrique F-Score est définie comme la moyenne harmonique entre le rappel et la précision, et elle évalue explicitement la distance entre les surfaces des objets. La précision compte le pourcentage de points reconstruits situés à une distance prédéfinie de la vérité terrain, pour mesurer la précision de la reconstruction. Le rappel, quant à lui, compte le pourcentage de points sur la vérité terrain se trouvant à une distance prédéfinie de la reconstruction pour mesurer l'exhaustivité de la reconstruction. De plus, en faisant varier le seuil de distance, les développeurs peuvent contrôler la rigueur de la métrique F-Score.
Analyse par classe
La similarité des performances fournies par les frameworks ci-dessus ne peut pas être le résultat de méthodes exécutées sur différents sous-ensembles de classes, et la figure suivante démontre les performances relatives cohérentes entre différentes classes, la ligne de base de récupération Oracle NN obtenant le meilleur résultat de toutes, et de toutes. méthodes observant une variance élevée pour toutes les classes.
De plus, le nombre d’échantillons d’entraînement disponibles pour une classe pourrait laisser penser qu’il influence les performances par classe. Cependant, comme le montre la figure suivante, le nombre d'échantillons d'entraînement disponibles pour une classe n'influence pas les performances par classe, et le nombre d'échantillons dans une classe et son score IoU moyen ne sont pas corrélés.
Analyse qualitative
Les résultats quantitatifs discutés dans la section ci-dessus sont étayés par des résultats qualitatifs, comme le montre l'image suivante.
Pour la majorité des classes, il n’y a pas de différence significative entre la base de regroupement et les prédictions faites par les méthodes basées sur un décodeur. L'approche de clustering ne parvient pas à fournir des résultats lorsque la distance entre l'échantillon et la forme moyenne de la grappe est élevée, ou dans les situations où la forme moyenne elle-même ne peut pas décrire suffisamment bien la grappe. D'un autre côté, les frameworks employant des méthodes basées sur un décodeur et une architecture de récupération fournissent les résultats les plus précis et les plus attrayants car ils sont capables d'inclure des détails fins dans le modèle 3D généré.
Reconstruction 3D à vue unique : réflexions finales
Dans cet article, nous avons parlé de la reconstruction d'objets 3D à vue unique, de son fonctionnement et de deux lignes de base : la récupération et la classification, l'approche de base de récupération surpassant les modèles de pointe actuels. Enfin, même si Reconstruction d'objets 3D à vue unique est l'un des sujets les plus brûlants et les plus étudiés dans la communauté de l'IA, et malgré des progrès significatifs au cours des dernières années, la reconstruction d'objets 3D à vue unique est loin d'être parfaite et d'importants obstacles à surmonter dans les années à venir.