Intelligence artificielle
Comment fonctionne la reconstruction 3D en une seule vue ?

Traditionnellement, les modèles de reconstruction d’objets en une seule vue basés sur les réseaux de neurones convolutionnels ont montré des performances remarquables dans les tâches de reconstruction. Ces dernières années, la reconstruction 3D en une seule vue est devenue un sujet de recherche populaire dans la communauté de l’IA. Indépendamment de la méthodologie spécifique employée, tous les modèles de reconstruction 3D en une seule vue partagent l’approche commune d’intégrer un réseau encodeur-décodeur dans leur cadre. Ce réseau effectue un raisonnement complexe sur la structure 3D dans l’espace de sortie.
Dans cet article, nous allons explorer comment la reconstruction 3D en une seule vue fonctionne en temps réel et les défis actuels que ces cadres rencontrent dans les tâches de reconstruction. Nous allons discuter des divers composants clés et des méthodes utilisées par les modèles de reconstruction 3D en une seule vue et explorer les stratégies qui pourraient améliorer les performances de ces cadres. De plus, nous allons analyser les résultats produits par les cadres d’état de l’art qui emploient des méthodes encodeur-décodeur. Plongeons dans le sujet.
Reconstruction d’objets 3D en une seule vue
La reconstruction d’objets 3D en une seule vue consiste à générer un modèle 3D d’un objet à partir d’un seul point de vue, ou en termes plus simples, à partir d’une seule image. Par exemple, déduire la structure 3D d’un objet, tel qu’une motocyclette, à partir d’une image, est un processus complexe. Il combine des connaissances sur l’agencement structurel des pièces, des indices d’image de bas niveau et des informations sémantiques de haut niveau. Ce spectre englobe deux aspects principaux : reconstruction et reconnaissance. Le processus de reconstruction discerne la structure 3D de l’image d’entrée en utilisant des indices tels que l’ombrage, la texture et les effets visuels. En revanche, le processus de reconnaissance classe l’image d’entrée et récupère un modèle 3D approprié à partir d’une base de données.
Les modèles actuels de reconstruction d’objets 3D en une seule vue peuvent varier en architecture, mais ils sont unifiés par l’inclusion d’une structure encodeur-décodeur dans leur cadre. Dans cette structure, l’encodeur mappe l’image d’entrée à une représentation latente, tandis que le décodeur effectue des inférences complexes sur la structure 3D de l’espace de sortie. Pour exécuter avec succès cette tâche, le réseau doit intégrer à la fois des informations de haut niveau et de bas niveau. De plus, de nombreuses méthodes encodeur-décodeur d’état de l’art s’appuient sur la reconnaissance pour les tâches de reconstruction 3D en une seule vue, ce qui limite leurs capacités de reconstruction. De plus, les performances des réseaux de neurones convolutionnels modernes dans la reconstruction d’objets 3D en une seule vue peuvent être surpassées sans inférer explicitement la structure 3D de l’objet. Cependant, la domination de la reconnaissance dans les réseaux de neurones convolutionnels dans les tâches de reconstruction d’objets en une seule vue est influencée par diverses procédures expérimentales, notamment les protocoles d’évaluation et la composition de la base de données. De tels facteurs permettent au cadre de trouver une solution de contournement, dans ce cas, la reconnaissance d’images.
Traditionnellement, les cadres de reconstruction d’objets 3D en une seule vue abordent les tâches de reconstruction en utilisant l’approche de forme à partir de l’ombrage, avec la texture et la défocalisation servant de vues exotiques pour les tâches de reconstruction. Puisque ces techniques utilisent un seul indice de profondeur, elles sont capables de fournir un raisonnement pour les parties visibles d’une surface. De plus, de nombreux cadres de reconstruction 3D en une seule vue utilisent plusieurs indices ainsi que des connaissances structurelles pour estimer la profondeur à partir d’une seule image monocular, une combinaison qui permet à ces cadres de prédire la profondeur des surfaces visibles. Les cadres d’estimation de profondeur plus récents déploient des structures de réseaux de neurones convolutionnels pour extraire la profondeur dans une image monocular.
Cependant, pour une reconstruction 3D en une seule vue efficace, les modèles ne doivent pas seulement raisonner sur la structure 3D des objets visibles dans l’image, mais ils doivent également halluciner les parties invisibles dans l’image en utilisant certaines priorités apprises à partir des données. Pour atteindre cet objectif, la majorité des modèles déploient actuellement des structures de réseaux de neurones convolutionnels formés pour mapper les images 2D en formes 3D en utilisant une supervision 3D directe, tandis que de nombreux autres cadres déploient des représentations basées sur des voxels de la forme 3D et utilisent une représentation latente pour générer des convolutions 3D. Certains cadres partitionnent également l’espace de sortie de manière hiérarchique pour améliorer l’efficacité computationnelle et de mémoire, ce qui permet au modèle de prédire des formes 3D à plus haute résolution. Les recherches récentes se concentrent sur l’utilisation de formes plus faibles de supervision pour les prédictions de forme 3D en une seule vue en utilisant des réseaux de neurones convolutionnels, soit en comparant les formes prédites et leurs prédictions de vérité terrain pour former des régresseurs de forme, soit en utilisant plusieurs signaux d’apprentissage pour former des formes moyennes qui aident le modèle à prédire les déformations. Une autre raison des progrès limités dans la reconstruction 3D en une seule vue est la quantité limitée de données de formation disponibles pour la tâche.
En poursuivant, la reconstruction 3D en une seule vue est une tâche complexe car elle interprète non seulement les données visuelles de manière géométrique, mais également sémantique. Bien qu’elles ne soient pas complètement différentes, elles couvrent différents spectres allant de la reconstruction géométrique à la reconnaissance sémantique. Les tâches de reconstruction nécessitent un raisonnement par pixel de la structure 3D de l’objet dans l’image. Les tâches de reconstruction n’exigent pas de compréhension sémantique du contenu de l’image et peuvent être réalisées en utilisant des indices d’image de bas niveau, notamment la texture, la couleur, l’ombrage, les ombres, la perspective et la mise au point. La reconnaissance, en revanche, est un cas extrême d’utilisation de la sémantique d’image, car les tâches de reconnaissance utilisent des objets entiers et consistent à classifier l’objet dans l’entrée et à récupérer la forme correspondante à partir de la base de données. Bien que les tâches de reconnaissance puissent fournir un raisonnement robuste sur les parties de l’objet non visibles dans les images, la solution sémantique n’est réalisable que si elle peut être expliquée par un objet présent dans la base de données.
Bien que les tâches de reconnaissance et de reconstruction puissent différer les unes des autres de manière significative, elles tendent toutes deux à ignorer des informations précieuses contenues dans l’image d’entrée. Il est conseillé d’utiliser ces deux tâches en union les unes avec les autres pour obtenir les meilleurs résultats possibles et des formes 3D précises pour la reconstruction d’objets, c’est-à-dire que pour une reconstruction 3D en une seule vue optimale, le modèle doit employer des connaissances structurelles, des indices d’image de bas niveau et une compréhension de haut niveau de l’objet.
Reconstruction 3D en une seule vue : configuration conventionnelle
Pour expliquer la configuration conventionnelle et analyser la configuration d’un cadre de reconstruction 3D en une seule vue, nous allons déployer une configuration standard pour estimer la forme 3D en utilisant une seule vue ou image de l’objet. La base de données utilisée pour la formation est la base de données ShapeNet, et évalue les performances sur 13 classes qui permettent au modèle de comprendre comment le nombre de classes dans une base de données détermine les performances d’estimation de forme du modèle.
La majorité des réseaux de neurones convolutionnels modernes utilisent une seule image pour prédire des modèles 3D à haute résolution, et ces cadres peuvent être catégorisés en fonction de la représentation de leur sortie : cartes de profondeur, nuages de points et grilles de voxels. Le modèle utilise OGN ou des réseaux de neurones générant des octrees comme méthode représentative qui a historiquement surpassé l’approche de la grille de voxels et/ou peut couvrir les représentations de sortie dominantes. Contrairement aux méthodes existantes qui utilisent des représentations de sortie, l’approche OGN permet au modèle de prédire des formes à haute résolution et utilise des octrees pour représenter efficacement l’espace occupé.
Références
Pour évaluer les résultats, le modèle déploie deux références qui considèrent le problème comme une tâche de reconnaissance pure. La première référence est basée sur le regroupement, tandis que la deuxième référence effectue une récupération de base de données.
Regroupement
Dans la référence de regroupement, le modèle utilise l’algorithme K-Means pour regrouper les formes d’entraînement en K sous-catégories, et exécute l’algorithme sur des voxelisations 32*32*32 aplatie en un vecteur. Après avoir déterminé les affectations de regroupement, le modèle revient au travail avec des modèles à plus haute résolution. Le modèle calcule ensuite la forme moyenne au sein de chaque regroupement et seuille les formes moyennes où la valeur optimale est calculée en maximisant la moyenne de l’intersection sur l’union sur les modèles. Puisque le modèle connaît la relation entre les formes 3D et les images dans les données d’entraînement, le modèle peut facilement faire correspondre l’image avec son regroupement correspondant.
Récupération
La référence de récupération apprend à intégrer des formes et des images dans un espace commun. Le modèle considère la similarité par paire de formes 3D dans l’ensemble d’entraînement pour construire l’espace d’intégration. Le modèle réalise cela en utilisant l’approche de mise à l’échelle multidimensionnelle avec la mise en correspondance de Sammon pour compresser chaque ligne de la matrice en un descripteur à faible dimension. De plus, pour calculer la similarité entre deux formes arbitraires, le modèle utilise le descripteur de champ de lumière. De plus, le modèle forme un réseau de neurones convolutionnels pour mapper les images à un descripteur pour intégrer les images dans l’espace.
Analyse
Les modèles de reconstruction 3D en une seule vue suivent différentes stratégies en raison desquelles ils surpassent d’autres modèles dans certains domaines, tandis qu’ils sont dépassés dans d’autres. Pour comparer différents cadres et évaluer leurs performances, nous avons différentes métriques, dont l’une est le score de l’intersection sur l’union moyen.

Comme on le voit dans l’image ci-dessus, malgré avoir des architectures différentes, les modèles de reconstruction 3D actuels d’état de l’art livrent des performances presque similaires. Cependant, il est intéressant de noter que, malgré le fait qu’il s’agisse d’une méthode de reconnaissance pure, le cadre de récupération surpasse les autres modèles en termes de scores d’intersection sur l’union moyens et médians. Le cadre de regroupement livre des résultats solides en surpassant les cadres AtlasNet, OGN et Matryoshka. Cependant, le résultat le plus inattendu de cette analyse reste Oracle NN qui surpasse toutes les autres méthodes malgré l’emploi d’une architecture de récupération parfaite. Bien que le calcul du score d’intersection sur l’union moyen aide à la comparaison, il ne fournit pas une image complète, car la variance dans les résultats est élevée, quelle que soit la méthode.
Métriques d’évaluation courantes
Les modèles de reconstruction 3D en une seule vue utilisent souvent différentes métriques d’évaluation pour analyser leurs performances sur une large gamme de tâches. Voici certaines des métriques d’évaluation couramment utilisées.
Intersection sur l’union
La moyenne de l’intersection sur l’union est une métrique couramment utilisée comme mesure quantitative pour servir de référence pour les modèles de reconstruction 3D en une seule vue. Bien que l’intersection sur l’union fournisse certaines informations sur les performances du modèle, elle n’est pas considérée comme la seule métrique pour évaluer une méthode, car elle indique la qualité de la forme prédite par le modèle uniquement si les valeurs sont suffisamment élevées avec une différence significative observée entre les scores faibles et moyens pour deux formes données.
Distance de Chamfer
La distance de Chamfer est définie sur les nuages de points et a été conçue de manière à pouvoir être appliquée à différentes représentations 3D de manière satisfaisante. Cependant, la métrique d’évaluation de la distance de Chamfer est très sensible aux valeurs aberrantes, ce qui en fait une mesure problématique pour évaluer les performances du modèle, avec la distance de la valeur aberrante par rapport à la forme de référence déterminant de manière significative la qualité de la génération.
Score F
Le score F est une métrique d’évaluation couramment utilisée par la majorité des modèles de reconstruction 3D multi-vue. La métrique du score F est définie comme la moyenne harmonique entre la précision et le rappel, et elle évalue la distance entre les surfaces des objets de manière explicite. La précision compte le pourcentage de points reconstruits qui se trouvent dans une distance prédéfinie par rapport à la vérité terrain, pour mesurer l’exactitude de la reconstruction. Le rappel, en revanche, compte le pourcentage de points sur la vérité terrain qui se trouvent dans une distance prédéfinie par rapport à la reconstruction, pour mesurer l’exhaustivité de la reconstruction. De plus, en faisant varier le seuil de distance, les développeurs peuvent contrôler la sévérité de la métrique du score F.
Analyse par classe
La similitude dans les performances livrées par les cadres ci-dessus ne peut pas être le résultat de méthodes exécutées sur différents sous-ensembles de classes, et la figure suivante démontre les performances relatives cohérentes à travers les différentes classes, avec la référence de récupération Oracle NN atteignant le meilleur résultat de tous, et toutes les méthodes observant une variance élevée pour toutes les classes.

De plus, le nombre d’échantillons de formation disponibles pour une classe pourrait amener à penser qu’il influence les performances par classe. Cependant, comme le démontre la figure suivante, le nombre d’échantillons de formation disponibles pour une classe n’influence pas les performances par classe, et le nombre d’échantillons dans une classe et son score d’intersection sur l’union moyen ne sont pas corrélés.

Analyse qualitative
Les résultats quantitatifs discutés dans la section ci-dessus sont étayés par des résultats qualitatifs, comme le montre l’image suivante.

Pour la majorité des classes, il n’y a pas de différence significative entre la référence de regroupement et les prédictions faites par les méthodes basées sur le décodeur. L’approche de regroupement échoue à livrer des résultats lorsque la distance entre l’échantillon et la forme moyenne du regroupement est élevée, ou dans les situations où la forme moyenne elle-même ne peut pas décrire le regroupement de manière suffisamment précise. En revanche, les cadres qui emploient des méthodes basées sur le décodeur et l’architecture de récupération livrent les résultats les plus précis et les plus attrayants, car ils sont capables d’inclure des détails fins dans le modèle 3D généré.
Reconstruction 3D en une seule vue : réflexions finales
Dans cet article, nous avons discuté de la reconstruction d’objets 3D en une seule vue et avons expliqué comment elle fonctionne, et avons discuté de deux références : la récupération et la classification, avec la référence de récupération surpassant les modèles d’état de l’art actuels. Enfin, bien que la reconstruction d’objets 3D en une seule vue soit l’un des sujets les plus chauds et les plus recherchés dans la communauté de l’IA, et malgré les progrès significatifs réalisés au cours des dernières années, la reconstruction d’objets 3D en une seule vue est loin d’être parfaite, avec des obstacles importants à surmonter dans les années à venir.












