Intelligence artificielle

Uni3D : Explorer les représentations 3D unifiées à grande échelle

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

L’augmentation des représentations de texte et de visuels a été un axe majeur de recherche ces dernières années. Les développements et les recherches menés récemment ont conduit à de nombreuses révolutions dans l’apprentissage des langues et la vision. Cependant, malgré la popularité de l’augmentation des représentations de texte et de visuels, l’augmentation des représentations pour les scènes et les objets 3D n’a pas été suffisamment discutée.

Aujourd’hui, nous allons discuter de Uni3D, un modèle de base 3D qui vise à explorer les représentations 3D unifiées. Le cadre Uni3D utilise un cadre ViT initialisé 2D, pré-entraîné de bout en bout, pour aligner les fonctionnalités d’image-texte avec les fonctionnalités de nuage de points 3D correspondantes.

Le cadre Uni3D utilise des tâches prétextes et une architecture simple pour exploiter l’abondance de modèles 2D pré-entraînés et de modèles alignés image-texte en tant qu’initialisations et cibles, respectivement. Cette approche libère tout le potentiel des modèles 2D et des stratégies pour les mettre à l’échelle dans le monde 3D.

Dans cet article, nous allons nous plonger plus profondément dans la vision par ordinateur 3D et le cadre Uni3D, en explorant les concepts essentiels et l’architecture du modèle. Alors, commençons.

Uni3D et apprentissage de représentation 3D : Une introduction

Au cours des dernières années, la vision par ordinateur est devenue l’un des domaines les plus investis dans l’industrie de l’IA. Suite aux progrès importants des cadres de vision par ordinateur 2D, les développeurs ont déplacé leur attention vers la vision par ordinateur 3D. Ce domaine, en particulier l’apprentissage de représentation 3D, combine des aspects de graphisme par ordinateur, d’apprentissage automatique, de vision par ordinateur et de mathématiques pour automatiser le traitement et la compréhension de la géométrie 3D. Le développement rapide des capteurs 3D comme LiDAR, ainsi que leurs applications généralisées dans l’industrie AR/VR, a entraîné un regain d’intérêt pour l’apprentissage de représentation 3D. Ses applications potentielles continuent de croître quotidiennement.

Bien que les cadres existants aient montré des progrès remarquables dans l’architecture de modèle 3D, la modélisation orientée tâche et les objectifs d’apprentissage, la plupart explorent l’architecture 3D à une échelle relativement petite avec des données limitées, des paramètres et des scénarios de tâche. Le défi de l’apprentissage de représentations 3D évolutives, qui peuvent ensuite être appliquées à des applications en temps réel dans des environnements diversifiés, reste en grande partie inexploré.

En poursuivant, au cours des dernières années, la mise à l’échelle de grands modèles de langage pré-entraînés a contribué à révolutionner le domaine du traitement automatique des langues, et des travaux récents ont indiqué une traduction dans les progrès du langage vers les modèles 2D à l’aide de la mise à l’échelle des données et des modèles, ce qui ouvre la voie aux développeurs pour essayer et réessayer ce succès pour apprendre une représentation 3D qui peut être mise à l’échelle et transférée à des applications dans le monde réel.

Uni3D est un cadre de pré-entraînement 3D évolutif et unifié développé dans le but d’apprendre des représentations 3D à grande échelle qui testent ses limites à l’échelle de plus d’un milliard de paramètres, plus de 10 millions d’images appariées avec plus de 70 millions de textes et plus d’un million de formes 3D. La figure ci-dessous compare la précision de classification à zéro tir contre les paramètres dans le cadre Uni3D. Le cadre Uni3D met avec succès à l’échelle les représentations 3D de 6 millions à plus d’un milliard.

Le cadre Uni3D se compose d’un ViT 2D ou d’un Vision Transformer en tant que codeur 3D qui est ensuite pré-entraîné de bout en bout pour aligner les fonctionnalités d’image-texte avec les fonctionnalités de nuage de points 3D. Le cadre Uni3D utilise des tâches prétextes et une architecture simple pour exploiter l’abondance de modèles 2D pré-entraînés et de modèles alignés image-texte en tant qu’initialisations et cibles, respectivement, libérant ainsi tout le potentiel des modèles 2D et des stratégies pour les mettre à l’échelle dans le monde 3D.

Mettre à l’échelle le modèle de 6M à plus d’un milliard de paramètres.
Initialisation 2D à texte supervisé à partir de l’apprentissage auto-supervisé visuel.
Modèle cible texte-image mettant à l’échelle de 150 millions à plus d’un milliard de paramètres.

Sous le cadre flexible et unifié offert par Uni3D, les développeurs observent une augmentation cohérente des performances lorsqu’il s’agit de mettre à l’échelle chaque composant. L’apprentissage de représentation 3D à grande échelle bénéficie également considérablement des stratégies partageables 2D et de mise à l’échelle.

Comme on peut le voir dans la figure ci-dessous, le cadre Uni3D affiche une augmentation des performances par rapport aux œuvres antérieures dans les paramètres à quelques exemples et à zéro tir. Il est important de noter que le cadre Uni3D retourne un score de précision de classification à zéro tir de plus de 88 % sur ModelNet, ce qui est à par avec les performances de plusieurs méthodes de supervision de pointe.

De plus, le cadre Uni3D livre également une précision et des performances de premier ordre lors de l’exécution d’autres tâches représentatives 3D comme la segmentation de parties et la compréhension du monde ouvert. Le cadre Uni3D vise à combler le fossé entre la vision 2D et la vision 3D en mettant à l’échelle les modèles fondamentaux 3D avec une approche de pré-entraînement unifiée mais simple pour apprendre des représentations 3D plus robustes à travers une large gamme de tâches, ce qui pourrait finalement aider à la convergence de la vision 2D et 3D à travers une large gamme de modalités.

Uni3D : Travaux liés

Le cadre Uni3D s’inspire des développements réalisés par les précédents apprentissages de représentation 3D et les modèles fondamentaux, en particulier sous différentes modalités.

Apprentissage de représentation 3D

La méthode d’apprentissage de représentation 3D utilise des nuages de points pour la compréhension 3D de l’objet, et ce domaine a été largement exploré par les développeurs récemment, et il a été observé que ces nuages de points peuvent être pré-entraînés sous auto-supervision en utilisant des tâches prétextes 3D spécifiques, y compris la modélisation de points masqués, la reconstruction auto-supervisée et l’apprentissage contrastif.

Il est important de noter que ces méthodes fonctionnent avec des données limitées et qu’elles n’explorent généralement pas les représentations multimodales à 3D à partir de 2D ou de NLP. Cependant, le succès récent du cadre CLIP qui retourne une efficacité élevée dans l’apprentissage de concepts visuels à partir de texte brut en utilisant la méthode d’apprentissage contrastif, et qui cherche ensuite à apprendre des représentations 3D en alignant les fonctionnalités d’image, de texte et de nuage de points en utilisant la même méthode d’apprentissage contrastif.

Modèles fondamentaux

Les développeurs ont travaillé sans relâche pour concevoir des modèles fondamentaux pour mettre à l’échelle et unifier les représentations multimodales. Par exemple, dans le domaine du NLP, les développeurs ont travaillé sur des cadres qui peuvent mettre à l’échelle les modèles de langage pré-entraînés, et cela révolutionne lentement l’industrie du NLP. De plus, des progrès peuvent être observés dans le domaine de la vision 2D car les développeurs travaillent sur des cadres qui utilisent des techniques de mise à l’échelle de données et de modèles pour aider à la progression du langage vers les modèles 2D, bien que de tels cadres soient difficiles à reproduire pour les modèles 3D en raison de la disponibilité limitée de données 3D et des défis rencontrés lors de la mise à l’échelle et de l’unification des cadres 3D.

En apprenant des deux domaines de travail ci-dessus, les développeurs ont créé le cadre Uni3D, le premier modèle fondamental 3D avec plus d’un milliard de paramètres qui utilise une architecture de transformateur de vision unifiée qui permet aux développeurs de mettre à l’échelle le modèle Uni3D en utilisant des stratégies 3D unifiées ou des stratégies de mise à l’échelle du NLP. Les développeurs espèrent que cette méthode permettra au cadre Uni3D de combler le fossé qui sépare actuellement la vision 2D et la vision 3D, ainsi que de faciliter la convergence multimodale.

Uni3D : Méthode et architecture

L’image ci-dessus montre une vue d’ensemble générique du cadre Uni3D, un cadre de pré-entraînement 3D évolutif et unifié pour l’apprentissage de représentation 3D à grande échelle. Les développeurs utilisent plus de 70 millions de textes et 10 millions d’images appariées avec plus d’un million de formes 3D pour mettre à l’échelle le cadre Uni3D à plus d’un milliard de paramètres. Le cadre Uni3D utilise un ViT 2D ou un transformateur de vision en tant que codeur 3D qui est ensuite entraîné de bout en bout pour aligner les données d’image-texte avec les fonctionnalités de nuage de points 3D, permettant ainsi au cadre Uni3D de livrer l’efficacité et la précision souhaitées à travers une large gamme de références. Examinons maintenant le fonctionnement du cadre Uni3D en détail.

Mettre à l’échelle le cadre Uni3D

Les études antérieures sur l’apprentissage de représentation de nuage de points se sont traditionnellement concentrées sur la conception d’architectures de modèles spécifiques qui livrent de meilleures performances à travers une large gamme d’applications, et fonctionnent avec une quantité limitée de données grâce à des ensembles de données à petite échelle. Cependant, des études récentes ont tenté d’explorer la possibilité d’utiliser un pré-entraînement évolutif en 3D, mais il n’y a pas eu de résultats majeurs en raison de la disponibilité limitée de données 3D. Pour résoudre le problème de mise à l’échelle des cadres 3D, le cadre Uni3D utilise la puissance d’une structure de transformateur vanille qui reflète presque un transformateur de vision, et peut résoudre les problèmes de mise à l’échelle en utilisant des stratégies de mise à l’échelle unifiées 2D ou du NLP pour mettre à l’échelle la taille du modèle.

Initialiser Uni3D

Un autre défi majeur rencontré par les travaux antérieurs impliqués dans la mise à l’échelle des représentations 3D, les difficultés de convergence et de sur-ajustement qui résultent de la grande taille des modèles. Une approche efficace pour surmonter cet obstacle consiste à pré-entraîner les backbones 3D individuels avec des tâches prétextes 3D spécifiées et à initialiser les paramètres pré-entraînés. Cependant, l’approche est accompagnée de coûts de formation élevés, et il est également difficile d’établir une initialisation robuste pour l’apprentissage cross-modal en raison de la quantité limitée de données 3D disponibles pour la formation.

Le cadre Uni3D utilise une structure de transformateur vanille dont la structure est équivalente à celle des ViT. Avec cette approche, le cadre Uni3D peut naturellement adopter les grands modèles pré-entraînés avec d’autres modalités pour initialiser le cadre Uni3D.

Alignement multimodal

Le cadre Uni3D tente d’apprendre des alignements multimodaux à travers l’image, le langage et les nuages de points en utilisant des paradigmes similaires à ceux des cadres OpenShape et ULIP. De plus, pour assurer une comparaison équitable avec d’autres méthodes, le cadre Uni3D utilise l’ensemble de données 3D de OpenShape pour la formation. Cet ensemble de données de OpenShape se compose de 4 ensembles de données 3D :

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Expériences et résultats

Le cadre Uni3D est testé dans différents paramètres et à travers diverses tâches de classification, y compris ses performances dans les paramètres à zéro tir et à quelques exemples, les résultats autour de la compréhension du monde ouvert et plus. Examinons ces résultats en détail.

Classification de forme à zéro tir

Pour évaluer les performances du cadre Uni3D dans les tâches de classification de forme à zéro tir, les développeurs effectuent des expériences à travers trois références, y compris ModelNet, ScanObjNN et le référence Objaverse-LVIS. ModelNet et ScanObjNN sont des ensembles de données largement utilisés pour les tâches de classification et se composent de 15 et 40 catégories d’objets, respectivement, tandis que le référence Objaverse-LVIS est un ensemble de données nettoyé et annoté composé de plus de 40 000 objets à travers plus de 1 100 catégories. La comparaison entre les cadres est présentée dans l’image ci-dessous, et comme on peut le voir, le cadre Uni3D surpasse considérablement les cadres de pointe antérieurs dans différents paramètres.

Sondage linéaire à quelques exemples

Dans l’IA, le sondage linéaire est une méthode couramment utilisée pour évaluer les représentations que le cadre ou le modèle apprend. Pour évaluer la capacité de sondage linéaire de Uni3D, les développeurs figent les paramètres du cadre Uni3D en utilisant les paramètres courants de OpenShape. Ensuite, les développeurs forment un classificateur linéaire pour Uni3D en utilisant des étiquettes de classe à quelques exemples. La figure ci-dessous montre la capacité de sondage linéaire de différents cadres sur l’ensemble de données Objaverse-LVIS et montre la performance moyenne du modèle à travers 10 graines aléatoires. Comme on peut le voir, le cadre Uni3D surpasse considérablement les méthodes existantes dans différents paramètres à quelques exemples.

Compréhension du monde ouvert

Pour évaluer la capacité du cadre Uni3D à comprendre les formes et les objets du monde réel en temps réel, les développeurs utilisent les ensembles de données ScanNet et CLIP pour explorer les performances de Uni3D. Il est important de noter que la segmentation instantanée de la vérité est disponible, et l’objectif principal est de reconnaître la catégorie de chaque scène individuelle dans un paramètre à zéro tir. Les résultats sont présentés dans l’image ci-dessous. Comme on peut le voir, le cadre Uni3D livre des résultats exceptionnels lors de la compréhension et de la reconnaissance du monde réel. Le cadre Uni3D surpasse les cadres existants d’une marge considérable, malgré le fait qu’il n’a jamais été formé sur des ensembles de données du monde réel.

Récupération cross-modale

Les représentations multimodales apprises par le cadre Uni3D peuvent permettre au cadre de récupérer naturellement des formes 3D à partir de textes ou d’images. Pour récupérer les formes 3D, le modèle calcule la similarité cosinus entre les embeddings des formes 3D et les embeddings d’une invite de texte de requête ou d’une image de requête. Le cadre utilise ensuite l’algorithme KNN ou K plus proches voisins pour générer des formes 3D qui ressemblent le plus à la requête, et les résultats sont présentés dans la figure ci-dessous. Comme on peut le voir, le cadre Uni3D récupère avec succès des formes 3D à l’aide d’images du monde réel. De plus, il est important de noter que les images de formation ne sont utilisées que pour les rendus, et le fossé entre les images du monde réel et les images de formation est considérable. De plus, le modèle récupère également deux images d’entrée et récupère des formes similaires aux deux images d’entrée en utilisant la similarité cosinus entre la moyenne des embeddings des deux images et leurs formes 3D intégrées. Les résultats sont intéressants car ils montrent la capacité de Uni3D à apprendre des représentations 3D diverses et à percevoir plusieurs signaux 2D.

Dans la première colonne, le cadre utilise deux images de requête pour retourner des formes 3D qui sont les plus similaires aux images de requête. Dans la deuxième colonne, le cadre utilise deux images d’entrée pour récupérer des formes 3D qui ressemblent aux deux images d’entrée. Enfin, dans la dernière colonne, le modèle utilise des invites de texte de requête et retourne des formes 3D qui ressemblent le plus à l’invite de texte de requête.

Pensées finales

Dans cet article, nous avons discuté de Uni3D, un cadre de pré-entraînement 3D évolutif et unifié développé dans le but d’apprendre des représentations 3D à grande échelle qui testent ses limites à l’échelle de plus d’un milliard de paramètres, plus de 10 millions d’images appariées avec plus de 70 millions de textes et plus d’un million de formes 3D. Les développeurs du cadre ont inclus un transformateur vanille dont la structure est équivalente à celle des ViT, ce qui leur permet de mettre à l’échelle le cadre Uni3D en utilisant des stratégies de mise à l’échelle unifiées 2D ou du NLP. De plus, le cadre Uni3D peut exploiter une large gamme de cadres 2D pré-entraînés et de stratégies 2D pour les mettre à l’échelle dans le monde 3D. Les résultats expérimentaux ont déjà montré le grand potentiel du cadre Uni3D, car le cadre Uni3D retourne des résultats précis et efficaces à travers une large gamme de paramètres et surpasse les cadres de pointe existants.