Intelligenza artificiale

Uni3D: Esplorazione della Rappresentazione 3D Unificata su Grande Scala

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

L’ampliamento delle rappresentazioni di testo e immagini è stato un importante focus di ricerca negli ultimi anni. Gli sviluppi e le ricerche condotte nel recente passato hanno portato a numerose rivoluzioni nell’apprendimento del linguaggio e nella visione. Tuttavia, nonostante la popolarità dell’ampliamento delle rappresentazioni del testo e delle immagini, l’ampliamento delle rappresentazioni per scene e oggetti 3D non è stato sufficientemente discusso.

Oggi, discuteremo di Uni3D, un modello di base 3D che mira a esplorare rappresentazioni 3D unificate. Il framework Uni3D utilizza un framework ViT inizializzato su 2D, pre-addestrato end-to-end, per allineare le funzionalità di immagine-testo con le funzionalità di nuvola di punti 3D.

Il framework Uni3D utilizza attività di pretesto e un’architettura semplice per sfruttare l’abbondanza di modelli 2D pre-addestrati e modelli allineati immagine-testo come inizializzazioni e obiettivi, rispettivamente. Questo approccio sblocca il pieno potenziale dei modelli 2D e delle strategie per ampliarli al mondo 3D.

In questo articolo, esploreremo più in profondità la visione computerizzata 3D e il framework Uni3D, esaminando i concetti essenziali e l’architettura del modello. Quindi, iniziamo.

Uni3D e Apprendimento di Rappresentazione 3D: Un’introduzione

Negli ultimi anni, la visione computerizzata è emersa come uno dei domini più investiti nell’industria dell’AI. Dopo significativi progressi nei framework di visione computerizzata 2D, gli sviluppatori hanno spostato la loro attenzione sulla visione computerizzata 3D. Questo campo, in particolare l’apprendimento di rappresentazione 3D, combina aspetti di grafica computerizzata, apprendimento automatico, visione computerizzata e matematica per automatizzare l’elaborazione e la comprensione della geometria 3D. Lo sviluppo rapido di sensori 3D come LiDAR, insieme alle loro ampie applicazioni nell’industria AR/VR, ha portato all’apprendimento di rappresentazione 3D a guadagnare un’attenzione crescente. Le sue potenziali applicazioni continuano a crescere quotidianamente.

Sebbene i framework esistenti abbiano mostrato un notevole progresso nell’architettura del modello 3D, nella modellazione orientata alle attività e negli obiettivi di apprendimento, la maggior parte esplora l’architettura 3D su una scala relativamente piccola con dati limitati, parametri e scenari di attività. La sfida di apprendere rappresentazioni 3D scalabili, che possono essere applicate ad applicazioni in tempo reale in ambienti diversi, rimane in gran parte inesplorata.

Proseguendo, negli ultimi anni, l’ampliamento di grandi modelli linguistici pre-addestrati ha aiutato a rivoluzionare il dominio dell’elaborazione del linguaggio naturale, e lavori recenti hanno indicato una traduzione del progresso dal linguaggio alle immagini 2D utilizzando dati e tecniche di scalabilità del modello, che apre la strada agli sviluppatori per provare e ritentare questo successo per apprendere una rappresentazione 3D che possa essere scalata e trasferita ad applicazioni nel mondo reale.

Uni3D è un framework di pre-addestramento 3D scalabile e unificato sviluppato con l’obiettivo di apprendere rappresentazioni 3D su larga scala che testa i suoi limiti su una scala di oltre un miliardo di parametri, oltre 10 milioni di immagini abbinate con oltre 70 milioni di testi e oltre un milione di forme 3D. La figura seguente confronta l’accuratezza zero-shot contro i parametri nel framework Uni3D. Il framework Uni3D scala con successo le rappresentazioni 3D da 6 milioni a oltre un miliardo.

Il framework Uni3D consiste in un 2D ViT o Vision Transformer come encodatore 3D, che viene quindi pre-addestrato end-to-end per allineare le funzionalità di immagine-testo con le funzionalità di nuvola di punti 3D. Il framework Uni3D utilizza attività di pretesto e un’architettura semplice per sfruttare l’abbondanza di modelli 2D pre-addestrati e modelli allineati immagine-testo come inizializzazioni e obiettivi, rispettivamente. Questo approccio sblocca il pieno potenziale dei modelli 2D e delle strategie per ampliarli al mondo 3D.

Scaling del modello da 6M a oltre un miliardo di parametri.
Inizializzazione 2D a testo supervisionato da apprendimento auto-supervisionato visivo.
Scalabilità del modello di destinazione testo-immagine da 150 milioni a oltre un miliardo di parametri.

Sotto il framework flessibile e unificato offerto da Uni3D, gli sviluppatori osservano un aumento coerente delle prestazioni quando si tratta di scalare ogni componente. L’apprendimento di rappresentazione 3D su larga scala beneficia anche notevolmente delle strategie condivisibili 2D e di scalabilità.

Come si può vedere nella figura seguente, il framework Uni3D mostra un aumento delle prestazioni rispetto ai lavori precedenti in impostazioni a pochi colpi e zero-colpi. È degno di nota che il framework Uni3D restituisce un punteggio di accuratezza di classificazione zero-shot di oltre l’88% su ModelNet, che è paragonabile alle prestazioni di diversi metodi di supervisione attuali.

Inoltre, il framework Uni3D fornisce anche una precisione e prestazioni di alta qualità quando esegue altre attività rappresentative 3D come la segmentazione delle parti e la comprensione del mondo aperto. Il framework Uni3D mira a colmare il divario tra la visione 2D e la visione 3D ampliando i modelli fondamentali 3D con un approccio di pre-addestramento unificato e semplice per apprendere rappresentazioni 3D più robuste in un’ampia gamma di attività, che potrebbe aiutare a convergere la visione 2D e 3D in un’ampia gamma di modalità.

Uni3D: Lavori Correlati

Il framework Uni3D trae ispirazione e apprende dagli sviluppi realizzati dai precedenti lavori di apprendimento di rappresentazione 3D e modelli fondamentali, in particolare sotto diverse modalità.

Apprendimento di Rappresentazione 3D

Il metodo di apprendimento di rappresentazione 3D utilizza nuvole di punti per la comprensione 3D degli oggetti, e questo campo è stato esplorato dagli sviluppatori in misura notevole nel recente passato, e si è osservato che questi punti di nuvola possono essere pre-addestrati sotto auto-supervisione utilizzando attività di pretesto 3D specifiche, tra cui la modellazione dei punti di maschera, la ricostruzione auto-supervisionata e l’apprendimento contrastivo.

È degno di nota che questi metodi funzionano con dati limitati e spesso non indagano rappresentazioni multimodali da 2D o NLP. Tuttavia, il recente successo del framework CLIP che restituisce un’efficienza elevata nell’apprendimento di concetti visivi da testo grezzo utilizzando il metodo di apprendimento contrastivo, e cerca di apprendere rappresentazioni 3D allineando le funzionalità di immagine, testo e nuvola di punti utilizzando lo stesso metodo di apprendimento contrastivo.

Modelli Fondamentali

Gli sviluppatori hanno lavorato intensamente per progettare modelli fondamentali per ampliare e unificare rappresentazioni multimodali. Ad esempio, nel dominio NLP, gli sviluppatori hanno lavorato su framework che possono ampliare i modelli linguistici pre-addestrati, e ciò sta rivoluzionando lentamente l’industria NLP. Inoltre, si possono osservare progressi nel dominio della visione 2D poiché gli sviluppatori stanno lavorando su framework che utilizzano tecniche di scalabilità dei dati e del modello per aiutare nel progresso del linguaggio ai modelli 2D, sebbene tali framework siano difficili da replicare per i modelli 3D a causa della limitata disponibilità di dati 3D e delle sfide incontrate nell’unificare e ampliare i framework 3D.

Imparando dai due domini di lavoro sopra menzionati, gli sviluppatori hanno creato il framework Uni3D, il primo modello fondamentale 3D con oltre un miliardo di parametri che utilizza un’architettura di Vision Transformer unificata che consente agli sviluppatori di ampliare il modello Uni3D utilizzando strategie di scalabilità 3D o NLP unificate. Gli sviluppatori sperano che questo metodo consenta al framework Uni3D di colmare il divario che attualmente separa la visione 2D e la visione 3D, nonché facilitare la convergenza multimodale.

Uni3D: Metodo e Architettura

L’immagine sopra mostra una panoramica generica del framework Uni3D, un framework di pre-addestramento 3D scalabile e unificato per l’apprendimento di rappresentazione 3D su larga scala. Gli sviluppatori utilizzano oltre 70 milioni di testi e 10 milioni di immagini abbinate con oltre un milione di forme 3D per ampliare il framework Uni3D a oltre un miliardo di parametri. Il framework Uni3D utilizza un 2D ViT o Vision Transformer come encodatore 3D, che viene quindi addestrato end-to-end per allineare i dati di testo-immagine con le funzionalità di nuvola di punti 3D, consentendo al framework Uni3D di fornire l’efficienza e l’accuratezza desiderate in un’ampia gamma di benchmark. Esaminiamo ora nel dettaglio il funzionamento del framework Uni3D.

Scalabilità del Framework Uni3D

Studi precedenti sull’apprendimento di rappresentazione di nuvole di punti si sono tradizionalmente concentrati sul progettare architetture di modelli specifiche che forniscono migliori prestazioni in un’ampia gamma di applicazioni e funzionano con una quantità limitata di dati grazie a set di dati su piccola scala. Tuttavia, studi recenti hanno cercato di esplorare la possibilità di utilizzare un pre-addestramento scalabile in 3D, ma non ci sono stati risultati significativi a causa della limitata disponibilità di dati 3D. Per risolvere il problema di scalabilità dei framework 3D, il framework Uni3D sfrutta la potenza di una struttura di trasformatore vanilla che quasi replica un Vision Transformer e può risolvere i problemi di scalabilità utilizzando strategie di scalabilità 2D o NLP unificate per ampliare le dimensioni del modello.

Inizializzazione di Uni3D

Un’altra sfida significativa incontrata dai lavori precedenti coinvolti nella scalabilità delle rappresentazioni 3D è stata la difficoltà di convergenza e di sovrapposizione che risultava dalle grandi dimensioni dei modelli. Un approccio efficace per superare questo ostacolo è pre-addestrare singoli backbone 3D con attività di pretesto 3D specifiche e inizializzare i parametri pre-addestrati. Tuttavia, l’approccio è accompagnato da alti costi di addestramento e è anche difficile stabilire un’inizializzazione robusta per l’apprendimento cross-modale a causa della limitata quantità di dati 3D disponibili per l’addestramento.

Il framework Uni3D sfrutta una struttura di trasformatore vanilla, la cui struttura è equivalente a quella di ViT. Con questo approccio, il framework Uni3D può naturalmente adottare i modelli pre-addestrati con altre modalità per inizializzare il framework Uni3D.

Allineamento Multimodale

Il framework Uni3D tenta di apprendere allineamenti multimodali tra immagine, linguaggio e nuvole di punti utilizzando paradigmi simili a OpenShape e framework ULIP. Inoltre, per garantire un confronto equo con altri metodi, il framework Uni3D utilizza il set di dati 3D combinato di OpenShape per l’addestramento. Questo set di dati combinato di OpenShape consiste in 4 set di dati 3D:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Eserimenti e Risultati

Il framework Uni3D viene testato in diversi ambienti e in vari compiti di classificazione, tra cui le sue prestazioni in impostazioni zero-shot e pochi colpi, risultati intorno alla comprensione del mondo aperto e altro. Esaminiamo più in dettaglio questi risultati.

Classificazione di Forme Zero-Shot

Per valutare le prestazioni del framework Uni3D in compiti di classificazione di forme zero-shot, gli sviluppatori conducono esperimenti in tre benchmark, tra cui ModelNet, ScanObjNN e il benchmark Objaverse-LVIS. ModelNet e ScanObjNN sono set di dati ampiamente utilizzati per compiti di classificazione e consistono rispettivamente in 15 e 40 categorie di oggetti, mentre il benchmark Objaverse-LVIS è un set di dati pulito e annotato che consiste in oltre 40.000 oggetti in 1.100+ categorie. Il confronto tra i framework è mostrato nell’immagine seguente e, come si può vedere, il framework Uni3D supera significativamente i framework precedenti in diverse impostazioni.

Sondaggio Lineare a Pochi Colpi

Nell’AI, il sondaggio lineare è un metodo comune utilizzato per valutare le rappresentazioni che un framework o un modello apprende. Per valutare la capacità di sondaggio lineare di Uni3D, gli sviluppatori congelano i parametri del framework Uni3D utilizzando le impostazioni comuni di OpenShape. Successivamente, gli sviluppatori addestrano un classificatore lineare per Uni3D utilizzando etichette di classe a pochi colpi. La figura seguente mostra la capacità di sondaggio lineare di diversi framework nel set di dati Objaverse-LVIS e mostra la prestazione media del modello in 10 semi casuali. Come si può vedere, il framework Uni3D supera notevolmente i metodi esistenti in diverse impostazioni a pochi colpi.

Comprensione del Mondo Aperto

Per valutare la capacità del framework Uni3D di comprendere forme e oggetti del mondo reale in tempo reale, gli sviluppatori utilizzano i set di dati ScanNet e CLIP per esplorare le prestazioni di Uni3D. È degno di nota che la segmentazione istantanea del ground truth è disponibile e l’obiettivo principale è riconoscere la categoria di ogni istante di scena in un’impostazione zero-shot. I risultati sono mostrati nell’immagine seguente. Come si può vedere, il framework Uni3D fornisce risultati eccezionali quando esegue la comprensione e il riconoscimento del mondo reale.

Ricerca Cross-Modale

Le rappresentazioni multimodali apprese dal framework Uni3D possono consentire al framework di recuperare forme 3D in modo naturale da testi o immagini. Per recuperare le forme 3D, il modello calcola la similarità coseno tra gli embedding delle forme 3D e gli embedding di un prompt di testo di query o un’immagine di query. Il framework utilizza quindi l’algoritmo KNN o K Nearest Neighbour per generare forme 3D che assomigliano alla query il più possibile e i risultati sono mostrati nella figura seguente. Come si può vedere, il framework Uni3D utilizza con successo immagini del mondo reale per recuperare forme 3D. Inoltre, è degno di nota che le immagini di addestramento sono utilizzate solo per scopi di rendering e il divario tra immagini del mondo reale e immagini di addestramento è sostanziale.

Nella prima colonna, il framework utilizza 2 immagini di query per restituire forme 3D che sono più simili alle immagini di query. Nella seconda colonna, il framework utilizza 2 immagini di input per recuperare forme 3D che assomigliano a entrambe le immagini di input. Infine, nella colonna finale, il modello utilizza query di testo e restituisce forme 3D che assomigliano di più alla query di testo.

Pensieri Finali

In questo articolo, abbiamo parlato di Uni3D, un framework di pre-addestramento 3D scalabile e unificato sviluppato con l’obiettivo di apprendere rappresentazioni 3D su larga scala che testa i suoi limiti su una scala di oltre un miliardo di parametri, oltre 10 milioni di immagini abbinate con oltre 70 milioni di testi e oltre un milione di forme 3D. Gli sviluppatori del framework hanno incluso una struttura di trasformatore vanilla con una struttura equivalente a quella di ViT, che consente loro di ampliare il framework Uni3D utilizzando strategie di scalabilità 2D o NLP unificate. Inoltre, il framework Uni3D può sfruttare un’ampia gamma di framework 2D pre-addestrati e strategie 2D per il mondo 3D. I risultati sperimentali hanno già dimostrato il grande potenziale del framework Uni3D, poiché il framework Uni3D restituisce risultati accurati e efficienti in un’ampia gamma di impostazioni e supera i framework attuali di stato dell’arte.