Kunstmatige intelligentie

Uni3D: Verkennen van Unified 3D-weergave op grote schaal

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

Het opschalen van weergaven van tekst en visuele elementen is de afgelopen jaren een belangrijk onderzoeksgebied geweest. Ontwikkelingen en onderzoek uit het recente verleden hebben geleid tot talloze revoluties in taalverwerving en visie. Echter, ondanks de populariteit van het opschalen van tekst- en visuele weergaven, is het opschalen van weergaven voor 3D-scènes en -objecten niet voldoende besproken.

Vandaag zullen we Uni3D bespreken, een 3D-basismodel dat als doel heeft om unified 3D-weergaven te verkennen. Het Uni3D-kader maakt gebruik van een 2D-geïnitialiseerd ViT-kader, vooraf getraind van einde tot einde, om beeld-tekstkenmerken uit te lijnen met de overeenkomstige 3D-puntswolkkenmerken.

Het Uni3D-kader gebruikt pretexttaken en een eenvoudige architectuur om de overvloed aan vooraf getrainde 2D-modellen en beeld-tekstgealigneerde modellen te benutten als initialisaties en doelen, respectievelijk. Deze aanpak laat de volledige potentie van 2D-modellen en -strategieën los om ze op te schalen naar de 3D-wereld.

In dit artikel zullen we dieper ingaan op 3D-computervisie en het Uni3D-kader, waarbij we de essentiële concepten en de architectuur van het model zullen verkennen. Laten we beginnen.

Uni3D en 3D-weergaveleer: Een Inleiding

In de afgelopen paar jaar is computervisie een van de meest zwaar geïnvesteerde domeinen in de AI-industrie geworden. Na significante vooruitgang in 2D-computervisiekaders, hebben ontwikkelaars hun aandacht verlegd naar 3D-computervisie. Dit veld, met name 3D-weergaveleer, combineert aspecten van computergraphics, machine learning, computervisie en wiskunde om de verwerking en het begrijpen van 3D-geometrie te automatiseren. De snelle ontwikkeling van 3D-sensoren zoals LiDAR, samen met hun wijdverbreide toepassingen in de AR/VR-industrie, heeft ertoe geleid dat 3D-weergaveleer meer aandacht krijgt. De potentieel toepassingen groeien dagelijks.

Hoewel bestaande kaders aanzienlijke vooruitgang hebben geboekt in 3D-modelarchitectuur, taakgerichte modellering en leerdoelen, verkennen de meeste 3D-architectuur op een relatief kleine schaal met beperkte gegevens, parameters en taakscenario’s. De uitdaging van het leren van opschaalbare 3D-weergaven, die vervolgens kunnen worden toegepast in real-time-toepassingen in diverse omgevingen, blijft grotendeels onverkend.

Verdergaand, in de afgelopen paar jaar, heeft het opschalen van grote taalmodellen die zijn voorgetraind, geholpen bij het revolutioneren van het natuurlijke taalverwerkingsdomein, en recente werken hebben een vertaling van de vooruitgang van 2D naar taal met behulp van gegevens- en modelopschaling aangegeven, waardoor ontwikkelaars kunnen proberen en opnieuw proberen om dit succes te behalen om een 3D-weergave te leren die kan worden opgeschaald en kan worden overgedragen naar toepassingen in de echte wereld.

Uni3D is een opschaalbaar en unified voorgetraind 3D-kader dat is ontwikkeld met als doel om grote 3D-weergaven te leren die worden getest op een schaal van meer dan een miljard parameters, meer dan 10 miljoen afbeeldingen die zijn gekoppeld aan meer dan 70 miljoen teksten en meer dan een miljoen 3D-vormen. De onderstaande afbeelding toont de nulshotnauwkeurigheid tegen parameters in het Uni3D-kader. Het Uni3D-kader schaalt 3D-weergaven met succes van 6 miljoen tot meer dan een miljard.

Het Uni3D-kader bestaat uit een 2D ViT of Vision Transformer als 3D-encoder die vervolgens van einde tot einde wordt getraind om de beeld-tekstkenmerken uit te lijnen met de 3D-puntswolkkenmerken. Het Uni3D-kader maakt gebruik van pretexttaken en een eenvoudige architectuur om de overvloed aan vooraf getrainde 2D-modellen en beeld-tekstgealigneerde modellen te benutten als initialisaties en doelen, respectievelijk, waardoor de volledige potentie van 2D-modellen en -strategieën wordt losgelaten om ze op te schalen naar de 3D-wereld.

Het opschalen van het model van 6M tot meer dan een miljard parameters.
2D-initialisatie tot tekstsupervisie van visuele zelfsupervisie.
Tekstafbeeldingdoelmodelopschaling van 150 miljoen tot meer dan een miljard parameters.

Onder het flexibele en unified kader van Uni3D, observeren ontwikkelaars een coherente boost in de prestaties bij het opschalen van elk onderdeel. Het grote 3D-weergaveleer profiteert ook enorm van de deelbare 2D- en opschalingsstrategieën.

Zoals te zien is in de onderstaande afbeelding, toont het Uni3D-kader een boost in de prestaties in vergelijking met eerdere kunstwerken in few-shot- en zero-shot-instellingen. Het is de moeite waard om op te merken dat het Uni3D-kader een zero-shotclassificatienauwkeurigheidsscore van meer dan 88% op ModelNet retourneert, wat gelijk is aan de prestaties van verschillende state-of-the-art-supervisie-methoden.

Bovendien levert het Uni3D-kader ook topniveau-nauwkeurigheid en -prestaties bij het uitvoeren van andere representatieve 3D-taken zoals partitie-segmentatie en openwereldbegrip. Het Uni3D-kader heeft als doel om de kloof tussen 2D-visie en 3D-visie te overbruggen door 3D-basismodellen op te schalen met een unified maar eenvoudige voorgetrainde aanpak om meer robuuste 3D-weergaven te leren over een breed scala aan taken, wat uiteindelijk kan helpen bij de convergentie van 2D- en 3D-visie over een breed scala aan modaliteiten.

Uni3D: Gerelateerd Werk

Het Uni3D-kader put inspiratie en leert van de ontwikkelingen die zijn gemaakt door eerdere 3D-weergaveleer en basismodellen, met name onder verschillende modaliteiten.

3D-weergaveleer

De 3D-weergaveleermethode gebruikt puntwolken voor 3D-begrip van het object, en dit veld is door ontwikkelaars veel verkend in het recente verleden, en het is geobserveerd dat deze puntwolken kunnen worden voorgetraind onder zelfsupervisie met behulp van specifieke 3D-pretexttaken, waaronder maskerpuntmodellering, zelfreconstructie en contrastief leren.

Het is de moeite waard om op te merken dat deze methoden werken met beperkte gegevens en onderzoeken vaak geen multimodale weergaven naar 3D van 2D of NLP. Echter, het recente succes van het CLIP-kader dat een hoge efficiëntie retourneert bij het leren van visuele concepten uit ruwe tekst met behulp van de contrastieve leer methode, en verder zoekt naar het leren van 3D-weergaven door beeld-, tekst- en puntwolkkenmerken uit te lijnen met behulp van dezelfde contrastieve leer methode.

Basismodellen

Ontwikkelaars hebben uitgebreid gewerkt aan het ontwerpen van basismodellen om multimodale weergaven op te schalen en te verenigen. Bijvoorbeeld, in het NLP-domein, hebben ontwikkelaars gewerkt aan kaders die vooraf getrainde taalmodellen kunnen opschalen, en het is langzaam de NLP-industrie revolutioneren. Bovendien zijn er vooruitgangen te zien in het 2D-visiedomein, omdat ontwikkelaars werken aan kaders die gegevens- en modelopschalingstechnieken gebruiken om de vooruitgang van taal naar 2D-modellen te helpen, hoewel dergelijke kaders moeilijk te repliceren zijn voor 3D-modellen vanwege de beperkte beschikbaarheid van 3D-gegevens en de uitdagingen die worden ondervonden bij het verenigen en opschalen van 3D-kaders.

Door te leren van de bovengenoemde twee werkgebieden, hebben ontwikkelaars het Uni3D-kader gecreëerd, het eerste 3D-basismodel met meer dan een miljard parameters dat gebruik maakt van een unified ViT- of Vision Transformer-architectuur die ontwikkelaars in staat stelt om het Uni3D-model op te schalen met behulp van unified 3D- of NLP-strategieën voor het opschalen van modellen. Ontwikkelaars hopen dat deze methode het Uni3D-kader in staat zal stellen om de kloof te overbruggen die momenteel 2D- en 3D-visie scheidt, evenals het faciliteren van multimodale convergentie.

Uni3D: Methode en Architectuur

De bovenstaande afbeelding toont een algemeen overzicht van het Uni3D-kader, een opschaalbaar en unified voorgetraind 3D-kader voor grote 3D-weergaveleer. Ontwikkelaars maken gebruik van meer dan 70 miljoen teksten en 10 miljoen afbeeldingen die zijn gekoppeld aan meer dan een miljoen 3D-vormen om het Uni3D-kader op te schalen tot meer dan een miljard parameters. Het Uni3D-kader gebruikt een 2D ViT of Vision Transformer als 3D-encoder die vervolgens van einde tot einde wordt getraind om de tekstafbeeldinggegevens uit te lijnen met de 3D-puntswolkkenmerken, waardoor het Uni3D-kader de gewenste efficiëntie en nauwkeurigheid kan leveren over een breed scala aan benchmarks. Laten we nu een gedetailleerd overzicht van de werking van het Uni3D-kader hebben.

Het opschalen van het Uni3D-kader

Eerdere studies over puntwolkweergaveleer hebben traditioneel zwaar gefocust op het ontwerpen van specifieke modelarchitecturen die betere prestaties leveren over een breed scala aan toepassingen, en werken met een beperkte hoeveelheid gegevens vanwege kleine datasets. Echter, recente studies hebben geprobeerd om de mogelijkheid van het gebruik van opschaalbare voorgetrainde 3D-modellen te verkennen, maar er waren geen significante resultaten vanwege de beperkte beschikbaarheid van 3D-gegevens. Om het schaalprobleem van 3D-kaders op te lossen, maakt het Uni3D-kader gebruik van de kracht van een vanilla-transformerstructuur die bijna spiegelt een Vision Transformer, en kan de schaalproblemen oplossen door unified 2D- of NLP-opschalingstrategieën te gebruiken om de modelgrootte op te schalen.

Initialiseren van Uni3D

Een andere grote uitdaging die door eerdere werken werd ondervonden bij het opschalen van 3D-weergaven, waren de moeilijkheden in convergentie en overfitting die het gevolg waren van de grote omvang van de modellen. Een effectieve aanpak om deze hindernis te overwinnen is om individuele 3D-ruggengraten voor te trainen met specifieke 3D-pretexttaken en voorgetrainde parameters te initialiseren. Echter, deze aanpak gaat gepaard met hoge trainingskosten, en het is ook moeilijk om een robuuste initialisatie te vestigen voor cross-modale leer vanwege de beperkte hoeveelheid 3D-gegevens die beschikbaar zijn voor trainingsdoeleinden.

Het Uni3D-kader maakt gebruik van een vanilla-transformer, waarvan de structuur nauw overeenkomt met ViT. Met deze aanpak kan het Uni3D-kader natuurlijk de voorgetrainde grote modellen met andere modaliteiten adopteren om het Uni3D-kader te initialiseren.

Multi-Modale Uitlijning

Het Uni3D-kader probeert om multi-modeluitlijningen te leren over beeld, taal en puntwolken door gebruik te maken van paradigmen die vergelijkbaar zijn met OpenShape- en ULIP-kaders. Bovendien, om een eerlijke vergelijking met andere methoden te garanderen, gebruikt het Uni3D-kader de geënsembleerde 3D-dataset van OpenShape voor trainingsdoeleinden. Deze geënsembleerde dataset van OpenShape bestaat uit 4 3D-datasets:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Experimenten en Resultaten

Het Uni3D-kader wordt getest in verschillende instellingen en over verschillende classificatietaken, waaronder de prestaties in zero-shot- en few-shot-instellingen, resultaten rond openwereldbegrip en meer. Laten we een gedetailleerd overzicht van deze resultaten hebben.

Nulshot Vormclassificatie

Om de prestaties van het Uni3D-kader te evalueren over nulshotvormclassificatietaken, voeren ontwikkelaars experimenten uit over drie benchmarks, waaronder ModelNet-, ScanObjNN- en Objaverse-LVIS-benchmarkdatasets. ModelNet en ScanObjNN zijn datasets die breed worden gebruikt voor classificatietaken en bestaan uit 15 en 40 objectcategorieën, respectievelijk, terwijl de Objaverse-LVIS-benchmark een schoongemaakte en geannoteerde dataset is die bestaat uit meer dan 40.000 objecten over 1.100+ categorieën. De vergelijking tussen de kaders wordt getoond in de onderstaande afbeelding, en zoals te zien is, overtreft het Uni3D-kader significante eerdere state-of-the-art-kaders over verschillende instellingen.

Few-Shot Lineaire Sondering

In AI is lineaire sondering een veelgebruikte methode om de weergaven te evalueren die een kader of model leert. Om de lineaire sonderingsmogelijkheid van Uni3D te evalueren, freeze ontwikkelaars de parameters van het Uni3D-kader met behulp van de gemeenschappelijke instellingen als OpenShape. Vervolgens trainen ontwikkelaars een lineaire classificator voor Uni3D met behulp van few-shotklaslabels. De onderstaande afbeelding toont de lineaire sonderingsmogelijkheid van verschillende kaders op de Objaverse-LVIS-dataset en toont de gemiddelde prestatie van het model over 10 willekeurige zaden. Zoals te zien is, overtreft het Uni3D-kader bestaande methoden aanzienlijk onder verschillende few-shotinstellingen.

Openwereldbegrip

Om de mogelijkheid van het Uni3D-kader te evalueren om echte wereldvormen en -objecten in real-time te begrijpen, gebruiken ontwikkelaars ScanNet- en CLIP-datasets om de prestaties van Uni3D te verkennen. Het is de moeite waard om op te merken dat de grondwaarheidinstantsegmentatie beschikbaar is, en het primaire doel is om de categorie van elke scène te herkennen in een nulshotinstelling. De resultaten worden getoond in de onderstaande afbeelding. Zoals te zien is, levert het Uni3D-kader uitzonderlijke resultaten bij het uitvoeren van openwereldbegrip en -herkenning. Het Uni3D-kader overtreft bestaande kaders met een significante marge, ondanks dat het nooit is getraind op echte werelddatasets.

Cross-Modale Opvraging

De multi-modale weergaven die door het Uni3D-kader worden geleerd, kunnen het kader in staat stellen om 3D-vormen op te vragen vanuit tekst of afbeeldingen. Om 3D-vormen op te vragen, berekent het model de cosinusgelijkheid tussen de insluitingen van 3D-vormen en de insluitingen van een querytekstprompt of een queryafbeelding. Het kader maakt vervolgens gebruik van de KNN- of K-dichtstebuurtalgoritme om 3D-vormen te genereren die het meest op de query lijken, en de resultaten worden getoond in de onderstaande afbeelding. Zoals te zien is, gebruikt het Uni3D-kader met succes echte wereldafbeeldingen om 3D-vormen op te vragen. Bovendien is het de moeite waard om op te merken dat trainingsafbeeldingen alleen voor weergavedoeleinden zijn, en de kloof tussen echte wereld- en trainingsafbeeldingen aanzienlijk is. Bovendien neemt het model ook twee invoerafbeeldingen en haalt vormen op die lijken op beide invoerafbeeldingen door gebruik te maken van de cosinusgelijkheid tussen de insluitingsgemiddelden van beide afbeeldingen en hun ingesloten 3D-vormen. De resultaten zijn interessant, omdat ze de mogelijkheid van Uni3D tonen om diverse 3D-weergaven te leren en meerdere 2D-signalen waar te nemen.

In de eerste kolom gebruikt het kader twee queryafbeeldingen om 3D-vormen te retourneren die het meest op de queryafbeeldingen lijken. In de tweede kolom gebruikt het kader twee invoerafbeeldingen om 3D-vormen op te vragen die op beide invoerafbeeldingen lijken. Ten slotte, in de laatste kolom, gebruikt het model queryteksten en retourneert 3D-vormen die het meest op de tekstquery lijken.

Slotgedachten

In dit artikel hebben we het over Uni3D gehad, een opschaalbaar en unified voorgetraind 3D-kader dat is ontwikkeld met als doel om grote 3D-weergaven te leren die worden getest op een schaal van meer dan een miljard parameters, meer dan 10 miljoen afbeeldingen die zijn gekoppeld aan meer dan 70 miljoen teksten en meer dan een miljoen 3D-vormen. De ontwikkelaars van het kader hebben een vanilla-transformer opgenomen met een structuur die equivalent is aan ViT, waardoor ze het Uni3D-kader kunnen opschalen met behulp van unified 2D- of NLP-opschalingstrategieën. Bovendien kan het Uni3D-kader een breed scala aan vooraf getrainde 2D-kaders en 2D-strategieën benutten naar de 3D-wereld. De experimentele resultaten hebben al het enorme potentieel van het Uni3D-kader aangetoond, aangezien het Uni3D-kader nauwkeurige en efficiënte resultaten retourneert over een breed scala aan instellingen en bestaande state-of-the-art-kaders overtreft.