Kunstig intelligens
Uni3D: En introduktion til forenet 3D-repræsentation i stor skala
Skalering af repræsentationer af tekst og billeder har været et større fokusområde for forskning i de seneste år. Udviklinger og forskning, der er blevet gennemført i den seneste fortid, har ført til adskillige revolutioner inden for sprogindlæring og syn. Men på trods af populariteten af at skale tekst- og billedrepræsentationer, har skaleringen af repræsentationer for 3D-scener og -objekter ikke været tilstrækkeligt diskuteret.
I dag vil vi diskutere Uni3D, en 3D-fundamentsmodel, der sigter mod at udforske forenede 3D-repræsentationer. Uni3D-rammen anvender en 2D-initialiseret ViT-ramme, der er forudtrænet fra ende til ende, for at alignere billed-tekst-funktioner med deres tilsvarende 3D-punktsky-funktioner.
Uni3D-rammen anvender forudgående opgaver og en simpel arkitektur for at udnytte overfloden af forudtrænede 2D-modeller og billed-tekst-orienterede modeller som initialisering og mål, henholdsvis. Dette tilgangsmåde frigør det fulde potentiale for 2D-modeller og -strategier til at skale til 3D-verdenen.
I denne artikel vil vi dykke dybere ind i 3D-computervision og Uni3D-rammen, hvor vi udforsker de væsentlige begreber og arkitekturen af modellen. Så lad os begynde.
Uni3D og 3D-repræsentationslæring: En introduktion
I de seneste år er computervision blevet et af de mest investerede områder i AI-industrien. Efter betydelige fremskridt i 2D-computervisionsrammer, har udviklerne skiftet fokus til 3D-computervision. Dette felt, især 3D-repræsentationslæring, kombinerer aspekter af computergrafik, maskinlæring, computervision og matematik for at automatisere behandlingen og forståelsen af 3D-geometri. Den hurtige udvikling af 3D-sensorer som LiDAR, sammen med deres vidt udbredte anvendelser i AR/VR-industrien, har resulteret i, at 3D-repræsentationslæring har fået øget opmærksomhed. Dets potentielle anvendelser fortsætter med at vokse dag for dag.
Selvom eksisterende rammer har vist bemærkelsesværdig fremgang i 3D-modelarkitektur, opgave-orienteret modellering og læringsmål, udforsker de fleste 3D-arkitektur på en relativt lille skala med begrænsede data, parametre og opgavescenarier. Udfordringen ved at lære skalerbare 3D-repræsentationer, som kan anvendes i realtidsapplikationer i forskellige miljøer, forbliver stort set uudforsket.
Ved at fortsætte, i de seneste år, har skalering af store sprogmodeller, der er forudtrænet, hjulpet med at revolutionere det naturlige sprogbehandlingsdomæne, og nyere arbejder har indikeret en oversættelse af fremgangen fra sprog til 2D ved hjælp af data- og modelskalering, hvilket giver udviklerne mulighed for at prøve og genskabe denne succes for at lære en 3D-repræsentation, der kan skales og overføres til applikationer i den virkelige verden.
Uni3D er en skalerbar og forenet forudtrænings-3D-ramme, der er udviklet med det formål at lære store 3D-repræsentationer, der tester grænserne ved en skala på over en milliard parametre, over 10 millioner billeder parret med over 70 millioner tekster og over en million 3D-former. Figuren nedenfor sammenligner nul-skud-nøjagtigheden mod parametre i Uni3D-rammen. Uni3D-rammen skalerer med succes 3D-repræsentationer fra 6 millioner til over en milliard.

Uni3D-rammen består af en 2D-ViT eller Vision Transformer som 3D-encoder, der derefter er forudtrænet fra ende til ende for at alignere billed-tekst-funktioner med 3D-punktsky-funktioner. Uni3D-rammen anvender forudgående opgaver og en simpel arkitektur for at udnytte overfloden af forudtrænede 2D-modeller og billed-tekst-orienterede modeller som initialisering og mål, henholdsvis, og frigør dermed det fulde potentiale for 2D-modeller og -strategier til at skale til 3D-verdenen. Fleksibiliteten og skalerbarheden af Uni3D-rammen måles i forhold til
- Skalering af modellen fra 6M til over en milliard parametre.
- 2D-initialisering til tekst-overvågning fra visuel selv-overvågning.
- Tekst-billede-målmodell-skaleringsforhold fra 150 millioner til over en milliard parametre.
Under den fleksible og forenede ramme, der tilbydes af Uni3D, observerer udviklerne en samlet forbedring af ydeevnen, når det kommer til at skale hvert komponent. Den store 3D-repræsentationslæring drager også stor fordel af de delbare 2D- og skaleringsstrategier.
Som det kan ses i figuren nedenfor, viser Uni3D-rammen en forbedring af ydeevnen i forhold til tidligere kunstværker i få-skud- og nul-skud-indstillinger. Det er værd at bemærke, at Uni3D-rammen returnerer en nul-skud-klassificeringsnøjagtighed på over 88% på ModelNet, hvilket er på niveau med ydeevnen af flere state-of-the-art-overvågningsmetoder.

Desuden leverer Uni3D-rammen også topniveau-nøjagtighed og -ydeevne, når det udfører andre repræsentative 3D-opgaver som del-segmentering og åben-verden-forståelse. Uni3D-rammen sigter mod at brokke gapet mellem 2D-syn og 3D-syn ved at skale 3D-fundamentsmodeller med en forenet, men simpel forudtræningsmetode for at lære mere robuste 3D-repræsentationer på tværs af en bred vifte af opgaver, der måske kan hjælpe med at konvergere 2D- og 3D-syn på tværs af en bred vifte af modaliteter.
Uni3D: Relateret arbejde
Uni3D-rammen henter inspiration og lærer af udviklingen, der er gjort af tidligere 3D-repræsentationslæring og fundamentsmodeller, især under forskellige modaliteter.
3D-repræsentationslæring
3D-repræsentationslæringsmetoden anvender sky-punkter til 3D-forståelse af objektet, og dette felt er blevet udforsket af udviklere i den seneste fortid, og det er blevet observeret, at disse sky-punkter kan forudtrænes under selv-overvågning ved hjælp af bestemte 3D-forudgående opgaver, herunder mask-point-modellering, selv-rekonstruktion og kontrastlæring.
Det er værd at bemærke, at disse metoder arbejder med begrænsede data og undersøger ofte ikke multimodale repræsentationer til 3D fra 2D eller NLP. Men den seneste succes med CLIP-rammen, der returnerer høj effektivitet i at lære visuelle begreber fra rå tekst ved hjælp af kontrastlæring, og søger derefter at lære 3D-repræsentationer ved at alignere billed-, tekst- og sky-punkts-funktioner ved hjælp af samme kontrastlæring.
Fundamentsmodeller
Udviklere har udført omfattende arbejde med at designe fundamentsmodeller for at skale op og forene multimodale repræsentationer. For eksempel i NLP-domænet har udviklere arbejdet på rammer, der kan skale op forudtrænede sprogmodeller, og det er langsomt revolutionerende NLP-industrien. Desuden kan fremskridt observeres i 2D-syn-domænet, da udviklere arbejder på rammer, der anvender data- og model-skalerings-teknikker for at hjælpe med fremgangen fra sprog til 2D-modeller, selvom sådanne rammer er svære at replikere for 3D-modeller på grund af den begrænsede tilgængelighed af 3D-data og udfordringerne ved at forene og skale 3D-rammer.
Ved at lære af disse to arbejdsdomæner har udviklere skabt Uni3D-rammen, den første 3D-fundamentsmodel med over en milliard parametre, der anvender en forenet ViT- eller Vision Transformer-arkitektur, der giver udviklere mulighed for at skale Uni3D-modellen ved hjælp af forenede 3D- eller NLP-strategier for at skale op modellerne. Udviklere håber, at denne metode vil give Uni3D-rammen mulighed for at brokke gapet, der i øjeblikket adskiller 2D- og 3D-syn, samt faciliterer multimodal konvergens.
Uni3D: Metode og arkitektur

Figuren ovenfor viser en generel oversigt over Uni3D-rammen, en skalerbar og forenet forudtrænings-3D-ramme for storstile 3D-repræsentationslæring. Udviklere anvender over 70 millioner tekster og 10 millioner billeder parret med over en million 3D-former for at skale Uni3D-rammen til over en milliard parametre. Uni3D-rammen anvender en 2D-ViT eller Vision Transformer som 3D-encoder, der derefter er forudtrænet fra ende til ende for at alignere tekst-billede-data med 3D-punktsky-funktioner, hvilket giver Uni3D-rammen mulighed for at returnere den ønskede effektivitet og nøjagtighed på tværs af en bred vifte af benchmarks. Lad os nu have en detaljeret gennemgang af Uni3D-rammens arbejde.
Skalering af Uni3D-rammen
Tidligere studier om sky-punktsrepræsentationslæring har traditionelt fokuseret tungt på at designe bestemte modelarkitekturer, der giver bedre ydeevne på tværs af en bred vifte af applikationer, og arbejder med en begrænsende mængde data på grund af småskala-datasets. Men nyere studier har forsøgt at udforske muligheden for at anvende skalerbar forudtræning i 3D, men der var ingen større resultater på grund af den begrænsede tilgængelighed af 3D-data. For at løse skaleringsproblemet for 3D-rammer anvender Uni3D-rammen kraften af en vanilla-transformer-struktur, der næsten spejler en Vision Transformer, og kan løse skaleringsproblemerne ved at anvende forenede 2D- eller NLP-skaleringsstrategier for at skale modellens størrelse.

Tidligere studier om sky-punktsrepræsentationslæring har traditionelt fokuseret tungt på at designe bestemte modelarkitekturer, der giver bedre ydeevne på tværs af en bred vifte af applikationer, og arbejder med en begrænsende mængde data på grund af småskala-datasets. Men nyere studier har forsøgt at udforske muligheden for at anvende skalerbar forudtræning i 3D, men der var ingen større resultater på grund af den begrænsede tilgængelighed af 3D-data. For at løse skaleringsproblemet for 3D-rammer anvender Uni3D-rammen kraften af en vanilla-transformer-struktur, der næsten spejler en Vision Transformer, og kan løse skaleringsproblemerne ved at anvende forenede 2D- eller NLP-skaleringsstrategier for at skale modellens størrelse.
Initialisering af Uni3D
En anden stor udfordring, der er blevet mødt af tidligere arbejder, der er involveret i skalering af 3D-repræsentationer, er vanskelighederne ved konvergens og overfitning, der skyldes den store størrelse af modellerne. En effektiv tilgang for at overvinde denne udfordring er at forudtræne enkeltvis 3D-rygter med bestemte 3D-forudgående opgaver og initialisere forudtrænede parametre. Men denne tilgang er ledsaget af høje træningsomkostninger, og det er også svært at etablere en robust initialisering for cross-modalt læring på grund af den begrænsede mængde 3D-data, der er til rådighed for træningsformål.
Uni3D-rammen anvender en vanilla-transformer, hvis struktur næsten spejler ViT. Med denne tilgang kan Uni3D-rammen naturligt adoptere forudtrænede store modeller med andre modaliteter for at initialisere Uni3D-rammen.
Multi-modal alignment
Uni3D-rammen forsøger at lære multi-modale alignmenter på tværs af billeder, sprog og punktskyer ved at anvende paradigmer, der ligner OpenShape og ULIP-rammer. Desuden anvender Uni3D-rammen den ensemble-3D-dataset fra OpenShape til træningsformål. Denne ensemble-dataset fra OpenShape består af 4 3D-datasets:
- Objaverse.
- ShapeNet.
- 3D-FUTURE.
- ABO.
Eksperimenter og resultater
Uni3D-rammen er testet på tværs af forskellige indstillinger og på tværs af forskellige klassificeringsopgaver, herunder dens ydeevne i nul-skud- og få-skud-indstillinger, resultater omkring åben-verden-forståelse og mere. Lad os have en detaljeret gennemgang af disse resultater.
Nul-skud-form-klassificering
For at evaluere Uni3D-rammens ydeevne på tværs af nul-skud-form-klassificeringsopgaver, udfører udviklerne eksperimenter på tværs af tre benchmarks, herunder ModelNet, ScanObjNN og Objaverse-LVIS-benchmark-datasets. ModelNet og ScanObjNN er datasets, der ofte anvendes til klassificeringsopgaver, og de består af 15 og 40 objekt-kategorier, henholdsvis, mens Objaverse-LVIS-benchmark er en renset og annoteret dataset, der består af over 40.000 objekter på tværs af 1.100+ kategorier. Sammenligningen mellem rammerne vises i figuren nedenfor, og som det kan ses, overgår Uni3D-rammen tidligere kunstværker på tværs af forskellige indstillinger.

Få-skud-lineær-sondering
I AI er lineær-sondering en almindelig metode, der anvendes til at evaluere repræsentationer, som en ramme eller model lærer. For at evaluere Uni3D’s lineær-sonderings-evne fryser udviklerne parametrene af Uni3D-rammen ved hjælp af almindelige indstillinger som OpenShape. Derefter træner udviklerne en lineær-klassifikator for Uni3D ved hjælp af få-skud-klassifikationsmærker. Figuren nedenfor viser Uni3D-rammens lineær-sonderingsevne på Objaverse-LVIS-dataset og viser den gennemsnitlige ydeevne af modellen på tværs af 10 tilfældige frø. Som det kan ses, overgår Uni3D-rammen eksisterende metoder betydeligt på tværs af forskellige få-skud-indstillinger.

Åben-verden-forståelse
For at evaluere Uni3D-rammens evne til at forstå virkelige verdens-former og -objekter i realtid, anvender udviklerne ScanNet og CLIP-datasets for at udforske Uni3D’s ydeevne. Det er værd at bemærke, at grund-sandhed-instant-segmentering er til rådighed, og det primære formål er at genkende kategorien af hver scenes enkeltinstant i en nul-skud-indstilling. Resultaterne vises i figuren nedenfor. Som det kan ses, returnerer Uni3D-rammen exceptionelle resultater, når det udfører åben-verden-forståelse og -genkendelse. Uni3D-rammen overgår eksisterende rammer med en betydelig margin, selvom den aldrig har været trænet på virkelige verdens-datasets.

Cross-modalt-retrieval
De multi-modale repræsentationer, der lærer af Uni3D-rammen, kan give rammen mulighed for at hente 3D-former naturligt enten fra tekster eller billeder. For at hente 3D-formerne beregner modellen cosinus-ligheden mellem 3D-form-embedding og embedding af en forespørgsel-tekst eller -billede. Rammen anvender derefter KNN eller K-nærmeste-nabo-algoritmen for at generere 3D-former, der ligner forespørgslen mest, og resultaterne vises i figuren nedenfor. Som det kan ses, returnerer Uni3D-rammen med succes virkelige billeder for at hente 3D-former. Desuden er det værd at bemærke, at træningsbilleder kun er til renderingsformål, og gapet mellem virkelige og træningsbilleder er betydeligt. Desuden kan modellen også tage to input-billeder og hente former, der ligner begge input-billeder, ved at anvende cosinus-ligheden mellem gennemsnittet af begge billeders embedding og deres embeddende 3D-former. Resultaterne er interessante, da de viser Uni3D’s evne til at lære diverse 3D-repræsentationer og opfatte multiple 2D-signaler.

I den første kolonne anvender rammen to forespørgsel-billeder for at returnere 3D-former, der ligner forespørgslen mest. I den anden kolonne anvender rammen to input-billeder for at hente 3D-former, der ligner begge input-billeder. Endelig i den sidste kolonne anvender modellen forespørgsel-tekster og returnerer 3D-former, der ligner forespørgslen mest.
Endelige tanker
I denne artikel har vi talt om Uni3D, en skalerbar og forenet forudtrænings-3D-ramme, der er udviklet med det formål at lære store 3D-repræsentationer, der tester grænserne ved en skala på over en milliard parametre, over 10 millioner billeder parret med over 70 millioner tekster og over en million 3D-former. Udviklerne af rammen har inkluderet en vanilla-transformer med en struktur, der ligner ViT, hvilket giver dem mulighed for at skale Uni3D-rammen ved hjælp af forenede 2D- eller NLP-skaleringsstrategier. Desuden kan Uni3D-rammen udnytte en bred vifte af forudtrænede 2D-rammer og 2D-strategier til 3D-verdenen. De eksperimentelle resultater har allerede demonstreret det enorme potentiale for Uni3D-rammen, da Uni3D-rammen returnerer præcise og effektive resultater på tværs af en bred vifte af indstillinger og overgår eksisterende state-of-the-art-rammer.












