Kunstig intelligens
Uni3D: En udforskning af forenet 3D-repræsentation i stor skala
Skalering op af repræsentationer af tekst og visuelt indhold har været et større fokus for forskning i de seneste år. Udviklinger og forskning, der er udført i den seneste fortid, har ført til talrige revolutioner i sprogtilæring og vision. Men selvom skalering af tekst- og visuelt indhold har været populært, er skalering af repræsentationer for 3D-scener og -objekter ikke blevet diskuteret tilstrækkeligt.
I dag vil vi diskutere Uni3D, en 3D-fundamentsmodel, der har til formål at udforske forenede 3D-repræsentationer. Uni3D-rammeværket anvender en 2D-initialiseret ViT-ramme, der er forudtrænet fra ende til ende, for at alignere billed-tekstfunktioner med deres tilsvarende 3D-punktskyfunktioner.
Uni3D-rammeværket anvender pretext-opsætninger og en simpel arkitektur for at udnytte overfloden af forudtrænede 2D-modeller og billed-tekst-justerede modeller som initialisering og mål, respectively. Dette tilgang frigør det fulde potentiale for 2D-modeller og -strategier til at skala til 3D-verdenen.
I denne artikel vil vi dykke dybere ind i 3D-computervision og Uni3D-rammeværket, hvor vi udforsker de væsentlige begreber og modellens arkitektur. Så lad os begynde.
Uni3D og 3D-repræsentationslæring: En introduktion
I de seneste år er computervision blevet et af de mest investerede domæner i AI-industrien. Efter betydelige fremskridt i 2D-computervision-rammeværker, har udviklere skiftet fokus til 3D-computervision. Dette felt, især 3D-repræsentationslæring, kombinerer aspekter af computergrafik, maskinlæring, computervision og matematik for at automatisere behandling og forståelse af 3D-geometri. Den hurtige udvikling af 3D-sensorer som LiDAR, sammen med deres omfattende anvendelser i AR/VR-industrien, har resulteret i, at 3D-repræsentationslæring har fået øget opmærksomhed. Dets potentielle anvendelser vokser dag for dag.
Selvom eksisterende rammeværker har vist betydelig fremgang i 3D-modelarkitektur, task-orienteret modellering og læringsmål, udforsker de fleste 3D-arkitektur på en relativt lille skala med begrænsede data, parametre og task-scenarier. Udfordringen ved at lære skalerbare 3D-repræsentationer, der kan anvendes i realtidsapplikationer i diverse miljøer, er stadig stort set uudforsket.
Ved at fortsætte, har skaleringsstore forudtrænede sprogmodeller hjulpet med at revolutionere det naturlige sprogbehandlingsdomæne, og nyere arbejder har indikeret en oversættelse af fremgangen fra sprog til 2D ved hjælp af data- og modelskalering, hvilket åbner muligheder for udviklere til at prøve og genskabe denne succes for at lære en 3D-repræsentation, der kan skaleres og overføres til realverdensapplikationer.
Uni3D er en skalerbar og forenet forudtrænings-3D-ramme, der er udviklet med det formål at lære store 3D-repræsentationer, der tester grænserne på en skala over en milliard parametre, over 10 millioner billeder parret med over 70 millioner tekster og over en million 3D-former. Figuren nedenfor sammenligner nul-skud-nøjagtigheden mod parametre i Uni3D-rammeværket. Uni3D-rammeværket skalerer med succes 3D-repræsentationer fra 6 millioner til over en milliard.

Uni3D-rammeværket består af en 2D-ViT eller Vision Transformer som 3D-encoder, der derefter er forudtrænet fra ende til ende for at alignere billed-tekstfunktioner med 3D-punktskyfunktioner. Uni3D-rammeværket anvender pretext-opsætninger og en simpel arkitektur for at udnytte overfloden af forudtrænede 2D-modeller og billed-tekst-justerede modeller som initialisering og mål, respectively, hvilket frigør det fulde potentiale for 2D-modeller og -strategier til at skala til 3D-verdenen.
… (rest of the translation remains the same, following the exact structure and format as the original)












