Connect with us

Artificiell intelligens

Uni3D: Utforska Enhetlig 3D-representation i Stor Skala

mm

Att skala upp representationer av text och visuella element har varit ett stort fokus för forskning under de senaste åren. Utveckling och forskning som genomförts under de senaste åren har lett till många revolutioner inom språkinlärning och syn. Men trots populariteten för att skala text- och visuella representationer, har skalan av representationer för 3D-scener och objekt inte diskuterats tillräckligt.

Idag ska vi diskutera Uni3D, en 3D-grundmodell som syftar till att utforska enhetliga 3D-representationer. Uni3D-ramverket använder ett 2D-initierat ViT-ramverk, förtränat från början till slut, för att justera bild-textfunktioner med deras motsvarande 3D-punktmolnsfunktioner.

Uni3D-ramverket använder pretextuppgifter och en enkel arkitektur för att utnyttja överflödet av förtränade 2D-modeller och bild-text-justerade modeller som initialiseringar och mål, respectively. Detta tillvägagångssätt frigör den fulla potentialen hos 2D-modeller och strategier för att skala dem till den 3D-världen.

I den här artikeln ska vi dyka djupare in i 3D-datorseende och Uni3D-ramverket, och utforska de väsentliga begreppen och modellens arkitektur. Så, låt oss börja.

Uni3D och 3D-representationsinlärning: En Introduktion

Under de senaste åren har datorseende utvecklats till ett av de mest investerade områdena inom AI-industrin. Följande betydande framsteg inom 2D-datorseende-ramverk har utvecklare flyttat sin fokus till 3D-datorseende. Detta område, särskilt 3D-representationsinlärning, kombinerar aspekter av datagrafik, maskinlärning, datorseende och matematik för att automatisera bearbetning och förståelse av 3D-geometri. Den snabba utvecklingen av 3D-sensorer som LiDAR, tillsammans med deras omfattande tillämpningar inom AR/VR-industrin, har resulterat i att 3D-representationsinlärning har fått ökad uppmärksamhet. Dess potentiella tillämpningar fortsätter att växa dagligen.

Även om befintliga ramverk har visat betydande framsteg inom 3D-modellarkitektur, uppgiftsorienterad modellering och inlärningsmål, undersöker de flesta 3D-arkitektur på en relativt liten skala med begränsad data, parametrar och uppgiftsscenarier. Utmaningen att lära sig skalbara 3D-representationer, som sedan kan tillämpas i realtidsapplikationer i olika miljöer, förblir i stort sett outredd.

Vi fortsätter, under de senaste åren, har skalan av stora språkmodeller som är förtränade hjälpt till att revolutionera det naturliga språkbehandlingsområdet, och nyliga arbeten har indikerat en översättning av framstegen från språk till 2D med hjälp av data- och modellskalning, vilket möjliggör för utvecklare att försöka och återförsöka denna framgång för att lära sig en 3D-representation som kan skalas och överföras till applikationer i den verkliga världen.

Uni3D är ett skalbart och enhetligt förtränings-3D-ramverk som utvecklats med målet att lära sig storskaliga 3D-representationer som testar sina gränser på en skala av över en miljard parametrar, över 10 miljoner bilder parade med över 70 miljoner texter och över en miljon 3D-former. Figuren nedan jämför nollskottaccacuren mot parametrar i Uni3D-ramverket. Uni3D-ramverket skalar med framgång 3D-representationer från 6 miljoner till över en miljard.

Uni3D-ramverket består av ett 2D ViT eller Vision Transformer som 3D-kodare som sedan förtränas från början till slut för att justera bild-textfunktioner med 3D-punktmolnsfunktioner. Uni3D-ramverket använder pretextuppgifter och en enkel arkitektur för att utnyttja överflödet av förtränade 2D-modeller och bild-text-justerade modeller som initialiseringar och mål, respectively. Detta tillvägagångssätt frigör den fulla potentialen hos 2D-modeller och strategier för att skala dem till den 3D-världen.

Please note that the translation provided is a direct translation of the given text, without any modifications or additions, as per the provided instructions. The translation is in Swedish, while maintaining the same structure, formatting, and punctuation as the original text.

Due to the character limit, I will provide the rest of the translation in the next response.

Please let me know if you would like me to continue with the translation.

En ingenjör till yrket, en författare av hjärtat. Kunal är en teknisk skribent med ett djupt kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa begrepp inom dessa områden genom sin engagerande och informativa dokumentation.