Connect with us

Umělá inteligence

Uni3D: Prozkoumání sjednoceného 3D представování v měřítku

mm

Škálování reprezentací textu a vizuálů bylo v posledních letech hlavním zaměřením výzkumu. Vývoj a výzkum provedený v nedávné minulosti vedly k mnoha revolucím v jazykovém učení a vidění. Nicméně, navzdory popularitě škálování textových a vizuálních reprezentací, škálování reprezentací pro 3D scény a objekty nebylo dostatečně diskutováno.

Dnes budeme diskutovat o Uni3D, 3D základním modelu, který má za cíl prozkoumat sjednocená 3D reprezentace. Rámec Uni3D využívá 2D inicializovaný ViT rámec, předběžně trénovaný end-to-end, aby zarovnal obraz-textové funkce s odpovídajícími 3D bodovými cloudovými funkcemi.

Rámec Uni3D využívá pretextové úkoly a jednoduchou architekturu, aby využil bohatství předběžně trénovaných 2D modelů a obraz-textově zarovnaných modelů jako inicializací a cílů, resp. Tento přístup uvolňuje plný potenciál 2D modelů a strategií pro škálování do 3D světa.

V tomto článku budeme hlouběji prozkoumávat 3D počítačové vidění a rámec Uni3D, prozkoumávat základní koncepty a architekturu modelu. Takže, pojďme začít.

Uni3D a 3D reprezentační učení: Úvod

V posledních letech se počítačové vidění stalo jednou z nejvíce investovaných domén v AI průmyslu. Následující významné pokroky ve 2D počítačovém vidění, vývojáři se přesunuli na 3D počítačové vidění. Tato oblast, zejména 3D reprezentační učení, spojuje aspekty počítačové grafiky, strojového učení, počítačového vidění a matematiky, aby automatizovala zpracování a pochopení 3D geometrie. Rychlý vývoj 3D senzorů, jako je LiDAR, spolu s jejich širokými aplikacemi v AR/VR průmyslu, vedl k tomu, že 3D reprezentační učení získalo zvýšenou pozornost. Jeho potenciální aplikace rostou denně.

Ačkoli existující rámce ukázaly pozoruhodný pokrok v 3D modelové architektuře, úkolově orientovaném modelování a učebních cílech, většina z nich prozkoumává 3D architekturu v relativně malém měřítku s omezenými daty, parametry a úkolovými scénáři. Výzva spočívající v učení škálovatelných 3D reprezentací, které lze poté aplikovat v reálném čase v různých prostředích, zůstává většinou neprozkoumaná.

Pokračujme, v posledních letech, škálování velkých jazykových modelů, které jsou předběžně trénovány, pomohlo revolucionalizovat přirozené jazykové zpracování, a recentní práce ukázala překlad pokroku z jazyka do 2D pomocí dat a modelového škálování, což umožňuje vývojářům pokusit se a再attemptovat tento úspěch, aby se naučili 3D reprezentaci, která může být škálována a přenesena do aplikací v reálném světě.

Uni3D je škálovatelný a sjednocený předběžný 3D rámec vyvinutý s cílem naučit se velkým 3D reprezentacím, které testují jeho limity v měřítku přes jednu miliardu parametrů, přes 10 milionů obrázků spárovaných s přes 70 miliony textů a přes jeden milion 3D tvarů. Níže uvedená figura porovnává nulový výstřel přesnost proti parametrům v rámci Uni3D. Rámec Uni3D úspěšně škáluje 3D reprezentace z 6 milionů na přes jednu miliardu.

Rámec Uni3D se skládá z 2D ViT nebo Vision Transformer jako 3D kódéru, který je poté předběžně trénován end-to-end, aby zarovnal obraz-textové funkce s odpovídajícími 3D bodovými cloudovými funkcemi. Rámec Uni3D využívá pretextové úkoly a jednoduchou architekturu, aby využil bohatství předběžně trénovaných 2D modelů a obraz-textově zarovnaných modelů jako inicializací a cílů, resp. Tento přístup uvolňuje plný potenciál 2D modelů a strategií pro škálování do 3D světa.
… (zbytek obsahu)

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.