Sztuczna inteligencja

Uni3D: Eksploracja Zjednoczonej Reprezentacji 3D w Skali

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

Skalowanie reprezentacji tekstu i wizualnych danych było głównym celem badań w ostatnich latach. Rozwój i badania przeprowadzone w niedawnym czasie doprowadziły do licznych rewolucji w nauce języka i widzenia. Jednak pomimo popularności skalowania reprezentacji tekstu i wizualnych, skalowanie reprezentacji dla scen i obiektów 3D nie zostało wystarczająco omówione.

Dziś, omówimy Uni3D, 3D model podstawowy, który ma na celu eksplorację zjednoczonej reprezentacji 3D. Ramy Uni3D wykorzystują 2D-zainicjowaną ramę ViT, wstępnie wyuczona od końca do końca, aby wyalignować cechy obrazu-tekstu z odpowiadającymi im cechami chmury punktów 3D.

Ramy Uni3D wykorzystują zadania pretekstowe i prostą architekturę, aby wykorzystać obfitość wstępnie wyuczonych modeli 2D i modeli wyrównanych obraz-tekst jako inicjacji i celów, odpowiednio. Ten podejście uwalnia pełny potencjał modeli 2D i strategii, aby skalować je do świata 3D.

W tym artykule, zagłębimy się głębiej w komputerowe widzenie 3D i ramy Uni3D, eksplorując podstawowe pojęcia i architekturę modelu. Zatem, zacznijmy.

Uni3D i uczenie reprezentacji 3D: Wprowadzenie

W ostatnich kilku latach, komputerowe widzenie wyłoniło się jako jeden z najbardziej zainwestowanych domen w przemyśle AI. Po znaczących postępach w ramach 2D komputerowego widzenia, deweloperzy przenieśli swoją uwagę na komputerowe widzenie 3D. Ta dziedzina, szczególnie uczenie reprezentacji 3D, łączy aspekty grafiki komputerowej, uczenia maszynowego, komputerowego widzenia i matematyki, aby zautomatyzować przetwarzanie i zrozumienie geometrii 3D. Szybki rozwój czujników 3D, takich jak LiDAR, wraz z ich szerokim zastosowaniem w branży AR/VR, spowodował, że uczenie reprezentacji 3D zyskało coraz większą uwagę. Jego potencjalne zastosowania rosną każdego dnia.

Chociaż istniejące ramy pokazały znaczny postęp w architekturze modelu 3D, modelowaniu zorientowanym na zadania i celach uczenia, większość z nich bada architekturę 3D w stosunkowo małej skali z ograniczonymi danymi, parametrami i scenariuszami zadań. Wyzwanie polegające na uczeniu skalowalnych reprezentacji 3D, które mogą być następnie stosowane w aplikacjach w czasie rzeczywistym w różnych środowiskach, pozostaje w dużej mierze niezbadane.

Przechodząc dalej, w ostatnich kilku latach, skalowanie dużych modeli językowych przedtreningowych pomogło w rewolucjonizowaniu dziedziny przetwarzania języka naturalnego, a niedawne prace wskazały na tłumaczenie postępu z języka na 2D przy użyciu skalowania danych i modelu, co umożliwia deweloperom spróbować i ponowić ten sukces, aby nauczyć reprezentację 3D, która może być skalowana i przeniesiona do aplikacji w świecie rzeczywistym.

Uni3D jest skalowalną i zjednoczoną ramą wstępnego treningu 3D opracowaną w celu nauczenia dużych skal reprezentacji 3D, które testują swoje limity na skalę ponad miliard parametrów, ponad 10 milionów obrazów sparowanych z ponad 70 milionami tekstów i ponad milionem kształtów 3D. Poniższy rysunek porównuje dokładność zero-shot w ramach Uni3D. Ramy Uni3D skutecznie skalują reprezentacje 3D od 6 milionów do ponad miliarda.

Ramy Uni3D składają się z 2D ViT lub Vision Transformer jako 3D encoder, który jest następnie wstępnie wyuczony od końca do końca, aby wyalignować cechy obrazu-tekstu z cechami chmury punktów 3D. Ramy Uni3D wykorzystują zadania pretekstowe i prostą architekturę, aby wykorzystać obfitość wstępnie wyuczonych modeli 2D i modeli wyrównanych obraz-tekst jako inicjacji i celów, odpowiednio. Ten podejście uwalnia pełny potencjał modeli 2D i strategii, aby skalować je do świata 3D.

W tym artykule, omówimy ramy Uni3D, eksplorując podstawowe pojęcia i architekturę modelu. Zatem, zacznijmy.

Uni3D: Powiązane prace

Ramy Uni3D czerpią inspirację i uczą się z rozwoju dokonanego przez poprzednie uczenie reprezentacji 3D i modele podstawowe, szczególnie pod różnymi modalnościami.

Uczenie reprezentacji 3D

Metoda uczenia reprezentacji 3D wykorzystuje chmury punktów do zrozumienia obiektu 3D, a ta dziedzina była szeroko badana przez deweloperów w ostatnim czasie. Zaobserwowano, że te chmury punktów mogą być wstępnie wyuczone pod nadzorem samym przy użyciu specyficznych zadań pretekstowych 3D, w tym modelowania maski punktu, samorekonstrukcji i uczenia kontrastowego.

Warto zauważyć, że te metody działają z ograniczonymi danymi i często nie badają reprezentacji multimodalnych do 3D z 2D lub NLP. Jednak niedawny sukces ramy CLIP, który zwraca wysoką wydajność w nauce pojęć wizualnych z surowego tekstu przy użyciu metody uczenia kontrastowego, i dalej szuka nauczenia reprezentacji 3D przez wyrównywanie cech obrazu, tekstu i chmury punktów przy użyciu tej samej metody uczenia kontrastowego.

Modele podstawowe

Deweloperzy pracowali nad projektowaniem modeli podstawowych, aby skalować i zjednoczyć reprezentacje multimodalne. Na przykład, w dziedzinie NLP, deweloperzy pracowali nad ramami, które mogą skalować wstępnie wyuczone modele językowe, i to powoli rewolucjonizuje przemysł NLP. Ponadto, postępy można zaobserwować w dziedzinie 2D widzenia, ponieważ deweloperzy pracują nad ramami, które wykorzystują skalowanie danych i modelu, aby pomóc w postępie języka do modeli 2D, chociaż takie ramy są trudne do odtworzenia dla modeli 3D ze względu na ograniczoną dostępność danych 3D i wyzwania spotykane przy zjednoczeniu i skalowaniu ram 3D.

Deweloperzy nauczyli się z powyższych dwóch dziedzin pracy i stworzyli ramy Uni3D, pierwszy model podstawowy 3D z ponad miliardem parametrów, który wykorzystuje zjednoczoną architekturę ViT lub Vision Transformer, co pozwala deweloperom skalować ramy Uni3D przy użyciu zjednoczonych strategii 3D lub NLP do skalowania modeli. Deweloperzy mają nadzieję, że ten sposób pozwoli ramom Uni3D na zmostkowanie przepaści, która obecnie oddziela widzenie 2D i 3D, oraz ułatwi zbieżność multimodalną.

Uni3D: Metoda i architektura

Powyższy rysunek pokazuje ogólny przegląd ram Uni3D, skalowalnej i zjednoczonej ramy wstępnego treningu 3D dla dużych skal uczenia reprezentacji 3D. Deweloperzy wykorzystują ponad 70 milionów tekstów i 10 milionów obrazów sparowanych z ponad milionem kształtów 3D, aby skalować ramy Uni3D do ponad miliarda parametrów. Ramy Uni3D wykorzystują 2D ViT lub Vision Transformer jako 3D encoder, który jest następnie wstępnie wyuczony od końca do końca, aby wyalignować dane obraz-tekst z cechami chmury punktów 3D.

Skalowanie ram Uni3D

Poprzednie badania nad uczeniem reprezentacji chmury punktów tradycyjnie koncentrowały się na projektowaniu specyficznych architektur modeli, które dostarczają lepszą wydajność w różnych aplikacjach i działają na ograniczonych danych dzięki małym zbiorom danych. Jednak niedawne badania próbowały badać możliwość wykorzystania skalowalnego wstępnego treningu w 3D, ale nie było znaczących wyników dzięki ograniczonej dostępności danych 3D. Aby rozwiązać problem skalowalności ram 3D, ramy Uni3D wykorzystują potęgę prostej struktury transformatora, która prawie naśladuje Vision Transformer, i może rozwiązać problemy skalowania przy użyciu zjednoczonych strategii 2D lub NLP do skalowania modelu.

Inicjowanie Uni3D

Innym znaczącym wyzwaniem spotkanym przez poprzednie prace zaangażowane w skalowanie reprezentacji 3D były trudności w zbieżności i przeuczeniu, które były wynikiem dużego rozmiaru modeli. Skutecznym podejściem do pokonania tego przeszkody jest wstępne wyuczenie poszczególnych 3D backbone’ów z określonymi 3D zadaniami pretekstowymi i inicjowanie wstępnie wyuczonych parametrów. Jednak podejście to jest accompagné wysokimi kosztami treningu i jest również trudne do ustalenia silnej inicjacji dla uczenia cross-modalnego dzięki ograniczonej ilości danych 3D dostępnych do celów treningu.

Ramy Uni3D wykorzystują prostą strukturę transformatora, której struktura jest podobna do ViT. Z tym podejściem, ramy Uni3D mogą naturalnie przyjąć wstępnie wyuczonych dużych modeli z innymi modalnościami, aby zainicjować ramy Uni3D.

Wyrównywanie multimodalne

Ramy Uni3D próbują nauczyć wyrównywanie multimodalne między obrazem, językiem i chmurą punktów, wykorzystując paradygmaty podobne do OpenShape i ULIP. Ponadto, aby zapewnić uczciwe porównanie z innymi metodami, ramy Uni3D wykorzystują zbiór danych OpenShape do celów treningu. Ten zbiór danych OpenShape składa się z 4 zbiorów danych 3D:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Eksperymenty i wyniki

Ramy Uni3D są testowane w różnych ustawieniach i w różnych zadaniach klasyfikacji, w tym ich wydajność w ustawieniach zero-shot i few-shot, wyniki wokół zrozumienia świata otwartego i więcej. Zobaczmy wyniki szczegółowo.

Klasyfikacja kształtów zero-shot

Aby ocenić wydajność ram Uni3D w zadaniach klasyfikacji kształtów zero-shot, deweloperzy przeprowadzają eksperymenty w trzech benchmarkach, w tym ModelNet, ScanObjNN i Objaverse-LVIS benchmark danych. ModelNet i ScanObjNN są zbiorami danych powszechnie używanymi do zadań klasyfikacji i składają się z 15 i 40 kategorii obiektów, odpowiednio, podczas gdy benchmark Objaverse-LVIS jest oczyszczonym i opatrzonym zbiorami danych składającym się z ponad 40 000 obiektów w ponad 1100 kategoriach. Porównanie między ramami jest pokazane na poniższym rysunku, i jak widać, ramy Uni3D znacząco przewyższają poprzednie ramy stanu sztuki w różnych ustawieniach.

Sondowanie liniowe few-shot

W AI, sondowanie liniowe jest powszechną metodą używaną do oceny reprezentacji, które ramy lub modele uczą. Aby ocenić zdolność ram Uni3D do sondowania liniowego, deweloperzy zamykają parametry ram Uni3D przy użyciu wspólnych ustawień, takich jak OpenShape. Następnie, deweloperzy trenują liniowy klasyfikator dla ram Uni3D przy użyciu few-shot etykiet klasy. Poniższy rysunek pokazuje zdolność sondowania liniowego różnych ram w zbiorze danych Objaverse-LVIS i pokazuje średnią wydajność modelu w 10 losowych nasionach. Jak widać, ramy Uni3D znacząco przewyższają istniejące metody w różnych ustawieniach few-shot.

Zrozumienie świata otwartego

Aby ocenić zdolność ram Uni3D do zrozumienia rzeczywistych kształtów i obiektów w czasie rzeczywistym, deweloperzy wykorzystują zbiory danych ScanNet i CLIP do eksploracji wydajności ram Uni3D. Warto zauważyć, że podział instancji jest dostępny, a głównym motywem jest rozpoznanie kategorii każdej sceny w ustawieniu zero-shot. Wyniki są pokazane na poniższym rysunku. Jak widać, ramy Uni3D dostarczają wyjątkowe wyniki podczas wykonywania zadań zrozumienia świata rzeczywistego i rozpoznawania. Ramy Uni3D przewyższają istniejące ramy o znaczną różnicę, pomimo tego, że nigdy nie były trenowane na danych świata rzeczywistego.

Przeszukiwanie cross-modalne

Reprezentacje multimodalne nauczone przez ramy Uni3D mogą pozwolić ramom na przeszukiwanie kształtów 3D w sposób naturalny, albo z tekstów, albo z obrazów. Aby przeszukać kształty 3D, model oblicza podobieństwo kosinusowe między osadzeniami kształtów 3D i osadzeniami zapytania tekstu lub zapytania obrazu. Następnie, ramy wykorzystują algorytm KNN, aby wygenerować kształty 3D, które najbardziej przypominają zapytanie, i wyniki są pokazane na poniższym rysunku. Jak widać, ramy Uni3D skutecznie wykorzystują obrazy świata rzeczywistego do przeszukiwania kształtów 3D. Warto zauważyć, że obrazy treningowe są używane tylko do celów renderowania, a przepaść między danymi świata rzeczywistego a danymi treningowymi jest znacząca. Ponadto, model może również przyjmować dwa obrazy wejściowe i przeszukiwać kształty podobne do obu obrazów wejściowych, wykorzystując podobieństwo kosinusowe między średnimi osadzeń obu obrazów i ich osadzonymi kształtami 3D. Wyniki są interesujące, ponieważ pokazują zdolność ram Uni3D do uczenia się różnorodnych reprezentacji 3D i postrzegania wielu sygnałów 2D.

W pierwszej kolumnie, ramy wykorzystują dwa obrazy zapytania, aby zwrócić kształty 3D, które są najbardziej podobne do zapytania. W drugiej kolumnie, ramy wykorzystują dwa obrazy wejściowe, aby przeszukać kształty 3D, które przypominają oba obrazy wejściowe. W końcu, w trzeciej kolumnie, model wykorzystuje zapytania tekstu, aby zwrócić kształty 3D, które najbardziej przypominają zapytanie tekstu.

Końcowe myśli

W tym artykule, omówiliśmy ramy Uni3D, skalowalną i zjednoczoną ramę wstępnego treningu 3D opracowaną w celu nauczenia dużych skal reprezentacji 3D, które testują swoje limity na skalę ponad miliard parametrów, ponad 10 milionów obrazów sparowanych z ponad 70 milionami tekstów i ponad milionem kształtów 3D. Deweloperzy ram Uni3D włączyli prostą strukturę transformatora, której struktura jest podobna do ViT, co pozwala im skalować ramy Uni3D przy użyciu zjednoczonych strategii 2D lub NLP do skalowania modelu. Ponadto, ramy Uni3D mogą wykorzystać szeroki zakres wstępnie wyuczonych modeli 2D i strategii 2D, aby skalować je do świata 3D. Wyniki eksperymentalne już pokazały ogromny potencjał ram Uni3D, ponieważ ramy Uni3D zwracają dokładne i wydajne wyniki w różnych ustawieniach i przewyższają istniejące ramy stanu sztuki.