Изкуствен интелект

Uni3D: Изследване на унифицирано 3D представяне в мащаб

Обновено on Октомври 28, 2023

Увеличаването на представянето на текст и визуални елементи е основен фокус на изследванията през последните години. Разработките и изследванията, проведени в близкото минало, доведоха до множество революции в изучаването на езици и визията. Въпреки това, въпреки популярността на мащабиране на текст и визуални представяния, мащабирането на представяния за 3D сцени и обекти не е достатъчно обсъждано.

Днес ще обсъдим Uni3D, 3D основен модел, който има за цел да изследва унифицирани 3D представяния. Рамката Uni3D използва 2D-инициализирана ViT рамка, предварително обучена от край до край, за подравняване на характеристиките на изображението и текста със съответните им характеристики на 3D облак от точки.

Рамката Uni3D използва претекстови задачи и проста архитектура, за да използва изобилието от предварително обучени 2D модели и модели, подравнени с изображение и текст, съответно като инициализации и цели. Този подход разгръща пълния потенциал на 2D моделите и стратегиите за тяхното мащабиране към 3D света.

В тази статия ще се задълбочим в 3D компютърното зрение и рамката Uni3D, като изследваме основните концепции и архитектурата на модела. И така, да започваме.

Обучение за Uni3D и 3D представяне: Въведение

През последните няколко години компютърното зрение се очертава като една от най-силно инвестираните области в AI индустрията. След значителния напредък в рамките на 2D компютърно зрение, разработчиците пренасочиха фокуса си към 3D компютърно зрение. Тази област, особено обучението за 3D представяне, обединява аспекти на компютърната графика, машинното обучение, компютърното зрение и математиката, за да автоматизира обработката и разбирането на 3D геометрията. Бързото развитие на 3D сензори като LiDAR, заедно с широко разпространените им приложения в AR/VR индустрията, доведе до това обучението за 3D представяне да привлече все по-голямо внимание. Неговите потенциални приложения продължават да растат ежедневно.

Въпреки че съществуващите рамки са показали забележителен напредък в архитектурата на 3D модела, ориентираното към задачите моделиране и учебните цели, повечето изследват 3D архитектурата в сравнително малък мащаб с ограничени данни, параметри и сценарии за задачи. Предизвикателството за изучаване на мащабируеми 3D представяния, които след това могат да бъдат приложени към приложения в реално време в различни среди, остава до голяма степен неизследвано.

Движейки се, през последните няколко години, мащабиране големи езикови модели които са предварително обучени, помогна за революционизиране на домейна за обработка на естествен език и скорошни разработки показаха превод в напредъка към 2D от език, използващ данни и мащабиране на модели, което дава възможност на разработчиците да опитат и повторят този успех, за да научат 3D представяне които могат да бъдат мащабирани и прехвърлени към приложения в реалния свят.

Uni3D е мащабируема и унифицирана 3D рамка за предварително обучение, разработена с цел да научи широкомащабни 3D представяния, която тества своите граници в мащаб от над милиард параметри, над 10 милиона изображения, съчетани с над 70 милиона текста и над милион 3D форми . Фигурата по-долу сравнява точността на нулев изстрел спрямо параметрите в рамката Uni3D. Рамката Uni3D успешно мащабира 3D представяния от 6 милиона до над милиард.

Рамката Uni3D се състои от 2D ViT или Трансформатор на зрението като 3D енкодер, който след това е предварително обучен от край до край, за да подравни функциите, подравнени на изображението и текста, с функциите на 3D облака от точки. Рамката Uni3D използва претекстови задачи и проста архитектура, за да се възползва от изобилието от предварително обучени 2D модели и подравнени модели с текст на изображения съответно като инициализация и цели, като по този начин разгръща пълния потенциал на 2D моделите и стратегиите за тяхното мащабиране към 3D света. Гъвкавостта и мащабируемостта на Uni3D рамката се измерват по отношение на

Мащабиране на модела от 6 милиона до над милиард параметри.
2D инициализация към текст, контролирана от визуално самоконтролирано обучение.
Целеви модел текст-изображение, мащабиран от 150 милиона до над милиард параметъра.

Под гъвкавата и унифицирана рамка, предлагана от Uni3D, разработчиците наблюдават съгласувано повишаване на производителността, когато става въпрос за мащабиране на всеки компонент. Обучението за широкомащабно 3D представяне също има огромна полза от споделяемото 2D и стратегиите за мащабиране.

Както може да се види на фигурата по-долу, рамката Uni3D показва подобрение в производителността в сравнение с предишното ниво на техниката при настройки за няколко изстрела и нулев изстрел. Струва си да се отбележи, че рамката Uni3D връща резултат за точност на класификация с нулев изстрел от над 88% на ModelNet, което е равностойно на представянето на няколко най-съвременни метода за наблюдение.

Освен това, рамката Uni3D също така осигурява най-висока точност и производителност при изпълнение на други представителни 3D задачи като сегментиране на части и разбиране на отворен свят. Рамката Uni3D има за цел да преодолее празнината между 2D визия и 3D визия чрез мащабиране на 3D основни модели с унифициран, но прост подход за предварително обучение, за да научите по-стабилни 3D представяния в широк спектър от задачи, което в крайна сметка може да помогне за конвергенцията на 2D и 3D визия в широк спектър от модалности.

Uni3D : Свързана работа

Рамката Uni3D черпи вдъхновение и се учи от развитието, направено от предишно обучение за 3D представяне и фундаментални модели, особено при различни модалности.

Обучение за 3D представяне

Методът за обучение на 3D представяне използва облачни точки за 3D разбиране на обекта и това поле е изследвано много от разработчиците в близкото минало и е забелязано, че тези облачни точки могат да бъдат предварително обучени под самоконтрол, използвайки специфични 3D задачи за претекст, включително моделиране на маска, самовъзстановяване и контрастно обучение.

Струва си да се отбележи, че тези методи работят с ограничени данни и често не изследват мултимодални представяния в 3D от 2D или NLP. Въпреки това, неотдавнашният успех на рамката CLIP, която връща висока ефективност при изучаване на визуални концепции от необработен текст, използвайки метода на контрастно обучение, и допълнително се стреми да научи 3D представяния чрез подравняване на изображения, текст и функции на облачни точки, използвайки същия метод на контрастно обучение.

Модели на основата

Разработчиците са работили изчерпателно върху проектирането на основни модели за увеличаване и обединяване на мултимодални представяния. Например в областта на НЛП разработчиците работят върху рамки, които могат да разширят предварително обучените езикови модели и това бавно революционизира индустрията на НЛП. Освен това може да се наблюдава напредък в домейна на 2D визия, тъй като разработчиците работят върху рамки, които използват техники за мащабиране на данни и модели, за да помогнат в напредъка на езика към 2D модели, въпреки че такива рамки са трудни за възпроизвеждане за 3D модели поради ограничена наличност на 3D данни и предизвикателствата, възникнали при обединяването и мащабирането на 3D рамки.

Като се учат от горните две работни области, разработчиците са създали рамката Uni3D, първият 3D основен модел с над един милиард параметри, който използва унифицирана ViT или Vision Transformer архитектура, която позволява на разработчиците да мащабират Uni3D модела, използвайки унифицирани 3D или NLP стратегии за мащабиране на моделите. Разработчиците се надяват, че този метод ще позволи на рамката Uni3D да преодолее празнината, която в момента разделя 2D и 3D визия, заедно с улесняване на мултимодална конвергенция.

Uni3D: Метод и архитектура

Изображението по-горе демонстрира общия преглед на рамката Uni3D, мащабируема и унифицирана 3D рамка за предварително обучение за широкомащабно обучение за 3D представяне. Разработчиците използват над 70 милиона текста и 10 милиона изображения, съчетани с над милион 3D форми, за да мащабират Uni3D рамката до над един милиард параметри. Uni3D рамката използва 2D ViT или Vision Transformer като 3D енкодер, който след това се обучава от край до край, за да подравни данните от текст-изображение с характеристиките на 3D облачните точки, което позволява на Uni3D рамката да достави желаната ефективност и точност в широк набор от бенчмаркове. Нека сега разгледаме подробно работата на рамката Uni3D.

Мащабиране на Uni3D Framework

Предишни проучвания на обучението за представяне на облачни точки традиционно се фокусираха силно върху проектирането на специфични архитектури на модели, които осигуряват по-добра производителност в широк набор от приложения и работят върху ограничено количество данни благодарение на малки набори от данни. Скорошни проучвания обаче се опитаха да проучат възможността за използване на мащабируемо предварително обучение в 3D, но нямаше големи резултати благодарение на наличието на ограничени 3D данни. За да реши проблема с мащабируемостта на 3D рамки, Uni3D рамката използва силата на ванилова трансформаторна структура, която почти отразява Vision Transformer, и може да реши проблемите с мащабирането чрез използване на унифицирани 2D или NLP стратегии за мащабиране за мащабиране на размера на модела.

Предишни проучвания на обучението за представяне на облачни точки традиционно се фокусираха силно върху проектирането на конкретни архитектури на модели, които осигуряват по-добра производителност в широк набор от приложения и работят върху ограничено количество данни благодарение на малки набори от данни. Скорошни проучвания обаче се опитаха да проучат възможността за използване на мащабируемо предварително обучение в 3D, но нямаше големи резултати благодарение на наличието на ограничени 3D данни. За да реши проблема с мащабируемостта на 3D рамки, Uni3D рамката използва силата на ванилова трансформаторна структура, която почти отразява Vision Transformer, и може да реши проблемите с мащабирането чрез използване на унифицирани 2D или NLP стратегии за мащабиране за мащабиране на размера на модела.

Инициализиране на Uni3D

Друго голямо предизвикателство, с което се сблъскват предишни работи, включващи мащабиране на 3D представяния, трудностите при конвергенцията и пренастройването, които са резултат от големия размер на моделите. Ефективен подход за преодоляване на това препятствие е да се обучат предварително отделни 3D гръбнаци с определени задачи за 3D претекст и да се инициализират предварително обучени параметри. Подходът обаче е придружен от високи разходи за обучение и също така е трудно да се установи стабилна инициализация за кръстосано обучение благодарение на ограниченото количество 3D данни, налични за целите на обучението.

Рамката Uni3D използва ванилов трансформатор, чиято структура много наподобява ViT. С този подход рамката Uni3D може естествено да приеме предварително обучените големи модели с други модалности за инициализиране на рамката Uni3D.

Мултимодално подравняване

Рамката Uni3D се опитва да научи многомоделни подравнявания в изображения, език и облаци от точки, като използва парадигми, подобни на OpenShape и ULIP рамки. Освен това, за да осигури честно сравнение с други методи, рамката Uni3D използва групирания набор от 3D данни от OpenShape за целите на обучението. Този сборен набор от данни от OpenShape се състои от 4 3D набора от данни:

Objaverse.
ShapeNet.
3D-БЪДЕЩЕ.
ABO.

Експерименти и резултати

Рамката Uni3D е тествана в различни настройки и в различни задачи за класификация, включително нейната производителност при настройки с нулев и няколко изстрела, резултати около разбирания за отворен свят и др. Нека разгледаме подробно тези резултати.

Zero Shot Shape Класификация

За да оценят производителността на рамката Uni3D при задачи за класифициране на форма с нулев изстрел, разработчиците провеждат експерименти в три бенчмарка, включително ModelNet, ScanObjNN и набори от бенчмарк данни на Objaverse-LVIS. ModelNet и ScanObjNN са набори от данни, широко използвани за задачи за класификация и се състоят съответно от 15 и 40 категории обекти, докато показателят на Objaverse-LVIS е изчистен и анотиран набор от данни, състоящ се от над 40,000 1,100 обекта в 3+ категории. Сравнението между рамките е демонстрирано на изображението по-долу и, както може да се види, UniXNUMXD рамката значително превъзхожда предишните съвременни рамки при различни настройки.

Линейно сондиране с няколко изстрела

В AI Linear Probing е общ метод, използван за оценка на представянията, които рамката или моделът научават. За да оценят способността за линейно изследване на Uni3D, разработчиците замразяват параметрите на рамката Uni3D, използвайки общите настройки като OpenShape. След това разработчиците обучават линеен класификатор за Uni3D, използвайки етикети на класове с няколко изстрела. Фигурата по-долу демонстрира способността за линейно сондиране на различни рамки върху набора от данни на Objaverse-LVIS и демонстрира средната производителност на модела при 10 произволни семена. Както може да се види, рамката Uni3D превъзхожда значително съществуващите методи при различни настройки за няколко изстрела.

Разбиране на отворения свят

За да оценят способността на рамката Uni3D да разбира форми и обекти от реалния свят в реално време, разработчиците използват набори от данни ScanNet и CLIP, за да изследват производителността на Uni3D. Струва си да се отбележи, че моменталното сегментиране на основната истина е налично и основният мотив е да се разпознае категорията на отделния момент на всяка сцена в настройка на нулев кадър. Резултатите са показани на изображението по-долу. Както може да се види, рамката Uni3D предоставя изключителни резултати при извършване на разбиране и разпознаване в реалния свят. Рамката Uni3D превъзхожда съществуващите рамки със значителна разлика, въпреки че никога не се обучава върху набори от данни от реалния свят.

Кръстосано модално извличане

Мултимодалните представяния, научени от рамката Uni3D, могат да позволят на рамката да извлича естествено 3D форми от текстове или изображения. За да извлече 3D фигурите, моделът изчислява косинусното сходство между вгражданията на 3D форми и вгражданията на подкана за текст на заявка или изображение на заявка. След това рамката използва алгоритъма KNN или K Nearest Neighbor, за да генерира 3D форми, които най-много приличат на заявката, и резултатите са демонстрирани на фигурата по-долу. Както може да се види, рамката Uni3D успешно използва изображения от реалния свят за извличане на 3D форми. Освен това си струва да се отбележи, че изображенията за обучение са само за целите на рендиране и разликата между изображенията от реалния свят и изображенията за обучение е значителна. Освен това моделът също така взема две входни изображения и извлича форми, подобни на двете входни изображения, като използва косинусното сходство между вградените средни стойности на двете изображения и техните вградени 3D форми. Резултатите са интересни, тъй като демонстрират способността на Uni3D да изучава различни 3D представяния и да възприема множество 2D сигнали.

В първата колона рамката използва 2 изображения на заявка, за да върне 3D форми, които са най-сходни с изображенията на заявката. Във втората колона рамката използва две входни изображения, за да извлече 3D форми, които приличат и на двете входни изображения. И накрая, в последната колона, моделът използва текстове на заявка и връща 3D форми, които наподобяват максимално текстовата заявка.

Заключителни мисли

В тази статия говорихме за Uni3D, мащабируема и унифицирана 3D рамка за предварително обучение, разработена с цел да научи широкомащабни 3D представяния, които тестват своите граници в мащаб от над един милиард параметри, над 10 милиона изображения, съчетани с над 70 милиона текстове и над милион 3D форми. Разработчиците на рамката са включили ванилен трансформатор със структура, еквивалентна на ViTs, която им позволява да увеличават Uni3D рамката, използвайки унифицирани 2D или NLP стратегии за мащабиране. Освен това рамката Uni3D може да използва широк набор от предварително обучени 2D рамки и 2D стратегии за 3D света. Експерименталните резултати вече демонстрираха огромния потенциал на рамката Uni3D, тъй като рамката Uni3D връща точни и ефективни резултати в широк набор от настройки и превъзхожда съществуващите най-съвременни рамки.

Свързани теми:Компютърно зрение Uni3D

Следва

Стратегическата експанзия на Google в AI: Залог от 2 милиарда долара за Anthropic

Не пропускайте

Как AI може да подобри потребителското изживяване на VR устройства

Кунал Кейривал

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.

Обединете.AI

Uni3D: Изследване на унифицирано 3D представяне в мащаб

Изкуствен интелект

Uni3D: Изследване на унифицирано 3D представяне в мащаб

Съдържание

Обучение за Uni3D и 3D представяне: Въведение