Штучний інтелект

Uni3D: Дослідження об’єднаного 3D-представлення у масштабі

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

Масштабування представлень тексту та візуальних даних було основним напрямком досліджень у останні роки. Розробки та дослідження, проведені у недавньому минулому, привели до численних революцій у вивченні мови та бачення. Однак, незважаючи на популярність масштабування текстових та візуальних представлень, масштабування представлень для 3D-сцен та об’єктів не було достатньо обговорено.

Сьогодні ми обговоримо Uni3D, 3D-фундаментальну модель, яка має на меті дослідити об’єднані 3D-представлення. Фреймворк Uni3D використовує 2D-ініціалізований фреймворк ViT, попередньо навчений від кінця до кінця, для вирівнювання функцій зображення-тексту з відповідними 3D-функціями хмари точок.

Фреймворк Uni3D використовує пре-таски та просту архітектуру для використання надлишку попередньо навчених 2D-моделей та моделей, вирівняних зображення-текст, як ініціалізації та цілі відповідно. Цей підхід звільняє повний потенціал 2D-моделей та стратегій для масштабування їх до 3D-світу.

У цій статті ми глибше зануримося у 3D-комп’ютерне бачення та фреймворк Uni3D, досліджуючи основні концепції та архітектуру моделі. Тому почнімо.

Uni3D і навчання 3D-представлення: Введення

За останні кілька років комп’ютерне бачення стало однією з найбільш інвестованих галузей у галузі штучного інтелекту. Після значних досягнень у 2D-фреймворках комп’ютерного бачення розробники перейшли до 3D-комп’ютерного бачення. Ця галузь, зокрема навчання 3D-представлення, поєднує аспекти комп’ютерної графіки, машинного навчання, комп’ютерного бачення та математики для автоматизації обробки та розуміння 3D-геометрії. Швидкий розвиток 3D-чутливих датчиків, таких як LiDAR, разом з їх широкими застосуваннями в галузі AR/VR, призвів до того, що навчання 3D-представлення набуло підвищеної уваги. Його потенційні застосування продовжують зростати щоденно.

Хоча існуючі фреймворки показали помітний прогрес у архітектурі 3D-моделі, моделюванні завдань та навчальних цілях, більшість досліджують 3D-архітектуру у відносно малому масштабі з обмеженими даними, параметрами та завданнями. Виклик навчання масштабованих 3D-представлень, які можна застосувати у реальних завданнях у різних середовищах, залишається значною мірою не дослідженим.

Перейшовши далі, у останні кілька років, масштабування великих мовних моделей, попередньо навчених, допомогло революціонізувати область обробки природної мови, а останні роботи вказують на переклад прогресу з мови у 2D за допомогою масштабування даних та моделей, що відкриває можливість розробникам спробувати та повторити цей успіх у навчанні 3D-представлення, яке можна масштабувати та переносити на реальні завдання.

Uni3D – це масштабована та об’єднана попередньо навчальна 3D-фреймворк, розроблена з метою навчання великомасштабних 3D-представлень, які тестують свої межі у масштабі понад мільярд параметрів, понад 10 мільйонів зображень, парних з понад 70 мільйонами текстів, та понад мільйон 3D-фігур. На малюнку нижче порівнюється нуль-ударна точність проти параметрів у фреймворку Uni3D. Фреймворк Uni3D успішно масштабує 3D-представлення з 6 мільйонів до понад мільярда.

Фреймворк Uni3D складається з 2D ViT або Візіон-Трансформера як 3D-кодувальника, який потім попередньо навчається від кінця до кінця для вирівнювання даних зображення-текст з 3D-функціями хмари точок. Фреймворк Uni3D використовує пре-таски та просту архітектуру для використання надлишку попередньо навчених 2D-моделей та моделей, вирівняних зображення-текст, як ініціалізації та цілі відповідно. Цей підхід звільняє повний потенціал 2D-моделей та стратегій для масштабування їх до 3D-світу.

Масштабування моделі з 6М до понад мільярд параметрів.
2D-ініціалізація до тексту, керованого візуальним самонавчанням.
Модель масштабування тексту-зображення з 150 мільйонів до понад мільярд параметрів.

Під гнучким та об’єднаним фреймворком, пропонованим Uni3D, розробники спостерігають узгоджене підвищення продуктивності при масштабуванні кожного компоненту. Великомасштабне навчання 3D-представлення також значно виграє від спільних 2D- та масштабних стратегій.

Як можна побачити на малюнку нижче, фреймворк Uni3D демонструє підвищення продуктивності порівняно з попереднім мистецтвом у декількох настройках. Варто зазначити, що фреймворк Uni3D повертає нуль-ударну класифікаційну точність понад 88% на ModelNet, що відповідає продуктивності кількох державних методів нагляду.

Крім того, фреймворк Uni3D також демонструє високу точність та продуктивність при виконанні інших представницьких 3D-завдань, таких як сегментація частин та відкрите розуміння світу. Фреймворк Uni3D має на меті звузити розрив між 2D-баченням та 3D-баченням шляхом масштабування 3D-фундаментальних моделей з об’єднаним, але простим підходом до попереднього навчання для навчання більш надійних 3D-представлень у широкому діапазоні завдань, що може в кінцевому підсумку допомогти у збіжності 2D- та 3D-бачення у широкому діапазоні модальностей.

Uni3D: Пов’язана робота

Фреймворк Uni3D черпає натхнення та вчиться з розробок, зроблених попереднім навчанням 3D-представлення та фундаментальними моделями, особливо під різними модальностями.

Навчання 3D-представлення

Метод навчання 3D-представлення використовує хмари точок для 3D-розуміння об’єкта, і ця галузь була досліджена розробниками багато у недавньому минулому, і було спостережено, що ці хмари точок можна попередньо навчити під самонаглядом за допомогою конкретних 3D-пре-тасок, включаючи моделювання маски точок, самореконструкцію та контрастне навчання.

Варто зазначити, що ці методи працюють з обмеженими даними та часто не досліджують багатомодальні представлення до 3D з 2D або NLP. Однак недавній успіх фреймворку CLIP, який повертає високу ефективність у навчанні візуальних концепцій з сирого тексту за допомогою контрастного методу навчання, та подальше навчання 3D-представлень шляхом вирівнювання функцій зображення, тексту та хмари точок за допомогою того ж контрастного методу навчання.

Фундаментальні моделі

Розробники активно працюють над розробкою фундаментальних моделей для масштабування та об’єднання багатомодальних представлень. Наприклад, у галузі NLP розробники працюють над фреймворками, які можуть масштабувати попередньо навчені мовні моделі, і це повільно революціонізує галузь NLP. Крім того, прогрес можна спостерігати у галузі 2D-бачення, оскільки розробники працюють над фреймворками, які використовують техніки масштабування даних та моделей для прогресу мови до 2D-моделей, хоча такі фреймворки важко відтворити для 3D-моделей через обмежену доступність 3D-даних та виклики, пов’язані з об’єднанням та масштабуванням 3D-фреймворків.

Вчиться з вищезазначених двох робочих галузей, розробники створили фреймворк Uni3D, першу 3D-фундаментальну модель з понад мільярдом параметрів, яка використовує об’єднану архітектуру ViT або Візіон-Трансформера, яка дозволяє розробникам масштабувати модель Uni3D за допомогою об’єднаних 3D- або NLP-стратегій для масштабування моделей. Розробники сподіваються, що цей метод дозволить фреймворку Uni3D звузити розрив, який зараз відокремлює 2D- та 3D-бачення, а також сприяти багатомодальній збіжності.

Uni3D: Метод і архітектура

Вище зображення демонструє загальний огляд фреймворку Uni3D, масштабованого та об’єднаного попередньо навчального 3D-фреймворку для великомасштабного навчання 3D-представлення. Розробники використовують понад 70 мільйонів текстів та 10 мільйонів зображень, парних з понад мільйоном 3D-фігур, для масштабування фреймворку Uni3D до понад мільярда параметрів. Фреймворк Uni3D використовує 2D ViT або Візіон-Трансформер як 3D-кодувальник, який потім попередньо навчається від кінця до кінця для вирівнювання даних зображення-текст з 3D-функціями хмари точок, що дозволяє фреймворку Uni3D повертати бажану ефективність та точність у широкому діапазоні бенчмарків. Давайте тепер детально розглянемо роботу фреймворку Uni3D.

Масштабування фреймворку Uni3D

Попередні дослідження навчання представлення хмари точок традиційно зосереджувалися на розробці конкретних моделей архітектур, які забезпечують кращу продуктивність у широкому діапазоні застосунків, і працюють з обмеженою кількістю даних завдяки малим масштабним наборам даних. Однак недавні дослідження спробували дослідити можливість використання масштабованого попереднього навчання у 3D, але не було значних результатів через обмежену доступність 3D-даних. Для вирішення проблеми масштабування 3D-фреймворків фреймворк Uni3D використовує силу ванільної трансформерної структури, яка майже дублює Візіон-Трансформер, і може вирішити проблеми масштабування шляхом використання об’єднаних 2D- або NLP-стратегій для масштабування розміру моделі.

Ініціалізація Uni3D

Іншим великим викликом, з яким зіткнулися попередні роботи, пов’язані з масштабуванням 3D-представлень, були труднощі у збіжності та перезнаванні, які були результатом великого розміру моделей. Ефективний підхід для подолання цього перешкоди полягає у попередньому навчанні окремих 3D-основ за допомогою конкретних 3D-пре-тасок та ініціалізації попередньо навчених параметрів. Однак цей підхід супроводжується високими витратами на навчання, і також важко встановити надійну ініціалізацію для跨-модального навчання через обмежену кількість 3D-даних, доступних для навчальних цілей.

Фреймворк Uni3D використовує ванільний трансформер, структура якого майже дублює ViT. За допомогою цього підходу фреймворк Uni3D може природно приймати великі попередньо навчені моделі з іншими модальностями для ініціалізації фреймворку Uni3D.

Багатомодальне вирівнювання

Фреймворк Uni3D намагається вивчити багатомодальні вирівнювання через зображення, мову та хмари точок за допомогою парадигм, подібних до OpenShape та ULIP-фреймворків. Крім того, для забезпечення справедливого порівняння з іншими методами фреймворк Uni3D використовує ансамблевий 3D-набір даних OpenShape для навчальних цілей. Цей ансамблевий набір даних OpenShape складається з 4 3D-наборів даних:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Експерименти та результати

Фреймворк Uni3D тестується у різних умовах та різних класифікаційних завданнях, включаючи його продуктивність у нуль-ударних та декількох настройках, результати навколо відкритого розуміння світу та більше. Давайте детально розглянемо ці результати.

Нуль-ударна класифікація форми

Для оцінки продуктивності фреймворку Uni3D у нуль-ударній класифікації форми розробники проводять експерименти у трьох бенчмарках, включаючи ModelNet, ScanObjNN та Objaverse-LVIS-бенчмарк-набори даних. ModelNet та ScanObjNN – це набори даних, широко використовувані для класифікаційних завдань, і вони складаються з 15 та 40 об’єктних категорій відповідно, тоді як Objaverse-LVIS-бенчмарк – це очищений та анотований набір даних, що складається з понад 40 000 об’єктів у понад 1 100+ категоріях. Порівняння між фреймворками демонструється на малюнку нижче, і як можна побачити, фреймворк Uni3D значно перевершує попередні державні фреймворки у різних умовах.

Лінійне зондування з декількома зразками

У штучному інтелекті лінійне зондування – це загальний метод, використовуваний для оцінки представлень, вивчених фреймворком або моделлю. Для оцінки лінійного зондувального потенціалу фреймворку Uni3D розробники заморожують параметри фреймворку Uni3D, використовуючи загальні налаштування, як OpenShape. Після цього розробники тренують лінійний класифікатор для фреймворку Uni3D, використовуючи декілька зразків класових міток. Маленький малюнок нижче демонструє лінійне зондувальне потенціал різних фреймворків на наборі даних Objaverse-LVIS, і демонструє середню продуктивність моделі у 10 випадкових насіннях. Як можна побачити, фреймворк Uni3D значно перевершує існуючі методи у різних умовах з декількома зразками.

Відкрите розуміння світу

Для оцінки здатності фреймворку Uni3D розуміти реальні форми та об’єкти у реальному часі розробники використовують набори даних ScanNet та CLIP для дослідження продуктивності фреймворку Uni3D. Варто зазначити, що основна мета полягає у визначенні категорії кожного індивідуального інстансу сцени у нуль-ударній настройці. Результати демонструються на малюнку нижче. Як можна побачити, фреймворк Uni3D повертає виняткові результати при виконанні реального розуміння світу та розпізнавання. Фреймворк Uni3D перевершує існуючі фреймворки на значній відстані, незважаючи на те, що ніколи не тренувався на реальних наборах даних.

Багатомодальне відновлення

Багатомодальні представлення, вивчені фреймворком Uni3D, можуть дозволити фреймворку відновлювати 3D-фігури природно з текстів або зображень. Для відновлення 3D-фігур модель обчислює косинусну подібність між вкладеннями 3D-фігур та вкладеннями запитувального текстового запиту або запитувального зображення. Фреймворк потім використовує алгоритм KNN або K-найближчих сусідів для генерації 3D-фігур, які найбільш схожі на запит, і результати демонструються на малюнку нижче. Як можна побачити, фреймворк Uni3D успішно використовує реальні зображення для відновлення 3D-фігур. Крім того, варто зазначити, що тренувальні зображення використовуються лише для візуалізації, і розрив між реальним та тренувальним зображенням значний. Крім того, модель також приймає два вхідних зображення та відновлює фігури, подібні до обох вхідних зображень, використовуючи косинусну подібність між середнім вкладенням обох зображень та їх вкладеними 3D-фігурами. Результати цікаві, оскільки вони демонструють здатність фреймворку Uni3D вивчити різноманітні 3D-представлення та сприймати кілька 2D-сигналів.

У першому стовпці фреймворк використовує 2 запитувальних зображення для повернення 3D-фігур, які найбільш схожі на запитувальні зображення. У другому стовпці фреймворк використовує 2 вхідних зображення для відновлення 3D-фігур, які найбільш схожі на обидва вхідних зображення. Нарешті, у третьому стовпці модель використовує запитувальні тексти та повертає 3D-фігури, які найбільш схожі на текстовий запит.

Остатні думки

У цій статті ми говорили про фреймворк Uni3D, масштабований та об’єднаний попередньо навчальний 3D-фреймворк, розроблений з метою навчання великомасштабних 3D-представлень, які тестують свої межі у масштабі понад мільярд параметрів, понад 10 мільйонів зображень, парних з понад 70 мільйонами текстів, та понад мільйон 3D-фігур. Розробники фреймворку включили ванільний трансформер з його структурою, еквівалентною до ViT, який дозволяє їм масштабувати фреймворк Uni3D за допомогою об’єднаних 2D- або NLP-стратегій. Крім того, фреймворк Uni3D може використовувати широкий діапазон попередньо навчених 2D-фреймворків та 2D-стратегій у 3D-світі. Експериментальні результати вже продемонстрували великий потенціал фреймворку Uni3D, оскільки фреймворк Uni3D повертає точні та ефективні результати у широкому діапазоні налаштувань та перевершує існуючі державні фреймворки.