Искусственный интеллект

Uni3D: Изучение объединенной 3D-представления в масштабе

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

Масштабирование представлений текста и визуальных данных было основным направлением исследований в последние годы. Разработки и исследования, проведенные в недавнем прошлом, привели к многочисленным революциям в области обучения языку и зрения. Однако, несмотря на популярность масштабирования текстовых и визуальных представлений, масштабирование представлений для 3D-сцен и объектов не было достаточно обсуждено.

Сегодня мы будем обсуждать Uni3D, 3D-фундаментальную модель, целью которой является изучение объединенных 3D-представлений. Фреймворк Uni3D использует 2D-инициализированный фреймворк ViT, предобученный от конца до конца, для выравнивания функций изображения-текста с соответствующими 3D-функциями облака точек.

Фреймворк Uni3D использует pretext-задачи и простую архитектуру для использования изобилия предобученных 2D-моделей и моделей, выравнивающих изображение-текст, в качестве инициализации и целей соответственно. Этот подход раскрывает полный потенциал 2D-моделей и стратегий для масштабирования их до 3D-миров.

В этой статье мы более подробно рассмотрим 3D-компьютерное зрение и фреймворк Uni3D, изучая основные концепции и архитектуру модели. Итак, давайте начнем.

Uni3D и обучение 3D-представлениям: Введение

В последние несколько лет компьютерное зрение стало одной из наиболее инвестируемых областей в индустрии ИИ. После значительных достижений в 2D-компьютерном зрении разработчики сместили свое внимание на 3D-компьютерное зрение. Эта область, в частности, обучение 3D-представлениям, объединяет аспекты компьютерной графики, машинного обучения, компьютерного зрения и математики для автоматизации обработки и понимания 3D-геометрии. Быстрое развитие 3D-датчиков, таких как LiDAR, а также их широкое применение в индустрии AR/VR, привело к тому, что обучение 3D-представлениям получило все больше внимания. Его потенциальные применения продолжают расти ежедневно.

Хотя существующие фреймворки показали замечательный прогресс в архитектуре 3D-модели, ориентированном на задачи моделировании и обучении, большинство из них исследуют 3D-архитектуру на относительно небольшом масштабе с ограниченными данными, параметрами и сценариями задач. Вызов обучения масштабируемых 3D-представлений, которые можно применить в реальных приложениях в различных средах, остается в значительной степени неисследованным.

Двигаясь дальше, в последние несколько лет масштабирование больших языковых моделей, которые предобучены, помогло революционизировать область обработки естественного языка, и недавние работы показали перевод прогресса от языка к 2D с помощью масштабирования данных и моделей, что позволяет разработчикам попытаться повторить этот успех и изучить 3D-представление, которое можно масштабировать и применить в реальных приложениях.

Uni3D – это масштабируемый и объединенный фреймворк предобучения 3D, разработанный с целью изучения крупномасштабных 3D-представлений, которые тестируют свои пределы на масштабе более миллиарда параметров, более 10 миллионов изображений, сопряженных с более 70 миллионами текстов, и более миллиона 3D-форм. На рисунке ниже сравнивается нулевая точность против параметров в фреймворке Uni3D. Фреймворк Uni3D успешно масштабирует 3D-представления от 6 миллионов до более миллиарда.

Фреймворк Uni3D состоит из 2D ViT или Vision Transformer в качестве 3D-кодировщика, который затем предобучается от конца до конца для выравнивания изображения-текста с 3D-функциями облака точек. Фреймворк Uni3D использует pretext-задачи и простую архитектуру для использования изобилия предобученных 2D-моделей и моделей, выравнивающих изображение-текст, в качестве инициализации и целей соответственно, что позволяет раскрыть полный потенциал 2D-моделей и стратегий для масштабирования их до 3D-миров.
…

Unite.AI

Uni3D: Изучение объединенной 3D-представления в масштабе

Uni3D и обучение 3D-представлениям: Введение

You may like