заглушки Uni3D: изучение унифицированного 3D-представления в масштабе - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Uni3D: изучение унифицированного 3D-представления в масштабе

mm
обновленный on

Расширение представлений текста и визуальных изображений было основным направлением исследований в последние годы. Разработки и исследования, проведенные в недавнем прошлом, привели к многочисленным революциям в изучении языка и зрении. Однако, несмотря на популярность масштабирования текста и визуальных представлений, масштабирование представлений трехмерных сцен и объектов недостаточно обсуждается.

Сегодня мы обсудим Uni3D, базовую 3D-модель, целью которой является исследование унифицированных 3D-представлений. Платформа Uni3D использует инициализированную в 2D структуру ViT, предварительно обученную сквозным образом, для согласования функций изображения и текста с соответствующими функциями облака точек в 3D.

Платформа Uni3D использует предтекстовые задачи и простую архитектуру, позволяющую использовать множество предварительно обученных 2D-моделей и моделей, выравниваемых по тексту изображения, в качестве инициализаций и целей соответственно. Такой подход раскрывает весь потенциал 2D-моделей и стратегий их масштабирования в 3D-мире.

В этой статье мы углубимся в компьютерное 3D-зрение и структуру Uni3D, изучая основные концепции и архитектуру модели. Итак, начнем.

Обучение Uni3D и 3D-представлениям: введение

За последние несколько лет компьютерное зрение стало одной из областей, в которую наиболее активно инвестируются средства в индустрии искусственного интеллекта. После значительных достижений в области систем 2D-компьютерного зрения разработчики переключили свое внимание на 3D-компьютерное зрение. Эта область, в частности обучение трехмерным представлениям, объединяет аспекты компьютерной графики, машинного обучения, компьютерного зрения и математики для автоматизации обработки и понимания трехмерной геометрии. Быстрое развитие 3D-датчиков, таких как LiDAR, а также их широкое применение в индустрии AR/VR привело к тому, что обучение 3D-представлению привлекло повышенное внимание. Его потенциальные возможности применения продолжают расти с каждым днем.

Хотя существующие среды продемонстрировали значительный прогресс в архитектуре 3D-моделей, задачно-ориентированном моделировании и целях обучения, большинство из них исследуют 3D-архитектуру в относительно небольших масштабах с ограниченными данными, параметрами и сценариями задач. Проблема изучения масштабируемых 3D-представлений, которые затем можно будет применять к приложениям реального времени в различных средах, остается в значительной степени неисследованной.

В последние несколько лет масштабирование большие языковые модели которые предварительно обучены, помогли совершить революцию в области обработки естественного языка, а недавние работы показали прогресс в переводе в 2D с языка с использованием данных и масштабирования модели, что дает разработчикам возможность попытаться повторить этот успех для изучения трехмерного представления. которые можно масштабировать и переносить в приложения в реальном мире. 

Uni3D — это масштабируемая и унифицированная 3D-платформа для предварительного обучения, разработанная с целью изучения крупномасштабных 3D-представлений, которая проверяет свои возможности в масштабе более миллиарда параметров, более 10 миллионов изображений в сочетании с более чем 70 миллионами текстов и более миллиона 3D-форм. . На рисунке ниже сравнивается точность нулевого выстрела с параметрами в среде Uni3D. Платформа Uni3D успешно масштабирует 3D-представления с 6 миллионов до более чем миллиарда. 

Платформа Uni3D состоит из 2D ViT или Трансформатор видения в качестве 3D-кодера, который затем подвергается сквозному предварительному обучению для выравнивания объектов, выровненных по тексту изображения, с объектами 3D-облака точек. Платформа Uni3D использует предтекстовые задачи и простую архитектуру для использования множества предварительно обученных 2D-моделей и моделей с выравниванием текста по изображению в качестве инициализации и целей соответственно, тем самым раскрывая весь потенциал 2D-моделей и стратегии их масштабирования в трехмерном мире. Гибкость и масштабируемость платформы Uni3D измеряется с точки зрения

  1. Масштабирование модели от 6М до более миллиарда параметров. 
  2. 2D-инициализация текста под визуальным контролем самостоятельное обучение
  3. Целевая модель «текст-изображение» масштабируется от 150 миллионов до более чем миллиарда параметров. 

Благодаря гибкой и унифицированной структуре, предлагаемой Uni3D, разработчики наблюдают последовательное повышение производительности при масштабировании каждого компонента. Обучение крупномасштабному 3D-представлению также получает огромную выгоду от совместного использования 2D-стратегий и стратегий масштабирования. 

Как видно на рисунке ниже, платформа Uni3D демонстрирует повышение производительности по сравнению с предшествующим уровнем техники в настройках с несколькими и нулевыми попытками. Стоит отметить, что платформа Uni3D обеспечивает нулевую оценку точности классификации более 88% в ModelNet, что находится на одном уровне с производительностью нескольких современных методов контроля. 

Кроме того, платформа Uni3D также обеспечивает высочайшую точность и производительность при выполнении других репрезентативных 3D-задач, таких как сегментация деталей и понимание открытого мира. Платформа Uni3D направлена ​​на преодоление разрыва между 2D- и 3D-зрением путем масштабирования базовых 3D-моделей с помощью унифицированного, но простого подхода к предварительному обучению для изучения более надежных 3D-представлений для широкого спектра задач, что в конечном итоге может помочь в конвергенции 2D. и 3D-видение в широком спектре модальностей.

Uni3D: Связанные работы

Платформа Uni3D черпает вдохновение и учится на разработках, сделанных в ходе предыдущего обучения трехмерным представлениям, а также базовых моделей, особенно в различных модальностях. 

Обучение 3D-представлению

Метод обучения 3D-представлению использует точки облака для трехмерного понимания объекта, и эта область в недавнем прошлом много исследовалась разработчиками, и было замечено, что эти точки облака могут быть предварительно обучены под самоконтролем с использованием специальных 3D-предтекстовые задачи, включая моделирование точек маски, самореконструкцию и контрастное обучение. 

Стоит отметить, что эти методы работают с ограниченными данными и часто не исследуют мультимодальные представления в 3D из 2D или НЛП. Тем не менее, недавний успех платформы CLIP, которая обеспечивает высокую эффективность изучения визуальных концепций из необработанного текста с использованием метода контрастного обучения, а также направлена ​​​​на изучение трехмерных представлений путем выравнивания функций изображения, текста и точек облака с использованием того же метода контрастного обучения. 

Фундаментальные модели

Разработчики тщательно работали над созданием базовых моделей для масштабирования и унификации мультимодальных представлений. Например, в области НЛП разработчики работают над структурами, которые могут масштабировать предварительно обученные языковые модели, и это медленно меняет индустрию НЛП. Кроме того, прогресс можно наблюдать и в области 2D-видения, поскольку разработчики работают над платформами, которые используют методы масштабирования данных и моделей, чтобы помочь в переходе от языка к 2D-моделям, хотя такие структуры трудно воспроизвести для 3D-моделей из-за ограниченная доступность 3D-данных, а также проблемы, возникающие при унификации и масштабировании 3D-платформ. 

Изучив опыт двух вышеупомянутых областей работы, разработчики создали Платформа Uni3D, первая базовая 3D-модель с более чем миллиардом параметров, в которой используется унифицированная архитектура ViT или Vision Transformer, которая позволяет разработчикам масштабировать модель Uni3D, используя унифицированные стратегии 3D или NLP для масштабирования моделей. Разработчики надеются, что этот метод позволит платформе Uni3D преодолеть разрыв, который в настоящее время разделяет 2D и 3D видение, а также будет способствовать мультимодальной конвергенции.

Uni3D: метод и архитектура

На изображении выше показан общий обзор платформы Uni3D, масштабируемой и унифицированной 3D-инфраструктуры предварительного обучения для крупномасштабного обучения трехмерным представлениям. Разработчики используют более 3 миллионов текстов и 70 миллионов изображений в сочетании с более чем миллионом 10D-фигур для масштабирования платформы Uni3D до более чем миллиарда параметров. Платформа Uni3D использует 3D ViT или Vision Transformer в качестве 2D-кодировщика, который затем полностью обучается для согласования данных текста и изображения с функциями трехмерных точек облака, что позволяет платформе Uni3D обеспечивать желаемую эффективность и точность в широкий набор эталонов. Давайте теперь подробно рассмотрим работу платформы Uni3D. 

Масштабирование Uni3D Framework

Предыдущие исследования по обучению представлению точек облака традиционно были сосредоточены на разработке конкретных архитектур моделей, которые обеспечивают более высокую производительность в широком спектре приложений и работают с ограниченным объемом данных благодаря небольшим наборам данных. Однако недавние исследования пытались изучить возможность использования масштабируемого предварительного обучения в 3D, но не дали серьезных результатов из-за доступности ограниченных 3D-данных. Чтобы решить проблему масштабируемости 3D-платформ, платформа Uni3D использует возможности стандартной структуры преобразователя, которая почти отражает Vision Transformer, и может решить проблемы масштабирования за счет использования унифицированных стратегий масштабирования 2D или NLP для масштабирования размера модели. 

Предыдущие исследования по обучению представлению точек облака традиционно были сосредоточены на разработке конкретных архитектур моделей, которые обеспечивают более высокую производительность в широком спектре приложений и работают с ограниченным объемом данных благодаря небольшим наборам данных. Однако недавние исследования пытались изучить возможность использования масштабируемого предварительного обучения в 3D, но не дали серьезных результатов из-за доступности ограниченных 3D-данных. Чтобы решить проблему масштабируемости 3D-платформ, платформа Uni3D использует возможности стандартной структуры преобразователя, которая почти отражает Vision Transformer, и может решить проблемы масштабирования за счет использования унифицированных стратегий масштабирования 2D или NLP для масштабирования размера модели. 

Инициализация Uni3D

Еще одна серьезная проблема, с которой столкнулись предыдущие работы, заключалась в масштабировании трехмерных представлений, трудностях сходимости и переоснащении, которые были результатом большого размера моделей. Эффективным подходом к преодолению этого препятствия является предварительное обучение отдельных 3D-магистралей с помощью заданных задач 3D-предтекста и инициализация предварительно обученных параметров. Однако этот подход сопровождается высокими затратами на обучение, а также сложно обеспечить надежную инициализацию для кросс-модального обучения из-за ограниченного количества 3D-данных, доступных для целей обучения. 

Платформа Uni3D использует ванильный преобразователь, структура которого очень напоминает ViT. При таком подходе платформа Uni3D естественным образом может использовать предварительно обученные большие модели с другими модальностями для инициализации платформы Uni3D. 

Мультимодальное выравнивание

Платформа Uni3D пытается изучить согласование нескольких моделей между изображением, языком и облаками точек, используя парадигмы, аналогичные платформам OpenShape и ULIP. Кроме того, чтобы обеспечить справедливое сравнение с другими методами, платформа Uni3D использует ансамблевый набор 3D-данных OpenShape для целей обучения. Этот объединенный набор данных OpenShape состоит из 4 наборов 3D-данных: 

  1. Обратный. 
  2. Шейпнет. 
  3. 3D-БУДУЩЕЕ. 
  4. НПА 

Эксперименты и результаты

Платформа Uni3D тестируется в различных настройках и различных задачах классификации, включая ее производительность в режимах с нулевым и малым количеством попыток, результаты, связанные с пониманием открытого мира, и многое другое. Давайте подробно рассмотрим эти результаты.

Классификация формы нулевого выстрела

Чтобы оценить производительность платформы Uni3D при выполнении задач классификации форм с нулевым выстрелом, разработчики проводят эксперименты с использованием трех тестов, включая наборы тестовых данных ModelNet, ScanObjNN и Objaverse-LVIS. ModelNet и ScanObjNN — это наборы данных, широко используемые для задач классификации, и они состоят из 15 и 40 категорий объектов соответственно, тогда как тест Objaverse-LVIS представляет собой очищенный и аннотированный набор данных, состоящий из более чем 40,000 1,100 объектов в более чем 3 категориях. Сравнение фреймворков показано на изображении ниже, и, как видно, фреймворк UniXNUMXD значительно превосходит предыдущие современные фреймворки в различных настройках. 

Линейное зондирование с несколькими импульсами

В ИИ линейное зондирование — это распространенный метод, используемый для оценки представлений, которые изучает структура или модель. Чтобы оценить возможности линейного зондирования Uni3D, разработчики заморозили параметры платформы Uni3D, используя общие настройки OpenShape. После этого разработчики обучают линейный классификатор для Uni3D, используя метки классов с несколькими выстрелами. На рисунке ниже показаны возможности линейного зондирования различных платформ в наборе данных Objaverse-LVIS, а также средняя производительность модели по 10 случайным начальным значениям. Как можно видеть, платформа Uni3D значительно превосходит существующие методы при различных настройках нескольких снимков. 

Понимание открытого мира

Чтобы оценить способность платформы Uni3D понимать формы и объекты реального мира в режиме реального времени, разработчики используют наборы данных ScanNet и CLIP для изучения производительности Uni3D. Стоит отметить, что доступна мгновенная сегментация на основе истины, и основной целью является распознавание категории отдельного момента каждой сцены в условиях нулевого кадра. Результаты продемонстрированы на изображении ниже. Как можно видеть, платформа Uni3D обеспечивает исключительные результаты при понимании и распознавании в реальных условиях. Фреймворк Uni3D значительно превосходит существующие фреймворки, несмотря на то, что он никогда не обучался на реальных наборах данных. 

Кросс-модальный поиск

Мультимодальные представления, изученные платформой Uni3D, могут позволить платформе естественным образом извлекать трехмерные формы из текста или изображений. Чтобы получить трехмерные фигуры, модель вычисляет косинусное сходство между внедрениями трехмерных фигур и внедрениями текстового запроса или изображения запроса. Затем платформа использует алгоритм KNN или K Nearest Neighbor для создания трехмерных фигур, которые больше всего напоминают запрос, и результаты показаны на рисунке ниже. Как можно видеть, платформа Uni3D успешно использует реальные изображения для извлечения трехмерных фигур. Кроме того, стоит отметить, что обучающие изображения предназначены только для целей рендеринга, а разрыв между реальными и обучающими изображениями существенен. Кроме того, модель также принимает два входных изображения и извлекает формы, похожие на оба входных изображения, используя косинусное сходство между средними значениями внедрения обоих изображений и их внедренными трехмерными формами. Результаты интересны, поскольку демонстрируют способность Uni3D изучать разнообразные 3D-представления и воспринимать множество 3D-сигналов. 

В первом столбце платформа использует два изображения запроса для возврата трехмерных фигур, наиболее похожих на изображения запроса. Во втором столбце платформа использует два входных изображения для получения трехмерных фигур, которые напоминают оба входных изображения. Наконец, в последнем столбце модель использует тексты запросов и возвращает трехмерные фигуры, максимально напоминающие текстовый запрос. 

Заключение

В этой статье мы говорили о Uni3D, масштабируемой и унифицированной 3D-инфраструктуре для предварительного обучения, разработанной с целью изучения крупномасштабных 3D-представлений, которая проверяет свои пределы в масштабе более миллиарда параметров, более 10 миллионов изображений в сочетании с более чем 70 миллионами тексты и более миллиона 3D-фигур. Разработчики фреймворка включили в него ванильный преобразователь со структурой, эквивалентной ViT, который позволяет им масштабировать фреймворк Uni3D с использованием унифицированных стратегий масштабирования 2D или NLP. Кроме того, платформа Uni3D может использовать широкий спектр предварительно обученных 2D-структур и 2D-стратегий для работы в 3D-мире. Результаты экспериментов уже продемонстрировали огромный потенциал платформы Uni3D, поскольку платформа Uni3D дает точные и эффективные результаты в широком спектре настроек и превосходит существующие современные платформы. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.