Искусственный интеллект
In-Paint3D: создание изображений с использованием молниеносных моделей диффузии
Появление глубоких генеративных моделей ИИ значительно ускорило развитие ИИ с замечательными возможностями в области генерации естественного языка, 3D-генерации, генерации изображений и синтеза речи. Генеративные 3D-модели изменили многие отрасли и приложения, произведя революцию в современном 3D-производстве. Однако многие современные модели глубокой генерации сталкиваются с общим препятствием: сложная связь и сгенерированные сетки с текстурами освещения часто несовместимы с традиционными конвейерами рендеринга, такими как PBR (физический рендеринг). Модели на основе диффузии, которые генерируют 3D-ресурсы без текстур освещения, обладают замечательными возможностями для создания разнообразных 3D-активов, тем самым дополняя существующие 3D-структуры в таких отраслях, как кинопроизводство, игры и дополненная/виртуальная реальность.
В этой статье мы обсудим Paint3D, новую инфраструктуру от грубого до мелкого, способную создавать разнообразные карты текстур UV 2K с высоким разрешением для нетекстурированных 3D-сетей, зависящих либо от визуальных, либо от текстовых входных данных. Ключевой проблемой, которую решает Paint3D, является создание высококачественных текстур без внедрения информации об освещении, что позволяет пользователям повторно редактировать или переосвещать в современных графических конвейерах. Чтобы решить эту проблему, среда Paint3D использует предварительно обученную 2D-модель диффузии для выполнения слияния текстур с несколькими представлениями и создания изображений с условиями просмотра, первоначально создавая грубую текстурную карту. Однако, поскольку 2D-модели не могут полностью отключить световые эффекты или полностью представить 3D-фигуры, на карте текстур могут наблюдаться артефакты освещения и неполные области.
В этой статье мы подробно изучим фреймворк Paint3D, изучим его работу и архитектуру, а также сравним его с современными фреймворками глубокой генерации. Итак, начнем.
Paint3D: Введение
Модели глубокого генеративного искусственного интеллекта продемонстрировали исключительные возможности генерации естественного языка, создания 3D-изображений и синтеза изображений и были реализованы в реальных приложениях, что произвело революцию в индустрии создания 3D-изображений. Однако, несмотря на свои замечательные возможности, современные системы глубокого генеративного искусственного интеллекта часто создают сетки со сложной связкой и хаотичными текстурами освещения, которые несовместимы с традиционными конвейерами рендеринга, включая физически основанный рендеринг (PBR). Точно так же быстро развивается синтез текстур, особенно с использованием 2D-моделей диффузии. Эти модели эффективно используют предварительно обученные модели диффузии глубины изображения и текстовые условия для создания высококачественных текстур. Однако остается серьезная проблема: предварительно освещенные текстуры могут отрицательно повлиять на окончательную визуализацию 3D-среды, вызывая ошибки освещения при настройке освещения в рамках обычных рабочих процессов, как показано на следующем изображении.

Как было отмечено, текстурные карты без предварительного освещения без проблем работают с традиционными конвейерами рендеринга, обеспечивая точные результаты. В отличие от этого, текстурные карты с предварительным освещением создают некорректные тени при применении повторного освещения. Фреймворки генерации текстур, обученные на 3D-данных, предлагают альтернативный подход, создавая текстуры на основе понимания всей геометрии конкретного 3D-объекта. Хотя эти фреймворки могут обеспечивать лучшие результаты, им не хватает возможностей обобщения, необходимых для применения модели к 3D-объектам за пределами их обучающих данных.
Текущие модели генерации текстур сталкиваются с двумя критическими проблемами: достижение широкого обобщения для различных объектов с использованием подсказок по изображению или различных подсказок и исключение связанного освещения из результатов предварительного обучения. Предварительно освещенные текстуры могут влиять на конечный результат текстурированных объектов в механизмах рендеринга. Кроме того, поскольку предварительно обученные 2D-модели диффузии предоставляют только 2D-результаты в области просмотра, им не хватает полного понимания форм, что приводит к несогласованности в поддержании согласованности вида для 3D-объектов.
Чтобы решить эти проблемы, среда Paint3D разрабатывает двухэтапную текстуру. диффузионная модель для 3D-объектов который обобщает различные предварительно обученные генеративные модели и сохраняет согласованность представления при создании текстур без освещения.
Paint3D — это двухэтапная модель генерации текстур от грубого до мелкого, которая использует надежные подсказки и возможности создания изображений предварительно обученных генеративных моделей искусственного интеллекта для текстурирования 3D-объектов. На первом этапе Paint3D постепенно производит выборку многовидовых изображений из предварительно обученной модели распространения 2D-изображения с учетом глубины, что позволяет обобщать высококачественные, насыщенные текстуры, полученные из различных подсказок. Затем модель генерирует исходную карту текстуры путем обратного проецирования этих изображений на поверхность трехмерной сетки. На втором этапе модель фокусируется на создании текстур без освещения путем реализации подходов, используемых диффузионными моделями, специализирующимися на устранении влияния освещения и уточнении неполных областей с учетом формы. На протяжении всего процесса среда Paint3D последовательно генерирует высококачественные текстуры 3K семантически, устраняя внутренние эффекты освещения.

Подводя итог, Paint3D — это новая генеративная модель искусственного интеллекта от грубого до мелкого, предназначенная для создания разнообразных карт текстур высокого разрешения 2K UV без освещения для нетекстурированных 3D-сетей. Он направлен на достижение современной производительности при текстурировании 3D-объектов с различными условными входными данными, включая текст и изображения, что дает значительные преимущества для задач синтеза и редактирования графики.
Методология и архитектура
Платформа Paint3D постепенно генерирует и уточняет карты текстур для создания разнообразных и высококачественных текстур для 3D-моделей с использованием условных входных данных, таких как изображения и подсказки, как показано на следующем изображении.

Этап 1: Прогрессивная генерация грубой текстуры
На начальном этапе создания грубой текстуры Paint3D использует предварительно обученное 2D-изображение. диффузионные модели для выборки многовидовых изображений, которые затем обратно проецируются на поверхность сетки для создания исходных карт текстур. Этот этап начинается с создания карты глубины на основе различных изображений с камеры. Модель использует условия глубины для выборки изображений из диффузионной модели, которые затем обратно проецируются на поверхность трехмерной сетки. Этот альтернативный подход к рендерингу, выборке и обратной проекции повышает согласованность текстурных сеток и помогает постепенно создавать карту текстур.
Процесс начинается с видимых областей 3D-сетки, фокусируясь на создании текстуры из изображения с первой камеры путем рендеринга 3D-сетки в карту глубины. Затем изображение текстуры отбирается на основе внешнего вида и условий глубины и обратно проецируется на сетку. Этот метод повторяется для последующих точек обзора, включая предыдущие текстуры для рендеринга не только изображения глубины, но и частично цветного изображения RGB с бесцветными масками. Модель использует кодировщик прорисовки изображений с учетом глубины для заполнения неокрашенных областей, генерируя полную карту грубой текстуры путем обратного проецирования прорисованных изображений на 3D-сетку.
Для более сложных сцен или объектов модель использует несколько представлений. Первоначально он захватывает две карты глубины с симметричных точек зрения и объединяет их в сетку глубины, которая заменяет одно изображение глубины для многопроекционной выборки текстур с учетом глубины.
Этап 2: Уточнение текстуры в UV-пространстве
Несмотря на создание логических грубых карт текстур, возникают такие проблемы, как дыры в текстурах из-за процессов рендеринга и тени освещения из моделей диффузии 2D-изображений. Чтобы решить эту проблему, Paint3D выполняет процесс диффузии в UV-пространстве на основе карты грубой текстуры, повышая визуальную привлекательность и решая проблемы.
Однако уточнение карты текстур в UV-пространстве может привести к появлению разрывов из-за фрагментации непрерывных текстур на отдельные фрагменты. Чтобы смягчить это, Paint3D уточняет карту текстуры, используя информацию о смежности фрагментов текстуры. В UV-пространстве карта положения представляет собой информацию о трехмерном соседстве фрагментов текстуры, рассматривая каждый нефоновый элемент как координату трехмерной точки. Модель использует дополнительный кодировщик карты положения, аналогичный ControlNet, для интеграции этой информации о смежности в процессе распространения.
Модель одновременно использует положение условного кодировщика и других кодировщиков для выполнения задач уточнения в UV-пространстве, предлагая две возможности: UVHD (UV High Definition) и UV-рисование. UVHD повышает визуальную привлекательность и эстетику за счет использования кодировщика улучшения изображения и кодировщика положения с моделью диффузии. УФ-впечатывание заполняет дыры в текстуре, избегая проблем с самозатенением при рендеринге. Этап уточнения начинается с прорисовки UV, за которой следует UVHD для создания окончательной уточненной карты текстуры.
Интегрируя эти методы уточнения, среда Paint3D генерирует полные, разнообразные карты UV-текстур с высоким разрешением и без освещения, что делает ее надежным решением для текстурирования 3D-объектов.
Paint3D: эксперименты и результаты
Модель Paint3D использует модель text2image Stable Diffusion для помощи в задачах создания текстур, а компонент кодирования изображений управляет условиями изображения. Чтобы улучшить контроль над условными задачами, такими как зарисовка изображения, обработка глубины и изображения высокой четкости, среда Paint3D использует кодировщики домена ControlNet. Модель реализована на платформе PyTorch, а рендеринг и проекции текстур выполняются на Kaolin.
Сравнение текста и текстур
Чтобы оценить производительность Paint3D, мы начнем с анализа генерации текстур при обработке текстовых подсказок и сравнения ее с современными платформами, такими как Text2Tex, TEXTure и LatentPaint. Как показано на следующем изображении, среда Paint3D не только превосходно генерирует детализацию текстур высокого качества, но и эффективно синтезирует карту текстур без освещения.
Используя надежные возможности кодировщиков Stable Diffusion и ControlNet, Paint3D обеспечивает превосходное качество текстур и универсальность. Сравнение подчеркивает способность Paint3D создавать детализированные текстуры высокого разрешения без встроенной подсветки, что делает его ведущим решением для задач 3D-текстурирования.

Для сравнения, платформа Latent-Paint склонна создавать размытые текстуры, что приводит к неоптимальным визуальным эффектам. С другой стороны, хотя структура TEXTure генерирует четкие текстуры, ей не хватает гладкости и имеются заметные сращивания и швы. Наконец, платформа Text2Tex удивительно хорошо генерирует гладкие текстуры, но не может воспроизвести производительность при создании тонких текстур со сложной детализацией. На следующем изображении фреймворк Paint3D количественно сравнивается с современными фреймворками.

Как можно заметить, среда Paint3D превосходит все существующие модели, причём со значительным отрывом: улучшение базового уровня FID почти на 30 %, а базового уровня KID — примерно на 40 %. Улучшение базовых показателей FID и KID демонстрирует способность Paint3D генерировать высококачественные текстуры для различных объектов и категорий.
Сравнение изображения и текстуры
Чтобы создать генеративные возможности Paint3D с помощью визуальных подсказок, мы используем модель TEXTure в качестве базовой модели. Как упоминалось ранее, модель Paint3D использует кодировщик изображений, полученный из модели text2image из Стабильная диффузия. Как видно на следующем изображении, среда Paint3D удивительно хорошо синтезирует изысканные текстуры и по-прежнему способна поддерживать высокую точность относительно состояния изображения.

С другой стороны, платформа TEXTure способна генерировать текстуру, аналогичную Paint3D, но ей не хватает точного представления деталей текстуры в состоянии изображения. Кроме того, как показано на следующем изображении, платформа Paint3D обеспечивает лучшие базовые оценки FID и KID по сравнению с платформой TEXTure: первая снижается с 40.83 до 26.86, тогда как вторая демонстрирует снижение с 9.76 до 4.94.

Заключение
В этой статье мы говорили о Paint3D, новом фреймворке от грубого до мелкого, способном создавать разнообразные 2K UV-карты текстур с высоким разрешением и без освещения для нетекстурированных 3D-сетей, обусловленных либо визуальными, либо текстовыми входными данными. Главной особенностью среды Paint3D является то, что она способна генерировать 2K UV-текстуры высокого разрешения без освещения, которые семантически согласованы и не зависят от ввода изображения или текста. Благодаря подходу от грубого до мелкого фреймворк Paint3D создает разнообразные текстурные карты с высоким разрешением без освещения и обеспечивает лучшую производительность, чем современные фреймворки.












