Искусственный интеллект

Paint3D : Безосвещенная диффузионная модель для генерации изображений

Published January 23, 2024

Updated April 4, 2026

Kunal Kejriwal

Быстрое развитие моделей генерации AI, особенно глубоких генеративных моделей AI, существенно расширило возможности в области генерации естественного языка, 3D-генерации, генерации изображений и синтеза речи. Эти модели революционизировали производство 3D во различных отраслях. Однако многие сталкиваются с проблемой: их сложная структура и сгенерированные сетки часто несовместимы с традиционными трубопроводами рендеринга, такими как Physically Based Rendering (PBR). Диффузионные модели, в частности, без текстур освещения, демонстрируют впечатляющую разнообразную генерацию 3D-активов, улучшая 3D-фреймворки в кинопроизводстве, играх и AR/VR.

Эта статья представляет Paint3D, новую структуру для производства разнообразных, высококачественных 2K-текстурных карт для неотекстурированных 3D-сеток, учитывая визуальные или текстовые входные данные. Основной проблемой Paint3D является генерация высококачественных текстур без встроенного освещения, позволяющая пользователям редактировать или перенастраивать освещение в современных графических трубопроводах. Он использует предварительно обученную 2D-диффузионную модель для многовидовой текстурной фузии, генерируя начальную грубую текстурную карту. Однако эти карты часто показывают артефакты освещения и неполные области из-за ограничений 2D-модели в отключении эффектов освещения и полном представлении 3D-форм.

Мы рассмотрим работу Paint3D, его архитектуру и сравнения с другими глубокими генеративными структурами. Давайте начнем.

Paint3D : Введение

Возможности глубоких генеративных моделей AI в генерации естественного языка, 3D-генерации и синтезе изображений хорошо известны и реализованы в реальных приложениях, революционизируя отрасль 3D-генерации. Несмотря на их впечатляющие возможности, современные глубокие генеративные AI-структуры генерируют сетки, характеризующиеся сложной структурой и хаотичными текстурами освещения, которые часто несовместимы с традиционными трубопроводами рендеринга, включая PBR или Physically Based Rendering. Как и глубокие генеративные модели AI, синтез текстур также быстро продвинулся, особенно в использовании 2D-диффузионных моделей. Модели синтеза текстур используют предварительно обученные глубинно-изображенные диффузионные модели эффективно для использования текстовых условий для генерации высококачественных текстур. Однако эти подходы сталкиваются с проблемами предосвещенных текстур, которые могут существенно повлиять на окончательные 3D-окружения рендеринга и ввести ошибки освещения при изменении освещения в общих рабочих процессах, как показано на следующем изображении.

Как можно наблюдать, текстурная карта с свободным освещением работает в синхронизации с традиционными трубопроводами рендеринга, доставляя точные результаты, тогда как текстурная карта с предосвещением включает в себя неподходящие тени при перенастройке освещения. С другой стороны, структуры генерации текстур, обученные на 3D-данных, предлагают альтернативный подход, в котором структура генерирует текстуры, понимая геометрию конкретного 3D-объекта. Хотя они могут доставить лучшие результаты, структуры генерации текстур, обученные на 3D-данных, не имеют возможностей обобщения, что препятствует их способности применять модель к 3D-объектам вне их обучающих данных.

Текущие модели генерации текстур сталкиваются с двумя критическими проблемами: использование руководства изображением или разнообразных подсказок для достижения более широкой степени обобщения для разных объектов и вторая проблема – исключение связанного освещения из результатов, полученных из предварительного обучения. Предосвещенные текстуры могут потенциально вмешиваться в окончательные результаты текстурированных объектов в трубопроводах рендеринга, и поскольку предварительно обученные 2D-диффузионные модели предоставляют 2D-результаты только в области вида, они не имеют полного понимания форм, что приводит к их неспособности поддерживать последовательность вида для 3D-объектов.

Из-за вышеупомянутых проблем структура Paint3D пытается разработать двуступенчатую модель диффузии текстуры для 3D-объектов, которая обобщается для разных предварительно обученных генеративных моделей и сохраняет последовательность вида при обучении генерации текстуры без освещения.

Paint3D – это двуступенчатая модель грубой до тонкой генерации текстуры, целью которой является использование сильного руководства подсказками и возможностей генерации изображений предварительно обученных генеративных моделей AI для текстурирования 3D-объектов. На первом этапе структура Paint3D сначала выборочно образует многовидовые изображения из предварительно обученной глубинно-осведомленной 2D-диффузионной модели прогрессивно, чтобы обобщить высококачественные и богатые текстурные результаты из разнообразных подсказок. Затем модель генерирует начальную текстурную карту, обратно проецируя эти изображения на поверхность 3D-сетки. На втором этапе модель фокусируется на генерации текстур без освещения, реализуя подходы, используемые диффузионными моделями, специализирующимися на удалении влияния освещения и уточнении неполных областей. На протяжении всего процесса структура Paint3D последовательно генерирует высококачественные 2K-текстуры семантически и исключает внутренние эффекты освещения.

Вкратце, Paint3D – это новая грубая до тонкая генеративная модель AI, целью которой является производство разнообразных, безосвещенных и высококачественных 2K UV-текстурных карт для неотекстурированных 3D-сеток для достижения передового опыта в текстурировании 3D-объектов с разными условными входными данными, включая текст и изображения, и предлагает значительное преимущество для задач синтеза и графического редактирования.

Методология и Архитектура

Структура Paint3D генерирует и уточняет текстурные карты прогрессивно, чтобы генерировать разнообразные и высококачественные текстурные карты для 3D-моделей, используя желаемые условные входные данные, включая изображения и подсказки, как показано на следующем изображении.

На этапе грубой генерации модель Paint3D использует предварительно обученные 2D-диффузионные модели изображений для выборочного образования многовидовых изображений, а затем создает начальную текстурную карту, обратно проецируя эти изображения на поверхность сетки. На втором этапе, то есть этапе уточнения, модель Paint3D использует процесс диффузии в UV-пространстве, чтобы улучшить грубые текстурные карты, достигая высококачественной, инпейтинговой и безосвещенной функции, которая обеспечивает визуальную привлекательность и полноту окончательной текстуры.

Этап 1: Прогрессивная Грубая Генерация Текстуры

На этапе прогрессивной грубой генерации текстуры модель Paint3D генерирует грубую UV-текстурную карту для 3D-сеток, используя предварительно обученную глубинно-осведомленную 2D-диффузионную модель. Более конкретно, модель сначала использует разные камерные виды для рендеринга глубинной карты, затем использует глубинные условия для выборочного образования изображений из диффузионной модели изображений, и затем обратно проецирует эти изображения на поверхность сетки. Структура выполняет рендеринг, выборочное образование и обратную проекцию подходов чередуя, чтобы улучшить последовательность текстурных сеток, что в конечном итоге помогает в прогрессивной генерации текстурной карты.

Модель начинает генерировать текстуру видимой области с камерными видами, фокусирующимися на 3D-сетке, и рендерит 3D-сетку в глубинную карту из первого вида. Модель затем выборочно образует текстурное изображение для условий вида и глубины. Модель затем обратно проецирует изображение на 3D-сетку. Для точек зрения модель Paint3D выполняет аналогичный подход, но с небольшим изменением, выполняя процесс выборочного образования текстуры с помощью подхода рисования изображения. Кроме того, модель учитывает текстурированные области из предыдущих точек зрения, позволяя процессу рендеринга не только выводить глубинное изображение, но и частично окрашенное RGB-изображение с неокрашенной маской в текущем виде.

Модель затем использует глубинно-осведомленную модель инпейтинга изображения с кодировщиком инпейтинга, чтобы заполнить неокрашенную область в RGB-изображении. Модель затем генерирует текстурную карту из вида, обратно проецируя инпейтинговое изображение на 3D-сетку под текущим видом, позволяя модели генерировать текстурную карту прогрессивно и достигать всей грубой структуры карты. Наконец, модель расширяет процесс выборочного образования текстуры до сцены или объекта с несколькими видами. Более конкретно, модель использует пару камер для захвата двух глубинных карт во время начального выборочного образования текстуры из симметричных точек зрения. Модель затем объединяет две глубинные карты и составляет глубинную сетку. Модель заменяет единственное глубинное изображение глубинной сеткой, чтобы выполнить многовидовое глубинно-осведомленное выборочное образование текстуры.

Этап 2: Уточнение Текстуры в UV-пространстве

Хотя вид грубых текстурных карт логичен, он сталкивается с некоторыми проблемами, такими как текстурные дыры, вызванные во время процесса рендеринга самооключением или тенями освещения из-за участия 2D-диффузионных моделей. Модель Paint3D пытается выполнить процесс диффузии в UV-пространстве на основе грубой текстурной карты, пытаясь смягчить проблемы и улучшить визуальную привлекательность текстурной карты еще дальше во время уточнения текстуры. Однако уточнение основной диффузионной модели изображения с текстурными картами в UV-пространстве вводит текстурную не连续ность, поскольку текстурная карта генерируется UV-отображением текстуры 3D-поверхности, разрезающей непрерывную текстуру на ряд отдельных фрагментов в UV-пространстве. В результате фрагментации модель находит трудным изучить 3D-смежные отношения между фрагментами, что приводит к проблемам текстурной не连续ности.

Модель уточняет текстурную карту в UV-пространстве, выполняя процесс диффузии под руководством информации о смежности текстурных фрагментов. Важно отметить, что в UV-пространстве позиционная карта представляет 3D-смежную информацию текстурных фрагментов, с моделью, рассматривающей каждый нефоновый элемент как 3D-координату точки. Во время процесса диффузии модель объединяет 3D-смежную информацию, добавляя отдельный кодировщик позиции к предварительно обученной диффузионной модели изображения. Новый кодировщик напоминает конструкцию структуры ControlNet и имеет ту же архитектуру, что и кодировщик, реализованный в диффузионной модели изображения, с нулевым свертыванием слоя, соединяющим два. Кроме того, текстурная диффузионная модель обучается на наборе данных, включающем текстурные и позиционные карты, и модель учится предсказывать шум, добавленный к шумному латентному. Модель затем оптимизирует кодировщик позиции и замораживает обученный денойзер для своей задачи диффузии изображения.

Модель затем одновременно использует позицию условного кодировщика и другие кодировщики для выполнения задач уточнения в UV-пространстве. В этом отношении модель имеет две возможности уточнения: UVHD или UV Высокая Четкость и UV-инпейтинг. Метод UVHD предназначен для улучшения визуальной привлекательности и эстетики текстурной карты. Чтобы достичь UVHD, модель использует кодировщик улучшения изображения и кодировщик позиции с диффузионной моделью. Модель использует метод UV-инпейтинга, чтобы заполнить текстурные дыры в UV-плоскости, который способен избегать проблем самооключения, генерируемых во время рендеринга. На этапе уточнения модель Paint3D сначала выполняет UV-инпейтинг, а затем выполняет UVHD, чтобы сгенерировать окончательную уточненную текстурную карту. Интегрируя два метода уточнения, структура Paint3D способна производить полные, разнообразные, высококачественные и безосвещенные UV-текстурные карты.

Paint3D : Эксперименты и Результаты

Модель Paint3D использует модель Stable Diffusion text2image, чтобы помочь ей с задачами генерации текстуры, в то время как она использует компонент кодировщика изображения для обработки условий изображения. Чтобы еще больше улучшить ее хватку на условных контролях, таких как инпейтинг изображения, глубина и высокая четкость изображения, структура Paint3D использует кодировщики домена ControlNet. Модель реализована на основе PyTorch, а рендеринг и проекция текстуры реализованы на Kaolin.

Сравнение Текст в Текстуры

Чтобы проанализировать ее производительность, мы начинаем с оценки эффекта генерации текстуры Paint3D при условии текстовых подсказок и сравниваем ее с передовыми структурами, включая Text2Tex, TEXTure и LatentPaint. Как можно наблюдать на следующем изображении, структура Paint3D не только превосходит в генерации высококачественных текстурных деталей, но также синтезирует безосвещенную текстурную карту разумно хорошо.

В сравнении структура Latent-Paint склонна генерировать размытые текстуры, что приводит к субоптимальным визуальным эффектам. С другой стороны, хотя структура TEXTure генерирует четкие текстуры, она лишена гладкости и демонстрирует заметные швы и швы. Наконец, структура Text2Tex генерирует гладкие текстуры замечательно, но она не может повторить производительность для генерации тонких текстур с интригующими деталями.

Следующее изображение сравнивает структуру Paint3D с передовыми структурами количественно.

Как можно наблюдать, структура Paint3D превосходит все существующие модели, и с значительным отрывом, с почти 30% улучшением в базовой линии FID и примерно 40% улучшением в базовой линии KID. Улучшение в базовых линиях FID и KID демонстрирует способность Paint3D генерировать высококачественные текстуры для разных объектов и категорий.

Сравнение Изображение в Текстуру

Чтобы сгенерировать возможности Paint3D с помощью визуальных подсказок, мы используем модель TEXTure в качестве базовой. Как упоминалось ранее, модель Paint3D использует кодировщик изображения из модели text2image из Stable Diffusion. Как можно видеть на следующем изображении, структура Paint3D синтезирует изысканные текстуры замечательно, и все еще способна поддерживать высокую точность относительно условия изображения.

С другой стороны, структура TEXTure способна генерировать текстуру, подобную Paint3D, но она не может точно представить текстурные детали в условии изображения. Кроме того, как демонстрируется на следующем изображении, структура Paint3D доставляет лучшие базовые показатели FID и KID по сравнению со структурой TEXTure, с первым уменьшением с 40,83 до 26,86, а вторым показывающим уменьшение с 9,76 до 4,94.

Окончательные Мысли

В этой статье мы говорили о Paint3D, грубой до тонкой новой структуре, способной производить безосвещенные, разнообразные и высококачественные 2K UV-текстурные карты для неотекстурированных 3D-сеток, учитывая визуальные или текстовые входные данные. Основным преимуществом структуры Paint3D является то, что она способна генерировать безосвещенные высококачественные 2K UV-текстуры, семантически последовательные без условий изображения или текста. Благодаря своему грубому до тонкому подходу, структура Paint3D производит безосвещенные, разнообразные и высококачественные текстурные карты, и доставляет лучшую производительность, чем текущие передовые структуры.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.