Искусственный интеллект

In-Paint3D: Генерация изображений с помощью моделей диффузии с меньшим количеством световых эффектов

Published July 15, 2024

Updated April 27, 2026

Kunal Kejriwal

С появлением глубоких генеративных моделей ИИ развитие ИИ с замечательными возможностями в генерации естественного языка, 3D-генерации, генерации изображений и синтезе речи значительно ускорилось. 3D-генеративные модели преобразовали многочисленные отрасли и применения, революционизируя текущий ландшафт производства 3D. Однако многие современные глубокие генеративные модели сталкиваются с общей проблемой: сложная проводка и сгенерированные сетки с текстурами освещения часто несовместимы с традиционными трубопроводами рендеринга, такими как PBR (Физически основанный рендеринг). Модели, основанные на диффузии, которые генерируют 3D-активы без текстур освещения, обладают замечательными возможностями для разнообразной генерации 3D-активов, тем самым дополняя существующие 3D-фреймворки в отраслях, таких как кинопроизводство, игры и дополненная/виртуальная реальность.

В этой статье мы обсудим Paint3D, новую粗то-файновую фреймворку, способную производить разнообразные, высококачественные 2K UV-текстурные карты для неотображаемых 3D-сеток, условленных либо визуальными, либо текстовыми входами. Основная проблема, которую решает Paint3D, заключается в генерации высококачественных текстур без внедрения информации об освещении, что позволяет пользователям повторно редактировать или повторно освещать внутри современных графических трубопроводов. Чтобы решить эту проблему, фреймворк Paint3D использует предварительно обученную 2D-модель диффузии для выполнения многовидовой текстурной фузии и генерации условленных изображений, изначально производя грубую текстурную карту. Однако, поскольку 2D-модели не могут полностью отключить эффекты освещения или полностью представлять 3D-формы, текстурная карта может проявлять артефакты освещения и неполные области.

В этой статье мы рассмотрим фреймворк Paint3D более подробно, изучая его работу и архитектуру, а также сравнивая его с современными глубокими генеративными фреймворками. Итак, давайте начнем.

Paint3D: Введение

Глубокие генеративные модели ИИ продемонстрировали исключительные возможности в генерации естественного языка, 3D-генерации и синтезе изображений и были реализованы в реальных приложениях, революционизируя отрасль 3D-генерации. Однако, несмотря на их замечательные возможности, современные глубокие генеративные модели ИИ часто производят сетки с сложной проводкой и хаотичными текстурами освещения, которые несовместимы с традиционными трубопроводами рендеринга, включая PBR. Аналогично, синтез текстур развивался быстро, особенно с использованием 2D-моделей диффузии. Эти модели эффективно используют предварительно обученные модели диффузии глубины-изображения и текстовые условия для генерации высококачественных текстур. Однако значительная проблема остается: предварительно освещенные текстуры могут негативно повлиять на окончательные рендеринги 3D-среды, вводя ошибки освещения, когда свет регулируется внутри общих рабочих процессов, как показано на следующем изображении.

Как наблюдается, текстурные карты без предварительного освещения работают без проблем с традиционными трубопроводами рендеринга, обеспечивая точные результаты. Напротив, текстурные карты с предварительным освещением включают неуместные тени, когда применяется повторное освещение. Фреймворки генерации текстур, обученные на 3D-данных, предлагают альтернативный подход, генерируя текстуры, понимая геометрию конкретного 3D-объекта. Хотя эти фреймворки могут обеспечить лучшие результаты, они缺уют возможностей обобщения, необходимых для применения модели к 3D-объектам вне их обучающих данных.

Текущие модели генерации текстур сталкиваются с двумя критическими проблемами: достижением широкого обобщения на разных объектах с помощью руководства изображением или разнообразных подсказок и устранением связанного освещения из результатов предварительного обучения. Предварительно освещенные текстуры могут вмешиваться в окончательные результаты текстурированных объектов внутри рендеринговых движков. Кроме того, поскольку предварительно обученные 2D-модели диффузии предоставляют только 2D-результаты в области вида, они не имеют всестороннего понимания форм, что приводит к несоответствиям в поддержании согласованности вида для 3D-объектов.

Чтобы решить эти проблемы, фреймворк Paint3D разработал двуступенчатую модель диффузии текстур для 3D-объектов, которая обобщает на разных предварительно обученных генеративных моделях и сохраняет согласованность вида при генерации текстур без освещения.

Paint3D – это двуступенчатая,粗то-файная модель генерации текстур, которая использует сильное руководство подсказками и возможности генерации изображений предварительно обученных генеративных моделей ИИ для текстурирования 3D-объектов. На первом этапе Paint3D выборочно образует многовидовые изображения из предварительно обученной 2D-модели диффузии изображения прогрессивно, обеспечивая обобщение высококачественных, богатых текстурных результатов из разнообразных подсказок. Затем модель генерирует начальную текстурную карту, обратно проецируя эти изображения на поверхность 3D-сетки. На втором этапе модель фокусируется на генерации текстур без освещения, реализуя подходы, используемые моделями диффузии, специализированными на удалении влияния освещения и уточнении областей, не осведомленных о форме.

На протяжении всего процесса фреймворк Paint3D последовательно генерирует высококачественные 2K-текстуры семантически, устраняя внутренние эффекты освещения.

В заключение, Paint3D – это новая,粗то-файная генеративная модель ИИ, предназначенная для производства разнообразных, без освещения, высококачественных 2K UV-текстурных карт для неотображаемых 3D-сеток. Она направлена на достижение лучшей производительности в текстурировании 3D-объектов с разными условными входами, включая текст и изображения, предлагая значительные преимущества для задач синтеза и редактирования графики.

Методология и архитектура

Фреймворк Paint3D генерирует и уточняет текстурные карты прогрессивно, чтобы произвести разнообразные и высококачественные текстуры для 3D-моделей с помощью условных входов, таких как изображения и подсказки, как показано на следующем изображении.

Этап 1: Прогрессивная грубая генерация текстуры

На начальном этапе грубой генерации текстуры Paint3D использует предварительно обученные 2D-модели диффузии изображения для выборочного образования многовидовых изображений, которые затем обратно проецируются на поверхность сетки, чтобы создать начальную текстурную карту. Этот этап начинается с генерации глубинной карты из различных камерных видов. Модель использует глубинные условия для выборочного образования изображений из модели диффузии, которые затем обратно проецируются на поверхность 3D-сетки. Этот подход чередующегося рендеринга, выборочного образования и обратной проекции улучшает согласованность текстурных сеток и помогает прогрессивно генерировать текстурную карту.

Процесс начинается с видимых областей 3D-сетки, фокусируясь на генерации текстуры из первого камерного вида путем рендеринга 3D-сетки в глубинную карту. Текстурное изображение затем выборочно образуется на основе внешнего вида и глубинных условий и обратно проецируется на сетку. Этот метод повторяется для последующих точек зрения, включая предыдущие текстуры для рендеринга не только глубинного изображения, но и частично окрашенного RGB-изображения с неокрашенными масками. Модель использует глубинно-осведомленный кодировщик инпейтинга изображения, чтобы заполнить неокрашенные области, генерируя полную грубую текстурную карту, обратно проецируя инпейнтенные изображения на 3D-сетку.

Для более сложных сцен или объектов модель использует несколько точек зрения. Первоначально она захватывает две глубинные карты из симметричных точек зрения и объединяет их в глубинную сетку, которая заменяет единственное глубинное изображение для многовидовой глубинно-осведомленной выборки текстуры.

Этап 2: Уточнение текстуры в UV-пространстве

Несмотря на генерацию логичных грубых текстурных карт, возникают проблемы, такие как текстурные дыры из процессов рендеринга и тени освещения из 2D-моделей диффузии изображения. Чтобы решить эти проблемы, Paint3D выполняет процесс диффузии в UV-пространстве на основе грубой текстурной карты, улучшая визуальную привлекательность и решая проблемы.

Однако уточнение текстурной карты в UV-пространстве может ввести разрывы из-за фрагментации непрерывных текстур на отдельные фрагменты. Чтобы смягчить это, Paint3D уточняет текстурную карту, используя информацию о соседстве фрагментов текстуры. В UV-пространстве позиционная карта представляет 3D-информацию о соседстве фрагментов текстуры, рассматривая каждый нефоновый элемент как 3D-координату точки. Модель использует дополнительный кодировщик позиционной карты, аналогичный ControlNet, чтобы интегрировать эту информацию о соседстве во время процесса диффузии.

Модель одновременно использует позицию условного кодировщика и других кодировщиков для выполнения задач уточнения в UV-пространстве, предлагая две возможности: UVHD (UV Высокая Четкость) и UV-инпейтинг. UVHD улучшает визуальную привлекательность и эстетику, используя кодировщик улучшения изображения и позиционный кодировщик с моделью диффузии. UV-инпейтинг заполняет текстурные дыры, избегая проблем самоокключения из рендеринга. Этап уточнения начинается с UV-инпейтинга, за которым следует UVHD, чтобы произвести окончательную уточненную текстурную карту.

Интегрируя эти методы уточнения, фреймворк Paint3D генерирует полные, разнообразные, высококачественные и без освещения UV-текстурные карты, что делает его прочным решением для текстурирования 3D-объектов.

Paint3D: Эксперименты и результаты

Модель Paint3D использует модель текст-изображение Stable Diffusion для помощи в задачах генерации текстур, в то время как компонент кодировщика изображения управляет условиями изображения. Чтобы улучшить контроль над условными задачами, такими как инпейтинг изображения, обработка глубины и высокочеткая графика, фреймворк Paint3D использует кодировщики домена ControlNet. Модель реализована на фреймворке PyTorch, с рендерингом и проекциями текстур, выполненными на Kaolin.

Сравнение текстур на основе текста

Чтобы оценить производительность Paint3D, мы начинаем с анализа его генерации текстур при условии текстовых подсказок, сравнивая его с современными фреймворками, такими как Text2Tex, TEXTure и LatentPaint. Как показано на следующем изображении, фреймворк Paint3D не только превосходит в генерации высококачественных деталей текстуры, но и эффективно синтезирует текстурную карту без освещения.

Используя прочные возможности Stable Diffusion и кодировщиков ControlNet, Paint3D обеспечивает лучшее качество текстуры и универсальность. Сравнение подчеркивает способность Paint3D производить подробные, высококачественные текстуры без внедренного освещения, что делает его ведущим решением для задач текстурирования 3D.

В сравнении фреймворк Latent-Paint склонен генерировать размытые текстуры, что приводит к субоптимальным визуальным эффектам. С другой стороны, хотя фреймворк TEXTure генерирует четкие текстуры, он лишен гладкости и проявляет заметные швы и швы. Наконец, фреймворк Text2Tex генерирует гладкие текстуры замечательно, но он не может повторить производительность для генерации тонких текстур с интригующими деталями. Следующее изображение сравнивает фреймворк Paint3D с современными фреймворками количественно.

Как можно наблюдать, фреймворк Paint3D превосходит все существующие модели, и с значительным отрывом, с почти 30% улучшением базовой метрики FID и примерно 40% улучшением базовой метрики KID. Улучшение метрик FID и KID демонстрирует способность Paint3D генерировать высококачественные текстуры на разнообразных объектах и категориях.

Сравнение текстур на основе изображения

Чтобы сгенерировать возможности Paint3D с помощью визуальных подсказок, мы используем модель TEXTure в качестве базовой. Как упоминалось ранее, модель Paint3D использует кодировщик изображения из модели текст-изображение из Stable Diffusion. Как можно увидеть на следующем изображении, фреймворк Paint3D синтезирует исключительные текстуры замечательно, и все еще может поддерживать высокую верность относительно условия изображения.

С другой стороны, фреймворк TEXTure может генерировать текстуру, подобную Paint3D, но он не может точно представить детали текстуры в условии изображения. Кроме того, как показано на следующем изображении, фреймворк Paint3D обеспечивает лучшие метрики FID и KID по сравнению с фреймворком TEXTure, с первым уменьшением с 40,83 до 26,86, а второй – с 9,76 до 4,94.

Окончательные мысли

В этой статье мы говорили о Paint3D,粗то-файной фреймворке, способной производить текстуры без освещения, разнообразные и высококачественные 2K UV-текстурные карты для неотображаемых 3D-сеток, условленных либо визуальными, либо текстовыми входами. Основным преимуществом фреймворка Paint3D является его способность генерировать текстуры без освещения, семантически согласованные, без условий изображения или текста. Благодаря粗то-файному подходу фреймворк Paint3D производит текстуры без освещения, разнообразные и высококачественные, и обеспечивает лучшую производительность, чем современные фреймворки.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.