Свяжитесь с нами:

Paint3D: Модель диффузии без освещения для генерации изображений

Искусственный интеллект

Paint3D: Модель диффузии без освещения для генерации изображений

mm

Быстрое развитие генеративных моделей искусственного интеллекта, особенно глубоких генеративных моделей искусственного интеллекта, значительно расширило возможности генерации естественного языка, генерации 3D-изображений, генерации изображений и синтеза речи. Эти модели произвели революцию в 3D-производстве в различных отраслях. Однако многие сталкиваются с проблемой: их сложная проводка и генерируемые сетки часто несовместимы с традиционными конвейерами рендеринга, такими как физически основанный рендеринг (PBR). Модели на основе диффузии, особенно без текстур освещения, демонстрируют впечатляющее разнообразие создания 3D-ресурсов, улучшая 3D-инфраструктуры в кинопроизводстве, играх и AR/VR.

В этой статье рассказывается о Paint3D, новой платформе для создания разнообразных карт текстур UV 2K с высоким разрешением для нетекстурированных 3D-сетей, зависящих от визуальных или текстовых входных данных. Основная задача Paint3D — создание высококачественных текстур без встроенной подсветки, что позволяет пользователю повторно редактировать или менять освещение в современных графических конвейерах. Он использует предварительно обученную 2D-модель диффузии для объединения нескольких представлений текстур, генерируя начальные грубые текстурные карты. Однако на этих картах часто отображаются артефакты освещения и неполные области из-за ограничений 2D-модели в отключении световых эффектов и полном представлении 3D-форм. Мы углубимся в работу Paint3D, его архитектуру и сравним его с другими глубокими генеративными фреймворками. Давай начнем.

Paint3D: Введение

Возможности моделей глубокого генеративного искусственного интеллекта в задачах генерации естественного языка, 3D-изображений и синтеза изображений хорошо известны и реализованы в реальных приложениях, производя революцию в индустрии 3D-генерации. Несмотря на свои замечательные возможности, современные глубинные генеративный ИИ Фреймворки создают сетки, которые характеризуются сложными связями и хаотичными текстурами освещения, которые часто несовместимы с традиционными конвейерами рендеринга, включая PBR или физически основанный рендеринг. Как и модели глубокого генеративного искусственного интеллекта, синтез текстур также быстро развивался, особенно в использовании 2D-моделей диффузии. Модели синтеза текстур используют предварительно обученную глубину изображения. диффузионные модели эффективно использовать текстовые условия для создания высококачественных текстур. Однако эти подходы сталкиваются с проблемами с предварительно освещенными текстурами, которые могут существенно повлиять на окончательную визуализацию 3D-среды и привести к ошибкам освещения при изменении освещения в рамках обычных рабочих процессов, как показано на следующем изображении. 

Как можно заметить, текстурная карта со свободным освещением работает синхронно с традиционными конвейерами рендеринга, обеспечивая точные результаты, тогда как текстурная карта с предварительным освещением включает в себя неподходящие тени при применении повторного освещения. С другой стороны, фреймворки генерации текстур, обученные на 3D-данных, предлагают альтернативный подход, при котором фреймворк генерирует текстуры, понимая всю геометрию конкретного 3D-объекта. Хотя они могут давать лучшие результаты, фреймворки генерации текстур, обученные на 3D-данных, не обладают возможностями обобщения, что ограничивает их способность применять модель к 3D-объектам за пределами их обучающих данных. 

Текущие модели генерации текстур сталкиваются с двумя критическими проблемами: использование наведения по изображениям или разнообразных подсказок для достижения более широкой степени обобщения по различным объектам, а вторая проблема — устранение связанного освещения в результатах, полученных в результате предварительного обучения. Предварительно освещенные текстуры потенциально могут мешать конечному результату текстурированных объектов в механизмах рендеринга, а поскольку предварительно обученные 2D-модели диффузии обеспечивают 2D-результаты только в области просмотра, им не хватает полного понимания форм, что приводит к тому, что они не могут для обеспечения согласованности вида трехмерных объектов. 

Из-за упомянутых выше проблем среда Paint3D пытается разработать двухэтапную модель диффузии текстур для 3D-объектов, которая обобщается на различные предварительно обученные генеративные модели и сохраняет согласованность представления при обучении генерации текстур без молний. 

Paint3D — это двухэтапная модель генерации текстур от грубой до тонкой, целью которой является использование надежных подсказок и возможностей создания изображений предварительно обученных генеративный ИИ модели для текстурирования 3D-объектов. На первом этапе среда Paint3D сначала постепенно производит выборку многовидовых изображений из предварительно обученной модели распространения двумерного изображения с учетом глубины, чтобы обеспечить обобщение высококачественных и богатых результатов текстур из различных подсказок. Затем модель генерирует исходную карту текстуры, обратно проецируя эти изображения на поверхность трехмерной сетки. На втором этапе модель фокусируется на создании текстур без освещения путем реализации подходов, используемых диффузионными моделями, специализирующимися на устранении влияния освещения и уточнении неполных областей с учетом формы. На протяжении всего процесса среда Paint2D последовательно способна семантически генерировать высококачественные текстуры 3K и устраняет внутренние эффекты освещения. 

Подводя итог, Paint3D — это новая генеративная модель искусственного интеллекта от грубой до тонкой, целью которой является создание разнообразных 2K UV-карт текстур с высоким разрешением и без освещения для нетекстурированных 3D-сетей для достижения современной производительности при текстурировании 3D-объектов с различными условиями. входные данные, включая текст и изображения, и предлагает значительные преимущества для задач синтеза и редактирования графики. 

Методология и архитектура

Платформа Paint3D постепенно генерирует и уточняет карты текстур для создания разнообразных и высококачественных карт текстур для 3D-моделей с использованием желаемых условных входных данных, включая изображения и подсказки, как показано на следующем изображении. 

На грубом этапе модель Paint3D использует предварительно обученные модели диффузии 2D-изображений для выборки многовидовых изображений, а затем создает исходные карты текстур, обратно проецируя эти изображения на поверхность сетки. На втором этапе, то есть этапе уточнения, модель Paint3D использует процесс диффузии в UV-пространстве для улучшения грубых текстурных карт, тем самым достигая высококачественной функции прорисовки и отсутствия освещения, что обеспечивает визуальную привлекательность и завершенность окончательной текстуры. . 

Этап 1: Прогрессивная генерация грубой текстуры

На этапе постепенного создания грубой текстуры модель Paint3D генерирует грубую карту UV-текстуры для 3D-сетей, которые используют предварительно обученную 2D-модель диффузии с учетом глубины. Если быть более конкретным, модель сначала использует разные виды камеры для визуализации карты глубины, затем использует условия глубины для выборки изображений из модели диффузии изображений, а затем обратно проецирует эти изображения на поверхность сетки. Платформа поочередно выполняет подходы рендеринга, выборки и обратной проекции, чтобы улучшить согласованность текстурных сеток, что в конечном итоге помогает в постепенном создании карты текстур. 

Модель начинает генерировать текстуру видимой области, при этом изображения камеры фокусируются на 3D-сетке, и визуализирует 3D-сетку в карту глубины из первого вида. Затем модель производит выборку изображения текстуры для определения условий внешнего вида и глубины. Затем модель обратно проецирует изображение на 3D-сетку. Что касается точек обзора, модель Paint3D использует аналогичный подход, но с небольшими изменениями, выполняя процесс выборки текстуры с использованием подхода рисования изображения. Кроме того, модель учитывает текстурированные области из предыдущих точек обзора, позволяя процессу рендеринга выводить не только изображение глубины, но и частично цветное изображение RGB с неокрашенной маской в ​​текущем виде. 

Затем модель использует модель зарисовки изображения с учетом глубины с кодировщиком зарисовки для заполнения неокрашенной области внутри изображения RGB. Затем модель генерирует карту текстуры из вида путем обратного проецирования нарисованного изображения в 3D-сетку под текущим видом, что позволяет модели постепенно генерировать карту текстуры и получать всю карту грубой структуры. Наконец, модель расширяет процесс выборки текстуры на сцену или объект с несколькими видами. Если быть более конкретным, модель использует пару камер для захвата двух карт глубины во время первоначальной выборки текстуры с симметричных точек зрения. Затем модель объединяет две карты глубины и составляет сетку глубин. Модель заменяет одно изображение глубины сеткой глубины для выполнения выборки текстуры с учетом глубины в нескольких ракурсах. 

Этап 2: Уточнение текстуры в UV-пространстве

Хотя появление грубых текстурных карт логично, они сталкиваются с некоторыми проблемами, такими как дыры в текстурах, возникающие в процессе рендеринга из-за самоокклюзии или теней молний из-за использования моделей диффузии 2D-изображений. Модель Paint3D направлена ​​на выполнение процесса диффузии в UV-пространстве на основе грубой текстурной карты, пытаясь смягчить проблемы и еще больше повысить визуальную привлекательность текстурной карты во время ее уточнения. Однако уточнение основной модели диффузии изображений с помощью текстурных карт в UV-пространстве приводит к разрыву текстуры, поскольку текстурная карта генерируется путем UV-картирования текстуры трехмерной поверхности, которая разрезает непрерывную текстуру на серию отдельных фрагментов в UV-пространстве. космос. В результате фрагментации модели трудно изучить трехмерные отношения смежности между фрагментами, что приводит к проблемам с разрывом текстуры. 

Модель уточняет карту текстуры в UV-пространстве, выполняя процесс диффузии под руководством информации о соседстве фрагментов текстуры. Важно отметить, что в UV-пространстве именно карта положения представляет информацию о трехмерном соседстве фрагментов текстуры, при этом модель рассматривает каждый нефоновый элемент как координату трехмерной точки. В процессе распространения модель объединяет информацию о 3D-смежности, добавляя индивидуальный кодировщик карты положения к предварительно обученной модели распространения изображения. Новый кодер напоминает дизайн платформы ControlNet и имеет ту же архитектуру, что и кодер, реализованный в модели диффузии изображений, с соединяющим их слоем нулевой свертки. Кроме того, модель диффузии текстур обучается на наборе данных, содержащем карты текстур и положений, и модель учится предсказывать шум, добавляемый к скрытому шуму. Затем модель оптимизирует кодировщик положения и замораживает обученный шумоподавитель для выполнения задачи распространения изображения. 

Затем модель одновременно использует положение условного кодировщика и других кодировщиков для выполнения задач уточнения в UV-пространстве. В этом отношении модель имеет две возможности доработки: UVHD или UV High Definition и UV-дорисовку. Метод UVHD структурирован так, чтобы повысить визуальную привлекательность и эстетику карты текстур. Для достижения UVHD модель использует кодировщик улучшения изображения и кодировщик положения с моделью диффузии. Модель использует метод UV-зарисовки для заполнения дыр в текстуре внутри UV-плоскости, что позволяет избежать проблем самоокклюзии, возникающих во время рендеринга. На этапе уточнения модель Paint3D сначала выполняет закрашивание UV, а затем UVHD для создания окончательной уточненной карты текстуры. Объединив два метода уточнения, среда Paint3D способна создавать полные, разнообразные карты UV-текстур с высоким разрешением и без освещения. 

Paint3D: эксперименты и результаты

Модель Paint3D использует Стабильная диффузия text2image, чтобы помочь ей с задачами генерации текстур, в то время как она использует компонент кодировщика изображений для обработки условий изображения. Для дальнейшего улучшения управления условными элементами управления, такими как закрашивание изображения, глубина и изображение высокой четкости, среда Paint3D использует кодировщики домена ControlNet. Модель реализована на платформе PyTorch, а рендеринг и проекции текстур реализованы на Kaolin. 

Сравнение текста и текстур

Чтобы проанализировать его производительность, мы начнем с оценки эффекта генерации текстур Paint3D при использовании текстовых подсказок и сравним его с современными платформами, включая Text2Tex, TEXTure и LatentPaint. Как можно видеть на следующем изображении, среда Paint3D не только превосходно генерирует высококачественные детали текстур, но также достаточно хорошо синтезирует карту текстур без освещения. 

Для сравнения, платформа Latent-Paint склонна создавать размытые текстуры, что приводит к неоптимальным визуальным эффектам. С другой стороны, хотя структура TEXTure генерирует четкие текстуры, ей не хватает гладкости и имеются заметные сращивания и швы. Наконец, платформа Text2Tex удивительно хорошо генерирует гладкие текстуры, но не может воспроизвести производительность при создании тонких текстур со сложной детализацией. 

На следующем изображении фреймворк Paint3D количественно сравнивается с современными фреймворками. 

Как можно заметить, среда Paint3D превосходит все существующие модели, причём со значительным отрывом: улучшение базового уровня FID почти на 30 %, а базового уровня KID — примерно на 40 %. Улучшение базовых показателей FID и KID демонстрирует способность Paint3D генерировать высококачественные текстуры для различных объектов и категорий. 

Сравнение изображения и текстуры

Для создания генеративных возможностей Paint3D с помощью визуальных подсказок мы используем модель TEXTure в качестве базовой модели. Как упоминалось ранее, модель Paint3D использует кодировщик изображений, полученный из модели text2image из Stable Diffusion. Как видно на следующем изображении, среда Paint3D удивительно хорошо синтезирует изысканные текстуры и по-прежнему способна поддерживать высокую точность относительно состояния изображения. 

С другой стороны, платформа TEXTure способна генерировать текстуру, аналогичную Paint3D, но ей не хватает точного представления деталей текстуры в состоянии изображения. Кроме того, как показано на следующем изображении, платформа Paint3D обеспечивает лучшие базовые оценки FID и KID по сравнению с платформой TEXTure: первая снижается с 40.83 до 26.86, тогда как вторая демонстрирует снижение с 9.76 до 4.94. 

Заключение

В этой статье мы говорили о Paint3D, новом фреймворке от грубого до мелкого, способном создавать разнообразные 2K UV-карты текстур с высоким разрешением и без освещения для нетекстурированных 3D-сетей, обусловленных либо визуальными, либо текстовыми входными данными. Главной особенностью среды Paint3D является то, что она способна генерировать 2K UV-текстуры высокого разрешения без освещения, которые семантически согласованы и не зависят от ввода изображения или текста. Благодаря подходу от грубого до мелкого фреймворк Paint3D создает разнообразные текстурные карты с высоким разрешением без освещения и обеспечивает лучшую производительность, чем современные фреймворки. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.