Штучний інтелект

Paint3D: Введення |

Опубліковано 15 липня 2024

Оновлено 21 травня 2026

Kunal Kejriwal

Розробка глибоких генеративних моделей штучного інтелекту значно прискорила розвиток штучного інтелекту з видатними можливостями у генерації природної мови, генерації 3D-зображень, генерації зображень та синтезі мовлення. 3D-генеративні моделі трансформували численні галузі та застосування, революціонізуючи сучасний ландшафт виробництва 3D. Однак багато сучасних глибоких генеративних моделей зіштовхуються з однією спільною перешкодою: складна схема дротових з’єднань та згенеровані сітки з текстурами освітлення часто не сумісні з традиційними трубопроводами рендерингу, такими як PBR (фізично заснований рендеринг). Моделі, засновані на дифузії, які генерують 3D-активи без текстур освітлення, володіють видатними можливостями для генерації різноманітних 3D-активів, тим самим посилюючи існуючі 3D-рамки у галузях, таких як кінематограф, ігри та доповнена/віртуальна реальність.

У цій статті ми обговоримо Paint3D, нову грубу-квітчасту рамку, здатну виробляти різноманітні, високороздільні 2K-текстурні карти для не текстурированих 3D-сіток, умовно залежних від візуальних або текстових входів. Основною проблемою, яку вирішує Paint3D, є генерація високоякісних текстур без вбудованої інформації про освітлення, що дозволяє користувачам редагувати або перезапускати освітлення в сучасних графічних трубопроводах. Для вирішення цієї проблеми рамка Paint3D використовує попередньо натренований 2D-дифузійний модель для виконання багатогранної текстурної фузії та генерації умовно-залежних зображень, спочатку генеруючи грубу текстурну карту. Однак, оскільки 2D-моделі не можуть повністю вимкнути ефекти освітлення або повністю представити 3D-фігури, текстурна карта може виявляти артефакти освітлення та неповні ділянки.

У цій статті ми розглянемо рамку Paint3D докладно, вивчаючи її роботу та архітектуру, і порівнюючи її з рамками штучного інтелекту останнього покоління. Отже, давайте почнемо.

Paint3D: Введення

Глибокі генеративні моделі штучного інтелекту продемонстрували видатні можливості у генерації природної мови, 3D-генерації та синтезі зображень, і були реалізовані у реальних застосуваннях, революціонізуючи галузь 3D-генерації. Однак, незважаючи на свої видатні можливості, сучасні глибокі генеративні рамки штучного інтелекту часто генерують сітки з складною схемою дротових з’єднань та хаотичними текстурами освітлення, які не сумісні з традиційними трубопроводами рендерингу, включаючи фізично заснований рендеринг (PBR). Аналогічно, синтез текстур зробив швидкий прогрес, особливо з використанням 2D-дифузійних моделей. Ці моделі ефективно використовують попередньо натреновані глибинно-ізображенні дифузійні моделі та текстові умови для генерації високоякісних текстур. Однак одна значна проблема залишається: попередньо освітлені текстури можуть негативно вплинути на кінцеві 3D-отримання рендерингу, вводячи помилки освітлення при регулюванні освітлення у звичайних робочих процесах, як показано на наступному зображенні.

Як спостерігається, текстурні карти без попереднього освітлення працюють бездоганно з традиційними трубопроводами рендерингу, забезпечуючи точні результати. Натомість, текстурні карти з попереднім освітленням включають неприйнятні тіні при застосуванні перезапуску освітлення. Рамки генерації текстур, навчені на 3D-даних, пропонують альтернативний підхід, генеруючи текстури шляхом розуміння геометрії конкретного 3D-об’єкта. Хоча ці рамки можуть забезпечити кращі результати, їм бракує можливостей узагальнення, необхідних для застосування моделі до 3D-об’єктів поза їх тренувальними даними.

Поточні моделі генерації текстур зіштовхуються з двома критичними проблемами: досягнення широкого узагальнення по різних об’єктах за допомогою зображень та різноманітних підказок, а також ліквідації зв’язаного освітлення з результатів попереднього навчання. Попередньо освітлені текстури можуть втручатися у кінцеві результати текстурированих об’єктів у рендерингових двигунах. Крім того, оскільки попередньо натреновані 2D-дифузійні моделі забезпечують лише 2D-результати у сфері виду, їм бракує повного розуміння форм, що призводить до несумісностей у підтримці консистентності виду для 3D-об’єктів.

Для вирішення цих проблем рамка Paint3D розробляє двостадійну модель дифузії текстур для 3D-об’єктів, яка узагальнює по різних попередньо натренованих генеративних моделях та зберігає консистентність виду при генерації текстур без освітлення.

Paint3D є двостадійною, грубо-квітчастою моделлю генерації текстур, яка використовує сильну підказку та можливості генерації зображень попередньо натренованих моделей штучного інтелекту для текстуризації 3D-об’єктів. На першому етапі Paint3D вибірково генерує багатогранні зображення з попередньо натренованої глибинно-ізображеної 2D-дифузійної моделі, забезпечуючи узагальнення високоякісних, багатих текстурних результатів з різноманітних підказок. Модель потім генерує початкову текстурну карту шляхом проєкції цих зображень на поверхню 3D-сітки. На другому етапі модель зосереджується на генерації текстур без освітлення шляхом реалізації підходів, використовуваних моделями дифузії, спеціалізованими на видаленні впливів освітлення та уточненні областей, чутливих до форми. Під час всього процесу рамка Paint3D постійно генерує високоякісні 2K-текстурні карти семантично, ліквідуючи внутрішні ефекти освітлення.

У підсумку, Paint3D є новою, грубо-квітчастою генеративною моделлю штучного інтелекту, призначеною для генерації різноманітних, без освітлення, високороздільних 2K-текстурних карт для не текстурированих 3D-сіток. Вона спрямована на досягнення найвищої продуктивності у текстуризації 3D-об’єктів з різними умовними входами, включаючи текст та зображення, пропонуючи значні переваги для завдань синтезу та графічного редагування.

Методологія та Архітектура

Рамка Paint3D генерує та уточнює текстурні карти поступово для генерації різноманітних та високоякісних текстур для 3D-моделей за допомогою умовних входів, таких як зображення та підказки, як показано на наступному зображенні.

Стадія 1: Поступова Груба Генерація Текстур

На першому етапі грубої генерації текстур Paint3D використовує попередньо натреновані 2D-дифузійні моделі для вибіркової генерації багатогранних зображень, які потім проєктуються на поверхню сітки для створення початкових текстурних карт. Цей етап починається з генерації глибинної карти з різних камерних точок зору. Модель використовує глибинні умови для вибіркової генерації зображень з дифузійної моделі, які потім проєктуються на поверхню 3D-сітки. Цей альтернативний підхід до рендерингу, вибіркової генерації та проєкції покращує узгодженість текстурних сіток та сприяє поступовій генерації текстурної карти.

Процес починається з видимих ділянок 3D-сітки, зосереджуючись на генерації текстури з першої камерної точки зору шляхом рендерингу 3D-сітки у глибинну карту. Текстурне зображення потім вибірково генерується на основі зовнішнього вигляду та глибинних умов і проєктується на сітку. Цей метод повторюється для наступних точок зору, включаючи попередні текстури для рендерингу не тільки глибинного зображення, але також частково кольорового RGB-зображення з некольоровими масками. Модель використовує глибинно-ізображений інпейнтінг-енкодер для заповнення некольорових ділянок, генеруючи повну грубу текстурну карту шляхом проєкції інпейнтінг-зображень на 3D-сітку.

Для більш складних сцен або об’єктів модель використовує кілька точок зору. Спочатку вона захоплює дві глибинні карти з симетричних точок зору та поєднує їх у глибинну сітку, яка замінює окреме глибинне зображення для багатогранної глибинно-ізображеної вибіркової генерації текстур.

Стадія 2: Уточнення Текстур у Просторі UV

Незважаючи на генерацію логічних грубих текстурних карт, виникають проблеми, такі як текстурні діри від процесів рендерингу та тіні освітлення від 2D-дифузійних моделей. Для вирішення цих проблем Paint3D здійснює процес дифузії у просторі UV на основі грубої текстурної карти, покращуючи візуальну привабливість та вирішуючи проблеми.

Однак, уточнення текстурної карти у просторі UV може привести до розривів через фрагментацію безперервних текстур на окремі фрагменти. Для мінімізації цього Paint3D уточнює текстурну карту, використовуючи інформацію про сусідство текстурних фрагментів. У просторі UV позиційна карта представляє 3D-інформацію про сусідство текстурних фрагментів,扱уючи кожен非фоновий елемент як 3D-координату. Модель використовує додатковий позиційний енкодер, аналогічний ControlNet, для інтеграції цієї інформації про сусідство під час процесу дифузії.

Модель одночасно використовує позицію умовного енкодера та інших енкодерів для виконання завдань уточнення у просторі UV, забезпечуючи дві можливості: UVHD (UV High Definition) та інпейнтінг UV. UVHD покращує візуальну привабливість та естетику, використовуючи енкодер покращення зображення та позиційний енкодер з дифузійною моделлю. Інпейнтінг UV заповнює текстурні діри, уникając проблем самооклюзії від рендерингу. Етап уточнення починається з інпейнтінгу UV, а потім UVHD для генерації кінцевої уточненої текстурної карти.

Від інтеграції цих методів уточнення рамка Paint3D генерує повні, різноманітні, високороздільні та без освітлення UV-текстурні карти, роблячи її потужним рішенням для текстуризації 3D-об’єктів.

Paint3D: Експерименти та Результати

Модель Paint3D використовує модель текст-до-зображення Stable Diffusion для допомоги у завданнях генерації текстур, тоді як компонент імедж-енкодера керує умовами зображення. Для покращення контролю над умовними завданнями, такими як інпейнтінг зображення, обробка глибини та високоякісна графіка, рамка Paint3D використовує домен-енкодери ControlNet. Модель реалізована на фреймворку PyTorch, з рендерингом та проєкцією текстур, виконаними на Kaolin.

Порівняння Текстур за Текстовими Підказками

Для оцінки продуктивності Paint3D ми починаємо з аналізу генерації текстур при умові текстових підказок, порівнюючи її з рамками останнього покоління, такими як Text2Tex, TEXTure та LatentPaint. Як показано на наступному зображенні, рамка Paint3D не тільки перевершує у генерації високоякісних текстурних деталей, але також ефективно синтезує текстурну карту без освітлення.

Від використанням можливостей Stable Diffusion та енкодерів ControlNet, Paint3D забезпечує вищу якість текстур та гнучкість. Порівняння підкреслює здатність Paint3D генерувати детальні, високороздільні текстури без вбудованого освітлення, роблячи її лідером у рішеннях для текстуризації 3D.

У порівнянні з цим, рамка Latent-Paint схильна генерувати розмиті текстури, що призводить до субоптимальних візуальних ефектів. З іншого боку, хоча рамка TEXTure генерує чіткі текстури, їй бракує гладкості та виявляє помітні шви та спайки. Нарешті, рамка Text2Tex генерує гладкі текстури досить добре, але вона не може повторити продуктивність для генерації тонких текстур з інтригуючими деталями. Наступне зображення порівнює рамку Paint3D з рамками останнього покоління кількісно.

Як можна спостерігати, рамка Paint3D перевершує всі існуючі моделі, і з значним відривом – майже 30% покращення у базовому показнику FID та близько 40% покращення у базовому показнику KID. Покращення у показниках FID та KID демонструють здатність Paint3D генерувати високоякісні текстури по різних об’єктах та категоріях.

Порівняння Текстур за Зображеннями

Для генерації можливостей Paint3D за допомогою візуальних підказок ми використовуємо модель TEXTure як базову. Як згадувалося раніше, модель Paint3D використовує імедж-енкодер з моделі текст-до-зображення Stable Diffusion. Як можна побачити на наступному зображенні, рамка Paint3D синтезує видатні текстури досить добре, і все ще може зберігати високу вірність щодо умов зображення.

З іншого боку, рамка TEXTure здатна генерувати текстуру, подібну до Paint3D, але вона не може точно представити текстурні деталі умов зображення. Крім того, як демонструється на наступному зображенні, рамка Paint3D забезпечує кращі показники FID та KID порівняно з рамкою TEXTure, з показником FID, який знижується з 40,83 до 26,86, тоді як показник KID знижується з 9,76 до 4,94.

Заключні Думки

У цій статті ми говорили про Paint3D, нову грубу-квітчасту рамку, здатну генерувати без освітлення, різноманітні, високороздільні 2K-текстурні карти для не текстурированих 3D-сіток, умовно залежних від візуальних або текстових входів. Основним виділенням рамки Paint3D є те, що вона здатна генерувати без освітлення високороздільні 2K-текстурні карти, які семантично узгоджені без умовності на зображенні чи текстових входах. Завдяки своєму грубо-квітчастому підходу, рамка Paint3D генерує без освітлення, різноманітні та високороздільні текстурні карти, забезпечуючи кращу продуктивність, ніж рамки останнього покоління.