Umělá inteligence

In-Paint3D: Generace obrázků pomocí modelů difuze s méně osvětlením

Published July 15, 2024

Updated April 27, 2026

Kunal Kejriwal

Příchod hlubokých generativních modelů AI výrazně urychlil vývoj AI s pozoruhodnými schopnostmi v generování přirozeného jazyka, generování 3D, generování obrázků a syntéze řeči. 3D generativní modely transformovaly numerous průmysly a aplikace, revolucionalizovaly současnou krajinu 3D produkce. Nicméně, mnoho současných hlubokých generativních modelů narazí na společnou překážku: komplexní zapojení a generované sítě s osvětlením textur jsou často nekompatibilní s tradičními renderovacími řetězci, jako je PBR (Physically Based Rendering). Difuzní modely, které generují 3D aktiva bez osvětlených textur, mají pozoruhodné schopnosti pro různorodou generaci 3D aktiv, a tak rozšiřují existující 3D rámce napříč průmysly, jako je filmmaking, gaming a augmented/virtuální realita.

V tomto článku budeme diskutovat o Paint3D, novém hrubém-jemném rámci, který je schopen produkovat různorodé, vysoké rozlišení 2K UV texturové mapy pro netexturové 3D sítě, podmíněné buď vizuálním nebo textovým vstupem. Hlavní výzvou, kterou Paint3D řeší, je generování vysoce kvalitních textur bez vloženého osvětlení, což umožňuje uživatelům重新 editovat nebo重新 osvětlit v moderních grafických řetězcích. Aby se tato výzva řešila, rámec Paint3D využívá předem trénovaný 2D difuzní model k provedení multi-pohledové texturové fúze a generování pohled-podmíněných obrázků, inicializujícího hrubou texturovou mapu. Nicméně, protože 2D modely nemohou plně zakázat osvětlení nebo úplně reprezentovat 3D tvary, texturová mapa může vykazovat osvětlené artefakty a neúplné oblasti.

V tomto článku budeme procházet rámec Paint3D v hloubce, zkoumající jeho fungování a architekturu, a srovnávat jej se stávajícími hlubokými generativními rámci. Takže, pojďme začít.

Paint3D : Úvod

Hluboké generativní modely AI prokázaly výjimečné schopnosti v generování přirozeného jazyka, generování 3D a syntéze obrázků, a byly implementovány v reálných aplikacích, revolucionalizujících průmysl 3D generace. Nicméně, navzdory jejich pozoruhodným schopnostem, moderní hluboké generativní modely AI často produkují sítě s komplexním zapojením a chaotickými osvětlenými texturami, které jsou nekompatibilní s tradičními renderovacími řetězci, včetně Physically Based Rendering (PBR). Podobně, texturová syntéza pokročila rapidně, zejména s pomocí 2D difuzních modelů. Tyto modely efektivně využívají předem trénované depth-to-image difuzní modely a textové podmínky k generování vysoce kvalitních textur. Nicméně, významná výzva zůstává: předem osvětlené textury mohou nepříznivě ovlivnit konečná 3D prostředí renderingu, zavádějící osvětlené chyby, když jsou světla upravována v rámci běžných pracovních postupů, jak je demonstrováno na následujícím obrázku.

Jak je vidět, texturové mapy bez předem osvětlení fungují bezproblémově s tradičními renderovacími řetězci, dodávají přesné výsledky. Naopak, texturové mapy s předem osvětlením zahrnují nevhodné stíny, když je aplikováno重新 osvětlení. Rámce generování textur, trénované na 3D datech, nabízejí alternativní přístup, generující textury na základě pochopení specifické 3D objektu celé geometrie. Ačkoli tyto rámce mohou dodávat lepší výsledky, postrádají schopnosti generalizace potřebné k aplikaci modelu na 3D objekty mimo jejich trénovací data.

Současné modely generování textur čelí dvěma kritickým výzvám: dosažení široké generalizace napříč různými objekty pomocí obrazové navigace nebo rozmanitých podnětů, a eliminaci spojeného osvětlení z předem trénovaných výsledků. Předem osvětlené textury mohou interferovat s konečnými výsledky texturovaných objektů v rámci renderovacích motorů. Kromě toho, protože předem trénované 2D difuzní modely poskytují pouze 2D výsledky v oblasti pohledu, postrádají komplexní pochopení tvarů, což vede k nekonzistencím při udržování konzistence pohledu pro 3D objekty.

Aby se tyto výzvy řešily, rámec Paint3D vyvíjí dual-stage texturovou difuzní model pro 3D objekty, který generalizuje napříč různými předem trénovanými generativními modely a zachovává konzistenci pohledu při generování osvětlených textur.

Paint3D je dual-stage, hrubě-jemný texturový generativní model, který využívá silné navigační a obrazové generativní schopnosti předem trénovaných generativních modelů AI k texturování 3D objektů. V první fázi, Paint3D vzorkuje multi-pohledové obrázky z předem trénovaného depth-aware 2D obrazového difuzního modelu progresivně, umožňující generalizaci vysoce kvalitních, bohatých texturových výsledků z rozmanitých podnětů. Model pak generuje počáteční texturovou mapu zpětným projekcí těchto obrázků na povrch 3D sítě. Ve druhé fázi, model se zaměřuje na generování osvětlených textur implementací přístupů využívaných difuzními modely specializovanými na odstranění osvětlených vlivů a rafinování tvarově-aware neúplných oblastí. Během celého procesu, rámec Paint3D konzistentně generuje vysoce kvalitní 2K textury semanticky, eliminuje intrinsic osvětlené efekty.

Shrnutí, Paint3D je novým, hrubě-jemným generativním modelem AI, navrženým k produkci různorodých, osvětlených, vysoce rozlišení 2K UV texturových map pro netexturové 3D sítě. Cílem je dosažení špičkového výkonu v texturování 3D objektů s různými podmíněnými vstupy, včetně textu a obrázků, nabízející významné výhody pro syntézu a grafické úkoly editace.

Metodika a Architektura

Rámec Paint3D generuje a rafinuje texturové mapy progresivně, aby produkoval různorodé a vysoce kvalitní textury pro 3D modely pomocí podmíněných vstupů, jako jsou obrázky a podněty, jak je demonstrováno na následujícím obrázku.

Stage 1: Progresivní Hrubá Texturová Generace

V počáteční fázi hrubé texturové generace, Paint3D využívá předem trénované 2D obrazové difuzní modely k vzorkování multi-pohledových obrázků, které jsou pak zpětně projekcí na povrch 3D sítě, aby vytvořily počáteční texturové mapy. Tato fáze začíná generováním depth mapy z různých kamerových pohledů. Model využívá depth podmínky k vzorkování obrázků z difuzního modelu, které jsou pak zpětně projekcí na povrch 3D sítě. Tento alternativní renderovací, vzorkovací a zpětný projekční přístup zvyšuje konzistenci texturových sítí a pomáhá při progresivní generaci texturové mapy.

Proces začíná viditelnými oblastmi 3D sítě, zaměřující se na generování textury z první kamerové pohledu renderováním 3D sítě do depth mapy. Texturový obrázek je pak vzorkován na základě vzhledu a depth podmínek a zpětně projekcí na síť. Tato metoda je opakovaná pro následné pohledy, zahrnující předchozí textury k renderování nejen depth obrázku, ale také částečně barevného RGB obrázku s nebarevnými maskami. Model využívá depth-aware image inpainting encoder k vyplnění nebarevných oblastí, generující kompletní hrubou texturovou mapu zpětným projekcí inpainted obrázků na povrch 3D sítě.

Pro složitější scény nebo objekty, model využívá více pohledů. Počátečně, zachycuje dvě depth mapy z symetrických pohledů a kombinuje je do depth gridu, který nahrazuje jedinou depth obraz pro multi-pohledovou depth-aware texturovou vzorkování.

Stage 2: Texturová Rafinace v UV Prostoru

Navzdory generování logických hrubých texturových map, objevují se výzvy, jako jsou texturové díry z renderovacích procesů a osvětlené stíny z 2D obrazových difuzních modelů. Aby se tyto výzvy řešily, Paint3D provede difuzní proces v UV prostoru na základě hrubé texturové mapy, zvyšující vizuální appeal a řešící problémy.

Nicméně, rafinace texturové mapy v UV prostoru může zavést nekonzistence kvůli fragmentaci kontinuálních textur na jednotlivé fragmenty. Aby se tato výzva řešila, Paint3D rafinuje texturovou mapu využíváním adjacency informací texturových fragmentů. V UV prostoru, position mapa reprezentuje 3D adjacency informace texturových fragmentů, zacházející s každým non-background prvkem jako 3D bodovou souřadnicí. Model využívá další position map encoder, podobný ControlNet, k integraci adjacency informací během difuzního procesu.

Model současně využívá position podmíněného encoder a dalších encoderů k provedení rafinčních úkolů v UV prostoru, nabízející dvě schopnosti: UVHD (UV High Definition) a UV inpainting. UVHD zvyšuje vizuální appeal a estetiku, využívající image enhancement encoder a position encoder s difuzním modelem. UV inpainting vyplňuje texturové díry, vyhýbající se self-occlusion problémům z renderování. Rafinční fáze začíná UV inpainting, následovaná UVHD, aby produkovala konečnou rafinovanou texturovou mapu.

Během integrace těchto rafinčních metod, rámec Paint3D generuje kompletní, různorodé, vysoce rozlišení a osvětlené UV texturové mapy, činící jej robustním řešením pro texturování 3D objektů.

Paint3D : Experimenty a Výsledky

Model Paint3D využívá Stable Diffusion text2image model k asistenci s texturovními úkoly, zatímco image encoder komponenta spravuje image podmínky. Aby se zlepšila kontrola nad podmíněnými úkoly, jako je image inpainting, depth handling a high-definition imagery, rámec Paint3D využívá ControlNet domain encodery. Model je implementován na PyTorch frameworku, s renderováním a texturovými projekcemi provedenými na Kaolin.

Text na Textury Srovnání

Aby se vyhodnotil výkon Paint3D, začínáme analýzou jeho texturovní generace, když je podmíněný textovými podněty, srovnávající jej se stávajícími špičkovými rámci, jako je Text2Tex, TEXTure a LatentPaint. Jak je vidět na následujícím obrázku, rámec Paint3D nejen exceluje v generování vysoce kvalitních texturových detailů, ale také efektivně syntetizuje osvětlenou texturovou mapu.

Využíváním robustních schopností Stable Diffusion a ControlNet encoderů, Paint3D poskytuje špičkovou texturovou kvalitu a variabilitu. Srovnání zdůrazňuje schopnost Paint3D produkovat detailní, vysoce rozlišení textury bez vloženého osvětlení, činící jej vedoucím řešením pro 3D texturování úkoly.

Ve srovnání, rámec Latent-Paint je náchylný k generování rozmazaných textur, což vede k suboptimálním vizuálním efektům. Naopak, rámec TEXTure generuje čisté textury, ale postrádá hladkost a vykazuje zjevné splicing a švy. Konečně, rámec Text2Tex generuje hladké textury pozoruhodně dobře, ale selhává při replikaci výkonu pro generování jemných textur s intrikátními detaily. Následující obrázek srovnává rámec Paint3D se stávajícími špičkovými rámci kvantitativně.

Jak je vidět, rámec Paint3D překonává všechny stávající modely, a to o významný margin, téměř 30% zlepšení v FID baseline a přibližně 40% zlepšení v KID baseline. Zlepšení v FID a KID baseline skóre demonstruje schopnost Paint3D generovat vysoce kvalitní textury napříč různorodými objekty a kategoriemi.

Obrázek na Texturu Srovnání

Aby se vyhodnotily generativní schopnosti Paint3D pomocí vizuálních podnětů, využíváme rámec TEXTure jako baseline. Jak je zmíněno dříve, model Paint3D využívá image encoder z text2image modelu z Stable Diffusion. Jak je vidět, rámec Paint3D syntetizuje exkluzivní textury pozoruhodně dobře, a je stále schopen udržet vysokou věrnost vůči image podmínkám.

Naopak, rámec TEXTure je schopen generovat texturu podobnou Paint3D, ale selhává při reprezentaci texturových detailů v image podmínkách přesně. Kromě toho, jak je demonstrováno na následujícím obrázku, rámec Paint3D dodává lepší FID a KID baseline skóre ve srovnání s rámcem TEXTure, s prvním klesajícím z 40,83 na 26,86, zatímco druhý ukazuje pokles z 9,76 na 4,94.

Konečné Myšlenky

V tomto článku, jsme diskutovali o Paint3D, novém hrubě-jemném rámci, schopném produkovat osvětlené, různorodé a vysoce rozlišení 2K UV texturové mapy pro netexturové 3D sítě, podmíněné buď vizuálním nebo textovým vstupem. Hlavní výzvou, kterou rámec Paint3D řeší, je generování osvětlených vysoce kvalitních textur bez podmínění na image nebo textové vstupy. Díky svému hrubě-jemnému přístupu, rámec Paint3D produkuje osvětlené, různorodé a vysoce rozlišení texturové mapy, a dodává lepší výkon než stávající špičkové rámce.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.