Umělá inteligence
Dreamcraft3D: Hierarchická 3D generace s bootstrapped difuzním předchozím zněním

Generativní modely AI byly horkým tématem diskuse v rámci odvětví AI po nějakou dobu. Nedávný úspěch 2D generativních modelů připravil cestu pro metody, které používáme k vytváření vizuálního obsahu dnes. Ačkoli komunita AI dosáhla pozoruhodného úspěchu s 2D generativními modely, generování 3D obsahu zůstává velkou výzvou pro hluboké generativní rámce AI. To platí zejména vzhledem k tomu, že poptávka po generovaném 3D obsahu dosáhla historicky nejvyšší úrovně, poháněné širokou škálou vizuálních her, aplikací, virtuální reality a dokonce i kinematografie. Je třeba poznamenat, že zatímco existují 3D generativní rámce AI, které poskytují přijatelné výsledky pro bestimmé kategorie a úkoly, nejsou schopny efektivně generovat 3D objekty. Tento nedostatek lze připsat na vrub nedostatku rozsáhlých 3D dat pro školení rámců. Nedávno vývojáři navrhli využití vedení nabízeného předškolními text-to-image AI generativními modely, přístup, který ukázal slibné výsledky.
V tomto článku budeme diskutovat o rámcu DreamCraft3D, hierarchickém modelu pro generování 3D obsahu, který produkuje koherentní a vysoce kvalitní 3D objekty. Rámec DreamCraft3D používá 2D referenční obraz k vedení geometrického sochařského stádia, vylepšuje texturu se zaměřením na řešení konzistence problémů, kterým čelí současné rámce nebo metody. Kromě toho rámec DreamCraft3D využívá view-dependent difuzní model pro skóre destilace vzorkování, což pomáhá při sochařství geometrie, která přispívá k koherentnímu vykreslování.
Budeme se blíže zabývat rámcem DreamCraft3D pro generování 3D obsahu. Kromě toho budeme zkoumat koncept využití předškolních Text-to-Image (T2I) modelů pro generování 3D obsahu a prozkoumáme, jak rámec DreamCraft3D snaží využít tento přístup k generování realistického 3D obsahu.
DreamCraft3D : Úvod
DreamCraft3D je hierarchický pipeline pro generování 3D obsahu. Rámec DreamCraft3D se snaží využít rámec T2I nebo Text to Image generativní framework k vytvoření vysoce kvalitních 2D obrazů pomocí textového podnětu. Tento přístup umožňuje rámcu DreamCraft3D maximalizovat schopnosti státních 2D difuzních modelů k reprezentaci vizuálních sémantik, jak jsou popsány v textovém podnětu, zatímco zachovává kreativní svobodu nabízenou těmito 2D AI generativními rámci. Obraz generovaný je pak zvednut do 3D s pomocí kaskádového geometrického texturového zvyšování a geometrického sochařského stádia, a specializované techniky jsou aplikovány v každém stádiu s pomocí dekompozice problému.
Pro geometrii se rámec DreamCraft3D zaměřuje silně na globální 3D strukturu a multi-view konzistenci, čímž vytváří prostor pro kompromisy na detailní textury v obrazech. Jakmile rámec vyřeší geometrické problémy, zaměřuje se na optimalizaci koherentních a realistických textur implementací 3D-aware difuzního modelu, který bootstraps 3D optimalizační přístup. Existují dva klíčové návrhové úvahy pro dvě optimalizační fáze, jmenovitě Geometrické sochařství a Texturové zvyšování.
S tím vším řečeným by bylo bezpečné popsat DreamCraft3D jako AI generativní rámec, který využívá hierarchický 3D generativní pipeline k transformaci 2D obrazů do jejich 3D protějšků, zatímco zachovává holistickou 3D konzistenci.
Využití předškolních T2I nebo Text-to-Image modelů
Nápad využít předškolní T2I nebo Text-to-Image modely pro generování 3D obsahu byl poprvé představen rámcem DreamFusion v roce 2022. Rámec DreamFusion se pokusil vynutit SDS nebo Skóre Destilace Vzorkování ztrátu k optimalizaci 3D rámce způsobem, že vykreslování z náhodných pohledů by se shodovalo s textově podmíněnými obrazovými distribucemi, interpretovanými efektivním text-to-image difuzním rámcem. Ačkoli přístup DreamFusion dodal přijatelné výsledky, existovaly dvě hlavní problémy, rozmazanost a pře-sytění. Aby se tyto problémy vyřešily, nedávné práce implementují různé strategie optimalizace ve snaze zlepšit 2D destilaci ztráty, což nakonec vede k lepší kvalitě a realistickým 3D generovaným obrazům.
Nicméně, navzdory nedávnému úspěchu těchto rámců, nejsou schopny dosáhnout schopnosti 2D generativních rámců syntetizovat komplexní obsah. Kromě toho tyto rámce jsou často sužovány „Janus Issue“, stavem, ve kterém 3D vykreslování, které se zdá být přijatelným jednotlivě, ukazuje stylistické a sémantické nekonzistence, když jsou vyšetřeny jako celek.
Aby se vyřešily problémy, kterým čelí předchozí práce, rámec DreamCraft3D zkoumá možnost využití holistického hierarchického 3D generativního pipeline a hledá inspiraci v manuálním uměleckém procesu, ve kterém je koncept nejprve napsán do 2D návrhu, po kterém umělec sochaří hrubou geometrii, rafinuje geometrické detaily a maluje vysoce kvalitní textury. Sledujícím stejný přístup, rámec DreamCraft3D rozkládá vyčerpávající 3D obsah nebo generování obrazů do různých zvládnutelných kroků.
V první fázi rámec DreamCraft3D nasazuje geometrické sochařství k produkci konzistentních a přijatelných 3D-geometrických tvarů pomocí 2D obrazu jako referenčního. Kromě toho fáze nejen využívá SDS ztrátu pro fotometrické ztráty a nové pohledy na referenčním pohledu, ale rámec také zavádí řadu strategií k podpoře geometrické konzistence. Rámec se snaží využít Zero-1-to-3, pohledově podmíněný off-the-shelf image translation model, k použití referenčního obrazu k modelování distribuce nových pohledů. Kromě toho rámec také přechází z implicitní povrchové reprezentace na mesh reprezentaci pro hrubou jemnou geometrickou rafinaci.
Druhá fáze rámce DreamCraft3D využívá bootstrapped skóre destilace přístup k zvyšování textur obrazu, jelikož současné view-conditioned difuzní modely jsou školeny na omezeném množství 3D dat, což je důvod, proč často zápasí s tím, aby dosáhly výkonu nebo věrnosti 2D difuzních modelů. Díky tomuto omezení rámec DreamCraft3D jemně ladí difuzní model v souladu s multi-view obrazem 3D instance, která je optimalizována, a tento přístup pomáhá rámcu při zvyšování 3D textur, zatímco zachovává multi-view konzistenci. Když difuzní model trénuje na těchto multi-view renderování, poskytuje lepší vedení pro 3D texturovou optimalizaci, a tento přístup pomáhá rámcu DreamCraft3D dosáhnout velkého množství texturového detailu, zatímco zachovává pohled konzistenci.

Jak lze pozorovat na výše uvedených obrazech, rámec DreamCraft3D je schopen produkovat kreativní 3D obrazy a obsah s realistickými texturami a intrikátními geometrickými strukturami. V prvním obraze je tělo Son Goku, anime postava smíchaná s hlavou běžícího divokého kance, zatímco druhý obraz zobrazuje Beagla oblečeného v obleku detektiva. Následují einige další příklady.

DreamCraft3D : Práce a Architektura
Rámec DreamCraft3D se snaží využít rámec T2I nebo Text to Image generativní framework k vytvoření vysoce kvalitních 2D obrazů pomocí textového podnětu. Tento přístup umožňuje rámcu DreamCraft3D maximalizovat schopnosti státních 2D difuzních modelů k reprezentaci vizuálních sémantik, jak jsou popsány v textovém podnětu, zatímco zachovává kreativní svobodu nabízenou těmito 2D AI generativními rámci. Obraz generovaný je pak zvednut do 3D s pomocí kaskádového geometrického texturového zvyšování a geometrického sochařského stádia, a specializované techniky jsou aplikovány v každém stádiu s pomocí dekompozice problému. Následující obraz stručně shrnuje fungování rámce DreamCraft3D.

Podívejme se podrobněji na klíčové návrhové úvahy pro texturové zvyšování a geometrické sochařství fáze.
Geometrické sochařství
Geometrické sochařství je první fáze, ve které se rámec DreamCraft3D snaží vytvořit 3D model způsobem, který se shoduje s vzhledem referenčního obrazu na stejném referenčním pohledu, zatímco zajišťuje maximální přijatelnost i z různých pohledů. Aby se zajistila maximální přijatelnost, rámec využívá SDS ztrátu k podpoře přijatelného obrazového vykreslování pro každý jednotlivý vzorek pohledu, který může rozpoznat předškolený difuzní model. Kromě toho, aby se efektivní využilo vedení z referenčního obrazu, rámec penalizuje fotometrické rozdíly mezi referenčním a vykresleným obrazem na referenčním pohledu, a ztráta se počítá pouze v rámci popředí pohledu. Kromě toho, aby se podpořila scénická řídkost, rámec také implementuje masku ztrátu, která vykresluje siluetu. Přesto, zachování vzhledu a sémantiky napříč zadními pohledy konzistentně zůstává výzvou, což je důvod, proč rámec využívá další přístupy k produkci detailního a koherentního geometrického tvaru.
3D Aware Difuzní Předchozí zněním
3D optimalizační metody, které využívají pouze per-view supervize, jsou pod podmínkami, což je primární důvod, proč rámec DreamCraft3D využívá Zero-1-to-3, pohledově podmíněný difuzní model, jako Zero-1-to-3 framework nabízí vylepšenou pohledovou povědomí, jelikož byl školen na větším měřítku 3D datových assetů. Kromě toho, Zero-1-to-3 framework je jemně laděný difuzní model, který hallucinuje obraz v souvislosti s kamerovým posem, daným referenčním obrazem.
Progresivní View Školení
Derivace volných pohledů přímo v 360 stupních může vést k geometrickým artifactům nebo nesrovnalostem, jako je například extra noha na židli, událost, která může být připsána na vrub ambiguity inherence jediného referenčního obrazu. Aby se vyřešila tato překážka, rámec DreamCraft3D zvětšuje trénovací pohledy progresivně, po kterém je zavedena dobře zavedená geometrie, aby se získaly výsledky v 360 stupních.
Difuzní Časový Krok Annealing
Rámec DreamCraft3D využívá difuzní časový krok annealing strategii ve snaze shodit se s 3D optimalizačními hrubými-jemnými progresemi. Na začátku optimalizačního procesu, rámec dává prioritu vzorkování větší difuzní časový krok, ve snaze poskytnout globální strukturu. Jak rámec postupuje s trénovacím procesem, lineárně snižuje vzorkovací rozsah po dobu stovek iterací. Díky annealing strategii, rámec zajišťuje, aby se zavedla přijatelná globální geometrie během počátečních optimalizačních kroků, předtím, než se rafinují strukturní detaily.
Detailní Strukturní Vylepšení
Rámec DreamCraft3D optimalizuje implicitní povrchovou reprezentaci inicializaci, aby zavedl hrubou strukturu. Rámec poté využívá tento výsledek a spojuje ho s deformovatelnou tetrahedrální mřížkou nebo DMTet, aby inicializoval texturovanou 3D mesh reprezentaci, která rozděluje učení textury a geometrie. Když je rámec hotov se strukturním vylepšením, model je schopen zachovat vysoké frekvenční detaily získané z referenčního obrazu, rafinuje textury pouze.
Texturové Zvyšování pomocí Bootstrapped Skóre Vzorkování
Ačkoli geometrické sochařství fáze zdůrazňuje učení detailního a koherentního geometrického tvaru, může to rozmlžit texturu do jisté míry, což může být výsledkem závislosti rámce na 2D předchozím modelu, který funguje na hrubém rozlišení, spolu s omezenou ostrostí nabízenou 3D difuzním modelem. Kromě toho, běžné texturové problémy, včetně pře-sytění a pře-rozmažování, vznikají jako výsledek velké klasifikátor-free vedení.
Rámec využívá VSD nebo Variational Skóre Destilace ztrátu k augmentaci realismu textur. Rámec optuje pro Stable Difuzní model během této fáze, aby získal vysoké rozlišení gradientů. Kromě toho, rámec drží tetrahedrální mřížku pevnou, aby podpořil realistické vykreslování, aby optimalizoval celkovou strukturu mřížky. Během učení fáze, rámec DreamCraft3D nevyužívá Zero-1-to-3 framework, jelikož má negativní vliv na kvalitu textur, a tyto nekonzistentní textury mohou být opakující se, což vede k bizarním 3D výstupům.
Experimenty a Výsledky
Aby se vyhodnotila výkonnost rámce DreamCraft3D, je srovnán s aktuálními státními rámcemi a kvalitativní a kvantitativní výsledky jsou analyzovány.
Srovnání s Základní Modely
Aby se vyhodnotila výkonnost, rámec DreamCraft3D je srovnán s 5 státními rámcemi, včetně DreamFusion, Magic3D, ProlificDreamer, Magic123 a Make-it-3D. Testovací benchmark se skládá z 300 vstupních obrazů, které jsou směsí reálných obrazů a těch, které jsou generovány rámcem Stable Difuzní. Každý obraz v testovacím benchmarku má textový podnět, předpovězenou hloubkovou mapu a alfa masku pro popředí. Rámec získá textové podněty pro reálné obrazy z image caption frameworku.
Kvalitativní Analýza
Následující obraz srovnává rámec DreamCraft3D s aktuálními základními modely a jak je vidět, rámce, které spoléhají na text-to-3D přístup, často čelí multi-view konzistenci problémům.

Na jedné straně máte rámec ProlificDreamer, který nabízí realistické textury, ale selhává, když se jedná o generování přijatelného 3D objektu. Rámce, jako je Make-it-3D, které spoléhají na Image-to-3D metody, dokáží vytvořit vysoké kvalitní frontální pohledy, ale nemohou udržet ideální geometrii pro obrazy. Obrazy generované rámcem Magic123 nabízejí lepší geometrickou regularizaci, ale generují pře-sytěné a vyhlazené geometrické textury a detaily. Ve srovnání s těmito rámcemi, rámec DreamCraft3D, který využívá bootstrapped skóre destilace metodu, nejen zachovává sémantickou konzistenci, ale také zlepšuje celkovou představivost.

Kvantitativní Analýza
V attempts generate compelling 3D obrazy, které nejen připomínají vstupní referenční obraz, ale také přenášejí sémantiku z různých perspektiv konzistentně, techniky použité rámcem DreamCraft3D jsou srovnány s základními modely a vyhodnocovací proces využívá čtyři metriky: PSNR a LPIPS pro měření věrnosti na referenčním pohledu, Contextual Distance pro hodnocení pixel-level shody a CLIP pro odhad sémantické koherence. Výsledky jsou demonstrovány v následujícím obraze.

Závěr
V tomto článku jsme diskutovali o rámcu DreamCraft3D, hierarchickém pipeline pro generování 3D obsahu. Rámec DreamCraft3D se snaží využít rámec T2I nebo Text to Image generativní framework k vytvoření vysoce kvalitních 2D obrazů pomocí textového podnětu. Tento přístup umožňuje rámcu DreamCraft3D maximalizovat schopnosti státních 2D difuzních modelů k reprezentaci vizuálních sémantik, jak jsou popsány v textovém podnětu, zatímco zachovává kreativní svobodu nabízenou těmito 2D AI generativními rámci. Obraz generovaný je pak zvednut do 3D s pomocí kaskádového geometrického texturového zvyšování a geometrického sochařského stádia, a specializované techniky jsou aplikovány v každém stádiu s pomocí dekompozice problému. Jako výsledek tohoto přístupu, rámec DreamCraft3D může produkovat vysoce kvalitní a konzistentní 3D assety s přesvědčivými texturami, viditelnými z různých úhlů.
