Spojte se s námi

Umělá inteligence

Dreamcraft3D: Hierarchická 3D generace s Bootstrapped Diffusion Prior

mm

Generativní modely umělé inteligence jsou již nějakou dobu žhavým tématem diskuse v odvětví umělé inteligence. Nedávný úspěch 2D generativních modelů vydláždil cestu metodám, které dnes používáme k vytváření vizuálního obsahu. Přestože komunita umělé inteligence dosáhla pozoruhodného úspěchu s 2D generativními modely, generování 3D obsahu zůstává velkou výzvou pro hluboké generativní rámce umělé inteligence. To platí zejména proto, že poptávka po 3D generovaném obsahu dosahuje historického maxima, poháněného širokou škálou vizuálních her, aplikací, virtuální reality a dokonce i kin. Stojí za zmínku, že i když existují 3D generativní rámce umělé inteligence, které poskytují přijatelné výsledky pro určité kategorie a úkoly, nejsou schopny efektivně generovat 3D objekty. Tento nedostatek lze přičíst nedostatku rozsáhlých 3D dat pro trénování rámců. Vývojáři v poslední době navrhli využít pokynů nabízených předem vyškolenými generativními modely umělé inteligence pro převod textu na obrázek, což je přístup, který vykazuje slibné výsledky.

V tomto článku se budeme zabývat rámcem DreamCraft3D, hierarchickým modelem pro generování 3D obsahu, který vytváří koherentní a vysoce kvalitní 3D objekty s vysokou věrností. Rámec DreamCraft3D používá 2D referenční obrázek k vedení fáze tvarování geometrie, vylepšuje texturu se zaměřením na řešení problémů s konzistencí, se kterými se setkávají současné rámce nebo metody. Rámec DreamCraft3D navíc využívá difúzní model závislý na pohledu pro vzorkování skóre destilace, což pomáhá při tvarování geometrie, která přispívá ke koherentnímu vykreslování.

Podívejme se blíže na rámec DreamCraft3D pro generování 3D obsahu. Dále prozkoumáme koncept využití předtrénovaných modelů Text-to-Image (T2I) pro generování 3D obsahu a prozkoumáme, jak se rámec DreamCraft3D snaží využít tento přístup k vytváření realistického 3D obsahu.

DreamCraft3D: Úvod

DreafCraft3D je hierarchický kanál pro generování 3D obsahu. Framework DreamCraft3D se pokouší využít nejmodernější rámec T2I neboli generativní rámec Text to Image k vytvoření vysoce kvalitních 2D obrázků pomocí textová výzva. Tento přístup umožňuje frameworku DreamCraft3D maximalizovat možnosti nejmodernějších 2D difúzních modelů pro reprezentaci vizuální sémantiky, jak je popsána v textové výzvě, při zachování tvůrčí svobody, kterou tyto 2D generativní rámce AI nabízejí. Vygenerovaný obraz je poté zvednut do 3D pomocí kaskádového zesílení geometrické textury a fází geometrického tvarování a v každé fázi jsou aplikovány specializované techniky s pomocí rozkladu problému. 

Pro geometrii se rámec DreamCraft3D silně zaměřuje na globální 3D strukturu a konzistenci více pohledů, čímž vytváří prostor pro kompromisy v detailních texturách v obrázcích. Jakmile se framework zbaví problémů souvisejících s geometrií, přesune své zaměření na optimalizaci koherentních a realistických textur implementací 3D-aware difusion, která zavádí přístup 3D optimalizace. Existují dva klíčové aspekty návrhu pro dvě fáze optimalizace, a to Geometrické tvarování a Zesilování textury. 

Se vším, co bylo řečeno, by bylo bezpečné popsat DreamCraft3D jako AI generativní rámec který využívá hierarchický kanál pro generování 3D obsahu k v podstatě transformaci 2D obrazů na jejich 3D protějšky při zachování celistvé 3D konzistence. 

Využití předtrénovaných modelů T2I nebo Text-to-Image

Myšlenka využít předtrénované modely T2I nebo Text-to-Image pro generování 3D obsahu byla poprvé představena rámcem DreamFusion v roce 2022. Rámec DreamFusion se pokusil prosadit ztrátu SDS nebo Score Destillation Sample, aby optimalizoval 3D rámec způsobem, který vykreslování v náhodných úhlech pohledu by bylo v souladu s textově podmíněným rozložením obrazu, jak je interpretováno účinným rámcem pro šíření textu do obrazu. Ačkoli přístup DreamFusion přinesl slušné výsledky, došlo ke dvěma hlavním problémům, rozmazání a nadměrné saturaci. K vyřešení těchto problémů implementují nedávné práce různé optimalizační strategie po etapách ve snaze zlepšit 2D destilační ztráty, což nakonec vede k lepší kvalitě a realistickým 3D generovaným obrazům. 

Navzdory nedávnému úspěchu těchto rámců však nejsou schopny rovnat se schopnosti 2D generativních rámců syntetizovat komplexní obsah. Kromě toho jsou tyto rámce často prošpikované „Janusovo vydání“, stav, kdy 3D vykreslování které se zdají být věrohodné jednotlivě, vykazují stylistické a sémantické nekonzistence, když jsou zkoumány jako celek. 

Aby se vypořádal s problémy, s nimiž se potýkají předchozí práce, rámec DreamCraft3D zkoumá možnost použití holistického hierarchického kanálu pro generování 3D obsahu a hledá inspiraci v ručním uměleckém procesu, ve kterém je koncept nejprve sepsán do 2D návrhu, po kterém umělec vyřezává hrubou geometrii, vylepšuje geometrické detaily a maluje vysoce věrné textury. Podle stejného přístupu, Rámec DreamCraft3D rozděluje vyčerpávající úlohy generování 3D obsahu nebo obrázků do různých zvládnutelných kroků. Začíná generováním vysoce kvalitního 2D obrazu pomocí textové výzvy a pokračuje pomocí zvýraznění textury a tvarování geometrie k pozvednutí obrazu do 3D fází. Rozdělení procesu do následujících fází pomáhá frameworku DreamCraft2D maximalizovat potenciál hierarchického generování, jehož výsledkem je generování 3D obrazu ve špičkové kvalitě. 

V první fázi využívá rámec DreamCraft3D geometrické tvarování k vytvoření konzistentních a věrohodných 3D geometrických tvarů pomocí 2D obrazu jako reference. Kromě toho fáze nejen využívá ztrátu SDS pro fotometrické ztráty a nové pohledy na referenční pohled, ale rámec také zavádí širokou škálu strategií na podporu geometrické konzistence. Rámec si klade za cíl využít Zero-1-to-3, hledisko podmíněný model překladu obrazu z regálu k použití referenčního obrazu k modelování distribuce nových pohledů. Kromě toho rám také přechází z implicitní reprezentace povrchu na reprezentaci sítě pro hrubé geometrické zjemnění na jemné. 

Druhá fáze rámce DreamCraft3D využívá metodu destilace bootstrapped skóre k posílení textur obrazu, protože současné modely difúze podmíněné zobrazením jsou trénovány na omezeném množství 3D dat, což je důvod, proč se často potýkají s výkonem nebo věrností obrazu. 2D difúzní modely. Díky tomuto omezení framework DreamCraft3D dolaďuje model difúze v souladu s vícepohledovými obrazy 3D instance, která je optimalizována, a tento přístup pomáhá frameworku rozšiřovat 3D textury při zachování konzistence více pohledů. Když se model difúze trénuje na těchto vícepohledových vykreslováních, poskytuje lepší vodítko pro optimalizaci 3D textury a tento přístup pomáhá frameworku DreamCraft3D dosáhnout šíleného množství detailů textury při zachování konzistence pohledu. 

Jak je vidět na obrázcích výše, rámec DreamCraft3D je schopen vytvářet kreativní 3D obrázky a obsah s realistickými texturami a složitými geometrickými strukturami. Na prvním obrázku je tělo Son Goku, anime postavy smíchané s hlavou běžícího divočáka, zatímco druhý obrázek zobrazuje bígla oblečeného v kostýmu detektiva. Následuje několik dalších příkladů. 

DreamCraft3D: Práce a architektura

Framework DreamCraft3D se pokouší využít nejmodernější rámec T2I neboli generativní rámec Text to Image k vytvoření vysoce kvalitních 2D obrázků pomocí textové výzvy. Tento přístup umožňuje frameworku DreamCraft3D maximalizovat možnosti nejmodernějších 2D difúzních modelů pro reprezentaci vizuální sémantiky, jak je popsána v textové výzvě, při zachování tvůrčí svobody, kterou tyto 2D generativní rámce AI nabízejí. Vygenerovaný obraz je poté zvednut do 3D pomocí kaskádového zesílení geometrické textury a fází geometrického tvarování a v každé fázi jsou aplikovány specializované techniky s pomocí rozkladu problému. Následující obrázek stručně shrnuje fungování frameworku DreamCraft3D. 

Pojďme se podrobně podívat na klíčové aspekty návrhu pro fáze zvýraznění textury a geometrického tvarování. 

Geometrie sochařství

Geometry Sculpting je první fází, ve které se framework DreamCraft3D pokouší vytvořit 3D model způsobem, který odpovídá vzhledu referenčního obrázku ve stejném referenčním pohledu a zároveň zajišťuje maximální věrohodnost i pod různými úhly pohledu. Aby byla zajištěna maximální věrohodnost, rámec využívá ztrátu SDS k podpoře věrohodného vykreslování obrazu pro každý jednotlivý vzorkovaný pohled, který předem trénovaný model difúze dokáže rozpoznat. Kromě toho, pro efektivní využití navádění z referenčního obrazu, rámec penalizuje fotometrické rozdíly mezi referenčním a vykresleným obrazem v referenčním pohledu a ztráta se počítá pouze v oblasti popředí pohledu. Navíc, aby se podpořila řídkost scén, framework také implementuje ztrátu masky, která vykresluje siluetu. Navzdory tomu stále zůstává problémem zachování vzhledu a sémantiky napříč pohledy zezadu, a proto rámec využívá další přístupy k vytvoření podrobné a koherentní geometrie. 

3D Aware Diffusion Před

3D optimalizační metody využívající pouze dohled na jednotlivé pohledy jsou nedostatečně omezeny, což je hlavní důvod, proč framework DreamCraft3D využívá Zero-1-to-3, model difúze podmíněný pohledem, jako Zero-1-to. Rámec -3 nabízí lepší povědomí o úhlech pohledu, protože byl trénován na větším měřítku 3D datových aktiv. Kromě toho je rámec Zero-1-to-3 vyladěný difúzní model, který halucinuje obraz ve vztahu k pozici kamery dané referenčním obrazem. 

Školení progresivního pohledu

Odvození volných pohledů přímo ve 360 ​​stupních může vést ke geometrickým artefaktům nebo nesrovnalostem, jako je další noha na židli, což je událost, která může být připsána nejednoznačnosti jediného referenčního obrázku. Aby se vypořádal s touto překážkou, rámec DreamCraft3D postupně rozšiřuje tréninkové pohledy, po kterých se postupně šíří dobře zavedená geometrie, aby bylo dosaženo výsledků v 360 stupních. 

Doba difúze Krokové žíhání

Rámec DreamCraft3D využívá strategii žíhání v čase difúze ve snaze sladit se s postupem 3D optimalizace od hrubého k jemnému. Na začátku optimalizačního procesu dává framework přednost vzorkování většího časového kroku difúze ve snaze poskytnout globální strukturu. Jak rámec pokračuje v procesu školení, lineárně žíhá rozsah vzorkování v průběhu stovek iterací. Díky strategii žíhání dokáže kostra vytvořit hodnověrnou globální geometrii během počátečních optimalizačních kroků před zjemněním konstrukčních detailů. 

Detailní strukturální vylepšení

Rámec DreamCraft3D optimalizuje implicitní reprezentaci povrchu zpočátku pro vytvoření hrubé struktury. Rámec pak použije tento výsledek a spojí jej s deformovatelnou čtyřstěnnou mřížkou nebo DMTet k inicializaci texturované 3D reprezentace sítě, která odděluje učení textury a geometrie. Když je kostra hotová se strukturálním vylepšením, model je schopen zachovat vysokofrekvenční detaily získané z referenčního obrázku pouze zjemněním textur. 

Zesílení textury pomocí Bootstrapped Score Sampling

Přestože fáze vyřezávání geometrie klade důraz na naučení detailní a koherentní geometrie, do určité míry rozmazává texturu, což může být důsledkem spoléhání se na předchozí 2D model pracující v hrubém rozlišení spolu s omezenou ostrostí nabízenou 3D difuzní model. Kromě toho se v důsledku rozsáhlého vedení bez klasifikátoru objevují běžné problémy s texturou, včetně přesycení a nadměrného vyhlazování. 

Rámec využívá ztrátu VSD nebo Variational Score Destillation ke zvýšení realismu textur. Rámec se během této konkrétní fáze rozhodne pro model stabilní difúze, aby získal gradienty s vysokým rozlišením. Kromě toho kostra udržuje čtyřstěnnou mřížku pevnou, aby podporovala realistické vykreslování a optimalizovala celkovou strukturu sítě. Během fáze učení nevyužívá framework DreamCraft3D rámec Zero-1-to-3, protože to má nepříznivý vliv na kvalitu textur a tyto nekonzistentní textury se mohou opakovat, což vede k bizarním 3D výstupům. 

Experimenty a výsledky

Pro vyhodnocení výkonu rámce DreamCraft3D je porovnán se současným stavem rámců a jsou analyzovány kvalitativní a kvantitativní výsledky. 

Srovnání se základními modely

Pro vyhodnocení výkonu je rámec DreamCraft3D porovnán s 5 nejmodernějšími frameworky včetně DreamFusion, Magic3D, ProlificDreamer, Magic123 a Make-it-3D. Testovací benchmark obsahuje 300 vstupních obrázků, které jsou kombinací obrázků ze skutečného světa a obrázků generovaných rámcem Stable Diffusion. Každý obrázek v testovacím benchmarku má textovou výzvu, mapu předpokládané hloubky a masku alfa pro popředí. Rámec je zdrojem textových výzev pro skutečné obrázky z rámce popisků obrázků. 

Kvalitativní analýza

Následující obrázek porovnává rámec DreamCraft3D se současnými základními modely, a jak je vidět, rámce, které se spoléhají na přístup text-to-3D, často čelí problémům s konzistencí více pohledů. 

Na jedné straně máte rámec ProlificDreamer, který nabízí realistické textury, ale zaostává, pokud jde o generování věrohodného 3D objektu. Rámce jako Make-it-3D framework, které se spoléhají na metody Image-to-3D, dokážou vytvořit vysoce kvalitní čelní pohledy, ale nemohou zachovat ideální geometrii obrázků. Obrázky generované frameworkem Magic123 nabízejí lepší geometrickou regularizaci, ale generují příliš syté a vyhlazené geometrické textury a detaily. Ve srovnání s těmito frameworky, DreamCraft3D framework, který využívá metodu destilace bootstrapped skóre, nejen zachovává sémantickou konzistenci, ale také zlepšuje celkovou rozmanitost představivosti. 

Kvantitativní analýza

Ve snaze vytvořit působivé 3D obrazy, které se nejen podobají vstupnímu referenčnímu obrazu, ale také konzistentně zprostředkovávají sémantiku z různých perspektiv, jsou techniky používané rámcem DreamCraft3D porovnávány se základními modely a proces hodnocení využívá čtyři metriky: PSNR a LPIPS. pro měření věrnosti v referenčním pohledu, Contextual Distance pro posouzení shody na úrovni pixelů a CLIP pro odhad sémantické koherence. Výsledky jsou demonstrovány na následujícím obrázku. 

Proč investovat do čističky vzduchu?

V tomto článku jsme diskutovali o DreamCraft3D, hierarchickém potrubí pro generování 3D obsahu. Rámec DreamCraft3D se zaměřuje na využití nejmodernějšího generativního rámce Text-to-Image (T2I) k vytváření vysoce kvalitních 2D obrázků pomocí textové výzvy. Tento přístup umožňuje frameworku DreamCraft3D maximalizovat schopnosti špičkových 2D difúzních modelů při reprezentaci vizuální sémantiky popsané v textové výzvě, při zachování tvůrčí svobody nabízené těmito 2D AI generativními frameworky. Vygenerovaný obraz je poté transformován do 3D pomocí kaskádových fází zesílení geometrické textury a geometrického tvarování. V každé fázi se uplatňují specializované techniky, které napomáhají rozkladu problému. Výsledkem tohoto přístupu je, že rámec DreamCraft3D může vytvářet vysoce věrné a konzistentní 3D prvky s působivými texturami, které lze zobrazit z různých úhlů. 

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.