Conectează-te cu noi

Inteligența artificială

Dreamcraft3D: generație ierarhică 3D cu difuzare bootstrapped înainte

mm

Modelele AI generative au fost un subiect fierbinte de discuție în industria AI pentru o perioadă. Succesul recent al modelelor generative 2D a deschis calea pentru metodele pe care le folosim pentru a crea conținut vizual astăzi. Deși comunitatea AI a obținut un succes remarcabil cu modelele generative 2D, generarea de conținut 3D rămâne o provocare majoră pentru cadrele AI generative profunde. Acest lucru este valabil mai ales pe măsură ce cererea de conținut generat 3D atinge un nivel maxim, determinată de o gamă largă de jocuri vizuale, aplicații, realitate virtuală și chiar cinema. Este de remarcat faptul că, deși există cadre AI generative 3D care oferă rezultate acceptabile pentru anumite categorii și sarcini, acestea nu pot genera eficient obiecte 3D. Acest deficit poate fi atribuit lipsei de date 3D extinse pentru antrenarea cadrelor. Recent, dezvoltatorii au propus să folosească îndrumările oferite de modelele generative AI text-to-image pre-antrenate, o abordare care a arătat rezultate promițătoare.

În acest articol, vom discuta cadrul DreamCraft3D, un model ierarhic pentru generarea de conținut 3D care produce obiecte 3D coerente și de înaltă fidelitate de înaltă calitate. Cadrul DreamCraft3D folosește o imagine de referință 2D pentru a ghida etapa de sculptare a geometriei, îmbunătățind textura cu accent pe abordarea problemelor de coerență întâlnite de cadrele sau metodele actuale. În plus, cadrul DreamCraft3D folosește un model de difuzie dependent de vizualizare pentru eșantionarea prin distilare a scorurilor, ajutând la sculptarea geometriei care contribuie la randarea coerentă.

Vom arunca o privire mai atentă în cadrul DreamCraft3D pentru generarea de conținut 3D. Mai mult, vom explora conceptul de valorificare a modelelor preantrenate Text-to-Image (T2I) pentru generarea de conținut 3D și vom examina modul în care cadrul DreamCraft3D își propune să utilizeze această abordare pentru a genera conținut 3D realist.

DreamCraft3D: O introducere

DreafCraft3D este o conductă ierarhică pentru generarea de conținut 3D. Cadrul DreamCraft3D încearcă să folosească un cadru generativ T2I sau text la imagine de ultimă generație pentru a crea imagini 2D de înaltă calitate folosind un prompt text. Abordarea permite cadrului DreamCraft3D să maximizeze capacitățile modelelor de difuzie 2D de ultimă generație pentru a reprezenta semantica vizuală așa cum este descrisă în promptul text, păstrând în același timp libertatea creativă oferită de aceste cadre generative 2D AI. Imaginea generată este apoi ridicată la 3D cu ajutorul amplificarii texturii geometrice în cascadă și a fazelor de sculptură geometrică, iar tehnicile specializate sunt aplicate în fiecare etapă cu ajutorul descompunerii problemei. 

Pentru geometrie, cadrul DreamCraft3D se concentrează în mare măsură pe structura 3D globală și pe consistența mai multor vizualizări, făcând astfel loc pentru compromisuri cu privire la texturile detaliate din imagini. Odată ce cadrul scapă de problemele legate de geometrie, își schimbă accentul pe optimizarea texturilor coerente și realiste prin implementarea unei difuzări conștiente 3D care pornește abordarea de optimizare 3D. Există două considerente cheie de proiectare pentru cele două faze de optimizare și anume Sculptura geometrică și Amplificarea texturii. 

Cu toate acestea fiind spuse, ar fi sigur să descriem DreamCraft3D ca un Cadrul generativ AI care folosește o conductă ierarhică de generare de conținut 3D pentru a transforma în esență imaginile 2D în omologii lor 3D, menținând în același timp consistența 3D holistică. 

Utilizarea modelelor T2I sau text-to-image pregătite

Ideea de a folosi modele T2I sau Text-to-Imagine preinstruite pentru generarea de conținut 3D a fost introdusă pentru prima dată de cadrul DreamFusion în 2022. Cadrul DreamFusion a încercat să impună o pierdere SDS sau Score Distillation Sample pentru a optimiza cadrul 3D într-un mod în care randările din puncte de vedere aleatorii s-ar alinia cu distribuțiile de imagini condiționate de text, așa cum sunt interpretate de un cadru eficient de difuzare text la imagine. Deși abordarea DreamFusion a oferit rezultate decente, au existat două probleme majore, neclaritatea și suprasaturația. Pentru a aborda aceste probleme, lucrările recente implementează diverse strategii de optimizare pe etape, în încercarea de a îmbunătăți pierderea prin distilare 2D, ceea ce duce în cele din urmă la o calitate mai bună și imagini 3D realiste generate. 

Cu toate acestea, în ciuda succesului recent al acestor cadre, ele nu sunt în măsură să se potrivească cu capacitatea cadrelor generative 2D de a sintetiza conținut complex. În plus, aceste cadre sunt adesea pline de „Problema lui Janus”, o condiție în care randari 3D care par a fi plauzibile individual, prezintă inconsecvențe stilistice și semantice atunci când sunt examinate în ansamblu. 

Pentru a aborda problemele cu care se confruntă lucrările anterioare, cadrul DreamCraft3D explorează posibilitatea utilizării unui canal holistic ierarhic de generare de conținut 3D și caută inspirație din procesul artistic manual în care un concept este mai întâi scris într-o schiță 2D, după care artistul sculptează geometria brută, rafinează detaliile geometrice și pictează texturi de înaltă fidelitate. Urmând aceeași abordare, și Cadrul DreamCraft3D descompune conținutul 3D exhaustiv sau sarcinile de generare a imaginilor în diferiți pași gestionați. Începe prin a genera o imagine 2D de înaltă calitate utilizând un mesaj text și continuă să folosească îmbunătățirea texturii și sculptarea geometriei pentru a ridica imaginea în etapele 3D. Împărțirea procesului în etape ulterioare ajută cadrul DreamCraft2D să maximizeze potențialul de generare ierarhică care are ca rezultat generarea de imagini 3D de calitate superioară. 

În prima etapă, cadrul DreamCraft3D implementează sculptura geometrică pentru a produce forme geometrice 3D consistente și plauzibile folosind imaginea 2D ca referință. Mai mult, etapa nu numai că folosește pierderea SDS pentru pierderi fotometrice și vederi noi la vederea de referință, dar cadrul introduce și o gamă largă de strategii pentru a promova consistența geometrică. Cadrul urmărește să folosească Zero-1-to-3, un model de traducere a imaginii de la raft condiționat de puncte de vedere pentru a utiliza imaginea de referință pentru a modela distribuția vederilor noi. În plus, cadrul trece, de asemenea, de la reprezentarea implicită a suprafeței la reprezentarea în plasă pentru o rafinare geometrică grosieră la fine. 

A doua etapă a cadrului DreamCraft3D utilizează o abordare de distilare a scorurilor bootstrapped pentru a spori texturile imaginii, deoarece modelele actuale de difuzie condiționată de vizualizare sunt antrenate pe o cantitate limitată de date 3D, motiv pentru care se luptă adesea să se potrivească cu performanța sau fidelitatea Modele de difuzie 2D. Datorită acestei limitări, cadrul DreamCraft3D ajustează modelul de difuzie în conformitate cu imaginile cu mai multe vizualizări ale instanței 3D care este optimizată, iar această abordare ajută cadrul să mărească texturile 3D, menținând în același timp consistența în mai multe vizualizări. Atunci când modelul de difuzie se antrenează pe aceste redări cu mai multe vizualizări, oferă o îndrumare mai bună pentru optimizarea texturii 3D, iar această abordare ajută cadrul DreamCraft3D să obțină o cantitate nebună de detalii ale texturii, menținând în același timp consistența vizualizării. 

După cum se poate observa în imaginile de mai sus, cadrul DreamCraft3D este capabil să producă imagini 3D creative și conținut cu texturi realiste și structuri geometrice complicate. În prima imagine, este corpul lui Son Goku, un personaj anime amestecat cu capul unui mistreț care alergă, în timp ce a doua imagine înfățișează un Beagle îmbrăcat în ținuta unui detectiv. Mai jos sunt câteva exemple suplimentare. 

DreamCraft3D: lucru și arhitectură

Cadrul DreamCraft3D încearcă să folosească un cadru generativ T2I sau Text to Image pentru a crea imagini 2D de înaltă calitate folosind un prompt text. Abordarea permite cadrului DreamCraft3D să maximizeze capacitățile modelelor de difuzie 2D de ultimă generație pentru a reprezenta semantica vizuală așa cum este descrisă în promptul text, păstrând în același timp libertatea creativă oferită de aceste cadre generative 2D AI. Imaginea generată este apoi ridicată la 3D cu ajutorul amplificarii texturii geometrice în cascadă și a fazelor de sculptură geometrică, iar tehnicile specializate sunt aplicate în fiecare etapă cu ajutorul descompunerii problemei. Următoarea imagine rezumă pe scurt funcționarea cadrului DreamCraft3D. 

Să aruncăm o privire detaliată asupra considerentelor cheie de design pentru fazele de stimulare a texturii și sculptare geometrică. 

Sculptura geometriei

Geometry Sculpting este prima etapă în care cadrul DreamCraft3D încearcă să creeze un model 3D într-un mod în care acesta se aliniază cu aspectul imaginii de referință la aceeași vedere de referință, asigurând în același timp o plauzibilitate maximă chiar și sub diferite unghiuri de vizualizare. Pentru a asigura o plauzibilitate maximă, cadrul folosește pierderea SDS pentru a încuraja redarea plauzibilă a imaginii pentru fiecare vedere individuală eșantionată pe care o poate recunoaște un model de difuzie pre-antrenat. Mai mult, pentru a utiliza în mod eficient ghidarea din imaginea de referință, cadrul penalizează diferențele fotometrice dintre imaginile de referință și imaginile redate la vizualizarea de referință, iar pierderea este calculată numai în regiunea din prim-plan a vederii. În plus, pentru a încuraja scăderea scenei, cadrul implementează și o pierdere a măștii care redă silueta. În ciuda acestui fapt, menținerea în mod constant a aspectului și a semanticii în vizualizările din spate rămâne încă o provocare, motiv pentru care cadrul folosește abordări suplimentare pentru a produce o geometrie detaliată și coerentă. 

3D Aware Diffusion înainte

Metodele de optimizare 3D care utilizează numai supravegherea per vizionare sunt insuficiente, ceea ce este motivul principal pentru care cadrul DreamCraft3D folosește Zero-1-to-3, un model de difuzie condiționat de vizualizare, ca și Zero-1-to. Cadrul -3 oferă o conștientizare îmbunătățită a punctului de vedere, deoarece a fost antrenat pe o scară mai mare de active de date 3D. În plus, cadrul Zero-1-to-3 este un model de difuzie reglat, care halucinează imaginea în relație cu poziția camerei având în vedere imaginea de referință. 

Antrenament de vizualizare progresivă

Obținerea vizualizărilor libere direct la 360 de grade poate duce la artefacte geometrice sau discrepanțe, cum ar fi un picior suplimentar pe scaun, un eveniment care ar putea fi atribuit ambiguității inerentei unei singure imagini de referință. Pentru a face față acestui obstacol, cadrul DreamCraft3D mărește progresiv vederile de antrenament după care geometria bine stabilită este propagată treptat pentru a obține rezultate la 360 de grade. 

Timp de difuzie Recoacere în trepte

Cadrul DreamCraft3D folosește o strategie de recoacere în timp de difuzie în încercarea de a se alinia cu progresia grosieră la fină a optimizării 3D. La începutul procesului de optimizare, cadrul acordă prioritate eșantionării unui interval de timp mai mare de difuzie, în încercarea de a furniza structura globală. Pe măsură ce cadrul continuă cu procesul de antrenament, acesta comandă liniar intervalul de eșantionare pe parcursul a sute de iterații. Datorită strategiei de recoacere, cadrul reușește să stabilească o geometrie globală plauzibilă în timpul etapelor timpurii de optimizare înainte de rafinarea detaliilor structurale. 

Îmbunătățirea structurală detaliată

Cadrul DreamCraft3D optimizează inițial o reprezentare implicită a suprafeței pentru a stabili o structură grosieră. Cadrul folosește apoi acest rezultat și îl cuplează cu o rețea tetraedrică deformabilă sau DMTet pentru a inițializa o reprezentare 3D texturată a rețelei, care descurcă învățarea texturii și a geometriei. Când cadrul este finalizat cu îmbunătățirea structurală, modelul este capabil să păstreze detaliile de înaltă frecvență obținute din imaginea de referință doar prin rafinarea texturilor. 

Creșterea texturii folosind eșantionarea scorului bootstrapped

Deși etapa de sculptare a geometriei pune accent pe învățarea geometriei detaliate și coerente, aceasta estompează textura într-o anumită măsură, care ar putea fi rezultatul dependenței cadrului de un model anterior 2D care funcționează la o rezoluție grosieră, împreună cu claritatea limitată oferită de 3D. model de difuzie. În plus, problemele obișnuite ale texturii, inclusiv suprasaturarea și netezirea excesivă, apar ca urmare a unei ghidări mari fără clasificare. 

Cadrul folosește un VSD sau o pierdere de distilare a scorului variațional pentru a spori realismul texturilor. Cadrul optează pentru un model de difuzie stabilă în această fază specială pentru a obține gradienți de înaltă rezoluție. În plus, cadrul menține grila tetraedrică fixă ​​pentru a promova randarea realistă pentru a optimiza structura generală a rețelei. În timpul etapei de învățare, cadrul DreamCraft3D nu folosește cadrul Zero-1-to-3, deoarece are un efect negativ asupra calității texturilor, iar aceste texturi inconsistente pot fi recurente, ducând astfel la ieșiri 3D bizare. 

Experimente și rezultate

Pentru a evalua performanța cadrului DreamCraft3D, acesta este comparat cu cadrele actuale de ultimă generație, iar rezultatele calitative și cantitative sunt analizate. 

Comparație cu modelele de bază

Pentru a evalua performanța, cadrul DreamCraft3D este comparat cu 5 cadre de ultimă generație, inclusiv DreamFusion, Magic3D, ProlificDreamer, Magic123 și Make-it-3D. Testul de referință cuprinde 300 de imagini de intrare care sunt un amestec de imagini din lumea reală și cele generate de cadrul Stable Diffusion. Fiecare imagine din testul de referință are un mesaj text, o hartă de adâncime estimată și o mască alfa pentru prim-plan. Cadrul generează solicitările de text pentru imaginile reale dintr-un cadru de legendă a imaginii. 

Analiza calitativa

Următoarea imagine compară cadrul DreamCraft3D cu modelele de bază actuale și, după cum se poate vedea, cadrele care se bazează pe abordarea text-to-3D se confruntă adesea cu probleme de consistență în mai multe vizualizări. 

Pe de o parte, aveți framework-ul ProlificDreamer care oferă texturi realiste, dar este scurt atunci când vine vorba de generarea unui obiect 3D plauzibil. Cadre precum cadrul Make-it-3D care se bazează pe metode Image-to-3D reușesc să creeze vederi frontale de înaltă calitate, dar nu pot menține geometria ideală pentru imagini. Imaginile generate de cadrul Magic123 oferă o mai bună regularizare geometrică, dar generează texturi și detalii geometrice excesiv de saturate și netezite. În comparație cu aceste cadre, cadrul DreamCraft3D care utilizează o metodă de distilare a scorurilor bootstrapped, nu numai că menține consistența semantică, dar îmbunătățește și diversitatea generală a imaginației. 

Analiza cantitativa

În încercarea de a genera imagini 3D convingătoare, care nu numai că seamănă cu imaginea de referință de intrare, dar și transmite semantică din diferite perspective în mod consecvent, tehnicile utilizate de cadrul DreamCraft3D sunt comparate cu modelele de bază, iar procesul de evaluare folosește patru metrici: PSNR și LPIPS. pentru măsurarea fidelității la punctul de vedere de referință, Distanța contextuală pentru evaluarea congruenței la nivel de pixel și CLIP pentru a estima coerența semantică. Rezultatele sunt demonstrate în imaginea următoare. 

Concluzie

În acest articol, am discutat despre DreamCraft3D, o conductă ierarhică pentru generarea de conținut 3D. Cadrul DreamCraft3D își propune să folosească un cadru generativ de ultimă generație Text-to-Image (T2I) pentru a crea imagini 2D de înaltă calitate folosind un prompt text. Această abordare permite cadrului DreamCraft3D să maximizeze capacitățile modelelor de difuzie 2D de ultimă oră în reprezentarea semanticii vizuale descrise în promptul text, păstrând în același timp libertatea creativă oferită de aceste cadre generative 2D AI. Imaginea generată este apoi transformată în 3D prin stimularea texturii geometrice în cascadă și fazele de sculptură geometrică. Tehnici specializate sunt aplicate în fiecare etapă, ajutate de descompunerea problemei. Ca rezultat al acestei abordări, cadrul DreamCraft3D poate produce active 3D de înaltă fidelitate și consistente, cu texturi convingătoare, vizibile din mai multe unghiuri. 

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.