Intelligenza artificiale
Dreamcraft3D: Generazione Gerarchica 3D Con Diffusione Di Priorità Avviata

I modelli di intelligenza artificiale generativa sono stati un argomento di discussione caldo all’interno dell’industria dell’IA da un po’ di tempo. Il recente successo dei modelli generativi 2D ha aperto la strada ai metodi che utilizziamo per creare contenuti visivi oggi. Sebbene la comunità dell’IA abbia ottenuto un successo notevole con i modelli generativi 2D, la generazione di contenuti 3D rimane una sfida importante per i framework di intelligenza artificiale generativa profonda. Ciò è particolarmente vero poiché la domanda di contenuti generati 3D raggiunge un livello senza precedenti, trainata da una vasta gamma di giochi visivi, applicazioni, realtà virtuale e persino cinema. È importante notare che, sebbene esistano framework di intelligenza artificiale generativa 3D che forniscono risultati accettabili per determinate categorie e compiti, non sono in grado di generare oggetti 3D in modo efficiente. Questa carenza può essere attribuita alla mancanza di dati 3D estensivi per l’addestramento dei framework. Recentemente, gli sviluppatori hanno proposto di sfruttare la guida offerta dai modelli di intelligenza artificiale generativa di testo-immagine pre-addestrati, un approccio che ha mostrato risultati promettenti.
In questo articolo, discuteremo il framework DreamCraft3D, un modello gerarchico per la generazione di contenuti 3D che produce oggetti 3D coerenti e ad alta fedeltà di alta qualità. Il framework DreamCraft3D utilizza un’immagine di riferimento 2D per guidare la fase di scultura della geometria, migliorando la texture con un focus sull’addressing dei problemi di coerenza incontrati dagli attuali framework o metodi. Inoltre, il framework DreamCraft3D impiega un modello di diffusione dipendente dalla vista per il campionamento di distillazione del punteggio, aiutando a scolpire la geometria che contribuisce a una rendering coerente.
Prenderemo un’occhiata più da vicino al framework DreamCraft3D per la generazione di contenuti 3D. Inoltre, esploreremo il concetto di sfruttamento dei modelli di testo-immagine (T2I) pre-addestrati per la generazione di contenuti 3D e esamineremo come il framework DreamCraft3D intenda utilizzare questo approccio per generare contenuti 3D realistici.
DreamCraft3D: Un’introduzione
DreamCraft3D è una pipeline gerarchica per la generazione di contenuti 3D. Il framework DreamCraft3D tenta di sfruttare un framework generativo di testo-immagine (T2I) all’avanguardia per creare immagini 2D di alta qualità utilizzando un prompt di testo. L’approccio consente al framework DreamCraft3D di massimizzare le capacità dei modelli di diffusione 2D all’avanguardia per rappresentare le semantica visive descritte nel prompt di testo, mantenendo al contempo la libertà creativa offerta da questi framework generativi di intelligenza artificiale 2D. L’immagine generata viene quindi sollevata a 3D con l’aiuto di fasi di boosting geometrico e scultura geometrica, e le tecniche specializzate vengono applicate in ogni fase con l’aiuto della decomposizione del problema.
Per la geometria, il framework DreamCraft3D si concentra fortemente sulla struttura globale 3D e sulla coerenza multi-vista, facendo così spazio a compromessi sui dettagli delle texture nelle immagini. Una volta che il framework si sbarazza dei problemi relativi alla geometria, si concentra sull’ottimizzazione delle texture coerenti e realistiche implementando una diffusione 3D consapevole che avvia l’approccio di ottimizzazione 3D. Ci sono due considerazioni di progettazione chiave per le due fasi di ottimizzazione, ovvero la scultura geometrica e il boosting della texture.
Tutto considerato, sarebbe sicuro descrivere il DreamCraft3D come un framework generativo di intelligenza artificiale che sfrutta una pipeline di generazione di contenuti 3D gerarchica per trasformare essenzialmente le immagini 2D nei loro omologhi 3D, mantenendo al contempo la coerenza 3D olistica.
Sfruttamento dei modelli di testo-immagine (T2I) pre-addestrati
L’idea di sfruttare i modelli di testo-immagine (T2I) pre-addestrati per la generazione di contenuti 3D è stata introdotta per la prima volta dal framework DreamFusion nel 2022. Il framework DreamFusion ha tentato di imporre una perdita di campionamento di distillazione del punteggio (SDS) per ottimizzare il framework 3D in modo che le renderizzazioni in punti di vista casuali si allineassero con le distribuzioni di immagini condizionate dal testo interpretate da un framework di diffusione di testo-immagine efficiente. Sebbene l’approccio DreamFusion abbia fornito risultati decenti, c’erano due problemi principali, la sfocatura e la sovrasaturazione. Per affrontare questi problemi, lavori recenti implementano strategie di ottimizzazione fase-per-fase nel tentativo di migliorare la perdita di distillazione 2D, il che alla fine porta a immagini 3D generate di migliore qualità e realistiche.
Tuttavia, nonostante il recente successo di questi framework, non sono in grado di eguagliare la capacità dei framework generativi 2D di sintetizzare contenuti complessi. Inoltre, questi framework sono spesso afflitti dal problema di “Janus”, una condizione in cui le renderizzazioni 3D che appaiono plausibili individualmente mostrano incoerenze stilistiche e semantiche quando esaminate nel loro complesso.
Per affrontare i problemi incontrati dai lavori precedenti, il framework DreamCraft3D esplora la possibilità di utilizzare una pipeline di generazione di contenuti 3D gerarchica olistica e cerca ispirazione dal processo artistico manuale in cui un concetto viene prima delineato in un bozzetto 2D, dopo di che l’artista scolpisce la geometria grezza, raffina i dettagli geometrici e dipinge texture ad alta fedeltà. Seguendo lo stesso approccio, il framework DreamCraft3D divide i compiti di generazione di immagini o contenuti 3D esaurienti in vari passaggi gestibili.
Nella prima fase, il framework DreamCraft3D impiega la scultura geometrica per produrre forme geometriche 3D coerenti e plausibili utilizzando l’immagine 2D come riferimento. Inoltre, la fase non solo utilizza la perdita SDS per le perdite fotometriche e le nuove viste alla vista di riferimento, ma il framework introduce anche una vasta gamma di strategie per promuovere la coerenza geometrica. Il framework tenta di sfruttare il modello di traduzione di immagini condizionato dalla vista Zero-1-to-3 per utilizzare l’immagine di riferimento per modellare la distribuzione delle nuove viste. Inoltre, il framework passa dalla rappresentazione di superficie implicita alla rappresentazione di mesh per il raffinamento geometrico da grossolano a fine.
La seconda fase del framework DreamCraft3D utilizza un approccio di campionamento di distillazione del punteggio avviato per migliorare le texture dell’immagine, poiché i modelli di diffusione condizionati dalla vista attuali sono addestrati su una quantità limitata di dati 3D, il che li rende spesso incapaci di eguagliare le prestazioni o la fedeltà dei modelli di diffusione 2D. Grazie a questa limitazione, il framework DreamCraft3D addestra il modello di diffusione in base alle immagini multi-vista dell’istanza 3D che viene ottimizzata, e questo approccio aiuta il framework a aumentare le texture 3D mantenendo al contempo la coerenza multi-vista. Quando il modello di diffusione si addestra su queste renderizzazioni multi-vista, fornisce una guida migliore per l’ottimizzazione della texture 3D, e questo approccio aiuta il framework DreamCraft3D a raggiungere un livello di dettaglio delle texture incredibile, mantenendo al contempo la coerenza della vista.

Come si può osservare nelle immagini sopra, il framework DreamCraft3D è in grado di produrre immagini e contenuti 3D creativi con texture realistiche e strutture geometriche intricate. Nella prima immagine, è il corpo di Son Goku, un personaggio degli anime, mescolato con la testa di un cinghiale selvatico in corsa, mentre la seconda immagine rappresenta un Beagle vestito con l’outfit di un detective. Di seguito sono riportati alcuni esempi aggiuntivi.

DreamCraft3D: Funzionamento e Architettura
Il framework DreamCraft3D tenta di sfruttare un framework generativo di testo-immagine (T2I) all’avanguardia per creare immagini 2D di alta qualità utilizzando un prompt di testo. L’approccio consente al framework DreamCraft3D di massimizzare le capacità dei modelli di diffusione 2D all’avanguardia per rappresentare le semantica visive descritte nel prompt di testo, mantenendo al contempo la libertà creativa offerta da questi framework generativi di intelligenza artificiale 2D. L’immagine generata viene quindi sollevata a 3D con l’aiuto di fasi di boosting geometrico e scultura geometrica, e le tecniche specializzate vengono applicate in ogni fase con l’aiuto della decomposizione del problema. L’immagine seguente riassume brevemente il funzionamento del framework DreamCraft3D.

Vediamo più da vicino le considerazioni di progettazione chiave per le fasi di boosting della texture e scultura geometrica.
Scultura geometrica
La scultura geometrica è la prima fase in cui il framework DreamCraft3D tenta di creare un modello 3D in modo che si allinei con l’aspetto dell’immagine di riferimento alla stessa vista di riferimento, garantendo al contempo la massima plausibilità anche sotto angoli di vista diversi. Per garantire la massima plausibilità, il framework utilizza la perdita SDS per incoraggiare la rendering di immagini plausibili per ogni vista campionata singola che un modello di diffusione pre-addestrato può riconoscere. Inoltre, per sfruttare efficacemente la guida dall’immagine di riferimento, il framework penalizza le differenze fotometriche tra l’immagine di riferimento e le immagini renderizzate alla vista di riferimento, e la perdita viene calcolata solo all’interno della regione di primo piano della vista. Inoltre, per incoraggiare la scarsità della scena, il framework implementa anche una perdita di maschera che renderizza il silhouette. Nonostante ciò, mantenere l’aspetto e le semantica attraverso le viste posteriori in modo coerente rimane ancora una sfida, il che è il motivo per cui il framework impiega approcci aggiuntivi per produrre geometria dettagliata e coerente.
Priorità di diffusione 3D consapevole
I metodi di ottimizzazione 3D che utilizzano la supervisione per vista singola sono sottovincolati, il che è il motivo principale per cui il framework DreamCraft3D utilizza Zero-1-to-3, un modello di diffusione condizionato dalla vista, poiché il framework Zero-1-to-3 offre una maggiore consapevolezza della vista poiché è stato addestrato su una scala più grande di asset di dati 3D. Inoltre, il framework Zero-1-to-3 è un modello di diffusione fine-tunato che hallucina l’immagine in relazione con la posa della camera data l’immagine di riferimento.
Addestramento progressivo della vista
Derivare viste libere direttamente in 360 gradi potrebbe portare ad artefatti geometrici o incongruenze come una gamba extra sulla sedia, un evento che potrebbe essere attribuito all’ambiguità insita in un’unica immagine di riferimento. Per superare questo ostacolo, il framework DreamCraft3D amplia le viste di addestramento in modo progressivo, dopo di che la geometria ben stabilita viene propagata per ottenere risultati in 360 gradi.
Annealing del passo temporale di diffusione
Il framework DreamCraft3D impiega una strategia di annealing del passo temporale di diffusione nel tentativo di allinearsi con la progressione da grossolano a fine dell’ottimizzazione 3D. All’inizio del processo di ottimizzazione, il framework dà priorità al campionamento di un passo temporale di diffusione più grande, nel tentativo di fornire la struttura globale. Mentre il framework procede con il processo di addestramento, anneala linearmente l’intervallo di campionamento nel corso di centinaia di iterazioni. Grazie alla strategia di annealing, il framework riesce a stabilire una geometria globale plausibile durante i primi passaggi di ottimizzazione prima di raffinare i dettagli strutturali.
Miglioramento strutturale dettagliato
Il framework DreamCraft3D ottimizza inizialmente una rappresentazione di superficie implicita per stabilire una struttura grezza. Il framework utilizza poi questo risultato e lo accoppia con una griglia tetraedrica deformabile o DMTet per inizializzare una rappresentazione di mesh 3D testurizzata, che disentangle l’apprendimento della texture e della geometria. Quando il framework completa il miglioramento strutturale, il modello è in grado di preservare i dettagli ad alta frequenza ottenuti dall’immagine di riferimento raffinando le texture soltanto.
Miglioramento della texture utilizzando il campionamento di punteggio avviato
Sebbene la fase di scultura geometrica si concentri sull’apprendimento di geometria dettagliata e coerente, essa sfuma leggermente la texture, il che potrebbe essere il risultato della dipendenza del framework da un modello di priorità 2D che opera a una risoluzione grossolana, insieme alla scarsa nitidezza offerta dal modello di diffusione 3D. Inoltre, problemi di texture comuni, tra cui la sovrasaturazione e la sovrasmussazione, sorgono a causa di una grande guida senza classificatore.
Il framework utilizza una perdita di distillazione del punteggio variazionale (VSD) per aumentare il realismo delle texture. Il framework opta per un modello di diffusione stabile durante questa fase per ottenere gradienti ad alta risoluzione. Inoltre, il framework mantiene la griglia tetraedrica fissa per promuovere la rendering realistica e ottimizzare la struttura complessiva della mesh. Durante la fase di apprendimento, il framework DreamCraft3D non utilizza il framework Zero-1-to-3, poiché ha un effetto avverso sulla qualità delle texture, e queste texture incoerenti potrebbero essere ricorrenti, portando a output 3D bizzarri.
Esperimenti e risultati
Per valutare le prestazioni del framework DreamCraft3D, viene confrontato con gli attuali framework all’avanguardia e vengono analizzati i risultati qualitativi e quantitativi.
Confronto con i modelli di base
Per valutare le prestazioni, il framework DreamCraft3D viene confrontato con 5 framework all’avanguardia, tra cui DreamFusion, Magic3D, ProlificDreamer, Magic123 e Make-it-3D. Il benchmark di test comprende 300 immagini di input che sono un mix di immagini del mondo reale e di quelle generate dal framework di diffusione stabile. Ogni immagine nel benchmark di test ha un prompt di testo, una mappa di profondità prevista e una maschera alfa per il primo piano. Il framework ottiene i prompt di testo per le immagini reali da un framework di didascalia di immagini.
Analisi qualitativa
L’immagine seguente confronta il framework DreamCraft3D con gli attuali modelli di base e, come si può vedere, i framework che si basano sull’approccio di testo-3D spesso affrontano problemi di coerenza multi-vista.

Da un lato, si ha il framework ProlificDreamer che offre texture realistiche, ma non riesce a generare un oggetto 3D plausibile. I framework come il Make-it-3D che si basano sui metodi di immagine-3D riescono a creare viste frontali di alta qualità, ma non possono mantenere la geometria ideale per le immagini. Le immagini generate dal framework Magic123 offrono una migliore regolarizzazione geometrica, ma generano texture geometriche e dettagli eccessivamente saturati e lisci. Rispetto a questi framework, il framework DreamCraft3D che utilizza un metodo di campionamento di punteggio avviato non solo mantiene la coerenza semantica, ma migliora anche la diversità di immaginazione complessiva.

Analisi quantitativa
Nel tentativo di generare immagini 3D convincenti che non solo assomigliano all’immagine di riferimento di input, ma trasmettono anche semantica da varie prospettive in modo coerente, le tecniche utilizzate dal framework DreamCraft3D vengono confrontate con i modelli di base e il processo di valutazione impiega quattro metriche: PSNR e LPIPS per misurare la fedeltà alla vista di riferimento, la distanza contextuale per valutare la congruenza a livello di pixel e CLIP per stimare la coerenza semantica. I risultati sono mostrati nell’immagine seguente.

Conclusione
In questo articolo, abbiamo discusso DreamCraft3D, una pipeline gerarchica per la generazione di contenuti 3D. Il framework DreamCraft3D tenta di sfruttare un framework generativo di testo-immagine (T2I) all’avanguardia per creare immagini 2D di alta qualità utilizzando un prompt di testo. Questo approccio consente al framework DreamCraft3D di massimizzare le capacità dei modelli di diffusione 2D all’avanguardia per rappresentare le semantica visive descritte nel prompt di testo, mantenendo al contempo la libertà creativa offerta da questi framework generativi di intelligenza artificiale 2D. L’immagine generata viene quindi sollevata a 3D con l’aiuto di fasi di boosting geometrico e scultura geometrica, e le tecniche specializzate vengono applicate in ogni fase con l’aiuto della decomposizione del problema. Ciò consente al framework DreamCraft3D di produrre asset 3D ad alta fedeltà e coerenti con texture convincenti, visibili da多角度.
