Sztuczna inteligencja

Dreamcraft3D: Hierarchiczna Generacja 3D Z Użyciem Rozprowadzania Dyfuzji

Published November 16, 2023

Updated April 4, 2026

Kunal Kejriwal

Modele generatywne AI były gorącym tematem dyskusji w branży AI przez jakiś czas. Ostatni sukces modeli generatywnych 2D otworzył drogę do metod, których używamy do tworzenia treści wizualnych dzisiaj. Chociaż społeczność AI odniosła znaczący sukces z modelami generatywnymi 2D, generowanie treści 3D pozostaje dużym wyzwaniem dla głębokich ram generatywnych AI. Jest to szczególnie prawdziwe, ponieważ popyt na generowane treści 3D sięga rekordowych poziomów, napędzany przez szeroki zakres gier wizualnych, aplikacji, rzeczywistości wirtualnej i nawet kinematografii. Warto zauważyć, że chociaż istnieją ramy generatywne AI 3D, które dostarczają akceptowalne wyniki dla określonych kategorii i zadań, nie są one w stanie wydajnie generować obiektów 3D. Ten brak można przypisać brakowi obszernych danych 3D do szkolenia ram. Ostatnio deweloperzy zaproponowali wykorzystanie wskazówek oferowanych przez wstępnie wyszkolone modele generatywne obrazu na podstawie tekstu, co okazało się obiecujące.

W tym artykule omówimy ramę DreamCraft3D, hierarchiczny model generujący treści 3D, który produkuje spójne i wysokiej jakości obiekty 3D. Rama DreamCraft3D wykorzystuje obraz odniesienia 2D do kierowania etapem rzeźbienia geometrii, poprawiając teksturę z naciskiem na rozwiązanie problemów spójności występujących w obecnych ramach lub metodach. Dodatkowo, rama DreamCraft3D wykorzystuje model dyfuzji zależnej od widoku do destylacji wyników próbkowania, ułatwiając rzeźbienie geometrii, która przyczynia się do spójnego renderowania.

Zajmiemy się bliżej ramą DreamCraft3D do generowania treści 3D. Ponadto, zbadamy koncepcję wykorzystania wstępnie wyszkolonych modeli Text-to-Image (T2I) do generowania treści 3D i sprawdzimy, jak rama DreamCraft3D zamierza wykorzystać ten podejście, aby wygenerować realistyczne treści 3D.

DreamCraft3D : Wprowadzenie

DreamCraft3D jest hierarchiczną linią do generowania treści 3D. Rama DreamCraft3D próbuje wykorzystać najnowocześniejszą ramę T2I lub Text to Image generatywną, aby utworzyć wysokiej jakości obrazy 2D przy użyciu tekstowego podpowiedzi. Podejście pozwala ramie DreamCraft3D na maksymalizację możliwości najnowocześniejszych modeli dyfuzji 2D w celu reprezentowania semantyki wizualnej opisanej w podpowiedzi tekstowej, jednocześnie zachowując swobodę twórczą oferowaną przez te ramy generatywne AI 2D. Wygenerowany obraz jest następnie podnoszony do 3D za pomocą kaskadowego geometrycznego wzmocnienia tekstury i faz rzeźbienia geometrii, a specjalistyczne techniki są stosowane na każdym etapie z pomocą dekompozycji problemu.

W przypadku geometrii, rama DreamCraft3D koncentruje się głównie na globalnej strukturze 3D i spójności wielowidokowej, tworząc miejsce na kompromisy w szczegółowych teksturach w obrazach. Gdy rama rozwiązuje problemy związane z geometrią, przenosi swój focus na optymalizację spójnych i realistycznych tekstur, wdrażając dyfuzję świadomą 3D, która rozprowadza podejście optymalizacji 3D. Są dwa kluczowe względy projektowe dla dwóch faz optymalizacji, a mianowicie Rzeźbienia Geometrii i Wzmocnienia Tekstury.

Mówiąc krótko, można by rzec, że DreamCraft3D to rama generatywna AI, która wykorzystuje hierarchiczną linię generowania treści 3D, aby fundamentalnie przekształcić obrazy 2D w ich 3D odpowiedniki, zachowując całościową spójność 3D.

Wykorzystanie wstępnie wyszkolonych modeli T2I lub Text-to-Image

Pomysł wykorzystania wstępnie wyszkolonych modeli T2I lub Text-to-Image do generowania treści 3D został po raz pierwszy wprowadzony przez ramę DreamFusion w 2022 roku. Rama DreamFusion próbowała narzucić stratę SDS lub Score Distillation Sample, aby zoptymalizować ramę 3D w taki sposób, aby renderowania w losowych punktach widzenia były zgodne z dystrybucjami obrazu warunkowanego tekstem, interpretowanymi przez wydajny model dyfuzji tekst-obraz. Chociaż podejście DreamFusion dało przyzwoite wyniki, były dwie główne problemy: niewyraźność i przesycone nasycenie. Aby rozwiązać te problemy, ostatnie prace wdrażają różne strategie optymalizacji etapowej, aby poprawić stratę dyfuzji 2D, co ostatecznie prowadzi do lepszej jakości i realistycznych obrazów 3D.

Jednak pomimo ostatnich sukcesów tych ram, nie są one w stanie dorównać możliwościom ram generatywnych 2D w syntezie złożonych treści. Ponadto, te ramy są często naznaczone „problemem Janusa”, stanem, w którym renderowania 3D wydają się prawdopodobne indywidualnie, lecz wykazują stylistyczne i semantyczne niezgodności, gdy są badane jako całość.

Aby rozwiązać problemy występujące w poprzednich pracach, rama DreamCraft3D bada możliwość wykorzystania całościowej hierarchicznej linii generowania treści 3D i szuka inspiracji w procesie artystycznym, w którym koncepcja jest najpierw spisana w postaci 2D, a następnie artysta rzeźbi grubą geometrię, doskonali szczegóły geometryczne i maluje tekstury o wysokiej wierności. Podążając za tym samym podejściem, rama DreamCraft3D rozkłada wyczerpujące zadania generowania treści lub obrazu 3D na różne zarządzalne kroki. Zaczyna od generowania wysokiej jakości obrazu 2D przy użyciu podpowiedzi tekstowej, a następnie przechodzi do wykorzystania wzmocnienia tekstury i rzeźbienia geometrii, aby podnieść obraz do etapów 3D. Dzielenie procesu na następujące etapy pomaga ramie DreamCraft3D w maksymalizacji potencjału generowania hierarchicznego, co ostatecznie prowadzi do generowania obrazów 3D o wyższej jakości.

Na pierwszym etapie, rama DreamCraft3D wdraża rzeźbienie geometryczne, aby wytworzyć spójne i prawdopodobne kształty geometryczne 3D, używając obrazu 2D jako odniesienia. Ponadto, etap ten nie tylko wykorzystuje stratę SDS do strat fotograficznych i nowych widoków w odniesieniu do widoku odniesienia, ale rama również wprowadza szereg strategii, aby promować spójność geometryczną. Rama ma na celu wykorzystanie Zero-1-to-3, modelu translacji obrazu warunkowanego punktem widzenia, aby użyć obrazu odniesienia do modelowania dystrybucji nowych widoków. Dodatkowo, rama przechodzi od reprezentacji powierzchni implicite do reprezentacji siatki mesh w celu odkształcenia geometrycznego od grubego do drobnego.

Drugi etap ramy DreamCraft3D wykorzystuje podejście rozprowadzania wyników próbkowania do wzmocnienia tekstur obrazu, ponieważ obecne modele dyfuzji warunkowane widokiem są szkolone na ograniczonej ilości danych 3D, co powoduje, że często mają trudności z dopasowaniem wydajności lub wierności modeli dyfuzji 2D. Dzięki temu ograniczeniu, rama DreamCraft3D dostosowuje model dyfuzji zgodnie z wielowidokowymi obrazami instancji 3D, która jest optymalizowana, i ten podejście pomaga ramie w wzmocnieniu tekstur 3D, zachowując spójność wielowidokową. Gdy model dyfuzji szkoli się na tych wielowidokowych renderowaniach, zapewnia lepsze wskazówki dla optymalizacji tekstury 3D, a ten podejście pomaga ramie DreamCraft3D osiągnąć ogromną ilość szczegółów tekstury, zachowując spójność widoku.

Jak można zaobserwować na powyższych obrazach, rama DreamCraft3D jest w stanie produkować kreatywne obrazy 3D i treści z realistycznymi teksturami i geometrycznymi strukturami. W pierwszym obrazie jest ciało Son Gokū, postaci anime zmieszanej z głową biegającego dzikiego dzika, natomiast drugi obraz przedstawia Beagla ubranego w strój detektywa. Poniżej znajdują się dodatkowe przykłady.

DreamCraft3D : Działanie i Architektura

Rama DreamCraft3D próbuje wykorzystać najnowocześniejszą ramę T2I lub Text to Image generatywną, aby utworzyć wysokiej jakości obrazy 2D przy użyciu podpowiedzi tekstowej. Podejście pozwala ramie DreamCraft3D na maksymalizację możliwości najnowocześniejszych modeli dyfuzji 2D w celu reprezentowania semantyki wizualnej opisanej w podpowiedzi tekstowej, jednocześnie zachowując swobodę twórczą oferowaną przez te ramy generatywne AI 2D. Wygenerowany obraz jest następnie podnoszony do 3D za pomocą kaskadowego geometrycznego wzmocnienia tekstury i faz rzeźbienia geometrii, a specjalistyczne techniki są stosowane na każdym etapie z pomocą dekompozycji problemu. Poniższy obraz krótko podsumowuje działanie ramy DreamCraft3D.

Zajmiemy się bardziej szczegółowo kluczowymi względami projektowymi dla faz wzmocnienia tekstury i rzeźbienia geometrii.

Rzeźbienie Geometrii

Rzeźbienie Geometrii jest pierwszym etapem, na którym rama DreamCraft3D próbuje utworzyć model 3D w taki sposób, aby był zgodny z wyglądem obrazu odniesienia w tym samym widoku odniesienia, jednocześnie zapewniając maksymalną prawdopodobieństwo nawet pod różnymi kątami widzenia. Aby zapewnić maksymalną prawdopodobieństwo, rama wykorzystuje stratę SDS, aby zachęcić do wiernego renderowania obrazu dla każdego indywidualnego widoku próbkowanego, który może rozpoznać wstępnie wyszkolony model dyfuzji. Ponadto, aby wykorzystać wskazówki z obrazu odniesienia w sposób efektywny, rama karze różnice fotometryczne między odniesieniem a wyrenderowanymi obrazami w widoku odniesienia, a strata jest obliczana tylko wewnątrz regionu pierwszego planu widoku. Dodatkowo, aby zachęcić do rzadkości sceny, rama wdraża również stratę maski, która renderuje sylwetkę. Mimo to, utrzymanie wyglądu i semantyki na tyłach w sposób ciągły pozostaje wyzwaniem, dlatego rama zastosowuje dodatkowe podejścia, aby wytworzyć szczegółową i spójną geometrię.

Świadoma Dyfuzja 3D

Metody optymalizacji 3D, które wykorzystują tylko nadzór na widok, są niedostatecznie określone, co jest główną przyczyną, dla której rama DreamCraft3D wykorzystuje Zero-1-to-3, model dyfuzji warunkowany widokiem, jako Zero-1-to-3 oferuje wzmocnioną świadomość widoku, ponieważ został wyszkolony na większej skali danych 3D. Ponadto, model Zero-1-to-3 jest dopracowanym modelem dyfuzji, który hallucynuje obraz w związku z położeniem kamery, dane obrazu odniesienia.

Postępowe Szkolenie Widoku

Pobieranie bezpośrednich widoków w 360 stopniach może prowadzić do artefaktów geometrycznych lub niezgodności, takich jak dodatkowa noga na krześle, zdarzenie, które można przypisać niejednoznaczności pojedynczego obrazu odniesienia. Aby pokonać tę przeszkodę, rama DreamCraft3D powiększa widoki szkoleniowe postępowo, po czym dobrze ustalona geometria jest stopniowo propagowana, aby uzyskać wyniki w 360 stopniach.

Annihilacja Kroków Czasowych Dyfuzji

Rama DreamCraft3D zastosowuje strategię annihilacji kroków czasowych dyfuzji, aby dostosować się do postępu optymalizacji 3D od grubego do drobnego. Na początku procesu optymalizacji, rama przyznaje pierwszeństwo próbce większego kroku dyfuzji, aby zapewnić globalną strukturę. Gdy rama postępuje w procesie szkolenia, liniowo zmniejsza zakres próbkowania w ciągu setek iteracji. Dzięki temu podejściu, rama jest w stanie ustanowić prawdopodobną globalną geometrię w wczesnych krokach optymalizacji, zanim zostaną sfinalizowane szczegóły strukturalne.

Udoskonalenie Strukturalne

Rama DreamCraft3D optymalizuje początkowo reprezentację powierzchni implicite, aby ustanowić grubą strukturę. Następnie rama wykorzystuje ten wynik i łączy go z siatką tetrahedralną lub DMTet, aby zainicjować reprezentację siatki mesh z teksturą, która rozdziela uczenie się tekstury i geometrii. Gdy rama kończy udoskonalenie strukturalne, model jest w stanie zachować szczegóły wysokiej częstotliwości uzyskane z obrazu odniesienia, poprawiając tylko tekstury.

Wzmocnienie Tekstury za pomocą Bootstrapped Score Sampling

Chociaż etap rzeźbienia geometrii kładzie nacisk na naukę szczegółowej i spójnej geometrii, to powoduje pewne rozmycie tekstury, co może być wynikiem zależności ramy od modelu priorytetowego 2D działającego w rozdzielczości grubej, a także ograniczonej ostrości oferowanej przez model dyfuzji 3D. Ponadto, powszechne problemy z teksturami, w tym przesycone nasycenie i nadmierna gładkość, wynikają z dużej bezklasowej orientacji.

Rama wykorzystuje stratę VSD lub Variational Score Distillation, aby wzmocnić realizm tekstur. Rama wybiera model dyfuzji stabilnej w tej fazie, aby uzyskać gradienty o wysokiej rozdzielczości. Ponadto, rama utrwala siatkę tetrahedralną, aby promować realistyczne renderowanie i zoptymalizować ogólną strukturę siatki mesh. Podczas fazy uczenia, rama DreamCraft3D nie wykorzystuje modelu Zero-1-to-3, ponieważ ma niekorzystny wpływ na jakość tekstur, a te niezgodne tekstury mogą być powtarzalne, prowadząc do dziwacznych wyników 3D.

Eksperymenty i Wyniki

Aby ocenić wydajność ramy DreamCraft3D, porównano ją z bieżącymi ramami stanu sztuki, a wyniki jakościowe i ilościowe zostały przeanalizowane.

Porównanie z Modelami Podstawowymi

Aby ocenić wydajność, rama DreamCraft3D została porównana z 5 ramami stanu sztuki, w tym DreamFusion, Magic3D, ProlificDreamer, Magic123 i Make-it-3D. Testowy benchmark składa się z 300 obrazów wejściowych, które są mieszaniną obrazów z rzeczywistości i tych wygenerowanych przez framework Stable Diffusion. Każdy obraz w teście ma podpowiedź tekstową, przewidywaną mapę głębi i maskę alfa dla pierwszego planu. Rama pobiera podpowiedzi tekstowe dla obrazów rzeczywistych z frameworku image caption.

Analiza Jakościowa

Poniższy obraz porównuje ramę DreamCraft3D z bieżącymi modelami podstawowymi, a jak widać, ramy, które polegają na podejściu tekst-3D, często napotykają problemy z spójnością wielowidokową.

Z jednej strony, mamy framework ProlificDreamer, który oferuje realistyczne tekstury, ale nie radzi sobie z generowaniem prawdopodobnego obiektu 3D. Ramy takie jak Make-it-3D, które polegają na metodach Image-to-3D, potrafią tworzyć wysokiej jakości widoki frontalne, ale nie mogą utrzymać idealnej geometrii dla obrazów. Obrazy wygenerowane przez framework Magic123 oferują lepszą regulację geometryczną, ale generują zbyt nasycenie i gładkie tekstury geometryczne i szczegóły. W porównaniu z tymi ramami, rama DreamCraft3D, która wykorzystuje metodę bootstrapped score distillation, nie tylko utrzymuje spójność semantyczną, ale także poprawia ogólną różnorodność wyobraźni.

Analiza Ilościowa

W celu wygenerowania przekonywujących obrazów 3D, które nie tylko przypominają obraz odniesienia, ale także konsekwentnie przekazują semantykę z różnych perspektyw, techniki wykorzystane przez ramę DreamCraft3D są porównywane z modelami podstawowymi, a proces oceny wykorzystuje cztery metryki: PSNR i LPIPS do pomiaru wierności w punkcie widzenia odniesienia, Contextual Distance do oceny zgodności na poziomie pikseli i CLIP, aby oszacować spójność semantyczną. Wyniki są przedstawione na poniższym obrazie.

Podsumowanie

W tym artykule omówiliśmy DreamCraft3D, hierarchiczną linię do generowania treści 3D. Rama DreamCraft3D ma na celu wykorzystanie najnowocześniejszej ramy Text-to-Image (T2I) generatywnej, aby utworzyć wysokiej jakości obrazy 2D przy użyciu podpowiedzi tekstowej. Podejście pozwala ramie DreamCraft3D na maksymalizację możliwości najnowocześniejszych modeli dyfuzji 2D w celu reprezentowania semantyki wizualnej opisanej w podpowiedzi tekstowej, jednocześnie zachowując swobodę twórczą oferowaną przez te ramy generatywne AI 2D. Wygenerowany obraz jest następnie podnoszony do 3D za pomocą kaskadowego geometrycznego wzmocnienia tekstury i faz rzeźbienia geometrii, a specjalistyczne techniki są stosowane na każdym etapie z pomocą dekompozycji problemu. W wyniku tego podejścia, rama DreamCraft3D może produkować wysokiej jakości i spójne aktywa 3D z przekonywującymi teksturami, widocznymi z wielu kątów.

Unite.AI