Sztuczna inteligencja
Zero123++: Model generatywny rozprzestrzeniania z jednego obrazu do spójnych wielowidokowych

Ostatnie lata przyniosły gwałtowny postęp we współczesnych modelach generatywnych AI, które wykorzystują ogromne zbiory danych i techniki generowania rozprzestrzeniania 2D. Dziś modele generatywne AI są niezwykle zdolne do generowania różnych form zawartości multimedialnej, w tym tekstu, obrazów, filmów, GIF-ów i innych.
W tym artykule omówimy framework Zero123++, który jest modelem generatywnym AI warunkowanym przez obraz, mającym na celu generowanie 3D-spójnych wielowidokowych obrazów przy użyciu jednego wejściowego widoku. Aby maksymalnie wykorzystać zalety wcześniej wytrenowanych modeli generatywnych, framework Zero123++ wdraża wiele schematów treningu i warunkowania, aby zminimalizować wysiłek potrzebny do dostosowania modeli rozprzestrzeniania obrazu.
Zero123 i Zero123++: Wprowadzenie
Framework Zero123++ jest modelem generatywnym AI warunkowanym przez obraz, który ma na celu generowanie 3D-spójnych wielowidokowych obrazów przy użyciu jednego wejściowego widoku. Framework Zero123++ jest kontynuacją frameworku Zero123, który wykorzystuje technikę syntezy nowych widoków, aby prowadzić otwarte konwersje z jednego obrazu do 3D.
Framework Zero-1-to-3 służy jako podstawa dla innych frameworków, takich jak SyncDreamer, One-2-3-45, Consistent123 i innych, które dodają dodatkowe warstwy do frameworku Zero123, aby uzyskać bardziej spójne wyniki przy generowaniu obrazów 3D. Inne frameworki, takie jak ProlificDreamer, DreamFusion, DreamGaussian i inne, stosują podejście optymalizacyjne, aby uzyskać obrazy 3D, destylując je z różnych niezgodnych modeli.
W frameworku Zero-1-to-3 każdy nowy widok jest generowany niezależnie, co prowadzi do niezgodności między widokami generowanymi przez modele rozprzestrzeniania. Aby rozwiązać ten problem, framework Zero123++ stosuje układ układu płytek, w którym obiekt jest otoczony przez sześć widoków w jednym obrazie, co pozwala na poprawne modelowanie wspólnej dystrybucji wielowidokowych obrazów obiektu.
Innym wyzwaniem, z którym borykają się deweloperzy frameworku Zero-1-to-3, jest to, że framework ten nie w pełni wykorzystuje możliwości oferowane przez Stable Diffusion, co prowadzi do niewydajności i dodatkowych kosztów.
- Podczas treningu z warunkami obrazu, framework Zero-1-to-3 nie wykorzystuje skutecznie mechanizmów warunkowania lokalnego i globalnego oferowanych przez Stable Diffusion.
- Podczas treningu framework Zero-1-to-3 używa zmniejszonej rozdzielczości, co może obniżyć jakość generowanych obrazów.
Aby rozwiązać te problemy, framework Zero123++ wdraża szereg technik warunkowania, które maksymalnie wykorzystują zasoby oferowane przez Stable Diffusion i utrzymują jakość generowanych obrazów.
Poprawa warunkowania i spójności
W celu poprawy warunkowania obrazu i spójności wielowidokowych obrazów, framework Zero123++ wdrożył różne techniki, których głównym celem jest ponowne wykorzystanie wcześniej opracowanych technik z modelu Stable Diffusion.
Generowanie wielowidokowe
Niezbedną cechą generowania spójnych wielowidokowych obrazów jest poprawne modelowanie wspólnej dystrybucji wielu obrazów. W frameworku Zero-1-to-3 korelacja między wielowidokowymi obrazami jest ignorowana, ponieważ dla każdego obrazu framework modeluje warunkową dystrybucję brzegową niezależnie i oddzielnie.
Framework Zero123++ stosuje układ płytek, w którym sześć obrazów jest łączonych w jeden obraz, co pozwala na spójne generowanie wielowidokowych obrazów.
Harmonogram szumu
Oryginalny harmonogram szumu dla Stable Diffusion koncentruje się głównie na detalach lokalnych, ale jak widać na poniższym obrazie, ma tylko kilka kroków o niższym współczynniku sygnału do szumu.
Te kroki o niskim współczynniku sygnału do szumu występują wcześnie podczas fazy denoisingu, która jest kluczowa dla określenia globalnej struktury niskiej częstotliwości.
Warunkowanie globalne: FlexDiffuse
W oryginalnym podejściu Stable Diffusion, tekstowe wejścia są jedynym źródłem warunkowania globalnego, a podejście to wykorzystuje framework CLIP jako tekstowy encoder do przeprowadzania badań porównawczych między tekstowymi wejściami a modelowanymi latentami.
Framework Zero123++ proponuje wykorzystanie wersji szkoleniowej mechanizmu liniowego sterowania, aby włączyć warunkowanie globalne do frameworku z minimalnymi wymogami dostosowania.
Architektura modelu
Framework Zero123++ jest trenowany z modelem Stable Diffusion 2v jako podstawą, wykorzystując różne podejścia i techniki wymienione w artykule.
Zero123++: Wyniki i porównanie wydajności
Wyniki jakościowe
Aby ocenić wydajność frameworku Zero123++ pod względem jakości generowanych obrazów, porównano go z frameworkami SyncDreamer i Zero-1-to-3-XL, które są jednymi z najlepszych frameworków do generowania zawartości.
Analiza ilościowa
Aby porównać framework Zero123++ z frameworkami Zero-1-to-3 i Zero-1-to-3-XL, oceniono wyniki Learned Perceptual Image Patch Similarity (LPIPS) na podstawie danych walidacyjnych.
Ocena tekstu do wielowidokowego
Aby ocenić możliwości frameworku Zero123++ w generowaniu zawartości z tekstu do wielowidokowego, najpierw wykorzystano framework SDXL z wejściami tekstowymi, aby wygenerować obraz, a następnie zastosowano framework Zero123++ do wygenerowanego obrazu.
Zero123++ Depth ControlNet
Oprócz podstawowego frameworku Zero123++, opracowano również wersję Depth ControlNet Zero123++, która jest wersją kontrolowaną głębokością, zbudowaną przy użyciu architektury ControlNet.
Wnioski
W tym artykule omówiono framework Zero123++, który jest modelem generatywnym AI warunkowanym przez obraz, mającym na celu generowanie 3D-spójnych wielowidokowych obrazów przy użyciu jednego wejściowego widoku.
Mimo swojej wydajności i możliwości generowania wysokiej jakości wielowidokowych obrazów, framework Zero123++ nadal ma pewne obszary do poprawy, takie jak model ulepszający dwuetapowy, który mógłby rozwiązać problem niezdolności frameworku do spełnienia wymogów globalnej spójności.
- Model ulepszający dwuetapowy mógłby rozwiązać problem niezdolności frameworku Zero123++ do spełnienia wymogów globalnej spójności.
- Dodatkowe rozszerzenia mogłyby dalej poprawić możliwości frameworku Zero123++ w generowaniu obrazów o jeszcze wyższej jakości.












