Sztuczna inteligencja
InstantStyle: Zachowanie stylu w generowaniu obrazów z tekstu
W ciągu ostatnich kilku lat, modele dyfuzyjne oparte na strojeniu wykazały znaczący postęp we wszystkich rodzajach zadań personalizacji i dostosowywania obrazów. Niemniej jednak, pomimo ich potencjału, obecne modele dyfuzyjne oparte na strojeniu nadal stają w obliczu szeregu złożonych wyzwań w produkcji i generowaniu obrazów spójnych ze stylem, i może być kilka powodów tego samego. Po pierwsze, pojęcie stylu nadal pozostaje szeroko niezdefiniowane i nieokreślone, i składa się z kombinacji elementów, w tym atmosfery, struktury, projektu, materiału, koloru i wiele więcej. Po drugie, metody oparte na odwróceniu są podatne na degradację stylu, co skutkuje częstą utratą drobnych szczegółów. Wreszcie, podejścia oparte na adapterach wymagają częstego strojenia wag dla każdego obrazu odniesienia, aby utrzymać równowagę między kontrolą tekstu a intensywnością stylu.
Ponadto, głównym celem większości podejść do transferu stylu lub generowania obrazów stylizowanych jest użycie obrazu odniesienia i zastosowanie jego konkretnego stylu z danego podzbioru lub obrazu odniesienia do obrazu zawartości docelowej. Niemniej jednak, jest to szeroka liczba atrybutów stylu, która utrudnia badaczom zebranie zestawów danych stylizowanych, reprezentujących styl poprawnie i ocenianie powodzenia transferu. Wcześniej, modele i ramy, które zajmują się procesem dyfuzyjnym opartym na strojeniu, stroją zestaw danych obrazów, które dzielą wspólny styl, proces, który jest zarówno czasochłonny, jak i ograniczony w rzeczywistych zastosowaniach, ponieważ trudno zgromadzić podzbiór obrazów, które dzielą ten sam lub prawie identyczny styl.
W tym artykule, będziemy rozmawiać o InstantStyle, ramie zaprojektowanej z celem rozwiązania problemów stojących przed obecnymi modelami dyfuzyjnymi opartymi na strojeniu dla generowania i dostosowywania obrazów. Będziemy rozmawiać o dwóch kluczowych strategiach wdrożonych przez ramę InstantStyle:
- Prosta, ale skuteczna metoda rozłączenia stylu i zawartości z obrazów odniesienia w przestrzeni cech, przewidziana na założeniu, że cechy w tej samej przestrzeni cech mogą być dodawane lub odejmowane od siebie nawzajem.
- Zapobieganie wyciekowi stylu przez wstrzyknięcie cech obrazu odniesienia wyłącznie do bloków stylu, i celowe unikanie potrzeby użycia niewygodnych wag dla strojenia, często charakteryzujących się bardziej parametrycznymi projektami.
Ten artykuł ma na celu przedstawienie ramy InstantStyle w głębi, i będziemy eksplorować mechanizm, metodologię, architekturę ramy wraz z jej porównaniem z ramami stanu sztuki. Będziemy również rozmawiać o tym, jak ramy InstantStyle wykazują znaczące wizualne efekty stylizacji, i jak osiągają optymalną równowagę między kontrolą elementów tekstowych a intensywnością stylu. Więc zacznijmy.
InstantStyle: Zachowanie stylu w generowaniu obrazów z tekstu
Ramowe modele dyfuzyjne generujące obrazy z tekstu wykazały znaczący sukces w szerokim zakresie zadań personalizacji i dostosowywania, w szczególności w zadań generowania obrazów spójnych, w tym dostosowywania obiektów, zachowania obrazu i transferu stylu. Niemniej jednak, pomimo niedawnego sukcesu i wzrostu wydajności, transfer stylu pozostaje wyzwaniem dla badaczy ze względu na nieokreślony i niezdefiniowany charakter stylu, często składający się z różnych elementów, w tym atmosfery, struktury, projektu, materiału, koloru i wiele więcej. Z tym powiedziawszy, głównym celem generowania obrazów stylizowanych lub transferu stylu jest zastosowanie konkretnego stylu z danego obrazu odniesienia lub podzbioru obrazów odniesienia do obrazu zawartości docelowej. Niemniej jednak, szeroka liczba atrybutów stylu utrudnia badaczom zebranie zestawów danych stylizowanych, reprezentujących styl poprawnie i ocenianie powodzenia transferu. Wcześniej, modele i ramy, które zajmują się procesem dyfuzyjnym opartym na strojeniu, stroją zestaw danych obrazów, które dzielą wspólny styl, proces, który jest zarówno czasochłonny, jak i ograniczony w rzeczywistych zastosowaniach, ponieważ trudno zgromadzić podzbiór obrazów, które dzielą ten sam lub prawie identyczny styl.
Z wyzwaniami spotykanymi przez obecne podejście, badacze zainteresowali się rozwijaniem podejść do strojenia dla transferu stylu lub generowania obrazów stylizowanych, i te ramy można podzielić na dwie różne grupy:
- Podejścia bez adaptera: Podejścia bez adaptera i ramy wykorzystują moc uwagi własnej w procesie dyfuzyjnym, i poprzez wdrożenie operacji uwagi współdzielonej, te modele są w stanie wyodrębnić istotne cechy, w tym klucze i wartości z danego obrazu odniesienia stylu bezpośrednio.
- Podejścia z adapterem: Podejścia z adapterem i ramy z drugiej strony inkorporują lekki model zaprojektowany do wyodrębnienia szczegółowych reprezentacji obrazu z obrazów odniesienia stylu. Rama następnie integruje te reprezentacje w procesie dyfuzyjnym umiejętnie przy użyciu mechanizmów uwagi krzyżowej. Głównym celem procesu integracji jest kierowanie procesem generowania i zapewnienie, że wynikowy obraz jest zgodny z pożądanymi nuansami stylistycznymi obrazu odniesienia.
Jednakże, pomimo obietnic, metody bez strojenia często spotykają się z kilkoma wyzwaniami. Po pierwsze, podejście bez adaptera wymaga wymiany kluczy i wartości w warstwach uwagi własnej, i pre-lapie macierze kluczy i wartości pochodzących z obrazów odniesienia stylu. Kiedy wdrożone na obrazach naturalnych, podejście bez adaptera wymaga odwrócenia obrazu z powrotem do szumu latentnego przy użyciu technik takich jak DDIM lub Denoising Diffusion Implicit Models inversion. Niemniej jednak, użycie DDIM lub innych podejść do odwrócenia może skutkować utratą drobnych szczegółów, takich jak kolor i tekstura, co może prowadzić do zmniejszenia informacji o stylu w generowanych obrazach. Ponadto, dodatkowy krok wprowadzony przez te podejścia jest czasochłonny i może stanowić znaczące wady w praktycznych zastosowaniach. Z drugiej strony, główne wyzwanie dla podejść z adapterem leży w osiągnięciu odpowiedniej równowagi między przeciekiem kontekstu a intensywnością stylu. Przeciek kontekstu występuje, gdy zwiększenie intensywności stylu skutkuje pojawieniem się elementów nie-stylu z obrazu odniesienia w generowanym wyniku, z głównym punktem trudności polegającym na oddzieleniu stylu od zawartości w obrazie odniesienia skutecznie. Aby rozwiązać ten problem, niektóre ramy konstruują pary zestawów danych, które reprezentują ten sam obiekt w różnych stylach, ułatwiając wyodrębnienie reprezentacji zawartości i stylu rozłącznego. Niemniej jednak, dzięki niezdefiniowanemu przedstawieniu stylu, zadanie tworzenia dużych zestawów danych par jest ograniczone pod względem różnorodności stylów, które może przechwytywać, i jest to proces wymagający zasobów.

Aby rozwiązać te ograniczenia, wprowadza się ramę InstantStyle, która jest nową metodą bez strojenia opartą na istniejących metodach z adapterem z możliwością płynnego integrowania z innymi metodami wstrzyknięcia opartymi na uwadze, i osiągając rozłączenie zawartości i stylu skutecznie. Ponadto, rama InstantStyle wprowadza nie jeden, ale dwa skuteczne sposoby na rozłączenie stylu i zawartości, osiągając lepszą migrację stylu bez potrzeby wprowadzania dodatkowych metod do rozłączenia lub tworzenia par zestawów danych.
Ponadto, wcześniejsze ramy z adapterem były szeroko stosowane w metodach opartych na CLIP jako wyodrębnianie cech obrazu, niektóre ramy zbadały możliwość wdrożenia rozłączenia cech w przestrzeni cech, i w porównaniu z niezdefiniowanymi atrybutami stylu, jest łatwiej opisać zawartość za pomocą tekstu. Ponieważ obrazy i teksty dzielą przestrzeń cech w metodach opartych na CLIP, prosta operacja odjęcia cech tekstu zawartości i cech obrazu może znacznie zmniejszyć przeciek zawartości. Ponadto, w większości modeli dyfuzyjnych, istnieje konkretna warstwa w jej architekturze, która wstrzykuje informację o stylu, i osiąga rozłączenie zawartości i stylu poprzez wstrzyknięcie cech obrazu tylko do określonych bloków stylu. Poprzez wdrożenie tych dwóch prostych strategii, rama InstantStyle jest w stanie rozwiązać problemy przecieku zawartości spotykane przez większość istniejących ram, jednocześnie zachowując siłę stylu.
Podsumowując, rama InstantStyle zatrudnia dwie proste, ale skuteczne mechanizmy do osiągnięcia skutecznego rozłączenia zawartości i stylu z obrazów odniesienia. Rama InstantStyle jest modelem niezależnym i bez strojenia, który wykazuje znaczącą wydajność w zadań transferu stylu z ogromnym potencjałem dla zadań downstream.
Instant-Style: Metodologia i Architektura
Jak wykazano przez poprzednie podejścia, istnieje równowaga w wstrzyknięciu warunków stylu w modelach dyfuzyjnych bez strojenia. Jeśli intensywność warunku obrazu jest zbyt wysoka, może skutkować przeciekiem zawartości, natomiast jeśli intensywność warunku obrazu jest zbyt niska, styl może nie być wystarczająco wyraźny. Głównym powodem tego obserwacji jest to, że w obrazie, styl i zawartość są połączone, i ze względu na niezdefiniowane atrybuty stylu, jest trudno rozłączyć styl i intencję. W rezultacie, staranne wagi są często strojone dla każdego obrazu odniesienia w celu uzyskania równowagi między kontrolą tekstu a siłą stylu. Ponadto, dla danego wejściowego obrazu odniesienia i jego odpowiadającego opisu tekstu w metodach opartych na odwróceniu, podejścia odwrócenia, takie jak DDIM, są przyjmowane nad obrazem, aby uzyskać odwróconą trajektorię dyfuzyjną, proces, który aproksymuje równanie odwrócenia, aby przekształcić obraz w latentną reprezentację szumu. Budując na tym, i zaczynając od odwróconej trajektorii dyfuzyjnej wraz z nowym zestawem podpowiedzi, te metody generują nową zawartość ze stylem zgodnym z wejściem.

Przechodząc do metodologii, zamiast zatrudniania złożonych strategii do rozłączenia zawartości i stylu z obrazów, rama Instant-Style przyjmuje najprostszą strategię, aby osiągnąć podobną wydajność. Kiedy porównywane z niezdefiniowanymi atrybutami stylu, zawartość może być reprezentowana przez naturalny tekst, pozwalając ramie Instant-Style na użycie encodera tekstu z CLIP, aby wyodrębnić cechy tekstu zawartości jako reprezentacje kontekstu. Równocześnie, rama Instant-Style wdraża encjator obrazu CLIP, aby wyodrębnić cechy obrazu odniesienia. Wykorzystując charakterystykę globalnych cech CLIP, i po odjęciu cech tekstu zawartości od cech obrazu, rama Instant-Style jest w stanie rozłączyć styl i zawartość wyraźnie. Chociaż jest to prosta strategia, pomaga ramie Instant-Style w osiągnięciu minimalizacji przecieku zawartości.

Ponadto, każda warstwa w głębokiej sieci jest odpowiedzialna za przechwytywanie różnych informacji semantycznych, i kluczowa obserwacja z poprzednich modeli jest taka, że istnieją dwie warstwy uwagi, które są odpowiedzialne za obsługę stylu. Konkretnie, są to warstwy bloków.0.attentions.1 i down blocks.2.attentions.1, które są odpowiedzialne za przechwytywanie stylu, takiego jak kolor, materiał, atmosfera, i warstwa układu przestrzennego przechwytuje strukturę i kompozycję odpowiednio. Rama Instant-Style wykorzystuje te warstwy niejawnie, aby wyodrębnić informację o stylu, i zapobiega przeciekowi zawartości bez utraty siły stylu. Strategia jest prosta, ale skuteczna, ponieważ model zlokalizował bloki stylu, które mogą wstrzyknąć cechy obrazu do tych bloków, aby osiągnąć płynny transfer stylu. Ponadto, ponieważ model znacznie redukuje liczbę parametrów adaptera, zdolność kontroli tekstu ramy jest wzmocniona, i mechanizm jest również stosowalny do innych modeli wstrzyknięcia opartych na uwadze dla zadań edycyjnych i innych.

Instant-Style: Eksperymenty i Wyniki
Rama Instant-Style jest wdrożona w ramie Stable Diffusion XL, i wykorzystuje powszechnie przyjęty, wstępnie wyuczony adapter IR jako swój egzemplarz, aby zwalidować swoją metodologię, i wyłącza wszystkie bloki z wyjątkiem bloków stylu dla cech obrazu. Model Instant-Style również trenuje adapter IR na 4 milionach dużych zestawów danych obrazów i tekstu sparowanych od podstaw, i zamiast trenowania wszystkich bloków, aktualizuje tylko bloki stylu.
Aby przeprowadzić eksperymenty na jego zdolności generalizacji i wytrzymałości, rama Instant-Style przeprowadza liczne eksperymenty transferu stylu z różnymi stylami w różnych zawartościach, i wyniki można zaobserwować w następujących obrazach. Dla jednego obrazu odniesienia stylu wraz z różnymi podpowiedziami, rama Instant-Style dostarcza wysokiej jakości, spójne style generowanie obrazów.

Ponadto, ponieważ model wstrzykuje informację o obrazie tylko w blokach stylu, jest w stanie zminimalizować problem przecieku zawartości znacznie, i dlatego nie musi wykonywać strojenia wag.

Przechodząc dalej, rama Instant-Style również przyjmuje architekturę ControlNet, aby osiągnąć stylizację obrazu z kontrolą przestrzenną, i wyniki są przedstawione w następującym obrazie.

W porównaniu z poprzednimi metodami stanu sztuki, w tym StyleAlign, B-LoRA, Swapping Self Attention, i IP-Adapter, rama Instant-Style wykazuje najlepsze efekty wizualne.

Podsumowanie
W tym artykule, rozmawialiśmy o Instant-Style, ramie ogólnej, która zatrudnia dwie proste, ale skuteczne strategie, aby osiągnąć skuteczne rozłączenie zawartości i stylu z obrazów odniesienia. Rama InstantStyle jest zaprojektowana z celem rozwiązania problemów stojących przed obecnymi modelami dyfuzyjnymi opartymi na strojeniu dla generowania i dostosowywania obrazów. Rama Instant-Style wdraża dwie kluczowe strategie: Prostą, ale skuteczną metodę rozłączenia stylu i zawartości z obrazów odniesienia w przestrzeni cech, przewidzianą na założeniu, że cechy w tej samej przestrzeni cech mogą być dodawane lub odejmowane od siebie nawzajem. Po drugie, zapobieganie wyciekowi stylu przez wstrzyknięcie cech obrazu odniesienia wyłącznie do bloków stylu, i celowe unikanie potrzeby użycia niewygodnych wag dla strojenia, często charakteryzujących się bardziej parametrycznymi projektami.












