Artificial Intelligence

Styl natychmiastowy: zachowanie stylu podczas generowania tekstu na obraz

Opublikowany

3 tydzień temu

19 kwietnia 2024 r.

W ciągu ostatnich kilku lat modele dyfuzji oparte na dostrajaniu wykazały niezwykły postęp w szerokim zakresie zadań związanych z personalizacją i dostosowywaniem obrazu. Jednak pomimo ich potencjału, obecne modele dyfuzji oparte na dostrajaniu w dalszym ciągu stoją przed wieloma złożonymi wyzwaniami w zakresie tworzenia i generowania obrazów spójnych pod względem stylu, a przyczyny tego mogą być trzy. Po pierwsze, koncepcja stylu nadal pozostaje niezdefiniowana i nieokreślona i obejmuje kombinację elementów, w tym atmosfery, struktury, projektu, materiału, koloru i wielu innych. Metody oparte na drugiej inwersji są podatne na degradację stylu, co powoduje częstą utratę drobnoziarnistych szczegółów. Wreszcie, podejścia oparte na adapterach wymagają częstego dostrajania wagi każdego obrazu referencyjnego, aby zachować równowagę między możliwością kontrolowania tekstu a intensywnością stylu.

Co więcej, głównym celem większości podejść do transferu stylu lub generowania obrazu stylu jest użycie obrazu referencyjnego i zastosowanie jego specyficznego stylu z danego podzbioru lub obrazu referencyjnego do docelowego obrazu treści. Jednak to duża liczba atrybutów stylu utrudnia badaczom gromadzenie stylizowanych zbiorów danych, prawidłowe przedstawianie stylu i ocenę powodzenia transferu. Wcześniej modele i ramy zajmujące się procesem rozpowszechniania opartym na dostrajaniu dostrajały zbiór danych obrazów mających wspólny styl, co było procesem zarówno czasochłonnym, jak i ograniczonym możliwością uogólnienia w zadaniach w świecie rzeczywistym, ponieważ jest to trudne aby zebrać podzbiór obrazów o tym samym lub prawie identycznym stylu.

W tym artykule omówimy InstantStyle, framework zaprojektowany w celu rozwiązania problemów napotykanych przez obecne modele dyfuzji oparte na dostrajaniu do generowania i dostosowywania obrazów. Porozmawiamy o dwóch kluczowych strategiach realizowanych przez framework InstantStyle:

Proste, ale skuteczne podejście do oddzielenia stylu i treści od obrazów referencyjnych w przestrzeni obiektów, przewidywane przy założeniu, że obiekty w tej samej przestrzeni obiektów można dodawać lub odejmować od siebie.
Zapobieganie wyciekom stylu poprzez wstrzyknięcie funkcji obrazu referencyjnego wyłącznie do bloków specyficznych dla stylu i celowe unikanie konieczności stosowania uciążliwych wag w celu dostrajania, często charakteryzującego projekty o większej liczbie parametrów.

Celem tego artykułu jest szczegółowe omówienie frameworka InstantStyle oraz zbadanie mechanizmu, metodologii i architektury frameworku wraz z jego porównaniem z najnowocześniejszymi frameworkami. Porozmawiamy również o tym, jak framework InstantStyle zapewnia niezwykłe efekty w zakresie stylizacji wizualnej i zapewnia optymalną równowagę pomiędzy sterowalnością elementów tekstowych a intensywnością stylu. Więc zacznijmy.

InstantStyle: zachowanie stylu podczas generowania tekstu na obraz

Struktury sztucznej inteligencji oparte na dyfuzji tekstu do obrazu odniosły zauważalny i niezwykły sukces w szerokiej gamie zadań dostosowywania i personalizacji, szczególnie w zadaniach generowania spójnych obrazów, w tym dostosowywaniu obiektów, zachowywaniu obrazów i transferze stylu. Jednak pomimo niedawnego sukcesu i wzrostu wydajności, transfer stylu pozostaje trudnym zadaniem dla badaczy ze względu na nieokreślony i niezdefiniowany charakter stylu, często obejmujący różnorodne elementy, w tym atmosferę, strukturę, projekt, materiał, kolor i wiele innych. Mając to na uwadze, głównym celem generowania stylizowanego obrazu lub transferu stylu jest zastosowanie określonego stylu z danego obrazu referencyjnego lub podzbioru obrazów referencyjnych do docelowego obrazu treści. Jednak duża liczba atrybutów stylu utrudnia badaczom gromadzenie stylizowanych zbiorów danych, prawidłowe przedstawianie stylu i ocenę powodzenia transferu. Wcześniej modele i ramy zajmujące się procesem rozpowszechniania opartym na dostrajaniu dostrajały zbiór danych obrazów mających wspólny styl, co było procesem zarówno czasochłonnym, jak i ograniczonym możliwością uogólnienia w zadaniach w świecie rzeczywistym, ponieważ jest to trudne aby zebrać podzbiór obrazów o tym samym lub prawie identycznym stylu.

W obliczu wyzwań stojących przed obecnym podejściem badacze zainteresowali się opracowaniem podejść dostrajających w zakresie transferu stylu lub stylizowane generowanie obrazu, a te struktury można podzielić na dwie różne grupy:

Podejścia bez adaptera: Podejścia i struktury niewymagające adapterów wykorzystują siłę samouwagi w procesie dyfuzji, a dzięki wdrożeniu operacji współdzielenia uwagi modele te są w stanie wyodrębnić istotne cechy, w tym klucze i wartości, bezpośrednio z obrazów w danym stylu referencyjnym.

Podejścia oparte na adapterach: Z drugiej strony podejścia i struktury oparte na adapterach obejmują lekki model zaprojektowany w celu wyodrębnienia szczegółowych reprezentacji obrazów z obrazów w stylu referencyjnym. Następnie struktura integruje te reprezentacje z procesem rozpowszechniania, umiejętnie wykorzystując mechanizmy wzajemnej uwagi. Podstawowym celem procesu integracji jest kierowanie procesem generowania i zapewnienie, że powstały obraz jest zgodny z pożądanymi niuansami stylistycznymi obrazu referencyjnego.

Jednak pomimo obietnic, metody bez strojenia często napotykają kilka wyzwań. Po pierwsze, podejście bez adapterów wymaga wymiany kluczy i wartości w warstwach samouważności i wstępnie przechwytuje macierze kluczy i wartości pochodzące z obrazów w stylu referencyjnym. W przypadku implementacji na naturalnych obrazach podejście niewymagające adapterów wymaga odwrócenia obrazu z powrotem do ukrytego szumu przy użyciu technik takich jak DDIM lub inwersja niejawnych modeli denoising diffusion. Jednakże użycie DDIM lub innych metod inwersji może spowodować utratę drobnoziarnistych szczegółów, takich jak kolor i tekstura, a tym samym zmniejszenie informacji o stylu w generowanych obrazach. Co więcej, dodatkowy etap wprowadzany w tych podejściach jest procesem czasochłonnym i może powodować znaczne wady w praktycznych zastosowaniach. Z drugiej strony, głównym wyzwaniem dla metod opartych na adapterach jest znalezienie właściwej równowagi pomiędzy wyciekiem kontekstu a intensywnością stylu. Wyciek treści ma miejsce, gdy wzrost intensywności stylu powoduje pojawienie się elementów niebędących stylem z obrazu referencyjnego w wygenerowanym wyniku, przy czym głównym problemem jest skuteczne oddzielenie stylów od treści obrazu referencyjnego. Aby rozwiązać ten problem, niektóre frameworki konstruują sparowane zbiory danych, które reprezentują ten sam obiekt w różnych stylach, ułatwiając wyodrębnienie reprezentacji treści i rozplątanych stylów. Jednak ze względu na z natury niezdeterminowaną reprezentację stylu zadanie tworzenia sparowanych zbiorów danych na dużą skalę jest ograniczone pod względem różnorodności stylów, które można uchwycić, a ponadto jest to proces wymagający dużych zasobów.

Aby przezwyciężyć te ograniczenia, wprowadzono platformę InstantStyle, która jest nowatorskim mechanizmem niewymagającym dostrajania, opartym na istniejących metodach opartych na adapterach, z możliwością płynnej integracji z innymi metodami wstrzykiwania opartego na uwadze i umożliwiającym skuteczne oddzielenie treści i stylu. Co więcej, framework InstantStyle wprowadza nie jeden, ale dwa skuteczne sposoby całkowitego oddzielenia stylu od treści, osiągając lepszą migrację stylów bez konieczności wprowadzania dodatkowych metod w celu osiągnięcia oddzielenia lub budowania sparowanych zbiorów danych.

Co więcej, wcześniejsze struktury oparte na adapterach były szeroko stosowane w metodach opartych na CLIP jako ekstraktor cech obrazu, w niektórych strukturach badano możliwość implementacji oddzielenia cech w przestrzeni cech, a w porównaniu z nieokreślonym stylem łatwiej jest opisz treść tekstem. Ponieważ obrazy i teksty mają wspólną przestrzeń cech w metodach opartych na CLIP, prosta operacja odejmowania cech tekstu kontekstowego i cech obrazu może znacznie ograniczyć wyciek treści. Co więcej, w większości modele dyfuzyjne, w jego architekturze istnieje szczególna warstwa, która wprowadza informacje o stylu i dokonuje oddzielenia treści od stylu poprzez wstrzyknięcie cech obrazu tylko do określonych bloków stylu. Implementując te dwie proste strategie, framework InstantStyle jest w stanie rozwiązać problemy z wyciekiem treści napotykane przez większość istniejących frameworków, zachowując jednocześnie siłę stylu.

Podsumowując, framework InstantStyle wykorzystuje dwa proste, bezpośrednie, ale skuteczne mechanizmy umożliwiające skuteczne oddzielenie treści i stylu od obrazów referencyjnych. Framework Instant-Style to podejście niezależne od modelu i pozbawione dostrajania, które wykazuje niezwykłą wydajność w zadaniach przenoszenia stylów z ogromnym potencjałem w przypadku zadań dalszych.

Styl natychmiastowy: metodologia i architektura

Jak wykazano w poprzednich podejściach, istnieje równowaga we wprowadzaniu warunków stylu w modelach dyfuzji bez strojenia. Jeśli intensywność warunku obrazu jest zbyt wysoka, może to spowodować wyciek treści, natomiast jeśli intensywność warunku obrazu spadnie zbyt nisko, styl może nie wydawać się wystarczająco oczywisty. Głównym powodem tej obserwacji jest to, że na obrazie styl i treść są ze sobą powiązane, a ze względu na nieodłączne, nieokreślone atrybuty stylu, trudno jest oddzielić styl i intencję. W rezultacie dla każdego obrazu referencyjnego często dopasowuje się skrupulatne wagi, próbując zrównoważyć kontrolę tekstu i siłę stylu. Co więcej, dla danego wejściowego obrazu referencyjnego i odpowiadającego mu opisu tekstowego w metodach opartych na inwersji, w stosunku do obrazu przyjmowane są podejścia inwersyjne, takie jak DDIM, w celu uzyskania trajektorii odwróconej dyfuzji. Jest to proces przybliżający równanie inwersji w celu przekształcenia obrazu w utajony obraz reprezentacja szumu. Opierając się na tym samym i zaczynając od odwróconej trajektorii rozprzestrzeniania się wraz z nowym zestawem podpowiedzi, metody te generują nową treść, której styl jest dostosowany do danych wejściowych. Jednakże, jak pokazano na poniższym rysunku, metoda inwersji DDIM dla obrazów rzeczywistych jest często niestabilna, ponieważ opiera się na założeniach lokalnej linearyzacji, co powoduje propagację błędów i prowadzi do utraty treści i nieprawidłowej rekonstrukcji obrazu.

Wracając do metodologii, zamiast stosować złożone strategie oddzielania treści i stylu od obrazów, platforma Instant-Style przyjmuje najprostsze podejście, aby osiągnąć podobną wydajność. W porównaniu z nieokreślonymi atrybutami stylu, treść może być reprezentowana przez tekst naturalny, co pozwala platformie Instant-Style na użycie kodera tekstu z CLIP w celu wyodrębnienia cech tekstu treści jako reprezentacji kontekstu. Jednocześnie framework Instant-Style implementuje koder obrazu CLIP w celu wyodrębnienia cech obrazu referencyjnego. Wykorzystując charakterystykę globalnych funkcji CLIP i po odjęciu funkcji tekstu treści od funkcji obrazu, platforma Instant-Style jest w stanie jawnie oddzielić styl i treść. Chociaż jest to prosta strategia, pomaga frameworkowi Instant-Style w dość skutecznym ograniczaniu wycieków treści do minimum.

Co więcej, każda warstwa głębokiej sieci jest odpowiedzialna za przechwytywanie różnych informacji semantycznych, a kluczową obserwacją z poprzednich modeli jest to, że istnieją dwie warstwy uwagi odpowiedzialne za obsługę stylu. w górę W szczególności warstwy bloki.0.attentions.1 i dolne bloki.2.attentions.1 odpowiadają za uchwycenie stylu, takiego jak kolor, materiał, atmosfera, a warstwa układu przestrzennego oddaje odpowiednio strukturę i kompozycję. Struktura Instant-Style pośrednio wykorzystuje te warstwy do wyodrębniania informacji o stylu i zapobiega wyciekom treści bez utraty siły stylu. Strategia jest prosta, ale skuteczna, ponieważ model zlokalizował bloki stylu, które mogą wstrzyknąć cechy obrazu do tych bloków, aby uzyskać płynny transfer stylu. Co więcej, ponieważ model znacznie zmniejsza liczbę parametrów adaptera, możliwości frameworka w zakresie kontroli tekstu są zwiększone, a mechanizm ma również zastosowanie do innych modeli wstrzykiwania funkcji opartych na uwadze do edycji i innych zadań.

Styl natychmiastowy: eksperymenty i wyniki

Struktura Instant-Style jest zaimplementowana w środowisku Stable Diffusion XL i wykorzystuje powszechnie przyjęty, wstępnie wytrenowany adapter IR jako przykład do sprawdzenia swojej metodologii i wycisza wszystkie bloki z wyjątkiem bloków stylu dla funkcji obrazu. Model Instant-Style uczy także adaptera podczerwieni na 4 milionach sparowanych zestawów danych tekstowo-obrazowych na dużą skalę od podstaw i zamiast trenować wszystkie bloki, aktualizuje tylko bloki stylów.

Aby zapewnić możliwości uogólniania i niezawodność, platforma Instant-Style przeprowadza liczne eksperymenty z transferem stylów z różnymi stylami do różnych treści, a wyniki można zaobserwować na poniższych obrazach. Biorąc pod uwagę pojedynczy obraz referencyjny stylu i różne podpowiedzi, platforma Instant-Style zapewnia wysoką jakość i spójny styl generowanie obrazu.

Co więcej, ponieważ model wprowadza informacje o obrazie tylko do bloków stylu, jest w stanie znacznie ograniczyć problem wycieku treści i dlatego nie ma potrzeby dostrajania wagi.

Idąc dalej, platforma Instant-Style przyjmuje również architekturę ControlNet, aby uzyskać stylizację opartą na obrazie z kontrolą przestrzenną, a wyniki pokazano na poniższym obrazie.

W porównaniu z poprzednimi, najnowocześniejszymi metodami, w tym StyleAlign, B-LoRA, Swapping Self Attention i IP-Adapter, platforma Instant-Style wykazuje najlepsze efekty wizualne.

Final Thoughts

W tym artykule mówiliśmy o Instant-Style, ogólnym frameworku, który wykorzystuje dwie proste, ale skuteczne strategie w celu skutecznego oddzielenia treści i stylu od obrazów referencyjnych. Platforma InstantStyle została zaprojektowana w celu rozwiązania problemów napotykanych przez obecne modele dyfuzji oparte na dostrajaniu w celu generowania i dostosowywania obrazów. Struktura Instant-Style wdraża dwie istotne strategie: Proste, ale skuteczne podejście do oddzielenia stylu i treści od obrazów referencyjnych w przestrzeni cech, przewidywane przy założeniu, że cechy w tej samej przestrzeni cech mogą być dodawane lub odejmowane od siebie. Po drugie, zapobieganie wyciekom stylu poprzez wstrzyknięcie funkcji obrazu referencyjnego wyłącznie do bloków specyficznych dla stylu i celowe unikanie konieczności stosowania uciążliwych wag w celu dostrajania, często charakteryzującego projekty o większej liczbie parametrów.

Powiązane tematy:sztuczna inteligencja Wizja komputerowa modele dyfuzyjne generatywna ai generowanie obrazu Styl natychmiastowy Natychmiastowy styl

W przyszłym

10 najważniejszych wniosków z raportu indeksu AI firmy Stanford za rok 2024

Nie przegap

Powstanie inżynierów oprogramowania AI: SWE-Agent, Devin AI i przyszłość kodowania

Kunal Kejriwal

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.