Sztuczna inteligencja

Przesuwacze pojęć: precyzyjna kontrola w modelach dyfuzyjnych z adaptatorami LoRA

Opublikowano 12 grudnia 2023

Zaktualizowano 22 maja 2026

Przez

Kunal Kejriwal

Dzięki ich możliwościom, modele dyfuzyjne tekst-obraz stały się niezwykle popularne wśród artystów. Niemniej jednak, obecne modele, w tym najnowsze ramy, często mają trudności z utrzymaniem kontroli nad pojęciami wizualnymi i atrybutami w generowanych obrazach, co prowadzi do niezadowalających wyników. Większość modeli opiera się wyłącznie na podpowiedziach tekstowych, co stanowi wyzwanie w modulowaniu ciągłych atrybutów, takich jak intensywność pogody, ostrość cieni, wyrażenia twarzy lub wiek osoby. To sprawia, że trudno użytkownikom dostosować obrazy do ich specyficznych potrzeb. Ponadto, chociaż te ramy generatywne produkują wysokiej jakości i realistyczne obrazy, są one podatne na zniekształcenia, takie jak zniekształcone twarze lub brakujące palce.

Aby pokonać te ograniczenia, deweloperzy zaproponowali użycie interpretowalnych przesuwaczy pojęć. Te przesuwacze obiecują większą kontrolę dla użytkowników nad atrybutami wizualnymi, poprawiając generowanie i edytowanie obrazów w ramach modeli dyfuzyjnych. Przesuwacze pojęć w modelach dyfuzyjnych działają poprzez identyfikację kierunku parametru odpowiadającego pojedynczemu pojęciu, minimalizując jednocześnie interferencję z innymi atrybutami. Ramy tworzą te przesuwacze za pomocą przykładowych obrazów lub zestawu podpowiedzi, ustanawiając kierunki zarówno dla pojęć tekstowych, jak i wizualnych.

Ostatecznie, użycie przesuwaczy pojęć w modelach dyfuzyjnych tekst-obraz może prowadzić do generowania obrazów z minimalnym stopniem interferencji i zwiększoną kontrolą nad wynikiem końcowym, zwiększając jednocześnie postrzeganą realność bez zmiany treści obrazów, generując w ten sposób realistyczne obrazy. W tym artykule będziemy omawiać pojęcie użycia przesuwaczy pojęć w ramach tekst-obraz w większej głębi i analizować, jak ich użycie może prowadzić do lepszej jakości obrazów generowanych przez AI.

Wprowadzenie do przesuwaczy pojęć

Jak wcześniej wspomniano, obecne ramy tekst-obraz często mają trudności z kontrolą pojęć wizualnych i atrybutów w generowanych obrazach, co prowadzi do niezadowalających wyników. Ponadto, wiele z tych modeli ma trudności z modulowaniem ciągłych atrybutów, co dodatkowo przyczynia się do niezadowalających wyników. Przesuwacze pojęć mogą pomóc w złagodzeniu tych problemów, dając twórcom i użytkownikom zwiększoną kontrolę nad procesem generowania obrazów i rozwiązując wyzwania stojące przed obecnymi ramami.

Większość obecnych modeli tekst-obraz opiera się na bezpośredniej modyfikacji podpowiedzi tekstowych w celu kontroli atrybutów obrazu. Chociaż ten podejście pozwala na generowanie obrazów, nie jest optymalne, ponieważ zmiana podpowiedzi może drastycznie zmienić strukturę obrazu. Inne podejście stosowane przez te ramy obejmuje techniki post-hoc, które odwracają proces dyfuzyjny i modyfikują uwagi krzyżowe w celu edycji pojęć wizualnych. Niemniej jednak, techniki post-hoc mają ograniczenia, obsługując tylko ograniczoną liczbę jednoczesnych edycji i wymagając indywidualnych przejść interferencyjnych dla każdego nowego pojęcia. Ponadto mogą one wprowadzać konceptualne splątanie, jeśli nie są starannie zaprojektowane.

W przeciwieństwie do tego, przesuwacze pojęć oferują bardziej efektywne rozwiązanie dla generowania obrazów. Te lekkie, łatwe w użyciu adaptory mogą być stosowane do wstępnie wyuczonych modeli, zwiększając kontrolę i precyzję nad pożądanymi pojęciami w jednym przejściu interferencyjnym z minimalną interferencją. Przesuwacze pojęć umożliwiają również edycję pojęć wizualnych, które nie są objęte opisami tekstowymi, co odróżnia je od metod edycji opartych na podpowiedziach tekstowych. Chociaż metody dostosowywania obrazu mogą skutecznie dodawać tokeny do pojęć opartych na obrazach, są one trudne do wdrożenia w celu edycji obrazów. Przesuwacze pojęć pozwalają użytkownikom dostarczyć niewielką liczbę par obrazów definiujących pożądane pojęcie. Następnie przesuwacze generalizują to pojęcie i automatycznie stosują je do innych obrazów, dążąc do poprawy realizmu i naprawy zniekształceń, takich jak w dłoniach.

Przesuwacze pojęć dążą do nauki i rozwiązania problemów wspólnych dla czterech pojęć generatywnych AI i ram dyfuzyjnych: edycji obrazu, metod opartych na wskazaniach, edycji modelu i kierunków semantycznych.

Edycja obrazu

Obecne ramy AI albo koncentrują się na użyciu warunkowego wejścia, aby sterować strukturą obrazu, albo manipulują uwagami krzyżowymi obrazu źródłowego z jego podpowiedzią docelową, aby umożliwić edycję pojedynczego obrazu w ramach modeli dyfuzyjnych tekst-obraz. W rezultacie te podejścia mogą być wdrożone tylko dla pojedynczych obrazów i wymagają optymalizacji bazy latentnej dla każdego obrazu w wyniku ewolucji struktury geometrycznej w czasie na przestrzeni podpowiedzi.

Metody oparte na wskazaniach

Użycie metod opartych na wskazaniach bez klasyfikatora wykazało ich zdolność do poprawy jakości generowanych obrazów i zwiększenia dopasowania tekstu do obrazu. Poprzez uwzględnienie terminów wskazujących podczas interferencji, metoda poprawia ograniczoną kompozycyjność, dziedziczoną przez ramy dyfuzyjne, i mogą być one używane do sterowania niebezpiecznymi pojęciami w ramach dyfuzyjnych.

Edycja modelu

Użycie przesuwaczy pojęć może być również postrzegane jako technika edycji modelu, która wykorzystuje adaptator o niskim ranku do wyjścia pojedynczego atrybutu semantycznego, który pozwala na ciągłą kontrolę, zgodną z atrybutem. Metody dostosowywania oparte na dostrajaniu są następnie używane do personalizacji ramy w celu dodania nowych pojęć. Ponadto technika niestandardowej dyfuzyjności proponuje sposób dostrajania warstw uwagi krzyżowej w celu włączenia nowych pojęć wizualnych do wstępnie wyuczonych modeli dyfuzyjnych. Odwrotnie, technika dyfuzyjności tekstowej proponuje optymalizację wektora osadzania w celu aktywacji możliwości modelu i wprowadzenia pojęć tekstowych do ramy.

Kierunki semantyczne w GAN

Manipulacja atrybutami semantycznymi jest jednym z kluczowych atrybutów sieci generatywno-dyskryminacyjnych, a trajektorie przestrzeni latentnej okazały się wyrównane w sposób samonadzorowany. W ramach dyfuzyjnych, te trajektorie przestrzeni latentnej istnieją w warstwach środkowych architektury U-Net, a główny kierunek przestrzeni latentnej w ramach dyfuzyjnych ujmuje globalną semantykę. Przesuwacze pojęć trenują niskorankowe podprzestrzenie odpowiadające specjalnym atrybutom bezpośrednio i uzyskują precyzyjne i zlokalizowane kierunki edycji, używając par tekstowych lub obrazowych do optymalizacji globalnych kierunków.

Przesuwacze pojęć: Architektura i działanie

Modele dyfuzyjne i LoRA lub adaptory o niskim ranku

Modele dyfuzyjne są podklasą ram generatywnych, które działają na zasadzie syntezy danych poprzez odwrócenie procesu dyfuzyjnego. Proces dyfuzyjny do przodu początkowo dodaje szum do danych, przechodząc od stanu zorganizowanego do pełnego szumu Gaussa. Głównym celem modeli dyfuzyjnych jest odwrócenie procesu dyfuzyjnego poprzez stopniowe odhałaszkowanie obrazu i pobranie losowego szumu Gaussa w celu wygenerowania obrazu. W aplikacjach świata rzeczywistego głównym celem ram dyfuzyjnych jest przewidzenie prawdziwego szumu, gdy cały szum Gaussa jest podawany jako wejście wraz z dodatkowymi wejściami, takimi jak warunki i krok czasowy.

Technika LoRA lub adaptory o niskim ranku rozkłada aktualizacje wag podczas dostrajania, umożliwiając efektywną adaptację dużych wstępnie wyuczonych ram w zadaniach podrzędnych. Technika LoRA rozkłada aktualizacje wag dla warstwy modelu wstępnie wyuczonego w odniesieniu do zarówno wymiaru wejścia, jak i wymiaru wyjścia i ogranicza aktualizację do niskowymiarowej podprzestrzeni.

Przesuwacze pojęć

Głównym celem przesuwaczy pojęć jest służenie jako podejście do dostrajania adaptorów LoRA w ramach modelu dyfuzyjnego w celu umożliwienia większego stopnia kontroli nad obrazami ukierunkowanymi na pojęcia, a to jest pokazane na poniższym obrazie.

Gdy warunkowane na pojęcia docelowe, przesuwacze pojęć uczą się kierunków parametrów o niskim ranku, aby zwiększyć lub zmniejszyć ekspresję określonych atrybutów. Dla modelu i jego pojęcia docelowego, głównym celem przesuwaczy pojęć jest uzyskanie ulepszonych modeli, które modyfikują prawdopodobieństwo zwiększania atrybutów i zmniejszania prawdopodobieństwa tłumienia atrybutów dla obrazu, gdy warunkowane na pojęcie docelowe, aby zwiększyć prawdopodobieństwo zwiększania atrybutów i zmniejszyć prawdopodobieństwo tłumienia atrybutów. Używając ponownego parametryzowania i wzoru Tweediego, ramy wprowadzają proces szumu zależnego od czasu i wyrażają każdy wynik jako przewidywanie odhałaszkowania. Ponadto, cel dezentyfikacji dostraja moduły w przesuwaczach pojęć, utrzymując przy tym wagi wstępnie wyuczonego modelu. Współczynnik skalowania wprowadzony podczas formułowania LoRA jest modyfikowany podczas interferencji. Współczynnik skalowania umożliwia również dostosowanie siły edycji i sprawia, że edycje są silniejsze bez konieczności ponownego szkolenia ramy, jak to pokazano na poniższym obrazie.

Metody edycji używane wcześniej przez ramy umożliwiały silniejsze edycje poprzez ponowne szkolenie ramy z zwiększonym wskazaniem. Niemniej jednak, skalowanie współczynnika skalowania podczas interferencji daje te same wyniki edycji bez zwiększania kosztu szkolenia i czasu.

Nauka pojęć wizualnych

Przesuwacze pojęć są zaprojektowane w taki sposób, aby kontrolować pojęcia wizualne, które podpowiedzi tekstowe nie są w stanie dobrze zdefiniować, a te przesuwacze wykorzystują małe zestawy danych, które są albo sparowane przed, albo po, aby trenować te pojęcia. Kontrast między parami obrazów pozwala przesuwaczom nauczyć się pojęć wizualnych. Ponadto, proces treningowy przesuwaczy pojęć optymalizuje składnik LoRA wdrożony w obu kierunkach do przodu i do tyłu. W rezultacie, składnik LoRA jest zgodny z kierunkiem, który powoduje efekty wizualne w obu kierunkach.

Przesuwacze pojęć: Wyniki wdrożenia

Aby przeanalizować zysk w wydajności, deweloperzy ocenili użycie przesuwaczy pojęć głównie w ramach Stable Diffusion XL, wysokiej rozdzielczości ramy 1024-pikselowej z dodatkowymi eksperymentami przeprowadzonymi w ramach Stable Diffusion v1.4 z modelami szkolonymi przez 500 epok.

Przesuwacze pojęć tekstowych

Aby ocenić wydajność przesuwaczy pojęć tekstowych, zostały one zwalidowane w zestawie 30 pojęć opartych na tekście, a metoda została porównana z dwoma bazowymi, które wykorzystują standardową podpowiedź tekstową dla ustalonej liczby kroków czasowych, a następnie rozpoczynają kompozycję, dodając podpowiedzi, aby skierować obraz. Jak widać na poniższym rysunku, użycie przesuwaczy pojęć prowadzi do stale wyższego wyniku CLIP i stałego zmniejszenia wyniku LPIPS w porównaniu z oryginalną ramą bez przesuwaczy pojęć.

Jak widać na powyższym obrazie, użycie przesuwaczy pojęć umożliwia precyzyjną edycję atrybutów pożądanych podczas procesu generowania obrazu, jednocześnie zachowując ogólną strukturę obrazu.

Przesuwacze pojęć wizualnych

Modele dyfuzyjne tekst-obraz, które wykorzystują tylko podpowiedzi tekstowe, często mają trudności z utrzymaniem wysokiego stopnia kontroli nad atrybutami wizualnymi, takimi jak włosy na twarzy lub kształt oczu. Aby zapewnić lepszą kontrolę nad atrybutami drobnymi, przesuwacze pojęć wykorzystują opcjonalne wskazania tekstowe w połączeniu z zestawami obrazów. Jak widać na poniższym rysunku, przesuwacze pojęć tworzą indywidualne przesuwacze dla „rozmiaru oczu” i „kształtu brwi”, które ujmują pożądane transformacje za pomocą par obrazów.

Wyniki mogą być dalej udoskonalane, dostarczając określony tekst, aby kierunek koncentrował się na tej okolicy twarzy i tworzył przesuwacze z kontrolą stopniową nad atrybutem docelowym.

Składanie przesuwaczy

Jednym z głównych zalet użycia przesuwaczy pojęć jest ich składalność, która pozwala użytkownikom łączyć wiele przesuwaczy w celu zwiększenia kontroli, zamiast koncentrować się na jednym pojęciu na raz. Dodatkowo, ponieważ przesuwacze pojęć są lekkimi adaptorami LoRA, są one łatwe do udostępniania i mogą być łatwo nałożone na modele dyfuzyjne. Użytkownicy mogą również dostosować wiele pokręteł jednocześnie, aby skierować złożone generacje, pobierając interesujące zestawy przesuwaczy.

Poniższy obraz demonstruje możliwości kompozycyjne przesuwaczy pojęć, a wiele przesuwaczy jest komponowanych stopniowo w każdym wierszu od lewej do prawej, umożliwiając przemieszczanie się w przestrzeni pojęć o wysokiej wymiarowości z zwiększonym stopniem kontroli nad pojęciami.

Poprawa jakości obrazu

Chociaż ramy tekst-obraz i duże modele generatywne, takie jak Stable Diffusion XL, są w stanie generować realistyczne i wysokiej jakości obrazy, często cierpią na zniekształcenia obrazu, takie jak rozmyte lub zniekształcone obiekty, nawet jeśli parametry tych ram są wyposażone w ukrytą zdolność do generowania wysokiej jakości danych wyjściowych z mniejszą liczbą generacji. Użycie przesuwaczy pojęć może prowadzić do generowania obrazów z mniejszą liczbą zniekształceń, odblokowując w ten sposób prawdziwe możliwości tych modeli poprzez identyfikację kierunków parametrów o niskim ranku.

Naprawa dłoni

Generowanie obrazów z realistycznie wyglądającymi dłońmi zawsze było wyzwaniem dla ram dyfuzyjnych, a użycie przesuwaczy pojęć ma bezpośredni wpływ na tendencję do zniekształcania dłoni. Poniższy obraz demonstruje efekt użycia przesuwaczy pojęć „naprawa dłoni”, które pozwalają ramom generować obrazy z bardziej realistycznie wyglądającymi dłońmi.

Przesuwacze naprawcze

Użycie przesuwaczy pojęć nie tylko może prowadzić do generowania bardziej realistycznie wyglądających dłoni, ale również wykazało ich potencjał w poprawie ogólnej realności generowanych obrazów. Przesuwacze pojęć identyfikują również pojedynczy kierunek parametrów o niskim ranku, który umożliwia przesunięcie obrazów od typowych problemów zniekształceń, a wyniki są pokazane na poniższym obrazie.

Podsumowanie

W tym artykule omówiliśmy przesuwacze pojęć, prostą, ale skalowalną nową paradygmatykę, która umożliwia interpretowalną kontrolę nad generowanym wynikiem w modelach dyfuzyjnych. Użycie przesuwaczy pojęć ma na celu rozwiązanie problemów, z którymi borykają się obecne ramy tekst-obraz, które mają trudności z utrzymaniem wymaganej kontroli nad pojęciami wizualnymi i atrybutami w generowanych obrazach, co często prowadzi do niezadowalających wyników. Ponadto, większość modeli tekst-obraz ma trudności z modulowaniem ciągłych atrybutów w obrazie, co często prowadzi do niezadowalających wyników. Użycie przesuwaczy pojęć może pozwolić ramom tekst-obraz na złagodzenie tych problemów i dać twórcom i użytkownikom zwiększony stopień kontroli nad procesem generowania obrazów, rozwiązując problemy stojące przed obecnymi ramami.