Sztuczna inteligencja

Samo-Uwaga Przewodnictwo: Poprawa jakości próbek modeli dyfuzyjnych

Opublikowano 2 stycznia 2024

Zaktualizowano 22 maja 2026

Przez

Kunal Kejriwal

Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Modele dyfuzyjne są generatywnymi ramami AI, które syntetyzują obrazy z hałasu za pomocą iteracyjnego procesu odhałasowania. Są one celebrowane za ich wyjątkowe możliwości generowania obrazów i różnorodność, w dużej mierze przypisywaną warunkowym metodom przewodnictwa, w tym przewodnictwu klasyfikatora i przewodnictwu bez klasyfikatora. Modele te były szczególnie udane w tworzeniu różnorodnych, wysokiej jakości obrazów. Ostatnie badania wykazały, że techniki przewodnictwa, takie jak podpisane etykiety i opisy, odgrywają kluczową rolę w poprawie jakości generowanych obrazów.

Jednakże, modele dyfuzyjne i metody przewodnictwa napotykają ograniczenia w pewnych zewnętrznych warunkach. Metoda przewodnictwa bez klasyfikatora (CFG), która wykorzystuje upuszczanie etykiet, dodaje złożoności do procesu szkolenia, podczas gdy metoda przewodnictwa klasyfikatora wymaga dodatkowego szkolenia klasyfikatora. Obie metody są w pewnym stopniu ograniczone przez swoją zależność od trudno uzyskanych warunków zewnętrznych, ograniczając ich potencjał i ograniczając je do warunkowych ustawień.

Aby rozwiązać te ograniczenia, deweloperzy sformułowali bardziej ogólny podejście do przewodnictwa dyfuzyjnego, znane jako Samo-Uwaga Przewodnictwo (SAG). Metoda ta wykorzystuje informacje z pośrednich próbek modeli dyfuzyjnych do generowania obrazów. W tym artykule będziemy omawiać SAG, dyskutując o jego działaniu, metodologii i wynikach w porównaniu z bieżącymi ramami i potokami.

Modele dyfuzyjne (DDM) zyskały popularność dzięki swojej zdolności do tworzenia obrazów z hałasu za pomocą iteracyjnego procesu odhałasowania. Umiejętność syntetyzowania obrazów tych modeli jest w dużej mierze wynikiem zastosowanych metod przewodnictwa dyfuzyjnego. Pomimo ich zalet, modele dyfuzyjne i metody przewodnictwa napotykają wyzwania, takie jak dodatkowa złożoność i zwiększone koszty obliczeniowe.

Aby pokonać bieżące ograniczenia, deweloperzy wprowadzili metodę Samo-Uwaga Przewodnictwo, bardziej ogólne sformułowanie metody przewodnictwa, które nie opiera się na zewnętrznej informacji z przewodnictwa dyfuzyjnego, umożliwiając podejście warunkowo-wolne i elastyczne do prowadzenia ram dyfuzyjnych. Podejście wybrane przez Samo-Uwaga Przewodnictwo ostatecznie pomaga w poprawie stosowalności tradycyjnych metod przewodnictwa dyfuzyjnego w przypadkach z lub bez zewnętrznych wymagań.

Samo-Uwaga Przewodnictwo opiera się na prostym założeniu ogólnej formuły i założeniu, że wewnętrzna informacja zawarta w pośrednich próbkach może również służyć jako przewodnictwo. Na podstawie tego założenia, metoda SAG wprowadza najpierw Przewodnictwo Rozmycia, proste i bezpośrednie rozwiązanie, aby poprawić jakość próbek. Przewodnictwo rozmycia ma na celu wykorzystanie korzystnych właściwości rozmycia Gaussa, aby usunąć drobne szczegóły naturalnie, prowadząc pośrednie próbki za pomocą usuniętej informacji jako wyniku rozmycia Gaussa. Chociaż metoda Przewodnictwa Rozmycia poprawia jakość próbek z umiarkowaną skalą przewodnictwa, nie powtarza wyników na dużej skali przewodnictwa, ponieważ często wprowadza niejasność strukturalną w całych obszarach.

W potoku Samo-Uwaga Przewodnictwo wejściowy sygnał jest najpierw rozmyty za pomocą filtra Gaussa, a następnie rozmyty z dodatkowym hałasem, aby wyprodukować sygnał wyjściowy. Działanie to powoduje, że potok SAG łagodzi efekt wynikający z rozmycia, który redukuje hałas Gaussa, i powoduje, że przewodnictwo opiera się na treści, a nie na losowym hałasie. Chociaż przewodnictwo rozmycia daje satysfakcjonujące wyniki w ramach z umiarkowaną skalą przewodnictwa, nie powtarza wyników w istniejących modelach z dużą skalą przewodnictwa, ponieważ jest podatne na wytwarzanie hałaśliwych wyników, jak pokazano na poniższym obrazie.

Te wyniki mogą być wynikiem niejasności strukturalnej wprowadzonej do ramy przez globalne rozmycie, co utrudnia potokowi SAG wyrównanie predykcji oryginalnego wejścia z predykcją zdegradowanego wejścia, w wyniku czego powstają hałaśliwe wyniki.

Mechanizm Samo-Uwagi

Jak wcześniej wspomniano, modele dyfuzyjne zwykle mają wbudowany komponent samo-uwagi, który jest jednym z bardziej istotnych komponentów w ramach modelu dyfuzyjnego. Mechanizm Samo-Uwagi jest wdrożony w rdzeniu modeli dyfuzyjnych i pozwala modelowi zwrócić uwagę na istotne części wejścia podczas procesu generatywnego, jak pokazano na poniższym obrazie z maskami o wysokiej częstotliwości w górnym rzędzie i maskami samo-uwagi w dolnym rzędzie ostatecznie wygenerowanych obrazów.

Proponowana metoda Samo-Uwaga Przewodnictwo opiera się na tym samym założeniu i wykorzystuje możliwości map samo-uwagi w modelach dyfuzyjnych. Ogólnie, metoda Samo-Uwaga Przewodnictwo rozmywa łaty samo-uwagi wejściowego sygnału lub ukrywa informację łat, na które zwraca uwagę model dyfuzyjny. Ponadto, sygnały wyjściowe w Samo-Uwaga Przewodnictwo zawierają nietknięte obszary sygnału wejściowego, co oznacza, że nie powoduje niejasności strukturalnej wejścia i rozwiązuje problem globalnego rozmycia. Potok następnie uzyskuje agregowane mapy samo-uwagi, przeprowadzając GAP (Global Average Pooling), aby agregować mapy samo-uwagi do wymiaru, i najbliższe sąsiedztwo do dopasowania rozdzielczości sygnału wejściowego.

Samo-Uwaga Przewodnictwo: Eksperymenty i Wyniki

Aby ocenić jego wydajność, potok Samo-Uwaga Przewodnictwo jest próbkowany przy użyciu 8 kart graficznych Nvidia GeForce RTX 3090 i jest zbudowany na podstawie wstępnie wytrenowanych ram IDDPM, ADM i Stable Diffusion.

Bezwarunkowa Generacja z Samo-Uwaga Przewodnictwem

Aby zmierzyć skuteczność potoku SAG w modelach bezwarunkowych i zademonstrować jego własność warunkowo-wolną, którą nie posiadają metody Przewodnictwa Klasyfikatora i Przewodnictwa bez Klasyfikatora, potok SAG jest uruchamiany na bezwarunkowo wstępnie wytrenowanych ramach na 50 tysiącach próbek.

Jak można zobaczyć, wdrożenie potoku SAG poprawia metryki FID, sFID i IS wejściowych danych bezwarunkowych, jednocześnie obniżając wartość recall. Ponadto, jakościowa poprawa wynikająca z wdrożenia potoku SAG jest widoczna na poniższych obrazach, gdzie obrazy na górze są wynikami z ram ADM i Stable Diffusion, a obrazy na dole są wynikami z ram ADM i Stable Diffusion z potokiem SAG.

Warunkowa Generacja z SAG

Integracja potoku SAG z istniejącymi ramami dostarcza wyjątkowych wyników w generacji bezwarunkowej, a potok SAG jest w stanie działać w sposób warunkowo-agnostyczny, co pozwala na wdrożenie potoku SAG również w generacji warunkowej.

Stabilna Dyfuzyjna z Samo-Uwaga Przewodnictwem

Chociaż oryginalna rama Stable Diffusion generuje obrazy wysokiej jakości, integracja ramy Stable Diffusion z potokiem Samo-Uwaga Przewodnictwo może znacznie poprawić wyniki. Aby ocenić jej wpływ, deweloperzy używają pustych podpowiedzi dla Stable Diffusion z losowym nasionkiem dla każdej pary obrazów i używają oceny ludzkiej na 500 parach obrazów z i bez Samo-Uwaga Przewodnictwa. Wyniki są przedstawione na poniższym obrazie.

Ponadto, wdrożenie SAG może poprawić możliwości ramy Stable Diffusion, ponieważ łączenie Przewodnictwa bez Klasyfikatora z Samo-Uwaga Przewodnictwem może rozszerzyć zakres modeli Stable Diffusion do syntezy obrazu na podstawie tekstu. Ponadto, obrazy wygenerowane z modelu Stable Diffusion z Samo-Uwaga Przewodnictwo są wyższej jakości i mają mniej artefaktów dzięki efektowi samowarunkowania potoku SAG, jak pokazano na poniższym obrazie.

Bieżące Ograniczenia

Chociaż wdrożenie potoku Samo-Uwaga Przewodnictwo może znacznie poprawić jakość generowanych obrazów, ma ono pewne ograniczenia.

Jednym z głównych ograniczeń jest ortogonalność z Przewodnictwem Klasyfikatora i Przewodnictwem bez Klasyfikatora. Jak można zobaczyć na poniższym obrazie, wdrożenie SAG poprawia wynik FID i wynik predykcji, co oznacza, że potok SAG zawiera składnik ortogonalny, który może być użyty z tradycyjnymi metodami przewodnictwa jednocześnie.

Jednakże, nadal wymaga, aby modele dyfuzyjne były szkolone w określony sposób, co dodaje złożoności oraz kosztów obliczeniowych.

Ponadto, wdrożenie Samo-Uwaga Przewodnictwo nie zwiększa zużycia pamięci ani czasu, co wskazuje, że nakład wynikający z operacji, takich jak maskowanie i rozmycie w SAG, jest znikomy. Jednakże, nadal dodaje do kosztów obliczeniowych, ponieważ obejmuje dodatkowy krok w porównaniu z podejściami bez przewodnictwa.

Końcowe Myśli

W tym artykule omawialiśmy Samo-Uwaga Przewodnictwo, nowe i ogólne sformułowanie metody przewodnictwa, które wykorzystuje wewnętrzną informację dostępną w modelach dyfuzyjnych do generowania obrazów wysokiej jakości. Samo-Uwaga Przewodnictwo opiera się na prostym założeniu ogólnej formuły i założeniu, że wewnętrzna informacja zawarta w pośrednich próbkach może również służyć jako przewodnictwo. Potok Samo-Uwaga Przewodnictwo jest podejściem warunkowo-wolnym i bezszkoleniowym, które może być wdrożone w różnych modelach dyfuzyjnych i wykorzystuje samowarunkowanie do redukcji artefaktów w generowanych obrazach i poprawy ogólnej jakości.