Sztuczna inteligencja
Samo-Uwaga Przewodnictwo: Poprawa jakości próbek modeli dyfuzyjnych

Modele dyfuzyjne są ramami generatywnymi AI, które syntezują obrazy z hałasu za pomocą iteracyjnego procesu odhałasowania. Są one celebrowane za ich wyjątkowe możliwości generowania obrazów i różnorodność, w dużej mierze przypisywane metodom przewodnictwa warunkowego, w tym przewodnictwu klasyfikatora i przewodnictwu bez klasyfikatora. Modele te osiągnęły znaczny sukces w tworzeniu różnorodnych, wysokiej jakości obrazów. Ostatnie badania wykazały, że techniki przewodnictwa, takie jak podpisane klasy i etykiety, odgrywają kluczową rolę w poprawie jakości generowanych obrazów.
Jednak modele dyfuzyjne i metody przewodnictwa napotykają ograniczenia w pewnych zewnętrznych warunkach. Metoda przewodnictwa bez klasyfikatora (CFG), która wykorzystuje upuszczanie etykiet, dodaje złożoności do procesu szkolenia, podczas gdy metoda przewodnictwa klasyfikatora (CG) wymaga dodatkowego szkolenia klasyfikatora. Obie metody są w pewnym stopniu ograniczone przez swoją zależność od trudno zdobytych warunków zewnętrznych, ograniczając ich potencjał i ograniczając je do uwarunkowanych ustawień.
Aby rozwiązać te ograniczenia, deweloperzy sformułowali bardziej ogólny podejście do przewodnictwa dyfuzyjnego, znane jako Samo-Uwaga Przewodnictwo (SAG). Metoda ta wykorzystuje informacje z pośrednich próbek modeli dyfuzyjnych do generowania obrazów. Omówimy SAG w tym artykule, dyskutując o jego działaniu, metodzie i wynikach w porównaniu z bieżącymi ramami i potokami stanu sztuki.
Samo-Uwaga Przewodnictwo: Poprawa jakości próbek modeli dyfuzyjnych
Modele dyfuzyjne odhałasowania (DDM) zyskały popularność dzięki swojej zdolności do tworzenia obrazów z hałasu za pomocą iteracyjnego procesu odhałasowania. Umiejętność syntezy obrazów tych modeli jest w dużej mierze wynikiem zastosowanych metod przewodnictwa dyfuzyjnego. Pomimo ich siły, modele dyfuzyjne i metody przewodnictwa napotykają wyzwania, takie jak dodatkowa złożoność i zwiększone koszty obliczeniowe.
Aby pokonać bieżące ograniczenia, deweloperzy wprowadzili metodę Samo-Uwaga Przewodnictwo, bardziej ogólne sformułowanie przewodnictwa dyfuzyjnego, które nie opiera się na zewnętrznej informacji z przewodnictwa dyfuzyjnego, co ułatwia podejście warunkowo-wolne i elastyczne do przewodnictwa ram dyfuzyjnych. Podejście wybrane przez Samo-Uwaga Przewodnictwo ostatecznie pomaga w poprawie stosowalności tradycyjnych metod przewodnictwa dyfuzyjnego do przypadków z lub bez zewnętrznych wymagań.
Samo-Uwaga Przewodnictwo opiera się na prostym założeniu ogólnej formuły, a także na założeniu, że wewnętrzna informacja zawarta w pośrednich próbkach może służyć jako przewodnictwo. Na podstawie tego założenia metoda SAG najpierw wprowadza Przewodnictwo Rozmycia, prostą i bezpośrednią rozwiązanie w celu poprawy jakości próbek. Przewodnictwo rozmycia ma na celu wykorzystanie korzystnych właściwości rozmycia Gaussa w celu usunięcia drobnego szczegółu naturalnie przez przewodnictwo pośrednich próbek przy użyciu usuniętej informacji jako wyniku rozmycia Gaussa. Chociaż metoda przewodnictwa rozmycia zwiększa jakość próbek ze średnim skalibrowaniem przewodnictwa, nie udaje się powielić wyników na dużym skalibrowaniu przewodnictwa, ponieważ często wprowadza strukturalną niejasność w całych regionach. W rezultacie metoda przewodnictwa rozmycia ma trudności z wyrównaniem oryginalnego wejścia z przewidywaniem zdegradowanego wejścia. Aby poprawić stabilność i skuteczność metody przewodnictwa rozmycia na większym skalibrowaniu przewodnictwa, Samo-Uwaga Przewodnictwo próbuje wykorzystać mechanizm samo-uwagi modeli dyfuzyjnych, ponieważ nowoczesne modele dyfuzyjne już zawierają mechanizm samo-uwagi w swojej architekturze.
Z założeniem, że samo-uwaga jest niezbędna do przechwycenia istotnych informacji w swoim rdzeniu, metoda Samo-Uwaga Przewodnictwo wykorzystuje mapy samo-uwagi modeli dyfuzyjnych do przeciwnego rozmycia regionów zawierających istotne informacje i w procesie przewodnictwa modeli dyfuzyjnych z wymaganą informacją resztkową. Metoda następnie wykorzystuje mapy uwagi podczas odwrotnego procesu modeli dyfuzyjnych, aby poprawić jakość obrazów i wykorzystuje samo-warunkowanie, aby zmniejszyć artefakty bez wymagania dodatkowego szkolenia lub zewnętrznej informacji.

Podsumowując, metoda Samo-Uwaga Przewodnictwo
- Jest nowatorskim podejściem, które wykorzystuje wewnętrzne mapy samo-uwagi ram dyfuzyjnych do poprawy jakości generowanych próbek obrazów bez wymagania dodatkowego szkolenia lub polegania na zewnętrznych warunkach.
- Metoda SAG próbuje uogólnić metody przewodnictwa warunkowego w metodę warunkowo-wolną, która może być zintegrowana z dowolnym modelem dyfuzyjnym bez wymagania dodatkowych zasobów lub zewnętrznych warunków, co zwiększa stosowalność ram przewodnictwa.
- Metoda SAG próbuje również zademonstrować swoje ortogonalne zdolności w stosunku do istniejących metod warunkowych i ram, co ułatwia zwiększenie wydajności poprzez elastyczną integrację z innymi metodami i modelami.
Przechodząc dalej, metoda Samo-Uwaga Przewodnictwo uczy się z wyników powiązanych ram, w tym modeli dyfuzyjnych odhałasowania, przewodnictwa próbkowania, metod samo-uwagi AI generatywnej i wewnętrznych reprezentacji modeli dyfuzyjnych. Jednak w swoim rdzeniu metoda Samo-Uwaga Przewodnictwo wdraża wyniki z DDPM lub modeli dyfuzyjnych probabilistycznych, przewodnictwa klasyfikatora, przewodnictwa bez klasyfikatora i samo-uwagi w ramach dyfuzyjnych. Omówimy je szczegółowo w następnym rozdziale.
Samo-Uwaga Przewodnictwo: Podstawy, Metodologia i Architektura
Model Dyfuzyjny Probabilistyczny Odhałasowania lub DDPM
DDPM lub model dyfuzyjny probabilistyczny odhałasowania jest modelem, który wykorzystuje iteracyjny proces odhałasowania do odzyskania obrazu z białego hałasu. Tradycyjnie model DDPM otrzymuje wejściowy obraz i harmonogram wariancji w czasie, aby uzyskać obraz przy użyciu procesu forward znanego jako proces Markowiański.
Przewodnictwo Klasyfikatora i Przewodnictwo Bez Klasyfikatora z Implementacją GAN
GAN lub sieci generatywne przeciwnicze posiadają unikalne handlowanie różnorodnością dla wierności, a aby przenieść tę zdolność ram GAN do modeli dyfuzyjnych, ramy Samo-Uwaga Przewodnictwo proponują wykorzystanie metody przewodnictwa klasyfikatora, która wykorzystuje dodatkowy klasyfikator. Odwrotnie, metoda przewodnictwa bez klasyfikatora może być również wdrożona bez użycia dodatkowego klasyfikatora, aby osiągnąć te same wyniki. Chociaż metoda dostarcza pożądanych wyników, nie jest jeszcze komputacyjnie wykonalna, ponieważ wymaga dodatkowych etykiet i również ogranicza ramę do modeli dyfuzyjnych warunkowych, które wymagają dodatkowych warunków, takich jak tekst lub klasa, wraz z dodatkowymi szczegółami szkolenia, co dodaje złożoności modelu.
Uogólnienie Przewodnictwa Dyfuzyjnego
Chociaż metody przewodnictwa klasyfikatora i przewodnictwa bez klasyfikatora dostarczają pożądanych wyników i pomagają w generowaniu warunkowym w modelach dyfuzyjnych, są one zależne od dodatkowych wejść. Dla danego kroku czasowego wejście dla modelu dyfuzyjnego składa się z uogólnionego warunku i zmienionego próbku bez uogólnionego warunku. Ponadto uogólniony warunek obejmuje wewnętrzną informację w zmienionym próbku lub zewnętrzny warunek, lub oba. Wynikowe przewodnictwo jest sformułowane z użyciem wyimaginowanego regresora z założeniem, że może on przewidzieć uogólniony warunek.
Poprawa jakości obrazu przy użyciu map samo-uwagi
Uogólnione przewodnictwo dyfuzyjne implikuje, że jest możliwe dostarczenie przewodnictwa odwrotnemu procesowi modeli dyfuzyjnych poprzez wyodrębnienie istotnych informacji w uogólnionym warunku zawartym w zmienionym próbku. Budując na tym, metoda Samo-Uwaga Przewodnictwo przechwytuje istotne informacje dla odwrotnych procesów skutecznie, ograniczając ryzyko wynikające z problemów poza dystrybucją w pre-trenowanych modelach dyfuzyjnych.
Przewodnictwo Rozmycia
Przewodnictwo rozmycia w Samo-Uwaga Przewodnictwo opiera się na rozmyciu Gaussa, liniowej metodzie filtrowania, w której sygnał wejściowy jest konwolwowany z filtrem Gaussa w celu wygenerowania sygnału wyjściowego. Zwiększając odchylenie standardowe, rozmycie Gaussa zmniejsza drobne szczegóły w sygnałach wejściowych, w wyniku czego powstają lokalnie nierozróżnialne sygnały wejściowe przez ich wygładzanie w kierunku stałej. Ponadto eksperymenty wskazały na niezrównoważenie informacji między sygnałem wejściowym a sygnałem wyjściowym rozmycia Gaussa, gdzie sygnał wyjściowy zawiera więcej informacji o drobnych szczegółach.
Na podstawie tego wyniku ramy Samo-Uwaga Przewodnictwo wprowadzają przewodnictwo rozmycia, technikę, która celowo wyklucza informację z pośrednich rekonstrukcji podczas procesu dyfuzyjnego i zamiast tego wykorzystuje tę informację do przewodnictwa swoich predykcji w kierunku zwiększania istotności obrazów do informacji wejściowej. Przewodnictwo rozmycia powoduje, że oryginalna predykcja odbiega bardziej od przewidywania rozmytego wejścia. Ponadto korzystna własność rozmycia Gaussa uniemożliwia sygnałom wyjściowym odbieganie znacznie od oryginalnego sygnału przy umiarkowanym odchyleniu. W prostych słowach, rozmycie występuje naturalnie w obrazach, co czyni rozmycie Gaussa bardziej odpowiednią metodą do zastosowania w pre-trenowanych modelach dyfuzyjnych.
W potoku Samo-Uwaga Przewodnictwo sygnał wejściowy jest najpierw rozmyty przy użyciu filtra Gaussa, a następnie dyfundowany z dodatkowym hałasem w celu wygenerowania sygnału wyjściowego. Dzięki temu potok SAG łagodzi efekt uboczny wynikający z rozmycia, który zmniejsza hałas Gaussa, i sprawia, że przewodnictwo zależy od zawartości, a nie od losowego hałasu. Chociaż przewodnictwo rozmycia daje zadowalające wyniki w ramach o umiarkowanym skalibrowaniu przewodnictwa, nie udaje się powielić wyników w istniejących modelach o dużym skalibrowaniu przewodnictwa, ponieważ staje się podatne na generowanie szumu, jak pokazano na poniższym obrazie.

Te wyniki mogą być wynikiem strukturalnej niejasności wprowadzonej w ramie przez globalne rozmycie, co utrudnia potokowi SAG wyrównanie przewidywań oryginalnego wejścia z zdegradowanym wejściem, w wyniku czym powstają szumy.
Mechanizm Samo-Uwagi
Jak wcześniej wspomniano, modele dyfuzyjne zwykle mają wbudowany mechanizm samo-uwagi, a jest to jeden z bardziej istotnych komponentów w ramie modelu dyfuzyjnego. Mechanizm samo-uwagi jest wdrożony w rdzeniu modeli dyfuzyjnych i pozwala modelowi zwrócić uwagę na istotne części wejścia podczas procesu generowania, jak pokazano na poniższym obrazie z maskami o wysokiej częstotliwości w górnym rzędzie i maskami samo-uwagi w dolnym rzędzie wygenerowanych obrazów.

Proponowana metoda Samo-Uwaga Przewodnictwo opiera się na tym samym założeniu i wykorzystuje możliwości map samo-uwagi w modelach dyfuzyjnych. Ogólnie metoda Samo-Uwaga Przewodnictwo rozmywa łaty samo-uwagi w sygnałach wejściowych lub w prostych słowach, ukrywa informację łat, na które zwraca uwagę model dyfuzyjny. Ponadto sygnały wyjściowe w Samo-Uwaga Przewodnictwo zawierają nienaruszone regiony sygnałów wejściowych, co oznacza, że nie powoduje strukturalnej niejasności wejść i rozwiązuje problem globalnego rozmycia. Potok następnie uzyskuje z agregowanych map samo-uwagi, prowadząc GAP lub globalne średnie poolowanie, aby zebrać mapy samo-uwagi do wymiaru i najbliższe sąsiedztwo do próbkowania, aby dopasować rozdzielczość sygnału wejściowego.
Samo-Uwaga Przewodnictwo: Eksperymenty i Wyniki
Aby ocenić swoją wydajność, potok Samo-Uwaga Przewodnictwo jest próbkowany przy użyciu 8 kart graficznych Nvidia GeForce RTX 3090 i jest zbudowany na podstawie pre-trenowanych modeli IDDPM, ADM i Stable Diffusion.
Generowanie NieWarunkowe z Samo-Uwaga Przewodnictwo
Aby zmierzyć skuteczność potoku SAG w modelach nie-warunkowych i zademonstrować właściwość warunkowo-wolną, którą nie posiada przewodnictwo klasyfikatora i przewodnictwo bez klasyfikatora, potok SAG jest uruchamiany na nie-warunkowo pre-trenowanych ramach na 50 tysiącach próbek.

Jak można zauważyć, wdrożenie potoku SAG poprawia metryki FID, sFID i IS wejściowych nie-warunkowych, jednocześnie zmniejszając wartość recall. Ponadto jakościowa poprawa wyniku wdrożenia potoku SAG jest widoczna na poniższych obrazach, gdzie obrazy na górze są wynikami z modeli ADM i Stable Diffusion, natomiast obrazy na dole są wynikami z modeli ADM i Stable Diffusion z potokiem SAG.


Generowanie Warunkowe z SAG
Integracja potoku SAG w istniejących ramach dostarcza wyjątkowych wyników w generowaniu nie-warunkowym, a potok SAG jest w stanie warunkowo-agnostycznym, co pozwala na wdrożenie potoku SAG dla generowania warunkowego.
Stable Diffusion z Samo-Uwaga Przewodnictwo
Chociaż oryginalna ramy Stable Diffusion generują obrazy wysokiej jakości, integracja ram Stable Diffusion z potokiem Samo-Uwaga Przewodnictwo może znacznie poprawić wyniki. Aby ocenić jego wpływ, deweloperzy używają pustych podpowiedzi dla Stable Diffusion z losowym nasionem dla każdej pary obrazów i używają oceny ludzkiej na 500 parach obrazów z i bez Samo-Uwaga Przewodnictwo. Wyniki są przedstawione na poniższym obrazie.

Ponadto wdrożenie SAG może poprawić możliwości ram Stable Diffusion, ponieważ fuzja przewodnictwa bez klasyfikatora z Samo-Uwaga Przewodnictwo może rozszerzyć zakres modeli Stable Diffusion do syntezy obrazu na podstawie tekstu. Ponadto obrazy wygenerowane z modelu Stable Diffusion z Samo-Uwaga Przewodnictwo są wyższej jakości z mniejszą ilością artefaktów dzięki efektowi samo-warunkowania potoku SAG, jak pokazano na poniższym obrazie.

Bieżące Ograniczenia
Chociaż wdrożenie potoku Samo-Uwaga Przewodnictwo może znacznie poprawić jakość generowanych obrazów, ma ono pewne ograniczenia.
Jednym z głównych ograniczeń jest ortogonalność z przewodnictwem klasyfikatora i przewodnictwem bez klasyfikatora. Jak można zauważyć na poniższym obrazie, wdrożenie SAG poprawia wynik FID i wynik predykcji, co oznacza, że potok SAG zawiera składnik ortogonalny, który może być użyty z tradycyjnymi metodami przewodnictwa jednocześnie.

Jednak nadal wymaga, aby modele dyfuzyjne były szkolone w określony sposób, co dodaje złożoności, a także kosztów obliczeniowych.
Ponadto wdrożenie Samo-Uwaga Przewodnictwo nie zwiększa zużycia pamięci ani czasu, co wskazuje, że nakład wynikający z operacji, takich jak maskowanie i rozmycie w SAG, jest znikomy. Jednak nadal dodaje do kosztów obliczeniowych, ponieważ obejmuje dodatkowy krok w porównaniu z podejściami bez przewodnictwa.

Końcowe Myśli
W tym artykule omówiliśmy Samo-Uwaga Przewodnictwo, nowatorskie i ogólne sformułowanie metody przewodnictwa, które wykorzystuje wewnętrzną informację dostępną w ramach dyfuzyjnych do generowania obrazów wysokiej jakości. Samo-Uwaga Przewodnictwo opiera się na prostym założeniu ogólnej formuły i założeniu, że wewnętrzna informacja zawarta w pośrednich próbkach może służyć jako przewodnictwo. Potok Samo-Uwaga Przewodnictwo jest podejściem warunkowo-wolnym i szkoleniowym, które może być wdrożone w różnych modelach dyfuzyjnych i wykorzystuje samo-warunkowanie, aby zmniejszyć artefakty w generowanych obrazach i zwiększyć ogólną jakość.












