Kontakt z nami

Artificial Intelligence

Wskazówki dotyczące samouwagi: poprawa jakości próbek modeli dyfuzyjnych

mm
Zaktualizowano on
Wskazówki dotyczące samouwagi: poprawa jakości próbek modeli dyfuzyjnych

Modele dyfuzji odszumiania to generatywne struktury sztucznej inteligencji, które syntetyzują obrazy z szumu w drodze iteracyjnego procesu odszumiania. Są cenione za wyjątkowe możliwości generowania obrazów i różnorodność, w dużej mierze przypisywane metodom naprowadzania opartego na tekście lub klasie, w tym wskazówkom z klasyfikatorem i wskazówkom bez klasyfikatorów. Modele te odniosły szczególny sukces w tworzeniu różnorodnych obrazów o wysokiej jakości. Niedawne badania wykazały, że techniki wskazówek, takie jak podpisy zajęć i etykiety, odgrywają kluczową rolę w poprawie jakości obrazów generowanych przez te modele.

Jednakże modele rozpowszechniania i metody wytycznych napotykają ograniczenia w pewnych warunkach zewnętrznych. Metoda wskazówek bez klasyfikatorów (CFG), która wykorzystuje pomijanie etykiet, zwiększa złożoność procesu szkolenia, podczas gdy metoda wskazówek dotyczących klasyfikatorów (CG) wymaga dodatkowego szkolenia klasyfikatorów. Obie metody są w pewnym stopniu ograniczone poleganiem na ciężko wypracowanych warunkach zewnętrznych, co ogranicza ich potencjał i ogranicza je do ustawień warunkowych.

Aby zaradzić tym ograniczeniom, programiści sformułowali bardziej ogólne podejście do wskazówek dotyczących rozpowszechniania, znane jako wytyczne dotyczące samouwagi (SAG). Metoda ta wykorzystuje informacje z próbek pośrednich modeli dyfuzji do generowania obrazów. W tym artykule przyjrzymy się SAG, omawiając jego działanie, metodologię i wyniki w porównaniu z obecnymi, najnowocześniejszymi frameworkami i potokami.

Wskazówki dotyczące samouwagi: poprawa jakości próbek modeli dyfuzyjnych

Modele dyfuzji odszumiającej (DDM) zyskały popularność dzięki możliwości tworzenia obrazów z szumu w drodze iteracyjnego procesu odszumiania. Skuteczność syntezy obrazu tych modeli wynika w dużej mierze z zastosowanych metod kierowania dyfuzją. Pomimo swoich mocnych stron modele dyfuzji i metody oparte na wytycznych stoją przed wyzwaniami, takimi jak dodatkowa złożoność i zwiększone koszty obliczeniowe.

Aby przezwyciężyć obecne ograniczenia, twórcy wprowadzili metodę samouważności, bardziej ogólne sformułowanie wskazówek dotyczących rozpowszechniania, które nie opiera się na informacjach zewnętrznych pochodzących z przewodnictwa rozpowszechniania, ułatwiając w ten sposób wolne od warunków i elastyczne podejście do prowadzenia ramy dyfuzji. Podejście wybrane przez Self-Attention Guidance ostatecznie pomaga w zwiększeniu możliwości zastosowania tradycyjnych metod dyfuzji w przypadkach, w których występują wymagania zewnętrzne lub nie. 

Poradnik samouważności opiera się na prostej zasadzie uogólnionego sformułowania i założeniu, że informacje wewnętrzne zawarte w próbkach pośrednich mogą również służyć jako wskazówki. Opierając się na tej zasadzie, metoda SAG najpierw wprowadza Blur Guidance, proste i bezpośrednie rozwiązanie poprawiające jakość próbki. Sterowanie rozmyciem ma na celu wykorzystanie łagodnych właściwości rozmycia gaussowskiego w celu naturalnego usunięcia drobnych szczegółów poprzez prowadzenie próbek pośrednich przy użyciu informacji wyeliminowanych w wyniku rozmycia gaussowskiego. Chociaż metoda naprowadzania Rozmycie poprawia jakość próbki przy umiarkowanej skali naprowadzania, nie udaje się jej odtworzyć wyników na dużą skalę naprowadzania, ponieważ często wprowadza niejednoznaczność strukturalną w całych regionach. W rezultacie metoda naprowadzania Rozmycie ma trudności z dopasowaniem oryginalnych danych wejściowych do przewidywanych danych wejściowych o obniżonej jakości. Aby zwiększyć stabilność i skuteczność metody naprowadzania Blur na większą skalę naprowadzania, w Poradniku Samouwagi podjęto próbę wykorzystania mechanizmu samouwagi modeli dyfuzyjnych, ponieważ nowoczesne modele dyfuzyjne zawierają już mechanizm samouwagi w swojej architekturze. 

Przy założeniu, że samouważność jest niezbędna do uchwycenia najistotniejszych informacji, metoda samouważności wykorzystuje mapy samouwagi modeli dyfuzji, aby kontradyktoryjnie zamazać obszary zawierające istotne informacje, a tym samym kieruje modele dyfuzyjne z wymaganymi informacjami resztkowymi. Następnie metoda wykorzystuje mapy uwagi podczas procesu odwrotnego modeli dyfuzji, aby poprawić jakość obrazów i wykorzystuje samokondycjonowanie w celu zmniejszenia artefaktów bez konieczności dodatkowego szkolenia lub informacji zewnętrznych. 

Podsumowując, metoda Samouważności

  1. To nowatorskie podejście, które wykorzystuje wewnętrzne mapy samouważności struktur dyfuzyjnych w celu poprawy jakości generowanego przykładowego obrazu bez konieczności dodatkowego szkolenia lub polegania na warunkach zewnętrznych. 
  2. Metoda SAG próbuje uogólnić metody poradnictwa warunkowego w metodę bezwarunkową, którą można zintegrować z dowolnym modelem dyfuzji bez konieczności stosowania dodatkowych zasobów lub warunków zewnętrznych, zwiększając w ten sposób możliwość zastosowania ram opartych na wytycznych. 
  3. Metoda SAG próbuje również zademonstrować swoje ortogonalne możliwości istniejącym metodom i strukturom warunkowym, ułatwiając w ten sposób zwiększenie wydajności poprzez ułatwienie elastycznej integracji z innymi metodami i modelami. 

Idąc dalej, metoda samouważności uczy się na podstawie ustaleń powiązanych struktur, w tym modeli dyfuzji odszumiania, wskazówek dotyczących próbkowania, metod samouważności generatywnej sztucznej inteligencji i wewnętrznych reprezentacji modeli dyfuzji. Jednak w swojej istocie metoda samouważności wykorzystuje wnioski wyciągnięte z ram DDPM lub probabilistycznych modeli odszumiania, wskazówek dotyczących klasyfikatorów, wskazówek bez klasyfikatorów i samouważności w ramach dyfuzji. Omówimy je szczegółowo w nadchodzącej sekcji. 

Wskazówki dotyczące samouwagi: wstępy, metodologia i architektura

Model probabilistyczny dyfuzji odszumiającej lub DDPM

DDPM lub Odszumiający model probabilistyczny dyfuzji to model wykorzystujący iteracyjny proces odszumiania w celu odzyskania obrazu z białego szumu. Tradycyjnie model DDPM otrzymuje obraz wejściowy i harmonogram wariancji w odpowiednim kroku czasowym, aby uzyskać obraz za pomocą procesu wyprzedzającego zwanego procesem Markowa. 

Klasyfikator i wskazówki bez klasyfikatorów przy implementacji GAN

GAN, czyli generatywne sieci kontradyktoryjne, charakteryzują się wyjątkową różnorodnością handlową zapewniającą wierność, a aby przenieść tę zdolność struktur GAN do modeli dyfuzji, ramy samouważności sugerują zastosowanie metody kierowania klasyfikatorem, która wykorzystuje dodatkowy klasyfikator. I odwrotnie, w celu osiągnięcia tych samych wyników można również wdrożyć metodę przewodzenia bez klasyfikatorów bez użycia dodatkowego klasyfikatora. Chociaż metoda zapewnia pożądane wyniki, nadal nie jest wykonalna obliczeniowo, ponieważ wymaga dodatkowych etykiet, a także ogranicza ramy do modeli dyfuzji warunkowej, które wymagają dodatkowych warunków, takich jak tekst lub zajęcia, wraz z dodatkowymi szczegółami szkoleniowymi, co zwiększa złożoność model. 

Uogólnione wskazówki dotyczące rozpowszechniania

Chociaż metody oparte na klasyfikatorach i naprowadzaniu bez klasyfikatorów zapewniają pożądane wyniki i pomagają w generowaniu warunkowym w modelach dyfuzyjnych, są one zależne od dodatkowych danych wejściowych. Dla dowolnego etapu czasowego dane wejściowe modelu dyfuzji obejmują stan uogólniony i próbkę zaburzoną bez warunku uogólnionego. Co więcej, stan uogólniony obejmuje informacje wewnętrzne w zaburzonej próbce lub warunek zewnętrzny, a nawet jedno i drugie. Uzyskane wytyczne formułuje się przy użyciu wyimaginowanego regresora przy założeniu, że może on przewidzieć uogólniony stan. 

Poprawa jakości obrazu za pomocą map samouwagi

Ogólne wytyczne dotyczące dyfuzji sugerują, że możliwe jest zapewnienie wskazówek dotyczących odwrotnego procesu modeli dyfuzji poprzez wyodrębnienie najistotniejszych informacji o uogólnionym stanie zawartym w zaburzonej próbce. Opierając się na tym samym, metoda Self-Attention Guidance skutecznie wychwytuje najważniejsze informacje dla procesów odwrotnych, ograniczając jednocześnie ryzyko powstające w wyniku problemów z dystrybucją we wstępnie wyszkolonych modelach dyfuzji. 

Wskazówki dotyczące rozmycia

Wskazówki dotyczące rozmycia w trybie samouważności opierają się na rozmyciu gaussowskim, liniowej metodzie filtrowania, w której sygnał wejściowy jest splatany z filtrem Gaussa w celu wygenerowania sygnału wyjściowego. Wraz ze wzrostem odchylenia standardowego rozmycie gaussowskie redukuje drobne szczegóły w sygnałach wejściowych i skutkuje lokalnie nierozróżnialnymi sygnałami wejściowymi poprzez wygładzenie ich w kierunku stałej. Co więcej, eksperymenty wykazały brak równowagi informacyjnej pomiędzy sygnałem wejściowym a sygnałem wyjściowym rozmycia gaussowskiego, w przypadku którego sygnał wyjściowy zawiera więcej informacji o mniejszej skali. 

Na podstawie tej wiedzy w ramach Self-Attention Guidance wprowadza się naprowadzanie na rozmycie, technikę, która celowo wyklucza informacje z pośrednich rekonstrukcji podczas procesu rozpowszechniania, a zamiast tego wykorzystuje te informacje do kierowania swoimi przewidywaniami w celu zwiększenia trafności obrazów dla informacje wejściowe. Wskazówki dotyczące rozmycia zasadniczo powodują, że pierwotna prognoza bardziej odbiega od przewidywania dotyczącego rozmycia danych wejściowych. Co więcej, łagodna właściwość rozmycia gaussowskiego zapobiega znacznym odbieganiom sygnałów wyjściowych od sygnału oryginalnego przy umiarkowanym odchyleniu. Krótko mówiąc, rozmycie na obrazach występuje w sposób naturalny, co sprawia, że ​​rozmycie gaussowskie jest bardziej odpowiednią metodą do zastosowania w przypadku wstępnie wytrenowanych modeli dyfuzyjnych. 

W potoku samouważności sygnał wejściowy jest najpierw rozmyty przy użyciu filtra Gaussa, a następnie rozproszony z dodatkowym szumem w celu wytworzenia sygnału wyjściowego. W ten sposób potok SAG łagodzi efekt uboczny powstałego rozmycia, które redukuje szum Gaussa i sprawia, że ​​wskazówki opierają się na treści, a nie na losowym szumie. Chociaż nawigacja rozmycia zapewnia zadowalające wyniki w ramach o umiarkowanej skali naprowadzania, nie udaje się jej odtworzyć wyników w istniejących modelach o dużej skali naprowadzania, ponieważ jest podatna na generowanie zaszumionych wyników, jak pokazano na poniższym obrazie. 

Wyniki te mogą wynikać z niejednoznaczności strukturalnej wprowadzonej do struktury przez globalne rozmycie, które utrudnia rurociągowi SAG dopasowanie przewidywań pierwotnego sygnału wejściowego do zdegradowanego sygnału wejściowego, co skutkuje zaszumionymi wynikami. 

Mechanizm samouwagi

Jak wspomniano wcześniej, modele dyfuzyjne mają zwykle wbudowany komponent samouważności i jest to jeden z ważniejszych elementów struktury modelu dyfuzyjnego. Mechanizm samouważności jest zaimplementowany w rdzeniu modeli dyfuzyjnych i pozwala modelowi zwracać uwagę na najistotniejsze części sygnału wejściowego podczas procesu generowania, jak pokazano na poniższym obrazku z maskami wysokiej częstotliwości w górnym rzędzie, i maski samouwagi w dolnym rzędzie ostatecznie wygenerowanych obrazów. 

Proponowana metoda kierowania samouwagą opiera się na tej samej zasadzie i wykorzystuje możliwości map samouwagi w modelach dyfuzji. Ogólnie rzecz biorąc, metoda samouważności zamazuje samoobsługowe obszary w sygnale wejściowym lub, mówiąc najprościej, ukrywa informacje o obszarach, którymi zajmują się modele dyfuzji. Co więcej, sygnały wyjściowe w Poradniku samouwagi zawierają nienaruszone obszary sygnałów wejściowych, co oznacza, że ​​nie powoduje to strukturalnej niejednoznaczności wejść i rozwiązuje problem globalnego rozmycia. Następnie potok uzyskuje zagregowane mapy samouwagi, przeprowadzając GAP lub Global Average Pooling w celu agregacji map samouwagi do wymiaru i zwiększając próbkowanie najbliższego sąsiada, aby dopasować je do rozdzielczości sygnału wejściowego. 

Wskazówki dotyczące samouwagi: eksperymenty i wyniki

Aby ocenić jego wydajność, potok Self-Attention Guidance jest próbkowany przy użyciu 8 procesorów graficznych Nvidia GeForce RTX 3090 i opiera się na wstępnie wyszkolonych IDDPM, ADM i Stabilne ramy dyfuzyjne

Bezwarunkowe wytwarzanie przy pomocy samouwagi

Aby zmierzyć efektywność potoku SAG na modelach bezwarunkowych i zademonstrować bezwarunkową właściwość, której nie posiadają metody Classifier Guidance i Classifier Free Guidance, potok SAG jest uruchamiany na bezwarunkowo wstępnie wytrenowanych platformach na 50 tysiącach próbek. 

Jak można zaobserwować, wdrożenie rurociągu SAG poprawia metryki FID, sFID i IS danych wejściowych bezwarunkowych, jednocześnie obniżając wartość wycofania. Co więcej, poprawę jakościową wynikającą z wdrożenia potoku SAG widać wyraźnie na poniższych obrazach, gdzie obrazy u góry są wynikami ze struktur ADM i Stable Diffusion, natomiast obrazy na dole są wynikami ze struktur ADM i Stable Diffusion z Gazociąg SAG. 

Generowanie warunkowe za pomocą SAG

Integracja rurociągu SAG z istniejącymi strukturami zapewnia wyjątkowe wyniki w zakresie generacji bezwarunkowej, a rurociąg SAG jest niezależny od warunków, co pozwala na wdrożenie rurociągu SAG również do generacji warunkowej. 

Stabilne rozproszenie ze wskazówkami dotyczącymi samouwagi

Mimo że oryginalna platforma Stable Diffusion generuje obrazy o wysokiej jakości, zintegrowanie platformy Stable Diffusion z potokiem Self-Attention Guidance może drastycznie poprawić wyniki. Aby ocenić jego efekt, programiści używają pustych monitów o stabilne rozproszenie z losowym ziarnem dla każdej pary obrazów i wykorzystują ocenę człowieka na 500 parach obrazów z funkcją samouważności i bez niej. Wyniki przedstawiono na poniższym obrazku.  

Co więcej, wdrożenie SAG może zwiększyć możliwości struktury Stable Diffusion, ponieważ połączenie przewodnictwa bez klasyfikatorów z wytycznymi samouważności może poszerzyć zakres modeli stabilnego rozproszenia o syntezę tekstu na obraz. Co więcej, wygenerowane obrazy z modelu stabilnej dyfuzji ze wskazówkami samouważności są wyższej jakości i zawierają mniej artefaktów dzięki efektowi samokondycjonowania rurociągu SAG, jak pokazano na poniższym obrazku. 

Aktualne ograniczenia

Chociaż wdrożenie potoku samouważności może znacznie poprawić jakość generowanych obrazów, ma to pewne ograniczenia. 

Jednym z głównych ograniczeń jest ortogonalność w przypadku naprowadzania opartego na klasyfikatorach i naprowadzania bez klasyfikatorów. Jak można zaobserwować na poniższym obrazie, implementacja SAG faktycznie poprawia wynik FID i wynik przewidywania, co oznacza, że ​​rurociąg SAG zawiera komponent ortogonalny, który może być używany jednocześnie z tradycyjnymi metodami naprowadzania. 

Jednak nadal wymaga szkolenia modeli dyfuzji w określony sposób, co zwiększa złożoność i koszty obliczeniowe. 

Co więcej, wdrożenie wskazówek dotyczących samouwagi nie zwiększa zużycia pamięci ani czasu, co wskazuje, że obciążenie wynikające z operacji takich jak maskowanie i rozmycie w SAG jest znikome. Jednakże nadal zwiększa to koszty obliczeniowe, ponieważ obejmuje dodatkowy etap w porównaniu z podejściem pozbawionym wytycznych. 

Final Thoughts

W tym artykule omawialiśmy Poradnictwo Samouwagi, nowatorskie i ogólne sformułowanie metody poradnictwa, która wykorzystuje informacje wewnętrzne dostępne w modelach dyfuzyjnych w celu generowania obrazów o wysokiej jakości. Poradnik samouważności opiera się na prostej zasadzie uogólnionego sformułowania i założeniu, że informacje wewnętrzne zawarte w próbkach pośrednich mogą również służyć jako wskazówki. Potok wskazówek dotyczących samouwagi to podejście niewymagające warunków i szkoleń, które można wdrożyć w różnych modelach dyfuzji i wykorzystuje samokondycjonowanie w celu zmniejszenia artefaktów w generowanych obrazach i zwiększenia ogólnej jakości. 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.