Kontakt z nami

Artificial Intelligence

Wizualne modelowanie autoregresyjne: skalowalne generowanie obrazu poprzez przewidywanie w następnej skali

mm

Opublikowany

 on

Wizualne modelowanie autoregresyjne: skalowalne generowanie obrazu poprzez przewidywanie w następnej skali

Pojawienie się modeli GPT wraz z innymi modelami autoregresyjnymi lub wielkojęzykowymi modelami AR zapoczątkowało nową epokę w dziedzinie uczenia maszynowego i sztucznej inteligencji. Modele GPT i modele autoregresyjne często wykazują ogólną inteligencję i wszechstronność, które są uważane za znaczący krok w kierunku ogólnej sztucznej inteligencji lub AGI pomimo pewnych problemów, takich jak halucynacje. Jednak zagadkowym problemem związanym z tymi dużymi modelami jest strategia samonadzorowanego uczenia się, która pozwala modelowi przewidzieć następny token w sekwencji, co jest strategią prostą, ale skuteczną. Ostatnie prace wykazały sukces tych dużych modeli autoregresyjnych, podkreślając ich możliwość uogólnienia i skalowalność. Skalowalność jest typowym przykładem istniejących praw skalowania, które pozwalają badaczom przewidzieć wydajność dużego modelu na podstawie wydajności mniejszych modeli, co skutkuje lepszą alokacją zasobów. Z drugiej strony o możliwości uogólniania często świadczą strategie uczenia się, takie jak uczenie się od zera, jednorazowo i kilka strzałów, podkreślając zdolność nienadzorowanych, ale wytrenowanych modeli do dostosowywania się do różnorodnych i niewidocznych zadań. Łączne możliwości uogólniania i skalowalność ujawniają potencjał modeli autoregresyjnych w zakresie uczenia się na podstawie ogromnej ilości nieoznaczonych danych. 

Opierając się na tym samym, w tym artykule będziemy mówić o Visual AutoRegressive lub frameworku VAR, wzorcu nowej generacji, który na nowo definiuje autoregresyjne uczenie się na obrazach jako „przewidywanie następnej rozdzielczości” lub „przewidywanie następnej skali” od zgrubnej do dokładnej. . Choć proste, podejście to jest skuteczne i pozwala transformatorom autoregresyjnym lepiej uczyć się rozkładów wizualnych i zwiększać możliwość uogólniania. Co więcej, modele wizualnej autoregresji umożliwiają modelom autoregresyjnym w stylu GPT po raz pierwszy przewyższenie transferów dyfuzyjnych w generowaniu obrazu. Eksperymenty wskazują również, że platforma VAR znacznie poprawia autoregresyjne linie bazowe i przewyższa platformę Diffusion Transformer lub platformę DiT w wielu wymiarach, w tym wydajności danych, jakości obrazu, skalowalności i szybkości wnioskowania. Co więcej, skalowanie modeli Visual AutoRegressive demonstruje prawa skalowania prawa potęgowego podobne do tych obserwowanych w przypadku dużych modeli językowych, a także wyświetla zdolność do generalizacji zerowej w dalszych zadaniach, w tym w edycji, malowaniu i malowaniu. 

Celem tego artykułu jest szczegółowe omówienie frameworka Visual AutoRegressive oraz zbadanie mechanizmu, metodologii i architektury frameworka wraz z jego porównaniem z najnowocześniejszymi frameworkami. Porozmawiamy także o tym, jak framework Visual AutoRegressive demonstruje dwie ważne właściwości LLM: prawa skalowania i generalizowanie zerowego strzału. Więc zacznijmy.

Wizualne modelowanie autoregresyjne: generowanie obrazu ze skalowaniem

Powszechnym wzorcem wśród najnowszych dużych modeli językowych jest wdrażanie strategii samonadzorowanego uczenia się – prostego, ale skutecznego podejścia, które przewiduje następny token w sekwencji. Dzięki takiemu podejściu modele autoregresyjne i modele wielkojęzykowe wykazały dziś niezwykłą skalowalność, a także możliwość uogólniania, czyli właściwości, które ujawniają potencjał modeli autoregresyjnych do uczenia się na podstawie dużej puli nieoznaczonych danych, podsumowując w ten sposób istotę ogólnej sztucznej inteligencji. Co więcej, badacze zajmujący się wizją komputerową pracowali równolegle nad opracowaniem dużych modeli autoregresyjnych lub modeli światowych w celu dorównania lub przekroczenia ich imponującej skalowalności i możliwości uogólniania, przy czym modele takie jak DALL-E i VQGAN już demonstrują potencjał modeli autoregresyjnych w tej dziedzinie generacji obrazu. Modele te często implementują wizualny tokenizator, który reprezentuje lub przybliża ciągłe obrazy w siatkę tokenów 2D, które są następnie spłaszczane w sekwencję 1D w celu uczenia się autoregresyjnego, odzwierciedlając w ten sposób proces sekwencyjnego modelowania języka. 

Jednakże badacze nie zbadali jeszcze praw skalowania tych modeli, a bardziej frustrujący jest fakt, że wydajność tych modeli często znacznie odbiega od modeli dyfuzyjnych, co pokazano na poniższym obrazku. Różnica w wydajności wskazuje, że w porównaniu z dużymi modelami językowymi możliwości modeli autoregresyjnych w obrazie komputerowym są niedostatecznie zbadane. 

Z jednej strony tradycyjne modele autoregresyjne wymagają określonej kolejności danych, z drugiej strony Visual AutoRegressive, czyli model VAR, ponownie zastanawiają się, jak uporządkować obraz, i to właśnie odróżnia VAR od istniejących metod AR. Zazwyczaj ludzie tworzą lub postrzegają obraz w sposób hierarchiczny, wychwytując globalną strukturę, po której następują lokalne szczegóły. Jest to wieloskalowe podejście od zgrubnego do dokładnego, które w naturalny sposób sugeruje porządek obrazu. Co więcej, czerpiąc inspirację z projektów wieloskalowych, platforma VAR definiuje uczenie się autoregresyjne dla obrazów jako przewidywanie następnej skali, w przeciwieństwie do konwencjonalnych podejść, które definiują uczenie się jako przewidywanie następnego tokenu. Podejście realizowane przez platformę VAR rozpoczyna się od kodowania obrazu w wieloskalowych mapach tokenów. Następnie framework rozpoczyna proces autoregresji od mapy tokenów 1 × 1 i stopniowo zwiększa rozdzielczość. Na każdym kroku transformator przewiduje następną mapę tokenów o wyższej rozdzielczości, uzależnioną od wszystkich poprzednich, co jest metodologią, którą środowisko VAR określa jako modelowanie VAR. 

Struktura VAR próbuje wykorzystać architekturę transformatora GPT-2 do wizualnego uczenia się autoregresyjnego, a wyniki są widoczne w teście porównawczym ImageNet, w którym model VAR znacznie poprawia swoją linię bazową AR, osiągając FID na poziomie 1.80 i początkowy wynik na poziomie 356 z 20-krotną poprawą szybkości wnioskowania. Co bardziej interesujące, platforma VAR przewyższa wydajność platformy DiT lub Diffusion Transformer pod względem wyników FID i IS, skalowalności, szybkości wnioskowania i wydajności danych. Co więcej, model Visual AutoRegressive wykazuje silne prawa skalowania podobne do tych obserwowanych w dużych modelach językowych. 

Podsumowując, ramy VAR próbują wnieść następujący wkład. 

  1. Proponuje nową wizualną strukturę generatywną, która wykorzystuje wieloskalowe podejście autoregresyjne z przewidywaniem następnej skali, w przeciwieństwie do tradycyjnego przewidywania następnego tokena, co skutkuje zaprojektowaniem algorytmu autoregresyjnego do zadań widzenia komputerowego. 
  2. Próbuje zweryfikować prawa skalowania dla modeli autoregresyjnych wraz z potencjałem generalizacji zerowej, który emuluje atrakcyjne właściwości LLM. 
  3. Oferuje przełom w wydajności wizualnych modeli autoregresji, umożliwiając ramom autoregresji w stylu GPT przewyższenie istniejących modele dyfuzyjne w zadaniach syntezy obrazu po raz pierwszy w historii. 

Ponadto ważne jest również omówienie istniejących praw skalowania prawa potęgowego, które matematycznie opisują związek między rozmiarami zbiorów danych, parametrami modelu, poprawą wydajności i zasobami obliczeniowymi modeli uczenia maszynowego. Po pierwsze, te prawa skalowania potęgowego ułatwiają zastosowanie wydajności większego modelu poprzez zwiększenie rozmiaru modelu, kosztu obliczeń i rozmiaru danych, oszczędzając niepotrzebne koszty i alokując budżet szkoleniowy poprzez zapewnienie zasad. Po drugie, prawa skalowania wykazały stały i nienasycający wzrost wydajności. Idąc dalej z zasadami praw skalowania w modelach języka neuronowego, kilka LLM ucieleśnia zasadę, że zwiększanie skali modeli zwykle daje lepsze wyniki w zakresie wydajności. Z drugiej strony uogólnienie typu zero-shot odnosi się do zdolności modelu, w szczególności LLM, który wykonuje zadania, w zakresie których nie został wyraźnie przeszkolony. W dziedzinie widzenia komputerowego zainteresowanie budowaniem umiejętności uczenia się zerowego i uczenia się w kontekście modeli podstawowych. 

Modele językowe opierają się na algorytmach WordPiece lub podejściu Byte Pair Encoding do tokenizacji tekstu. Modele generowania wizualnego oparte na modelach językowych również w dużym stopniu opierają się na kodowaniu obrazów 2D w sekwencje tokenów 1D. Wczesne prace, takie jak VQVAE, wykazały zdolność do reprezentowania obrazów jako dyskretnych żetonów o umiarkowanej jakości rekonstrukcji. Następca VQVAE, platforma VQGAN, obejmowała straty percepcyjne i przeciwstawne w celu poprawy wierności obrazu, a także wykorzystywała transformator przeznaczony wyłącznie do dekodera do generowania tokenów obrazu w standardowy sposób autoregresyjny skanowania rastrowego. Z drugiej strony modele dyfuzyjne od dawna uważane są za liderów w zadaniach syntezy wizualnej, pod warunkiem ich różnorodności i doskonałej jakości generowania. Rozwój modeli dyfuzji skupiał się na ulepszaniu technik próbkowania, udoskonaleniach architektury i szybszym próbkowaniu. Modele dyfuzji utajonej wykorzystują dyfuzję w przestrzeni utajonej, co poprawia efektywność treningu i wnioskowanie. Modele transformatorów dyfuzyjnych zastępują tradycyjną architekturę U-Net architekturą opartą na transformatorach i zostały one wdrożone w najnowszych modelach syntezy obrazu lub wideo, takich jak SORA i Stabilna dyfuzja

Wizualna autoregresja: metodologia i architektura

W swojej istocie struktura VAR składa się z dwóch odrębnych etapów szkoleniowych. W pierwszym etapie wieloskalowy kwantowany autoenkoder (VQVAE) koduje obraz w postaci map tokenów, a do celów szkoleniowych implementowana jest złożona rekonstrukcja strat. Na powyższym rysunku osadzanie jest słowem używanym do definicji konwersji dyskretnych tokenów na ciągłe wektory osadzania. W drugim etapie transformator w modelu VAR jest szkolony poprzez minimalizację strat entropijnych lub maksymalizację prawdopodobieństwa przy użyciu metody przewidywania następnej skali. Następnie przeszkolony VQVAE tworzy podstawową mapę tokenów dla platformy VAR. 

Modelowanie autoregresyjne poprzez przewidywanie następnego tokenu

Dla danej sekwencji dyskretnych tokenów, gdzie każdy token jest liczbą całkowitą ze słownika o rozmiarze V, model autoregresyjny następnego tokenu zakłada, że ​​prawdopodobieństwo zaobserwowania bieżącego tokena zależy tylko od jego przedrostka. Zakładając jednokierunkową zależność tokena, platforma VAR może rozłożyć szanse sekwencji na iloczyn prawdopodobieństw warunkowych. Uczenie modelu autoregresyjnego obejmuje optymalizację modelu w całym zestawie danych i ten proces optymalizacji jest nazywany przewidywanie następnego tokenui umożliwia przeszkolonemu modelowi generowanie nowych sekwencji. Co więcej, obrazy są przez dziedziczenie ciągłymi sygnałami 2D, a zastosowanie podejścia do modelowania autoregresyjnego do obrazów za pomocą procesu optymalizacji przewidywania następnego tokena wiąże się z kilkoma warunkami wstępnymi. Po pierwsze, obraz należy tokenizować w kilka odrębnych tokenów. Zwykle implementowany jest kwantyzowany autoenkoder w celu konwersji mapy cech obrazu na dyskretne tokeny. Po drugie, w celu modelowania jednokierunkowego należy zdefiniować kolejność tokenów 1D. 

Tokeny obrazów w dyskretnych tokenach są ułożone w siatce 2D i w przeciwieństwie do zdań języka naturalnego, które z natury mają kolejność od lewej do prawej, kolejność tokenów obrazów musi być wyraźnie zdefiniowana w przypadku jednokierunkowego uczenia się autoregresyjnego. Wcześniejsze podejścia autoregresyjne spłaszczały siatkę 2D dyskretnych tokenów w sekwencję 1D przy użyciu metod takich jak skanowanie rastrowe głównych wierszy, krzywa Z lub porządek spiralny. Po spłaszczeniu dyskretnych tokenów modele AR wyodrębniły zestaw sekwencji ze zbioru danych, a następnie wytrenowały model autoregresyjny, aby zmaksymalizować prawdopodobieństwo uzyskania iloczynu T prawdopodobieństw warunkowych przy użyciu przewidywania następnego tokenu. 

Modelowanie wizualno-autoregresyjne poprzez przewidywanie w następnej skali

Struktura VAR na nowo konceptualizuje modelowanie autoregresyjne na obrazach, przechodząc od przewidywania następnego tokena do podejścia przewidywania następnej skali. Jest to proces, w ramach którego zamiast być pojedynczym tokenem, jednostką autoregresyjną jest cała mapa tokenów. Model najpierw kwantyzuje mapę obiektów w wieloskalowe mapy tokenów, każda o wyższej rozdzielczości niż poprzednia, a kończy się dopasowaniem rozdzielczości oryginalnych map obiektów. Co więcej, platforma VAR opracowuje nowy wieloskalowy koder kwantyzacji do kodowania obrazu na wieloskalowe dyskretne mapy tokenów, niezbędne do uczenia się VAR. Struktura VAR wykorzystuje tę samą architekturę co VQGAN, ale ze zmodyfikowaną wieloskalową warstwą kwantyzacji, z algorytmami przedstawionymi na poniższym obrazku. 

Wizualna autoregresja: wyniki i eksperymenty

Framework VAR wykorzystuje podstawową architekturę VQVAE z wieloskalowym schematem kwantyzacji z dodatkowym splotem K oraz wykorzystuje wspólny słownik dla wszystkich skal i ukryte przyciemnienie wynoszące 32. Główny nacisk położony jest na algorytm VAR, dzięki któremu projektowana jest architektura modelu jest prosty, ale skuteczny. Framework przyjmuje architekturę standardowego transformatora przeznaczonego wyłącznie do dekodera, podobnego do tych zaimplementowanych w modelach GPT-2, z jedyną modyfikacją polegającą na zastąpieniu tradycyjnej normalizacji warstw normalizacją adaptacyjną lub AdaLN. W przypadku syntezy warunkowej klas framework VAR implementuje osadzanie klas jako token startowy, a także warunek adaptacyjnej warstwy normalizacyjnej. 

Najnowocześniejsze wyniki generowania obrazu

W połączeniu z istniejącymi ramami generatywnymi, w tym Sieci GAN lub generatywne sieci przeciwstawne, maskowane modele predykcyjne w stylu BERT, modele dyfuzji i modele autoregresyjne w stylu GPT, ramy Visual AutoRegressive przedstawiają obiecujące wyniki podsumowane w poniższej tabeli. 

Jak można zaobserwować, framework Visual AutoRegressive nie tylko jest w stanie uzyskać najlepsze wyniki FID i IS, ale także wykazuje niezwykłą prędkość generowania obrazu, porównywalną z najnowocześniejszymi modelami. Co więcej, struktura VAR utrzymuje również zadowalającą precyzję i wyniki zapamiętywania, co potwierdza jej spójność semantyczną. Prawdziwą niespodzianką jest jednak niezwykła wydajność zapewniana przez platformę VAR w przypadku tradycyjnych zadań związanych z funkcjonalnością AR, co czyni ją pierwszym modelem autoregresyjnym, który przewyższa model transformatora dyfuzyjnego, jak pokazano w poniższej tabeli. 

Wynik uogólnienia zadania Zero-Shot

W przypadku zadań związanych z malowaniem i wykańczaniem, nauczyciel w środowisku VAR wymusza tokeny prawdy podstawowej poza maską i pozwala modelowi generować tylko tokeny w masce, bez wstrzykiwania do modelu informacji o etykiecie klasy. Wyniki przedstawiono na poniższym obrazie i jak widać, model VAR osiąga akceptowalne wyniki w przypadku dalszych zadań bez dostrajania parametrów lub modyfikowania architektury sieci, co pokazuje możliwość uogólnienia struktury VAR. 

Final Thoughts

W tym artykule mówiliśmy o nowym wizualnym frameworku generatywnym o nazwie Visual AutoRegressive modeling (VAR), który 1) teoretycznie rozwiązuje pewne problemy nieodłącznie związane ze standardowymi modelami autoregresyjnymi obrazu (AR) oraz 2) sprawia, że ​​modele AR oparte na modelach językowych są w pierwszej kolejności przewyższające silne modele dyfuzji pod względem jakości obrazu, różnorodności, wydajności danych i szybkości wnioskowania. Z jednej strony tradycyjne modele autoregresyjne wymagają określonej kolejności danych, z drugiej strony Visual AutoRegressive, czyli model VAR, ponownie zastanawiają się, jak uporządkować obraz, i to właśnie odróżnia VAR od istniejących metod AR. Po skalowaniu VAR do 2 miliardów parametrów twórcy platformy VAR zaobserwowali wyraźną zależność wynikającą z prawa potęgi między wydajnością testów a parametrami modelu lub obliczeniami treningowymi, przy czym współczynniki Pearsona zbliżają się do -0.998, co wskazuje na solidne ramy do przewidywania wydajności. Te prawa skalowania i możliwość uogólnienia zadań od zera, jako cechy charakterystyczne LLM, zostały teraz wstępnie zweryfikowane w naszych modelach transformatorów VAR. 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.