Artificial Intelligence
SHOW-O: Pojedynczy transformator łączący multimodalne zrozumienie i generację

Znaczące postępy w dużych modelach językowych (LLM) zainspirowały rozwój multimodalnych dużych modeli językowych (MLLM). Wczesne wysiłki MLLM, takie jak LLaVA, MiniGPT-4 i InstructBLIP, wykazują znaczące możliwości rozumienia multimodalnego. Aby zintegrować LLM z domenami multimodalnymi, badania te eksplorowały projekcję cech z wstępnie wyszkolonego kodera specyficznego dla modalności, takiego jak CLIP, do przestrzeni wejściowej LLM, umożliwiając multimodalne rozumienie i rozumowanie w szkielecie transformatora. Chociaż istnieją różne wybory projektowe dla MLLM, takie jak kodery wizji, adaptery wyrównania cech i zestawy danych, szkolenie dla większości tych modeli jest zgodne z paradygmatem generowania autoregresyjnego, który okazał się skuteczny w generowaniu tekstu w LLM. Pomimo silnych możliwości rozumienia multimodalnego, modele te koncentrują się przede wszystkim na percepcji wizualnej i nie mają zdolności generowania multimodalnych wyników poza tekstem.
Modele transformatorowe wykazały się dużym powodzeniem w modelowaniu autoregresyjnym w przetwarzaniu języka naturalnego. Zainspirowane takim postępem, wcześniejsze badania bezpośrednio zastosowały to samo modelowanie autoregresyjne, aby poznać zależność pikseli obrazu dla generowania obrazu i wideo. Na przykład VideoPoet wykorzystuje architekturę transformatora tylko dekodera do syntezy wysokiej jakości filmów z multimodalnych danych wejściowych. Niedawno LlamaGen wykazał, że duża architektura modelu językowego, taka jak Llama, może modelować autoregresywnie tokeny obrazu, osiągając przyzwoitą wydajność w generowaniu obrazu warunkowego klasy.
W tym artykule omówimy Show-O, zunifikowany transformator, który integruje multimodalne rozumienie i generowanie. W przeciwieństwie do w pełni autoregresyjnych modeli, Show-O ujednolica autoregresyjne i dyskretne modelowanie dyfuzji, aby adaptacyjnie obsługiwać dane wejściowe i wyjściowe różnych i mieszanych modalności. Zunifikowany model elastycznie obsługuje szeroki zakres zadań wizyjno-językowych, w tym wizualne odpowiadanie na pytania, generowanie tekstu do obrazu, inpainting/ekstrapolację sterowaną tekstem i generowanie mieszanej modalności. W różnych testach porównawczych Show-O wykazuje porównywalną lub lepszą wydajność niż istniejące pojedyncze modele z równą lub większą liczbą parametrów, co podkreśla jego potencjał jako modelu bazowego nowej generacji.
W tym kontekście model ma za zadanie przewidywać szum gaussowski dodawany do ciągłych reprezentacji utajonych. Natomiast inne modele, takie jak D3PM, Mask-predict, ARDM i MaskGIT, wykorzystują dyskretny proces korupcji jako alternatywę dla dyfuzji gaussowskiej. Konkretnie, obraz jest reprezentowany jako sekwencja dyskretnych tokenów przy użyciu tokenizatorów obrazu, przy czym każdy token jest powiązany z etykietą kategoryczną. Dystrybucja według tokenów jest przekształcana w dystrybucję jednorodną poprzez proces próbkowania stochastycznego. Podczas szkolenia część tych tokenów jest losowo maskowana, a model jest trenowany w celu przewidywania oryginalnych wartości zamaskowanych tokenów. W tej pracy Show-O przyjmuje modelowanie dyskretnej dyfuzji do generowania wizualnego.
SHOW-O: Zjednoczenie multimodalnego rozumienia i generowania
W ciągu ostatnich kilku lat nastąpił znaczący postęp w dwóch kluczowych filarach multimodalnej inteligencji: zrozumieniu i generowaniu. W przypadku multimodalnego zrozumienia, Multimodalne Duże Modele Językowe (MLLM)) jak LLaVA wykazały wyjątkowe możliwości w zadaniach wizyjno-językowych, takich jak wizualne odpowiadanie na pytania (VQA). W przypadku generowania obrazu, modele probabilistyczne denoising diffusion (DDPM) zrewolucjonizowały tradycyjne paradygmaty generatywne, osiągając bezprecedensową wydajność w generowaniu tekstu na obraz/wideo.
Biorąc pod uwagę te osiągnięcia w poszczególnych dziedzinach, naturalne jest zbadanie potencjału ich połączenia. Ostatnie prace próbowały zebrać modele eksperckie z tych dwóch różnych dziedzin, aby utworzyć zunifikowany system, który może obsługiwać zarówno multimodalne rozumienie, jak i generowanie. Jednak istniejące próby często obejmują oddzielne modele do rozumienia i generowania. Na przykład NExT-GPT wykorzystuje model języka bazowego do multimodalnego rozumienia, ale wymaga dodatkowego, wstępnie wyszkolonego modelu dyfuzji do generowania obrazu. Nasuwa się pytanie: czy jeden transformator może obsługiwać zarówno multimodalne rozumienie, jak i generowanie?
Niedawno Chameleon wykazał, że jest to możliwe. Dokładniej, Chameleon umożliwia łączenie różnych modalności w celu generowania zarówno tokenów tekstowych, jak i graficznych poprzez modelowanie autoregresyjne. Podczas gdy modelowanie tokenów tekstowych autoregresywnie ma sens, nie jest jasne, czy modelowanie łatek obrazu lub pikseli w ten sam sposób jest optymalne. Kluczowym wąskim gardłem autoregresyjnego przewidywania obrazu jest duża liczba wymaganych kroków próbkowania, szczególnie w przypadku obrazów o wyższej rozdzielczości. Modele ciągłej dyfuzji wykazały lepszą wydajność w generowaniu wizualnym w porównaniu z modelami autoregresyjnymi.
Prowadzi nas to do zbadania, czy pojedynczy transformator może zintegrować modelowanie autoregresyjne i dyfuzyjne. Show-O przewiduje nowy paradygmat, w którym tekst jest reprezentowany jako dyskretne tokeny i modelowany autoregresywnie, podczas gdy ciągłe piksele obrazu są modelowane przy użyciu odszumiającej dyfuzji. Jednak zintegrowanie tych dwóch odrębnych technik w jedną sieć nie jest trywialne ze względu na różnice między dyskretnymi tokenami tekstowymi a ciągłymi reprezentacjami obrazu. Ponadto modele dyfuzyjne zazwyczaj opierają się na dwóch odrębnych modelach: koderze tekstu i sieci odszumiającej.
Aby temu zaradzić, Show-O wprowadza nowy, zunifikowany model, który może obsługiwać zarówno multimodalne zadania rozumienia, jak i generowania, wykorzystując mieszane modelowanie autoregresyjne i dyfuzyjne. Show-O jest zbudowany na wstępnie wytrenowanym LLM i wykorzystuje swoje możliwości modelowania autoregresyjnego do rozumowania opartego na tekście. Zainspirowany innymi pracami, Show-O wykorzystuje dyskretną dyfuzję odszumiania do modelowania tokenów obrazu zamiast ciągłych reprezentacji. Co więcej, Show-O z natury koduje warunkowe informacje tekstowe, eliminując potrzebę dodatkowych koderów tekstu. Wykorzystując tokenizatory tekstu i obrazu, Show-O może przetwarzać różnorodne dane wejściowe i zadania, dostarczając odpowiedzi autoregresywnie dla zadań wizyjno-językowych i generując obrazy przy użyciu dyskretnej dyfuzji odszumiania.
Show-O wykazuje porównywalną, a w niektórych przypadkach lepszą wydajność niż poszczególne modele z równą lub większą liczbą parametrów w różnych testach porównawczych. W przeciwieństwie do autoregresyjnego generowania obrazu, struktura Show-O wymaga około 20 razy mniej kroków próbkowania, co czyni ją z natury szybszą. Ponadto struktura Show-O obsługuje aplikacje downstream, takie jak inpainting sterowany tekstem i ekstrapolacja bez konieczności dostrajania, jak pokazano na poniższym obrazku.
Show-O ma również potencjał do generowania mieszanych modalności, takich jak generowanie przeplatanych klatek kluczowych wideo z opisami tekstowymi, co daje nadzieję na generowanie długich form wideo. Ponadto struktura Show-O bada wpływ dyskretnych i ciągłych reprezentacji obrazu na zrozumienie multimodalne, oferując wgląd w przyszłe projekty ujednoliconych modeli.
Na poniższym rysunku przedstawiono porównanie cech modelu między ramą Show-O a istniejącymi metodami w różnych domenach. Show-O wyróżnia się jako ujednolicony model, który integruje zaawansowane techniki zarówno dla multimodalnego zrozumienia, jak i generowania.
Podsumowując, główne wnioski płynące z niniejszego artykułu przedstawiają się następująco:
- Show-O to ujednolicony model który integruje multimodalne zrozumienie i generację przy użyciu jednego transformatora.
- Show-O łączy autoregresyjne i dyskretne modelowanie dyfuzji w jednym transformatorze, skutecznie obsługującym zarówno tekst, jak i obrazy.
- Struktura Show-O przewyższa lub dorównuje indywidualnym modelom bazowym z równoważnymi lub większymi parametrami w ramach multimodalnego zrozumienia i testów porównawczych generacji.
- Show-O obsługuje aplikacje downstream takie jak uzupełnianie tekstu i ekstrapolacja bez konieczności dokładnego dostrajania, co pokazuje potencjał generowania obrazów w trybie mieszanym.
- Show-O bada wpływ różnych typów reprezentacji, dostarczając cennych informacji na temat poprawy zrozumienia multimodalnego w zunifikowanych modelach.
W ostatnich latach coraz więcej badań skupia się na zunifikowanych multimodalnych modelach językowych, które są zdolne zarówno do rozumienia, jak i generowania. Niektóre wysiłki wykorzystują ciągłe reprezentacje przeplatane tokenami tekstowymi do modelowania autoregresyjnego w celu generowania obrazów. SEED-X proponuje zunifikowany i wszechstronny system bazowy, który jest w stanie obsługiwać zarówno multimodalne zadania rozumienia, jak i generowania. W tym podejściu ciągłe reprezentacje obrazów z kodera CLIP ViT są łączone z tokenami tekstowymi i wprowadzane do dużego modelu językowego (LLM), aby wykonać przewidywanie następnego słowa i regresję reprezentacji obrazu. Chameleon wprowadza rodzinę opartych na tokenach modeli mieszanych modalnych, które są zdolne zarówno do rozumienia, jak i generowania obrazów. To podejście reprezentuje wszystkie modalności jako dyskretne tokeny, wykorzystując zunifikowaną architekturę opartą na transformatorze i trenując model od podstaw w sposób kompleksowy. Dla porównania, Show-O również przyjmuje dyskretne tokeny do reprezentowania wszystkich modalności, ale wykorzystuje proces dyfuzji dyskretnej zamiast modelowania autoregresyjnego do generowania wizualnego.
SHOW-O: Metodologia i architektura
Podstawowym celem struktury Show-O jest opracowanie zunifikowanego modelu, który integruje modelowanie autoregresyjne i dyfuzyjne w celu wspólnego multimodalnego zrozumienia i generowania. Opracowanie takiego zunifikowanego modelu stwarza znaczne wyzwania, a główne kwestie dotyczą: i) zdefiniowania przestrzeni wejścia/wyjścia modelu; ii) ujednolicenia różnych typów danych wejściowych z różnych modalności; iii) zintegrowania modelowania autoregresyjnego i dyfuzyjnego w jednym transformatorze; iv) skutecznego trenowania takiego zunifikowanego modelu.
Show-O rozwiązuje te problemy, oferując następujące rozwiązania:
- Show-O konstruuje przestrzeń wejścia/wyjścia poprzez tokenizację danych tekstowych i graficznych do postaci dyskretnych tokenów.
- Show-O wprowadza domyślną architekturę i ujednoliconą strategię podpowiedzi w celu uporządkowania danych wejściowych i modalności.
- Show-O pokazuje, jak połączyć modelowanie autoregresyjne i dyfuzyjne w jednym transformatorze.
- Show-O prezentuje trzyetapowy proces szkoleniowy pozwalający na efektywne trenowanie ujednoliconego modelu.
tokenizacja
Biorąc pod uwagę, że proponowany Show-O jest zbudowany na wstępnie przeszkoleni LLM, naturalne jest przeprowadzanie ujednoliconego uczenia się w przestrzeni dyskretnej. Poprzez utrzymywanie ujednoliconego słownictwa, które obejmuje dyskretne tokeny tekstowe i graficzne, Show-O ma za zadanie ten sam cel uczenia się: przewidywanie dyskretnych tokenów.
Tokenizacja tekstu
Show-O bazuje na wstępnie wytrenowanym LLM, a ten sam tokenizator jest używany do tokenizacji danych tekstowych bez żadnych modyfikacji.
Tokenizacja obrazu
Po MAGVIT-v2, Show-O trenuje kwantyzator bez wyszukiwania, używając około 35M danych obrazu. Kwantyzator utrzymuje księgę kodową o rozmiarze 8,192 i koduje obrazy o rozdzielczości 256×256 do dyskretnych tokenów 16×16. MAGVIT-v2 został wybrany ze względu na łatwość dostrajania, co czyni go odpowiednim tokenizatorem wideo z możliwością kompresji czasowej, aspekt, który Show-O planuje zbadać w przyszłości. Alternatywnym podejściem jest użycie różnych tokenizatorów do zrozumienia i generowania. Zainspirowany istniejącymi badaniami, Show-O wyodrębnia również ciągłe reprezentacje obrazu z wstępnie wytrenowanego kodera MAGVIT-v2 i CLIP-ViT, aby zbadać ulepszenia w zakresie możliwości rozumienia multimodalnego. W poniższych sekcjach domyślny Show-O wykorzystuje dyskretne tokeny obrazu jako dane wejściowe zarówno do zrozumienia multimodalnego, jak i generowania. Dla uproszczenia sekcje metodologii będą omawiać tylko domyślny Show-O.
Architektura
Show-O dziedziczy architekturę istniejące LLM bez żadnych modyfikacji architektury, z wyjątkiem dodania operacji QK-Norm do każdej warstwy uwagi. Show-O jest inicjowany wagami wstępnie wytrenowanego LLM i rozszerza rozmiar warstwy osadzania, włączając 8,192 nowych, możliwych do nauczenia osadzeń dla dyskretnych tokenów obrazu. W przeciwieństwie do najnowocześniejszych modeli dyfuzji, które wymagają dodatkowego kodera tekstu, Show-O z natury koduje warunkowe informacje tekstowe do generowania tekstu na obraz.
Zunifikowane podpowiedzi
Aby przeprowadzić ujednolicone uczenie się na temat multimodalnego rozumienia i generowania, Show-O wykorzystuje ujednoliconą strategię podpowiedzi, aby sformatować różne rodzaje danych wejściowych. Biorąc pod uwagę parę obraz-tekst (x, y), jest ona najpierw tokenizowana na M tokenów obrazu i N tokenów tekstu przez tokenizatory obrazu i tekstu. Następnie tokeny są formowane w sekwencję wejściową zgodnie z typem zadania, jak pokazano na poniższym rysunku.
Dzięki zastosowaniu tego projektu zachęty Show-O może skutecznie kodować różne dane wejściowe do multimodalnego zrozumienia, generowania tekstu do obrazu i generowania mieszanej modalności jako dane sekwencyjne. Ta konfiguracja umożliwia ujednolicone uczenie się, aby działać bezproblemowo w sekwencjach dla tych różnych zadań. Po przeszkoleniu Show-O może być zachęcany do obsługi szerokiego zakresu zadań wizyjno-językowych, w tym wizualnego odpowiadania na pytania i generowania tekstu do obrazu.
Mechanizm Omni-Attention
W przeciwieństwie do istniejących prac, które modelują sekwencje wyłącznie autoregresywnie, Show-O wprowadza mechanizm omni-attention, umożliwiając modelowanie różnych typów sygnałów w odmienny sposób. Ten kompleksowy mechanizm uwagi adaptacyjnie przełącza się między uwagą przyczynową i pełną w oparciu o format sekwencji wejściowej. Poniższy rysunek ilustruje przykłady omni-attention dla różnych sekwencji wejściowych.
Dokładniej, Show-O przetwarza tokeny tekstowe w sekwencji za pośrednictwem uwagi przyczynowej, podczas gdy tokeny obrazu są obsługiwane przy użyciu pełnej uwagi, co pozwala każdemu tokenowi na kompleksową interakcję ze wszystkimi innymi. W rozumieniu multimodalnym tokeny tekstowe mogą zwracać uwagę na wszystkie poprzednie tokeny obrazu, podczas gdy w generowaniu tekstu do obrazu tokeny obrazu mogą wchodzić w interakcję ze wszystkimi poprzednimi tokenami tekstu. Omni-attention zachowuje wiedzę o rozumowaniu tekstu z wstępnie wyszkolonego LLM i zwiększa wydajność generowania obrazu poprzez redukcję kroków próbkowania. Ponadto obsługuje różne aplikacje downstream, takie jak inpainting i ekstrapolacja, bez konieczności dostrajania. Gdy podane są tylko tokeny tekstu, mechanizm domyślnie przechodzi na uwagę przyczynową.
SHOW-O: Eksperymenty i wyniki
Poniższa tabela przedstawia możliwości narzędzia Show-O w zakresie rozumienia multimodalnego w publicznych testach porównawczych, takich jak zadania polegające na podpisywaniu obrazów i odpowiadaniu na pytania wizualne.
Obecna wersja Show-O oparta jest na Phi-1.5, dlatego też odpowiednik Show-O, LLaVA-v1.5-Phi-1.5, przeznaczony wyłącznie do rozumienia sygnałów, stanowi bezpośrednią bazę. Show-O wykazuje porównywalną wydajność we wszystkich metrykach ewaluacyjnych do bazowego LLaVA-v1.5-Phi-1.5, dedykowanego wyłącznie do rozumienia sygnałów multimodalnych. Świadczy to o ogromnym potencjale frameworka Show-O w zakresie ujednolicania rozumienia sygnałów multimodalnych i generacji sygnałów w ramach jednego transformatora. W porównaniu z modelami opartymi wyłącznie na rozumieniu sygnałów, takimi jak InstructBLIP, Qwen-VL-Chat i mPLUG-Owl2, Show-O, pomimo znacznie mniejszego rozmiaru modelu, osiąga konkurencyjną wydajność w testach POPE, MME, Flickr30k i VQAv2 oraz lepszą w teście GQA. W porównaniu do ujednoliconych modeli o znacznie większej liczbie parametrów, takich jak NExT-GPT-13B i Chameleon-34B, Show-O osiąga również wysoką wydajność w teście Flickr30k i wypada znacznie lepiej w teście VQAv2.
Biorąc pod uwagę te obiecujące wyniki, Show-O jest postrzegane jako potencjalny model fundamentu nowej generacji do ujednolicenia zrozumienia i generacji. Wyniki te pokazują również potencjał skalowania Show-O w celu osiągnięcia najnowocześniejszej wydajności.
Porównania jakościowe
Przedstawiamy jakościowe porównania z modelami opartymi na dyfuzji, takimi jak SDv1.5, SDXL i modelem autoregresyjnym LlamaGen, a także z modelami zunifikowanymi, takimi jak LWM i SEED-X, jak pokazano na poniższym rysunku.
Show-O demonstruje zdolność do generowania realistycznych obrazów ze spójną treścią opisaną zarówno w krótkich, jak i długich tekstowych monitach. W porównaniu do SDv1.5 i LlamaGen, Show-O wykazuje lepszą jakość wizualną i mocniejsze wyrównanie obrazu i tekstu. Na przykład w drugiej kolumnie zarówno SDv1.5, jak i LlamaGen nie rozumieją w pełni monitu tekstowego i pomijają atrybuty, takie jak „zachód słońca” i „niebieskie kopuły” w generowanych obrazach. W porównaniu do SDXL, Show-O zapewnia porównywalną jakość wizualną i wyrównanie, jak widać w przykładach takich jak „wyścig samochodów rajdowych” i „oszałamiający kontrast na tle żywego zachodu słońca”.
Inpainting i ekstrapolacja sterowane tekstem
Show-O naturalnie obsługuje inpainting i ekstrapolację opartą na tekście bez konieczności jakiegokolwiek dostrajania. Poniższy rysunek ilustruje kilka przykładów.
Na górze rysunku, biorąc pod uwagę obraz wejściowy i maskę inpainting, Show-O może przekształcić czerwony tramwaj w niebieski samochód sportowy o smukłych krzywiznach i przyciemnianych szybach na podstawie podanego przez użytkownika monitu tekstowego. Show-O może również ekstrapolować oryginalny obraz poziomo lub pionowo na podstawie podanego monitu tekstowego. Na przykład w drugim rzędzie Show-O ekstrapoluje obraz, dodając nowe obiekty, takie jak „czerwone kwiaty polne”. Piksele zarówno w obszarach inpainting, jak i ekstrapolowanych pozostają zgodne z oryginalnym obrazem. Te przykłady wyraźnie pokazują inherentne zalety Show-O w porównaniu z modelami autoregresyjnymi dla aplikacji downstream.
Uwagi końcowe
W tym artykule omówiliśmy Show-O, zunifikowany transformator, który integruje multimodalne rozumienie i generowanie. W przeciwieństwie do w pełni autoregresyjnych modeli, Show-O ujednolica autoregresyjne i dyskretne modelowanie dyfuzji, aby adaptacyjnie obsługiwać wejścia i wyjścia różnych i mieszanych modalności. Zunifikowany model elastycznie obsługuje szeroki zakres zadań wizyjno-językowych, w tym wizualne odpowiadanie na pytania, generowanie tekstu do obrazu, inpainting/ekstrapolację sterowaną tekstem i generowanie mieszanej modalności. W różnych testach porównawczych Show-O wykazuje porównywalną lub lepszą wydajność niż istniejące pojedyncze modele z równą lub większą liczbą parametrów, podkreślając jego potencjał jako modelu podstawowego nowej generacji. W tym kontekście model ma za zadanie przewidywać szum gaussowski dodawany do ciągłych reprezentacji utajonych. Natomiast inne modele, takie jak D3PM, Mask-predict, ARDM i MaskGIT, wykorzystują dyskretny proces korupcji jako alternatywę dla dyfuzji gaussowskiej. Show-O jest pierwszym, który łączy autoregresyjne i dyskretne modelowanie dyfuzji, umożliwiając mu obsługę różnych modalności w odmienny sposób. Obszerne wyniki eksperymentów pokazują, że Show-O jest porównywalne lub nawet lepsze od indywidualnych modeli eksperckich w szerokim zakresie zadań wizyjno-językowych. Podkreśla to jego potencjał jako modelu fundamentowego nowej generacji.