Spojte se s námi

Umělá inteligence

SHOW-O: Jediný transformátor spojující multimodální porozumění a generaci

mm
aktualizováno on

Významný pokrok ve velkých jazykových modelech (LLM) inspiroval vývoj multimodálních velkých jazykových modelů (MLLM). První snahy o MLLM, jako jsou LLaVA, MiniGPT-4 a InstructBLIP, ukazují pozoruhodné schopnosti multimodálního porozumění. Pro integraci LLM do multimodálních domén tyto studie zkoumaly promítání funkcí z předem vyškoleného kodéru specifického pro modalitu, jako je CLIP, do vstupního prostoru LLM, což umožňuje multimodální porozumění a uvažování v rámci páteře transformátoru. Ačkoli existují různé možnosti návrhu pro MLLM, jako jsou kodéry vidění, adaptéry pro zarovnání funkcí a datové sady, školení pro většinu těchto modelů se řídí paradigmatem autoregresivního generování, které se ukázalo jako efektivní pro generování textu v LLM. Navzdory svým silným schopnostem multimodálního porozumění se tyto modely primárně zaměřují na vizuální vnímání a postrádají schopnost generovat multimodální výstupy mimo text.

Transformátorové modely prokázaly velký úspěch v autoregresním modelování při zpracování přirozeného jazyka. Předchozí studie, inspirované takovým pokrokem, přímo aplikovaly stejné autoregresivní modelování, aby zjistily závislost obrazových pixelů pro generování obrazu a videa. Například VideoPoet využívá pouze dekodérovou transformátorovou architekturu pro syntézu vysoce kvalitních videí z multimodálních vstupů. Nedávno LlamaGen ukázal, že architektura velkého jazykového modelu, jako je Llama, může autoregresivně modelovat tokeny obrázků, čímž dosahuje slušného výkonu při generování obrázků podmíněných třídou.

V tomto článku budeme diskutovat o Show-O, jednotném transformátoru, který integruje multimodální porozumění a generování. Na rozdíl od plně autoregresních modelů, Show-O sjednocuje autoregresivní a diskrétní difúzní modelování, aby adaptivně zpracovávalo vstupy a výstupy různých a smíšených modalit. Sjednocený model flexibilně podporuje širokou škálu úloh v jazyce vidění, včetně vizuálních odpovědí na otázky, generování textu na obrázek, textově řízeného malování/extrapolace a generování smíšených modalit. Napříč různými benchmarky vykazuje Show-O srovnatelný nebo lepší výkon se stávajícími jednotlivými modely s ekvivalentním nebo větším počtem parametrů, což zdůrazňuje svůj potenciál jako základního modelu nové generace.

V tomto rámci má model za úkol předpovídat Gaussův šum přidaný ke spojitým latentním reprezentacím. Naproti tomu jiné modely jako D3PM, Mask-predict, ARDM a MaskGIT používají diskrétní proces korupce jako alternativu ke Gaussově difúzi. Konkrétně je obrázek reprezentován jako sekvence samostatných tokenů pomocí tokenizérů obrázků, přičemž každý token je spojen s kategorickým štítkem. Token-wise distribuce je transformována do jednotné distribuce prostřednictvím stochastického vzorkování. Během trénování je část těchto tokenů náhodně maskována a model je trénován tak, aby předpovídal původní hodnoty maskovaných tokenů. V této práci Show-O využívá diskrétní difúzní modelování pro vizuální generování.

SHOW-O: Sjednocení multimodálního porozumění a generování

Během několika posledních let došlo k významnému pokroku ve dvou klíčových pilířích multimodální inteligence: porozumění a generování. Pro multimodální porozumění, Multimodální velké jazykové modely (MLLMs) jako LLaVA prokázaly výjimečné schopnosti v úlohách vizuálního jazyka, jako je vizuální odpovídání na otázky (VQA). Pro vizuální generování způsobily pravděpodobnostní modely odšumování difuze (DDPM) revoluci v tradičních generativních paradigmatech a dosáhly bezprecedentního výkonu při generování textu na obrázek/videa.

Vzhledem k těmto úspěchům v jednotlivých oborech je přirozené zkoumat potenciál jejich propojení. Nedávné práce se pokusily sestavit expertní modely z těchto dvou různých domén, aby vytvořily jednotný systém, který zvládne multimodální porozumění i generování. Stávající pokusy však často zahrnují samostatné modely porozumění a generování. Například NExT-GPT využívá základní jazykový model pro multimodální porozumění, ale vyžaduje další předem trénovaný model difúze pro generování obrazu. To vyvolává otázku: dokáže jeden jediný transformátor zvládnout jak multimodální porozumění, tak generování?

Nedávno Chameleon ukázal, že je to možné. Konkrétně Chameleon umožňuje fúzi různých modalit pro generování textových i obrazových tokenů prostřednictvím autoregresního modelování. I když má smysl modelovat textové tokeny autoregresivně, je méně jasné, zda je optimální modelování obrazových polí nebo pixelů stejným způsobem. Klíčovým úzkým hrdlem autoregresivní predikce obrázku je velký počet požadovaných vzorkovacích kroků, zejména při práci s obrázky s vyšším rozlišením. Modely kontinuální difúze prokázaly vynikající výkon ve vizuálním generování ve srovnání s autoregresivními modely.

To nás vede ke zkoumání, zda jeden transformátor může integrovat jak autoregresivní, tak difúzní modelování. Show-O představuje nové paradigma, kde je text reprezentován jako diskrétní tokeny a modelován autoregresivně, zatímco spojité obrazové pixely jsou modelovány pomocí odšumovací difúze. Integrace těchto dvou odlišných technik do jediné sítě však není triviální kvůli rozdílům mezi diskrétními textovými tokeny a kontinuálními obrazovými reprezentacemi. Kromě toho modely difúze obvykle spoléhají na dva odlišné modely: kodér textu a síť pro potlačení šumu.

Za tímto účelem představuje Show-O nový sjednocený model schopný zvládnout úlohy multimodálního porozumění a generování pomocí smíšeného autoregresního a difúzního modelování. Show-O je postavena na předem vyškoleném LLM a využívá své schopnosti autoregresního modelování pro textové uvažování. Inspirován jinými pracemi, Show-O využívá diskrétní odšumovací difúzi k modelování obrazových tokenů namísto souvislých reprezentací. Kromě toho Show-O ze své podstaty kóduje podmíněné textové informace, čímž eliminuje potřebu dalších textových kodérů. Využitím textových a obrazových tokenizérů může Show-O zpracovávat různá vstupní data a úkoly, poskytovat autoregresivní odpovědi na úkoly v oblasti vizuálního jazyka a generovat obrázky pomocí diskrétní difúze odšumování.

Show-O prokazuje srovnatelný a v některých případech lepší výkon než jednotlivé modely s ekvivalentním nebo větším počtem parametrů napříč různými benchmarky. Na rozdíl od autoregresivního generování obrazu vyžaduje framework Show-O asi 20krát méně kroků vzorkování, takže je přirozeně rychlejší. Rámec Show-O navíc podporuje následné aplikace, jako je textem řízené malování a extrapolace, aniž by bylo nutné dolaďovat, jak ukazuje následující obrázek. 

Show-O má také potenciál pro generování smíšené modality, jako je generování prokládaných klíčových snímků videa s textovými popisy, což je slibné pro generování dlouhého videa. Kromě toho rámec Show-O zkoumá dopad diskrétních a spojitých obrazových reprezentací na multimodální porozumění a nabízí pohledy na budoucí návrhy sjednocených modelů.

Následující obrázek představuje srovnání charakteristik modelu mezi rámcem Show-O a existujícími metodami napříč různými doménami. Show-O vyniká jako jednotný model, který integruje pokročilé techniky pro multimodální porozumění a generování. 

Stručně řečeno, hlavní příspěvky tohoto dokumentu jsou následující:

  • Show-O je jednotný model který integruje multimodální porozumění a generování pomocí jediného transformátoru.
  • Show-O sjednocuje autoregresivní a diskrétní difúzní modelování v rámci jednoho transformátoru efektivně zpracovávat text i obrázky.
  • Rámec Show-O překonává nebo odpovídá jednotlivým základním modelům s ekvivalentními nebo většími parametry napříč multimodálním porozuměním a generačními benchmarky.
  • Show-O podporuje následné aplikace jako textové malování a extrapolace bez jemného dolaďování a demonstruje potenciál pro generování smíšené modality.
  • Show-O zkoumá dopad různých typů reprezentací, poskytující cenné poznatky pro zlepšení multimodálního porozumění ve sjednocených modelech.

V posledních letech se stále více studií zaměřuje na jednotné multimodální jazykové modely schopné porozumění i generování. Některé snahy využívají kontinuální reprezentace prokládané textovými tokeny pro autoregresivní modelování pro generování obrázků. SEED-X navrhuje jednotný a všestranný základový systém schopný zvládnout jak multimodální porozumění, tak úkoly generování. V tomto přístupu jsou kontinuální obrazové reprezentace z kodéru CLIP ViT kombinovány s textovými tokeny a přiváděny do velkého jazykového modelu (LLM) pro provádění predikce dalšího slova a regrese obrazové reprezentace. Chameleon představuje rodinu smíšených modálních modelů založených na tokenech, které jsou schopny porozumět i generovat obrázky. Tento přístup představuje všechny modality jako diskrétní tokeny, využívající sjednocenou architekturu založenou na transformátorech a trénování modelu od nuly způsobem end-to-end. Pro srovnání, Show-O také přijímá diskrétní tokeny k reprezentaci všech modalit, ale pro vizuální generování využívá proces diskrétní difúze namísto autoregresivního modelování.

SHOW-O: Metodologie a architektura

Primárním cílem rámce Show-O je vyvinout jednotný model, který integruje autoregresivní a difúzní modelování pro společné multimodální porozumění a generování. Vývoj takového jednotného modelu představuje značné problémy, přičemž hlavní problémy se točí kolem: i) definování vstupního/výstupního prostoru modelu; ii) sjednocení různých typů vstupních dat z různých modalit; iii) integrace jak autoregresního, tak difúzního modelování do jednoho transformátoru; a iv) efektivní výcvik takového jednotného modelu.

Show-O řeší tyto výzvy pomocí následujících řešení:

  • Show-O vytváří vstupní/výstupní prostor tokenizací textových a obrazových dat do samostatných tokenů.
  • Show-O představuje svou výchozí architekturu a jednotnou strategii pobízení pro strukturování vstupních dat a modalit.
  • Show-O ukazuje, jak začlenit autoregresivní i difúzní modelování do jednoho transformátoru.
  • Show-O představuje třístupňový tréninkový kanál pro efektivní trénování jednotného modelu.

Tokenizace

Vzhledem k tomu, že navrhovaný Show-O je postaven na předem vyškolených LLM, je přirozené provádět jednotné učení v diskrétním prostoru. Udržováním jednotného slovníku, který zahrnuje samostatné textové a obrázkové tokeny, má Show-O za úkol stejný učební cíl: předpovídání diskrétních tokenů.

Tokenizace textu

Show-O je založen na předtrénovaném LLM a stejný tokenizér se používá pro tokenizaci textových dat bez jakýchkoli úprav.

Tokenizace obrazu

Po MAGVIT-v2 trénuje Show-O kvantizer bez vyhledávání pomocí přibližně 35M obrazových dat. Kvantizér udržuje kódovou knihu o velikosti 8,192 256 a kóduje obrázky v rozlišení 256 × 16 do 16 × 2 diskrétních tokenů. MAGVIT-v2 je vybrán pro své snadné jemné doladění, díky čemuž je vhodný jako video tokenizer s možností dočasné komprese, což je aspekt, který Show-O plánuje v budoucnu prozkoumat. Alternativním přístupem je použití různých tokenizérů pro porozumění a generování, resp. Inspirován existujícími studiemi, Show-O také extrahuje kontinuální obrazové reprezentace z předem trénovaného kodéru MAGVIT-vXNUMX a CLIP-ViT, aby prozkoumala vylepšení schopností multimodálního porozumění. V následujících částech výchozí Show-O využívá diskrétní obrazové tokeny jako vstup pro multimodální porozumění a generování. Pro jednoduchost budou části metodiky rozpracovány pouze na výchozí Show-O.

Architektura

Show-O zdědí architekturu stávající LLM bez jakýchkoli úprav architektury, kromě přidání operace QK-Norm ke každé vrstvě pozornosti. Show-O je inicializována s váhami předem trénovaného LLM a rozšiřuje velikost vkládací vrstvy začleněním 8,192 XNUMX nových naučitelných vložení pro tokeny diskrétních obrázků. Na rozdíl od nejmodernějších modelů difúze, které vyžadují další textový kodér, Show-O ze své podstaty kóduje podmíněné informace textu pro generování textu na obrázek.

Jednotná výzva 

K provádění jednotného učení o multimodálním porozumění a generování využívá Show-O jednotnou strategii pobízení k formátování různých druhů vstupních dat. Daný pár obrázek-text (x, y) je nejprve tokenizován na M obrazových tokenů​ a N textových tokenů​ pomocí obrazových a textových tokenizérů. Tokeny se poté zformují do vstupní sekvence podle typu úkolu, jak je znázorněno na následujícím obrázku. 

Využitím tohoto rychlého návrhu může Show-O efektivně kódovat různá vstupní data pro multimodální porozumění, generování textu na obrázek a generování smíšené modality jako sekvenční data. Toto nastavení umožňuje, aby jednotné učení fungovalo hladce napříč sekvencemi pro tyto různé úkoly. Po zaškolení může být Show-O vyzván, aby zvládnul širokou škálu úloh v oblasti vizuálního jazyka, včetně vizuálních odpovědí na otázky a generování textu na obrázek.

Mechanismus omni-Attention 

Na rozdíl od existujících děl, která modelují sekvence pouze autoregresivně, Show-O zavádí mechanismus všepozornosti, který umožňuje modelovat různé typy signálů odlišnými způsoby. Tento komplexní mechanismus pozornosti adaptivně přepíná mezi kauzální a plnou pozorností na základě formátu vstupní sekvence. Následující obrázek ilustruje příklady omni-attention pro různé vstupní sekvence.

Konkrétně Show-O zpracovává textové tokeny v rámci sekvence prostřednictvím kauzální pozornosti, zatímco s obrazovými tokeny se zachází s využitím plné pozornosti, což umožňuje každému tokenu komplexně interagovat se všemi ostatními. V multimodálním chápání mohou textové tokeny obsluhovat všechny předchozí obrázkové tokeny, zatímco při generování textu na obrázek mohou obrázkové tokeny interagovat se všemi předchozími textovými tokeny. Omni-attention si zachovává znalosti textového uvažování z předem vyškoleného LLM a zvyšuje efektivitu generování obrázků snížením vzorkovacích kroků. Kromě toho podporuje různé následné aplikace, jako je malba a extrapolace, aniž by bylo nutné dolaďovat. Když jsou dány pouze textové tokeny, mechanismus se ve výchozím nastavení nastaví na kauzální pozornost.

SHOW-O: Experimenty a výsledky

Následující tabulka představuje schopnost multimodálního porozumění Show-O na veřejných testech, jako jsou popisky obrázků a vizuální úkoly s odpovědí na otázky. 

Současná verze Show-O je postavena na Phi-1.5, a proto slouží jako přímá základní linie protějšek Show-O, který má pouze porozumění, LLaVA-v1.5-Phi-1.5. Show-O vykazuje srovnatelný výkon ve všech hodnotících metrikách se základní linií LLaVA-v1.5-Phi-1.5, která je věnována výhradně multimodálnímu porozumění. To demonstruje velký potenciál rámce Show-O pro sjednocení multimodálního chápání a generování v rámci jediného transformátoru. Ve srovnání s modely pouze pro porozumění, jako jsou InstructBLIP, Qwen-VL-Chat a mPLUG-Owl2, Show-O, přestože má mnohem menší velikost modelu, dosahuje konkurenceschopného výkonu v benchmarcích POPE, MME, Flickr30k a VQAv2 a funguje lepší v benchmarku GQA. Ve srovnání s unifikovanými modely s výrazně více parametry, jako jsou NExT-GPT-13B a ​​Chameleon-34B, Show-O také dosahuje silného výkonu v benchmarku Flickr30k a mnohem lépe si vede v benchmarku VQAv2.

Vzhledem k těmto slibným výsledkům je Show-O představován jako potenciální základní model nové generace pro sjednocení porozumění a generace. Tyto výsledky také demonstrují potenciál škálování Show-O pro dosažení nejmodernějšího výkonu.

Kvalitativní srovnání

Uvádíme kvalitativní srovnání s modely založenými na difúzi, jako je SDv1.5, SDXL a autoregresivní model LlamaGen, spolu s unifikovanými modely, jako jsou LWM a SEED-X, jak ukazuje následující obrázek. 

Show-O demonstruje schopnost generovat realistické obrázky s konzistentním obsahem popsaným v krátkých i dlouhých textových výzvách. Ve srovnání s SDv1.5 a LlamaGen vykazuje Show-O lepší vizuální kvalitu a silnější zarovnání obrazu a textu. Například ve druhém sloupci SDv1.5 i LlamaGen nedokážou plně porozumět textové výzvě a chybí jim atributy jako „západ slunce“ a „modré kopule“ ve vygenerovaných obrázcích. Ve srovnání s SDXL poskytuje Show-O srovnatelnou vizuální kvalitu a zarovnání, jak je vidět na příkladech jako „závod rallye“ a „ohromující kontrast proti zářivému západu slunce“. 

Textem vedené malování a extrapolace 

Show-O přirozeně podporuje textové malování a extrapolaci, aniž by vyžadovalo jakékoli jemné doladění. Následující obrázek ilustruje několik příkladů. 

V horní části obrázku se vstupním obrázkem a malířskou maskou může Show-O přeměnit červený trolejbus na modrý sportovní vůz s elegantními křivkami a tónovanými skly na základě textové výzvy poskytnuté uživatelem. Show-O může také extrapolovat původní obrázek horizontálně nebo vertikálně na základě dané textové výzvy. Například ve druhém řádku Show-O extrapoluje obrázek přidáním nových objektů, jako jsou „červené květy“. Pixely ve vybarvených i extrapolovaných oblastech zůstávají konzistentní s původním obrazem. Tyto příklady jasně demonstrují přirozené výhody Show-O oproti autoregresivním modelům pro následné aplikace.

Závěrečné myšlenky

V tomto článku jsme hovořili o Show-O, jednotném transformátoru, který integruje multimodální porozumění a generování. Na rozdíl od plně autoregresních modelů, Show-O sjednocuje autoregresivní a diskrétní difúzní modelování, aby adaptivně zpracovávalo vstupy a výstupy různých a smíšených modalit. Sjednocený model flexibilně podporuje širokou škálu úloh v jazyce vidění, včetně vizuálních odpovědí na otázky, generování textu na obrázek, textově řízeného malování/extrapolace a generování smíšených modalit. Napříč různými benchmarky vykazuje Show-O srovnatelný nebo lepší výkon se stávajícími jednotlivými modely s ekvivalentním nebo větším počtem parametrů, což zdůrazňuje svůj potenciál jako základního modelu nové generace. V tomto rámci má model za úkol předpovídat Gaussův šum přidaný ke spojitým latentním reprezentacím. Naproti tomu jiné modely jako D3PM, Mask-predict, ARDM a MaskGIT používají diskrétní proces korupce jako alternativu ke Gaussově difúzi. Show-O je první, kdo sjednocuje autoregresivní a diskrétní difúzní modelování, což mu umožňuje zpracovávat různé modality odlišnými způsoby. Rozsáhlé experimentální výsledky ukazují, že Show-O je srovnatelná nebo dokonce lepší než individuální expertní modely v celé řadě úloh v oblasti zraku. To zdůrazňuje jeho potenciál jako základního modelu nové generace.

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.