výhonek MambaOut: Opravdu potřebujeme Mambu pro vidění? - Spojte se.AI
Spojte se s námi

Umělá inteligence

MambaOut: Opravdu potřebujeme Mambu pro vidění?

mm

Zveřejněno

 on

V moderních rámcích strojového učení a umělé inteligence jsou transformátory jednou z nejrozšířenějších komponent v různých doménách, včetně řady GPT a BERT ve zpracování přirozeného jazyka a Vision Transformers v úlohách počítačového vidění. Ačkoli zahrnutí transformátorů do architektury modelu výrazně zvyšuje výkon modelu, modul pozornosti v Transformers se kvadraticky přizpůsobuje délce sekvence, což vede k velkým výpočtovým problémům. V průběhu let různé modely prozkoumaly různé strategie, jak se vypořádat s výpočetními problémy, včetně metod, jako je kernelizace, komprese paměti historie, omezení rozsahu míchání tokenů a přístupy s nízkou úrovní. V poslední době získaly značnou pozornost metody podobné rekurentním neuronovým sítím, včetně Mamba a RWKV, díky svým slibným výsledkům ve velkých jazykových modelech. 

Mamba, rodina modelů, má architekturu s rekurentní neuronovou sítí jako token mixer model stavového prostoru, který byl nedávno představen pro řešení kvadratické složitosti mechanismů pozornosti a následně byl aplikován na úkoly vidění. Výzkumníci již prozkoumali způsoby, jak začlenit Mamba a SSM nebo State Space Model do úkolů vizuálního rozpoznávání, a Vision Mamba, která zahrnuje Mambu k vývoji izotropních modelů vidění podobných Vision Transformeru, je toho skvělým příkladem. Na druhou stranu LocalMamba začleňuje místní induktivní zkreslení pro vylepšení vizuálních modelů Mamba a rámec VMamba využívá základní model Mamba k vytváření hierarchických modelů podobných ResNet a AlexNet. Je však rámec Mamba skutečně nezbytný pro kontextové úkoly vizuálního rozpoznávání? Vyvstává otázka, protože výkon rodiny modelů Mamba pro zrakové úkoly byl dosud ohromující ve srovnání s tradičními modely založenými na pozornosti a konvolučními modely. 

MambaOut je dílo, které se pokouší ponořit do podstaty rámce Mamba a odpovědět na otázku, zda je Mamba ideálně vhodná pro úkoly s autoregresivními a dlouhými sekvenčními charakteristikami. Rámec MambaOut předpokládá, že Mamba není nezbytná pro zrakové úkoly, protože klasifikace obrazu není v souladu ani s dlouhými sekvencemi, ani s autoregresivními charakteristikami. I když úlohy segmentace a detekce také nejsou autoregresivní, vykazují charakteristiky dlouhé sekvence, což vede rámec MambaOut k hypotéze o potenciálu Mamba pro tyto úkoly. Rámec MambaOut je konstruován naskládáním bloků Mamba na sebe, přičemž se odstraňuje model stavového prostoru, jeho jádrový směšovač tokenů. Experimentální výsledky podporují hypotézu předloženou rámcem MambaOut, protože je schopen překonat všechny vizuální modely Mamba v rámci obrazové klasifikace ImageNet, což naznačuje, že Mamba není pro úkoly zraku nezbytná. Na druhou stranu u úloh detekce a segmentace nedokáže rámec MambaOut replikovat výkon nabízený nejmodernějším modelem Mamba, což demonstruje potenciál rodiny modelů Mamba pro vizuální úlohy s dlouhou sekvencí. 

Tento článek si klade za cíl pokrýt do hloubky rámec MambaOut a prozkoumáme mechanismus, metodologii, architekturu rámce spolu s jeho srovnáním s nejmodernějšími rámci. Pojďme tedy začít. 

MambaOut: Je Mamba opravdu potřebná pro vidění?

S pokrokem aplikací a schopností strojového učení se Transformers staly hlavní páteří řady úkolů a pohánějí prominentní modely, včetně Vision Transformers, modely řady GPT, BERT a několik dalších. Směšovač tokenů transformátoru však způsobuje kvadratickou složitost s ohledem na délku sekvence a představuje značné problémy pro delší sekvence. K vyřešení tohoto problému bylo představeno mnoho směšovačů tokenů s lineární složitostí k délce tokenu, jako jsou Linformer, Longformer, Performer, Dynamic Convolution a Big Bird. V poslední době však modely podobné rekurentní neuronové síti získávají na významu díky své schopnosti paralelizovatelného trénování a poskytují efektivní výkon v delších sekvencích. Vedeni pozoruhodným výkonem, který nabízejí modely podobné RNN, se výzkumníci pokoušejí zavést a využít rodinu modelů Mamba do úkolů vizuálního rozpoznávání, protože směšovač tokenů modelů Mamba je model strukturovaného stavového prostoru v duchu rekurentních neuronových sítí. . Experimentální výsledky však naznačují, že rámce pro vidění založené na modelech stavového prostoru fungují v drtivé většině napříč úkoly vidění v reálném světě ve srovnání s konvolučními modely založenými na pozornosti a nejmodernějšími modely. 

MambaOut je pokus prozkoumat povahu Mamba rodina modelů a shrnuje, že Mamba je vhodná pro úlohy, které jsou buď autoregresivní, nebo s dlouhou sekvencí, protože model stavového prostoru má vlastní mechanismus RNN. Většina zrakových úloh však nemá obě tyto vlastnosti a na základě některých experimentů MambaOut navrhuje následující dvě hypotézy. Zaprvé, model stavového prostoru není nutný pro klasifikaci obrazu, protože úloha klasifikace obrazu nevyhovuje ani autoregresivním, ani dlouhodobým charakteristikám. Za druhé, modely stavového prostoru mohou být hypoteticky přínosné například pro segmentaci a sémantickou segmentaci spolu s detekcí objektů, protože se řídí charakteristikami dlouhé sekvence, i když nejsou autoregresivní. Experimentální výsledky provedené za účelem analýzy mechanismu modelování stavového prostoru podobného rekurentní neuronové síti docházejí k závěru, že rámec Mamba je vhodný pro úlohy s autoregresivními nebo dlouhými sekvenčními charakteristikami a pro úlohy klasifikace snímků je zbytečný. Pokud jde o samotný rámec MambaOut, jedná se o sérii modelů Mamba založených na blocích Gated Convolutional Neural Network bez modelu stavového prostoru a experimentální výsledky naznačují, že rámec MambaOut je schopen překonat modely Mamba v úlohách klasifikace obrázků, ale nedokáže se replikovat. výkon při úlohách detekce obrazu a segmentace. 

Pro jaké úkoly je Mamba vhodná?

Směšovač tokenů rámce Mamba je selektivní model stavového prostoru, který definuje čtyři parametry závislé na vstupu. Opakující se vlastnost rámce odlišuje modely stavového prostoru podobné RNN od kauzální pozornosti. Na skrytý stav lze pohlížet jako na paměť s pevnou velikostí, která ukládá historické informace. Pevná velikost znamená, že paměť je ztrátová, ale také zajišťuje konstantní výpočetní náročnost integrace paměti s aktuálním vstupem. Naopak vrstvy kauzální pozornosti ukládají všechny klíče a hodnoty z předchozích tokenů a rozšiřují se přidáním klíče a hodnoty aktuálního tokenu s každým novým vstupem a tato paměť je teoreticky bezztrátová. Velikost paměti však roste s tím, jak se zadává více tokenů, což zvyšuje složitost integrace paměti s aktuálním vstupem. Rozdíl mezi paměťovými mechanismy mezi kauzální pozorností a modely podobnými RNN ilustruje následující obrázek. 

Protože paměť modelu stavového prostoru je ze své podstaty ztrátová, nedosahuje bezeztrátové paměti kauzální pozornosti a v důsledku toho Modelky Mamba nemůže prokázat svou sílu ve zvládání krátkých sekvencí, což je oblast, kde mechanismus kauzální pozornosti funguje dobře s lehkostí. Nicméně ve scénářích, které zahrnují dlouhé sekvence, přístup kauzální pozornosti pokulhává kvůli kvadratické složitosti. V tomto scénáři rámec Mamba předvádí svou efektivitu při slučování paměti s aktuálním vstupem a je schopen hladce zpracovat dlouhé sekvence, což naznačuje, že rodina modelů Mamba je vhodná pro zpracování dlouhých sekvencí. 

Za zmínku také stojí, že na jedné straně tam, kde rekurentní povaha modelu stavového prostoru umožňuje modelům Mamba efektivně zpracovávat dlouhé sekvence, představuje určité omezení, protože může přistupovat pouze k informacím z aktuálních a předchozích časových kroků a tento typ míchání tokenů se nazývá kauzální režim a je znázorněno na následujícím obrázku. Vzhledem ke své kauzální povaze je tato metoda vhodná pro úlohy autoregresního generování

Plně viditelný režim je vhodný pro pochopení úloh, kdy má model přístup ke všem vstupům najednou. Kromě toho je pozornost ve výchozím nastavení v plně viditelném režimu a lze ji snadno převést do kauzálního režimu aplikací kauzálních masek na mapy pozornosti a modely podobné RNN fungují přirozeně v kauzálním režimu díky svým opakujícím se vlastnostem. Abychom to shrnuli, rámec Mamba je vhodný pro úkoly, které zahrnují buď zpracování dlouhých sekvencí, nebo úkoly, které vyžadují režim kauzálního míchání tokenů.

Úlohy vizuálního rozpoznávání, kauzální kód pro míchání tokenů a velmi rozsáhlé sekvence

Jak bylo diskutováno dříve, plně viditelný režim míchání tokenů umožňuje neomezený rozsah míchání, zatímco kauzální režim omezuje aktuální token na přístup pouze k informacím z předchozích tokenů. Kromě toho je vizuální rozpoznávání kategorizováno jako úkol porozumění, kdy model může vidět celý obraz najednou, což eliminuje potřebu omezení míchání tokenů a uvalení dalších omezení na míchání tokenů může potenciálně snížit výkon modelu. Obecně platí, že plně viditelný režim je vhodný pro pochopení úkolů, zatímco příležitostný režim lépe vyhovuje autoregresivním úkolům. Toto tvrzení je dále podpořeno skutečností, že modely BeRT a ViT se používají k pochopení úkolů více než modely GPT.

Experimentální ověření a výsledky

Dalším krokem je experimentální ověření hypotéz navržených frameworkem MambaOut. Jak je ukázáno na následujícím obrázku, blok Mamba je založen na bloku Gated Convolutional Neural Network a metaarchitekturu bloků Mamba a Gated CNN lze považovat za zjednodušenou integraci tokenového mixeru rámce MetaFormer a MLP. . 

Blok Mamba rozšiřuje Gated Convolutional Neuron Network o další State Space Model a přítomnost SSm je to, co odlišuje Gated CNN a Mamba blok. Kromě toho, pro zlepšení praktické rychlosti, rámec MambaOut provádí pouze hloubkovou konvoluci na dílčích kanálech, a jak ukazuje následující algoritmus, implementace Gated CNN bloku je jednoduchá, přesto efektivní a elegantní. 

Úkol klasifikace obrázků

ImageNet slouží jako měřítko pro úlohy klasifikace obrázků, protože se skládá z více než tisíce běžných tříd, více než 1.3 milionu tréninkových obrázků a více než 50,000 XNUMX ověřovacích obrázků. Rozšíření dat použité pro experiment sestává z oříznutí s náhodnou změnou velikosti, Mixup, barevného chvění, náhodného mazání, CutMix a Rand Augment. Následující tabulka shrnuje výkon modelů rodiny Mamba, modelu MambaOut a dalších modelů založených na pozornosti a konvoluci na datové sadě ImageNet. Jak je vidět, framework MambaOut bez modelu stavového prostoru překonává vizuální modely Mamba s SSM konzistentně napříč všemi velikostmi modelu. 

Například model MambaOut-Small vrací nejlepší skóre přesnosti přes 1 %, o 84 % vyšší než jeho nejbližší konkurent Mamba. Tento výsledek silně podporuje první hypotézu, která tvrdí, že zavádění modelu stavového prostoru pro úlohy klasifikace obrázků není potřeba. 

Úlohy detekce objektů a segmentace instancí

COCO slouží jako měřítko pro úlohy detekce objektů a segmentace instancí. Ačkoli je framework MambaOut schopen překonat výkon některých vizuálních modelů Mamba, stále zaostává za nejmodernějšími vizuálními modely Mamba včetně LocalVMamba a VMamba. Rozdíl ve výkonu MambaOut oproti nejmodernějším vizuálním modelům zdůrazňuje výhody integrace modelů rodiny Mamba do dlouhodobých vizuálních úloh. Je však třeba poznamenat, že mezi nejmodernějšími hybridními modely s konvolucí-pozorností a vizuálními modely Mamba stále existuje významný rozdíl ve výkonu. 

Závěrečné myšlenky

V tomto článku jsme diskutovali o konceptech rodiny modelů Mamba a dospěli jsme k závěru, že je vhodná pro úlohy zahrnující autoregresivní a dlouhosekvenční charakteristiky. MambaOut je dílo, které se pokouší ponořit do podstaty rámce Mamba a odpovědět na otázku, zda je Mamba ideálně vhodná pro úkoly s autoregresivními a dlouhými sekvenčními charakteristikami. Rámec MambaOut předpokládá, že Mamba není nezbytná pro zrakové úkoly, protože klasifikace obrazu není v souladu ani s dlouhými sekvencemi, ani s autoregresivními charakteristikami. I když úlohy segmentace a detekce také nejsou autoregresivní, vykazují charakteristiky dlouhé sekvence, což vede framework MambaOut k hypotéze o potenciálu Mamba pro tyto úkoly. Rámec MambaOut je konstruován naskládáním bloků Mamba na sebe, přičemž se odstraňuje model stavového prostoru, jeho jádrový směšovač tokenů. Experimentální výsledky podporují hypotézu předloženou rámcem MambaOut, protože je schopen překonat všechny vizuální modely Mamba v rámci obrazové klasifikace ImageNet, což naznačuje, že Mamba není pro úkoly zraku nezbytná. Na druhou stranu u úloh detekce a segmentace nedokáže rámec MambaOut replikovat výkon nabízený nejmodernějším modelem Mamba, což demonstruje potenciál rodiny modelů Mamba pro vizuální úlohy s dlouhou sekvencí. 

 

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.