Umělá inteligence

MambaOut: Je Mamba opravdu potřebný pro vidění?

Published May 24, 2024

Updated April 27, 2026

Kunal Kejriwal

V moderních rámcích strojového učení a umělé inteligence jsou transformátory jednou z nejvíce používaných součástí napříč různými doménami, včetně série GPT a BERT v zpracování přirozeného jazyka a Vision Transformers v úkolech počítačového vidění. Ačkoli zařazení transformátorů do architektury modelu poskytuje významný impuls výkonu modelu, modul pozornosti v transformátorech škáluje se čtvercem délky sekvence, což vede k vysokým výpočetním výzvám. V průběhu let různé modely prozkoumaly různé strategie, aby řešily výpočetní výzvy, včetně metod, jako je kernelizace, komprese historické paměti, omezení rozsahu míchání tokenů a nízkorozměrové přístupy. Nedávno se modely podobné rekurentním neuronovým sítím, jako jsou metody Mamba a RWKV, získaly značnou pozornost díky svým slibným výsledkům v velkých jazycových modelech.

Mamba, rodina modelů, má architekturu s rekurentní neuronovou sítí podobným míchačem tokenů ve stavu prostoru, který byl nedávno uveden, aby řešil kvadratickou složitost mechanismů pozornosti a byl následně aplikován na úkoly vidění. Výzkumníci již prozkoumali způsoby, jak začlenit Mamba a SSM nebo model stavu prostoru do úkolů vizuálního rozpoznávání, a Vision Mamba, který začleňuje Mamba pro vývoj izotropních modelů vidění podobných Vision Transformer, je skvělým příkladem toho. Na druhé straně LocalMamba začleňuje lokální induktivní předpojatosti, aby vylepšil modely vizuálního Mamba, a rámec VMamba využívá základní model Mamba k výstavbě hierarchických modelů podobných ResNet a AlexNet. Ale je rámec Mamba opravdu nezbytný pro kontextové úkoly vizuálního rozpoznávání? Tato otázka vzniká, protože výkon rodiny modelů Mamba pro úkoly vidění byl dosud nevalný ve srovnání s tradičními modely založenými na pozornosti a konvolučními modely.

MambaOut se snaží odpovědět na otázku, zda je Mamba ideálně vhodný pro úkoly s autoregresivními a dlouhými sekvencemi. Rámec MambaOut předpokládá, že Mamba není nutný pro úkoly vidění, protože klasifikace obrazů nevyhovuje ani autoregresivním, ani dlouhým sekvencím. Ačkoli úkoly segmentace a detekce nejsou autoregresivní, vykazují dlouhé sekvence, což vede rámec MambaOut k hypotéze o potenciálu Mamba pro tyto úkoly. Rámec MambaOut je konstruován tak, že se skládá z bloků Mamba nad sebou, zatímco odstraňuje model stavu prostoru, jeho jádrový míchač tokenů. Experimentální výsledky podporují hypotézu předloženou rámcem MambaOut, protože je schopen překonat všechny vizuální modely Mamba na rámci ImageNet pro klasifikaci obrazů, což naznačuje, že Mamba není nutný pro úkoly vidění. Na druhé straně pro úkoly detekce a segmentace není rámec MambaOut schopen replikovat výkon nabízený státním modelem Mamba, což demonstruje potenciál rodiny modelů Mamba pro úkoly vidění s dlouhými sekvencemi.

… (zbytek překladu)

MambaOut: Je Mamba opravdu potřebný pro vidění?

S pokrokem aplikací a schopností strojového učení se transformátory staly hlavní součástí širokého spektra úkolů, pohánějí prominentní modely, včetně Vision Transformers, série modelů GPT, BERT a dalších. Nicméně, míchač tokenů transformátoru má kvadratickou složitost ve vztahu k délce sekvence a klade významné výpočetní výzvy. Aby se tato otázka řešila, byly představeny různé míchače tokenů s lineární složitostí k délce tokenů, jako jsou Linformer, Longformer, Performer, Dynamický konvoluční a Big Bird. Nicméně, v nedávné době, modely podobné rekurentním neuronovým sítím získávají na významu díky své schopnosti paralelního tréninku a efektivnímu výkonu na delších sekvencích. Vedeni pozoruhodnými výsledky nabízenými modely RNN, výzkumníci se snaží zavést a využívat rodinu modelů Mamba do úkolů vizuálního rozpoznávání, protože míchač tokenů modelů Mamba je strukturovaný model stavu prostoru v duchu rekurentních neuronových sítí. Nicméně, experimentální výsledky ukazují, že rámce založené na modelu stavu prostoru pro vidění fungují podprůměrně napříč reálnými úkoly vidění ve srovnání s modely založenými na pozornosti a státními konvolučními modely.

… (zbytek překladu)

Pro které úkoly je Mamba vhodný?

Míchač tokenů rámce Mamba je selektivní model stavu prostoru, který definuje čtyři vstupně závislé parametry. Rekurentní vlastnost rámce odlišuje RNN-podobné modely stavu prostoru od kauzální pozornosti. Skrytý stav lze považovat za pevně velikou paměť, která ukládá historické informace. Pevná velikost znamená, že paměť je ztrátová, ale také zajišťuje, že výpočetní složitost integrace paměti se současným vstupem zůstává konstantní. Naopak, kauzální vrstvy pozornosti ukládají všechny klíče a hodnoty z předchozích tokenů a rozšiřují přidáním klíče a hodnoty současného tokenu s každým novým vstupem, a tato paměť je bezztrátová, teoreticky. Nicméně, velikost paměti roste s tím, jak jsou zpracovávány další tokeny, což zvyšuje složitost integrace paměti se současným vstupem. Rozdíl mezi mechanismy paměti mezi kauzální pozorností a RNN-podobnými modely je ilustrován v následující obrazové ukázce.

… (zbytek překladu)

Experimentální ověření a výsledky

Dalším krokem je experimentální ověření hypotéz navržených rámcem MambaOut. Jak je ukázáno na následující obrazové ukázce, blok Mamba je založen na bloku Gated Convolutional Neural Network, a meta-architektura bloků Mamba a Gated CNN lze považovat za zjednodušenou integraci míchače tokenů rámce MetaFormer a MLP.

… (zbytek překladu)

Závěrečné myšlenky

Rodina modelů Mamba se zdá být vhodná pro úkoly s autoregresivními a dlouhými sekvencemi. Rámec MambaOut předpokládá, že Mamba není nutný pro úkoly vidění, protože klasifikace obrazů nevyhovuje ani autoregresivním, ani dlouhým sekvencím. Ačkoli úkoly segmentace a detekce nejsou autoregresivní, vykazují dlouhé sekvence, což vede rámec MambaOut k hypotéze o potenciálu Mamba pro tyto úkoly. Rámec MambaOut je konstruován tak, že se skládá z bloků Mamba nad sebou, zatímco odstraňuje model stavu prostoru, jeho jádrový míchač tokenů. Experimentální výsledky podporují hypotézu předloženou rámcem MambaOut, protože je schopen překonat všechny vizuální modely Mamba na rámci ImageNet pro klasifikaci obrazů, což naznačuje, že Mamba není nutný pro úkoly vidění. Na druhé straně pro úkoly detekce a segmentace není rámec MambaOut schopen replikovat výkon nabízený státním modelem Mamba, což demonstruje potenciál rodiny modelů Mamba pro úkoly vidění s dlouhými sekvencemi.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.