Kontakt z nami

Artificial Intelligence

MambaOut: Czy naprawdę potrzebujemy Mamby do widzenia?

mm

Opublikowany

 on

W nowoczesnych strukturach uczenia maszynowego i sztucznej inteligencji transformatory są jednymi z najczęściej używanych komponentów w różnych dziedzinach, w tym w serii GPT, BERT w przetwarzaniu języka naturalnego i transformatory wizyjne w zadaniach związanych z wizją komputerową. Chociaż włączenie transformatorów do architektury modelu znacznie poprawia wydajność modelu, moduł uwagi w Transformersach skaluje się z długością sekwencji kwadratowo, co prowadzi do dużych wyzwań obliczeniowych. Na przestrzeni lat w różnych modelach badano różne strategie radzenia sobie z wyzwaniami obliczeniowymi, w tym metody takie jak kernelizacja, kompresja pamięci historii, ograniczanie zakresu mieszania tokenów i podejścia niskiej rangi. Ostatnio duże zainteresowanie wzbudziły metody Recurrent Neural Networks, takie jak Mamba i RWKV, ze względu na ich obiecujące wyniki w dużych modelach językowych. 

Rodzina modeli Mamba ma architekturę z rekurencyjną siecią neuronową przypominającą mikser tokenów modelu przestrzeni stanów, która została niedawno wprowadzona w celu uwzględnienia kwadratowej złożoności mechanizmów uwagi, a następnie została zastosowana do zadań wzrokowych. Naukowcy zbadali już sposoby włączenia Mamby i SSM, czyli modelu przestrzeni stanów, do zadań rozpoznawania wizualnego, a Vision Mamba, która wykorzystuje Mambę do opracowania izotropowych modeli widzenia podobnych do Vision Transformer, jest tego doskonałym przykładem. Z drugiej strony LocalMamba wykorzystuje lokalne odchylenia indukcyjne, aby ulepszyć wizualne modele Mamba, a framework VMamba wykorzystuje podstawowy model Mamba do konstruowania modeli hierarchicznych podobnych do ResNet i AlexNet. Czy jednak framework Mamba jest naprawdę niezbędny do zadań kontekstowych rozpoznawania wizualnego? Pytanie pojawia się, ponieważ wydajność rodziny modeli Mamba do zadań wzrokowych była jak dotąd niezadowalająca w porównaniu z tradycyjnymi modelami opartymi na uwadze i splotowymi. 

MambaOut to praca próbująca zagłębić się w istotę frameworku Mamba i odpowiedzieć, czy Mamba idealnie nadaje się do zadań o charakterystyce autoregresyjnej i długiej sekwencji. Struktura MambaOut zakłada, że ​​Mamba nie jest konieczna do wykonywania zadań wzrokowych, ponieważ klasyfikacja obrazu nie jest zgodna ani z cechami długimi sekwencjami, ani z cechami autoregresyjnymi. Chociaż zadania segmentacji i wykrywania również nie są autoregresyjne, wykazują charakterystykę długich sekwencji, co skłoniło platformę MambaOut do postawienia hipotezy o potencjale Mamby do tych zadań. Struktura MambaOut jest zbudowana poprzez ułożenie bloków Mamba jeden na drugim i usunięcie modelu przestrzeni stanów, czyli podstawowego miksera tokenów. Wyniki eksperymentów potwierdzają hipotezę wysuniętą przez platformę MambaOut, ponieważ jest ona w stanie przewyższyć wszystkie wizualne modele Mamby w ramach klasyfikacji obrazów ImageNet, wskazując, że Mamba nie jest konieczna do zadań wzrokowych. Z drugiej strony w przypadku zadań wykrywania i segmentacji środowisko MambaOut nie jest w stanie odtworzyć wydajności oferowanej przez najnowocześniejszy model Mamba, demonstrując potencjał rodziny modeli Mamba do zadań wizualnych o długich sekwencjach. 

Celem tego artykułu jest szczegółowe omówienie frameworka MambaOut oraz zbadanie mechanizmu, metodologii, architektury frameworku wraz z jego porównaniem z najnowocześniejszymi frameworkami. Więc zacznijmy. 

MambaOut: Czy Mamba naprawdę jest potrzebna do widzenia?

Wraz z postępem aplikacji i możliwości uczenia maszynowego, Transformers stały się głównym nurtem szkieletowym dla szeregu zadań, obsługującym czołowe modele, w tym Transformatory wizji, seria modeli GPT, BERT i kilka innych. Jednak mikser tokenów transformatora wiąże się ze złożonością kwadratową w odniesieniu do długości sekwencji i stwarza poważne wyzwania w przypadku dłuższych sekwencji. Aby rozwiązać ten problem, wprowadzono liczne miksery tokenów o liniowej złożoności związanej z długością tokenów, takie jak Linformer, Longformer, Performer, Dynamic Convolution i Big Bird. Jednak w ostatnim czasie modele podobne do rekurencyjnych sieci neuronowych zyskują na znaczeniu ze względu na ich zdolność do równoległego uczenia i zapewniania wydajnej wydajności w dłuższych sekwencjach. Kierując się niezwykłą wydajnością oferowaną przez modele podobne do RNN, badacze próbują wprowadzić i wykorzystać rodzinę modeli Mamba do zadań rozpoznawania wizualnego, ponieważ mikser tokenów modeli Mamba to ustrukturyzowany model przestrzeni stanów w duchu rekurencyjnych sieci neuronowych . Jednakże wyniki eksperymentów wskazują, że ramy widzenia oparte na modelu przestrzeni stanów radzą sobie niezadowalająco w zadaniach związanych z widzeniem w świecie rzeczywistym w porównaniu z opartymi na uwadze i najnowocześniejszymi modelami splotowymi. 

MambaOut jest próbą zbadania natury świata Mamba rodzinę modeli i podsumowuje, że Mamba nadaje się do zadań, które są albo autoregresyjne, albo mają długą sekwencję, ponieważ model przestrzeni stanów ma nieodłączny mechanizm RNN. Jednak większość zadań wzrokowych nie posiada obu tych cech i na podstawie niektórych eksperymentów MambaOut proponuje dwie następujące hipotezy. Po pierwsze, model przestrzeni stanów nie jest konieczny do klasyfikacji obrazu, ponieważ zadanie klasyfikacji obrazu nie jest zgodne ani z charakterystyką autoregresyjną, ani z charakterystyką długich sekwencji. Po drugie, modele przestrzeni stanów mogą być hipotetycznie korzystne na przykład segmentacja i segmentacja semantyczna wraz z wykrywaniem obiektów, ponieważ podążają za charakterystykami długich sekwencji, chociaż nie są autoregresyjne. Wyniki eksperymentów przeprowadzone w celu analizy mechanizmu modelu przestrzeni stanów podobnego do sieci neuronowej wykazały, że struktura Mamba nadaje się do zadań o charakterystyce autoregresyjnej lub o cechach długich sekwencji i jest niepotrzebna w przypadku zadań klasyfikacji obrazów. Jeśli chodzi o samą strukturę MambaOut, jest to seria modeli Mamba opartych na blokach bramkowanej konwolucyjnej sieci neuronowej bez modelu przestrzeni stanów, a wyniki eksperymentów wskazują, że struktura MambaOut jest w stanie przewyższać modele Mamba w zadaniach klasyfikacji obrazów, ale nie jest replikowana wydajność zadań związanych z wykrywaniem i segmentacją obrazu. 

Do jakich zadań nadaje się Mamba?

Mikser tokenów platformy Mamba to selektywny model przestrzeni stanów, który definiuje cztery parametry zależne od danych wejściowych. Powtarzająca się właściwość modelu odróżnia modele przestrzeni stanów typu RNN od uwagi przyczynowej. Stan ukryty można postrzegać jako pamięć o stałym rozmiarze, w której przechowywane są informacje historyczne. Stały rozmiar oznacza, że ​​pamięć jest stratna, ale zapewnia również, że złożoność obliczeniowa integracji pamięci z bieżącym wejściem pozostaje stała. I odwrotnie, warstwy uwagi przyczynowej przechowują wszystkie klucze i wartości z poprzednich tokenów i rozszerzają się, dodając klucz i wartość bieżącego tokena przy każdym nowym wejściu, a pamięć ta jest teoretycznie bezstratna. Jednakże rozmiar pamięci rośnie w miarę wprowadzania większej liczby tokenów, co zwiększa złożoność integracji pamięci z bieżącym wejściem. Różnicę pomiędzy mechanizmami pamięci w przypadku uwagi przyczynowej a modelami typu RNN przedstawiono na poniższym rysunku. 

Ponieważ pamięć modelu przestrzeni stanów jest z natury stratna, nie dorównuje ona bezstratnej pamięci uwagi przyczynowej, w wyniku czego Modele Mamby nie może wykazać swojej siły w radzeniu sobie z krótkimi sekwencjami, czyli w obszarze, w którym mechanizm uwagi przyczynowej z łatwością działa dobrze. Jednak w scenariuszach obejmujących długie sekwencje podejście uwagi przyczynowej zawodzi ze względu na złożoność kwadratową. W tym scenariuszu platforma Mamba demonstruje swoją skuteczność w łączeniu pamięci z bieżącym wejściem i jest w stanie płynnie obsługiwać długie sekwencje, co wskazuje, że rodzina modeli Mamba dobrze nadaje się do przetwarzania długich sekwencji. 

Warto również zauważyć, że z jednej strony tam, gdzie rekurencyjny charakter modelu przestrzeni stanów pozwala modelom Mamby efektywnie obsługiwać długie sekwencje, wprowadza to pewne ograniczenie, ponieważ może uzyskać dostęp do informacji jedynie z bieżących i poprzednich kroków czasowych, a tego typu mieszanie symboli nazywa się trybem przyczynowym i zilustrowano to na poniższym rysunku. Metoda ta ze względu na swój przyczynowy charakter jest odpowiednia zadania generacji autoregresyjnej

Tryb w pełni widoczny jest odpowiedni do zrozumienia zadań, w których model może uzyskać dostęp do wszystkich danych wejściowych jednocześnie. Co więcej, uwaga jest domyślnie w trybie w pełni widocznym i można ją łatwo przełączyć w tryb przyczynowy, stosując maski przyczynowe do map uwagi, a modele podobne do RNN z natury działają w trybie przyczynowym ze względu na ich powtarzające się właściwości. Podsumowując, framework Mamba nadaje się do zadań obejmujących przetwarzanie długich sekwencji lub zadań wymagających trybu mieszania tokenów przyczynowych.

Zadania rozpoznawania wizualnego, kod mieszania tokenów przyczynowych i bardzo duże sekwencje

Jak wspomniano wcześniej, w pełni widoczny tryb mieszania tokenów pozwala na nieograniczony zakres mieszania, podczas gdy tryb przyczynowy ogranicza bieżący token do dostępu tylko do informacji z poprzednich tokenów. Co więcej, rozpoznawanie wizualne jest klasyfikowane jako zadanie polegające na zrozumieniu, podczas którego model może zobaczyć cały obraz na raz, co eliminuje potrzebę stosowania ograniczeń dotyczących mieszania tokenów, a nakładanie dodatkowych ograniczeń na mieszanie tokenów może potencjalnie pogorszyć wydajność modelu. Ogólnie rzecz biorąc, tryb w pełni widoczny jest odpowiedni do zrozumienia zadań, podczas gdy tryb swobodny lepiej pasuje do zadań autoregresyjnych. Co więcej, twierdzenie to dodatkowo potwierdza fakt, że modele BeRT i ViT są wykorzystywane do zrozumienia zadań w większym stopniu niż modele GPT.

Weryfikacja eksperymentalna i wyniki

Kolejnym krokiem jest eksperymentalna weryfikacja hipotez zaproponowanych przez framework MambaOut. Jak pokazano na poniższym obrazku, blok Mamba jest oparty na bloku bramkowanej konwolucyjnej sieci neuronowej, a metaarchitekturę bloków Mamba i Gated CNN można traktować jako uproszczoną integrację miksera tokenów frameworku MetaFormer i MLP . 

Blok Mamba rozszerza bramkowaną konwolucyjną sieć neuronową o dodatkowy model przestrzeni stanów, a obecność SSm jest tym, co odróżnia bramkowaną CNN i blok Mamba. Co więcej, aby poprawić praktyczną prędkość, framework MambaOut przeprowadza jedynie splot wgłębny na kanałach częściowych i jak pokazano w poniższym algorytmie, implementacja bloku Gated CNN jest prosta, a jednocześnie skuteczna i elegancka. 

Zadanie klasyfikacji obrazu

ImageNet służy jako punkt odniesienia dla zadań klasyfikacji obrazów, ponieważ składa się z ponad tysiąca wspólnych klas, ponad 1.3 miliona obrazów szkoleniowych i ponad 50,000 XNUMX obrazów walidacyjnych. Rozszerzanie danych zastosowane w eksperymencie składa się z losowego kadrowania o zmienionym rozmiarze, mieszania, drgań kolorów, losowego wymazywania, wycinania i zwiększania Rand. Poniższa tabela podsumowuje wydajność rodziny modeli Mamba, modelu MambaOut oraz innych modeli opartych na uwadze i splotach w zestawie danych ImageNet. Jak widać, framework MambaOut bez modelu przestrzeni stanów przewyższa wizualne modele Mamby z SSM konsekwentnie we wszystkich rozmiarach modeli. 

Na przykład model MambaOut-Small zapewnia najwyższy wynik dokładności wynoszący ponad 1%, czyli o 84% więcej niż najbliższy konkurent Mamba. Wynik ten silnie potwierdza pierwszą hipotezę, która głosi, że wprowadzanie modelu przestrzeni stanów do zadań klasyfikacji obrazów nie jest potrzebne. 

Zadania związane z wykrywaniem obiektów i segmentacją instancji

COCO służy jako punkt odniesienia dla zadań związanych z wykrywaniem obiektów i segmentacją instancji. Chociaż środowisko MambaOut jest w stanie przewyższyć wydajnością niektóre wizualne modele Mamba, nadal nie dorównuje najnowocześniejszym wizualnym modelom Mamba, w tym LocalVMamba i VMamba. Rozbieżność w działaniu MambaOut w porównaniu z najnowocześniejszymi modelami wizualnymi podkreśla korzyści płynące z integracji rodziny modeli Mamba w zadaniach wizualnych o długich sekwencjach. Warto jednak zauważyć, że nadal istnieje znaczna różnica w wydajności pomiędzy najnowocześniejszymi modelami hybrydowymi splot-uwaga i wizualnymi modelami Mamby. 

Final Thoughts

W tym artykule omówiliśmy koncepcje rodziny modeli Mamba i doszliśmy do wniosku, że nadaje się ona do zadań obejmujących cechy autoregresyjne i długie sekwencje. MambaOut to praca próbująca zagłębić się w istotę frameworku Mamba i odpowiedzieć, czy Mamba idealnie nadaje się do zadań o charakterystyce autoregresyjnej i długiej sekwencji. Struktura MambaOut zakłada, że ​​Mamba nie jest konieczna do wykonywania zadań wzrokowych, ponieważ klasyfikacja obrazu nie jest zgodna ani z cechami długimi sekwencjami, ani z cechami autoregresyjnymi. Chociaż zadania segmentacji i wykrywania również nie są autoregresyjne, wykazują charakterystykę długich sekwencji, co skłoniło platformę MambaOut do postawienia hipotezy o potencjale Mamby do tych zadań. Struktura MambaOut jest zbudowana poprzez ułożenie bloków Mamba jeden na drugim i usunięcie modelu przestrzeni stanów, czyli podstawowego miksera tokenów. Wyniki eksperymentów potwierdzają hipotezę wysuniętą przez platformę MambaOut, ponieważ jest ona w stanie przewyższyć wszystkie wizualne modele Mamby w ramach klasyfikacji obrazów ImageNet, wskazując, że Mamba nie jest konieczna do zadań wzrokowych. Z drugiej strony w przypadku zadań wykrywania i segmentacji platforma MambaOut nie jest w stanie odtworzyć wydajności oferowanej przez najnowocześniejszy model Mamba, demonstrując potencjał rodziny modeli Mamba do zadań wizualnych o długich sekwencjach. 

 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.