Sztuczna inteligencja
MambaOut: Czy naprawdę potrzebujemy Mambę dla widzenia?
W nowoczesnych ramach uczenia maszynowego i sztucznej inteligencji, transfomery są jednym z najczęściej używanych komponentów w różnych dziedzinach, w tym serii GPT, BERT w przetwarzaniu języka naturalnego i Vision Transformers w zadaniach związanych z widzeniem komputerowym. Chociaż włączenie transformerów do architektury modelu daje znaczny przyrost wydajności modelu, moduł uwagi w transformerach skaluje się kwadratowo z długością sekwencji, co prowadzi do wysokich wyzwań obliczeniowych. Na przestrzeni lat, różne modele badały różne strategie, aby rozwiązać wyzwania obliczeniowe, w tym metody takie jak kernelizacja, kompresja pamięci historycznej, ograniczenie zakresu mieszania tokenów i podejścia o niskim ranku. Ostatnio, modele sieci neuronowych rekurencyjnych, takie jak metody Mamba i RWKV, zyskały znaczną uwagę ze względu na ich obiecujące wyniki w dużych modelach językowych.
Mamba, rodzina modeli, ma architekturę z rekurencyjnym modelem neuronowym, podobnym do miksera tokenów modelu przestrzeni stanu, który został niedawno wprowadzony, aby rozwiązać kwadratową złożoność mechanizmów uwagi i został zastosowany do zadań związanych z widzeniem. Naukowcy już zbadali sposoby, aby włączyć Mambę i SSM lub Model Przestrzeni Stanu do zadań rozpoznawania wizualnego, a Vision Mamba, która włącza Mambę, aby rozwijać izotropowe modele widzenia, podobne do Vision Transformer, jest doskonałym przykładem tego samego. Z drugiej strony, LocalMamba włącza lokalne uprzedzenia indukcyjne, aby poprawić modele wizualne Mamba, a framework VMamba wykorzystuje podstawowy model Mamba, aby budować hierarchiczne modele, podobne do ResNet i AlexNet. Czy jednak framework Mamba jest naprawdę niezbędny dla kontekstowych zadań rozpoznawania wizualnego? Pytanie to powstaje, ponieważ wyniki modeli z rodziny Mamba dla zadań związanych z widzeniem były dotychczas niezadowalające w porównaniu z tradycyjnymi modelami uwagi i konwolucyjnymi.
MambaOut próbuje odpowiedzieć, czy Mamba jest idealnie dopasowana do zadań z autoregresyjnymi i długimi sekwencjami. Framework MambaOut stawia hipotezę, że Mamba nie jest konieczna dla zadań związanych z widzeniem, ponieważ klasyfikacja obrazów nie zgadza się z cechami autoregresyjnymi ani długimi sekwencjami. Chociaż zadania segmentacji i wykrywania nie są autoregresyjne, wykazują one cechy długich sekwencji, co prowadzi framework MambaOut do hipotezy o potencjale Mamba dla tych zadań. Framework MambaOut jest budowany przez stapianie bloków Mamba na siebie, usuwając model przestrzeni stanu, jego podstawowy mikser tokenów. Wyniki eksperymentalne potwierdzają hipotezę przedstawioną przez framework MambaOut, ponieważ jest on w stanie przewyższyć wszystkie wizualne modele Mamba na frameworku ImageNet, wskazując, że Mamba nie jest konieczna dla zadań związanych z widzeniem. Z drugiej strony, dla zadań wykrywania i segmentacji, framework MambaOut nie jest w stanie odtworzyć wyników oferowanych przez najnowszy model Mamba, demonstrując potencjał rodziny modeli Mamba dla zadań wizualnych z długimi sekwencjami.
… (reszta treści)




