Künstliche Intelligenz
MambaOut: Wird Mamba wirklich für die Bilderkennung benötigt?
In modernen maschinellen Lern- und KI-Frameworks sind Transformer einer der am weitesten verbreiteten Komponenten in verschiedenen Bereichen, einschließlich der GPT-Serie und BERT in der natürlichen Sprachverarbeitung sowie Vision Transformers in Bilderkennungsaufgaben. Obwohl die Einbeziehung von Transformern in die Modellarchitektur einen erheblichen Leistungsschub bringt, skaliert das Aufmerksamkeitsmodul in Transformern quadratisch mit der Sequenzlänge, was zu erheblichen Rechenherausforderungen führt. Im Laufe der Jahre haben verschiedene Modelle unterschiedliche Strategien erforscht, um diese Rechenherausforderungen zu meistern, einschließlich Methoden wie Kernelisierung, Historien-Speicher-Komprimierung, Token-Mixing-Bereichs-Begrenzung und Low-Rank-Ansätze. Kürzlich haben rekurrente neuronale Netze wie Mamba und RWKV aufgrund ihrer vielversprechenden Ergebnisse in großen Sprachmodellen erhebliche Aufmerksamkeit erregt.
Mamba, eine Familie von Modellen, verfügt über eine Architektur mit einem rekurrenten neuronalen Netzwerk-ähnlichen Token-Mixer eines Zustandsraummodells, das kürzlich eingeführt wurde, um die quadratische Komplexität der Aufmerksamkeitsmechanismen anzugehen und wurde anschließend auf Bilderkennungsaufgaben angewendet. Forscher haben bereits Wege erforscht, um Mamba und SSM oder Zustandsraummodelle in Bilderkennungsaufgaben einzubinden, und Vision Mamba, das Mamba einsetzt, um isotrope Bildmodelle ähnlich wie Vision Transformer zu entwickeln, ist ein gutes Beispiel dafür. Andererseits integriert LocalMamba lokale induktive Vorurteile, um visuelle Mamba-Modelle zu verbessern, und das VMamba-Framework setzt das Basis-Mamba-Modell ein, um hierarchische Modelle ähnlich wie ResNet und AlexNet zu konstruieren. Doch ist das Mamba-Framework wirklich unerlässlich für Bilderkennungsaufgaben? Diese Frage stellt sich, weil die Leistung der Mamba-Modellfamilie für Bilderkennungsaufgaben bisher enttäuschend war, wenn man sie mit traditionellen Aufmerksamkeits-basierten und konvolutionellen Modellen vergleicht.
MambaOut versucht, zu klären, ob Mamba ideal für Aufgaben mit autoregressiven und langen Sequenzen geeignet ist. Das MambaOut-Framework geht davon aus, dass Mamba nicht für Bilderkennungsaufgaben erforderlich ist, da die Bildklassifizierung weder autoregressiv noch langen Sequenzen entspricht. Obwohl Segmentierung und Erkennungsaufgaben auch nicht autoregressiv sind, zeigen sie lange Sequenzen, was das MambaOut-Framework dazu veranlasst, das Potenzial von Mamba für diese Aufgaben zu vermuten. Das MambaOut-Framework besteht aus gestapelten Mamba-Blöcken, bei denen das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese des MambaOut-Frameworks, da es in der Lage ist, alle visuellen Mamba-Modelle auf dem ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba für Bilderkennungsaufgaben nicht notwendig ist. Andererseits kann das MambaOut-Framework für Erkennungs- und Segmentierungsaufgaben die Leistung des State-of-the-Art-Mamba-Modells nicht wiederholen, was das Potenzial der Mamba-Modellfamilie für lange Sequenzen in Bilderkennungsaufgaben demonstriert.
Dieser Artikel zielt darauf ab, das MambaOut-Framework in-depth zu beleuchten, und wir erforschen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit State-of-the-Art-Frameworks. Also los geht’s.
MambaOut: Wird Mamba wirklich für die Bilderkennung benötigt?
Mit dem Fortschritt maschineller Lernanwendungen und -fähigkeiten sind Transformer zu einem wichtigen Rückgrat für eine Vielzahl von Aufgaben geworden, darunter Vision Transformer, GPT-Serie, BERT und einige mehr. Allerdings verursacht der Token-Mixer des Transformers eine quadratische Komplexität in Bezug auf die Sequenzlänge und stellt erhebliche Herausforderungen für längere Sequenzen dar. Um dieses Problem zu lösen, wurden zahlreiche Token-Mixer mit linearer Komplexität in Bezug auf die Tokenlänge wie Linformer, Longformer, Performer, Dynamic Convolution und Big Bird eingeführt. Allerdings gewinnen rekurrente neuronale Netze wie Modelle in letzter Zeit an Bedeutung aufgrund ihrer Fähigkeit, parallel trainiert zu werden und effiziente Leistung auf längeren Sequenzen zu liefern. Angespornt durch die bemerkenswerten Ergebnisse, die von RNN-ähnlichen Modellen erzielt wurden, versuchen Forscher, die Mamba-Modellfamilie in Bilderkennungsaufgaben einzuführen, da der Token-Mixer der Mamba-Modelle das strukturierte Zustandsraummodell im Sinne rekurrenter neuronalen Netze ist. Allerdings deuten experimentelle Ergebnisse darauf hin, dass Zustandsraummodell-basierte Frameworks für Bilderkennungsaufgaben im Vergleich zu Aufmerksamkeits-basierten und State-of-the-Art-Konvolutionsmodellen unterdurchschnittlich abschneiden.
MambaOut ist ein Versuch, die Natur der Mamba-Modellfamilie zu untersuchen und zusammenzufassen, dass Mamba für Aufgaben geeignet ist, die entweder autoregressiv oder langen Sequenzen entsprechen, da das Zustandsraummodell eine inhärente RNN-Mechanismus hat. Allerdings haben die meisten Bilderkennungsaufgaben weder autoregressive noch lange Sequenzen, und aufgrund einiger Experimente schlägt MambaOut die folgenden zwei Hypothesen vor. Erstens ist das Zustandsraummodell für die Bildklassifizierung nicht notwendig, da die Bildklassifizierung weder autoregressiv noch langen Sequenzen entspricht. Zweitens können Zustandsmodelle hypothetisch für Instanzsegmentierung und semantische Segmentierung sowie Objekterkennung nützlich sein, da sie lange Sequenzen aufweisen, obwohl sie nicht autoregressiv sind. Experimentelle Ergebnisse, die den rekurrenten neuronalen Netzwerk-ähnlichen Mechanismus des Zustandsraummodells analysieren, kommen zu dem Schluss, dass das Mamba-Framework für Aufgaben mit autoregressiven oder langen Sequenzen geeignet ist und für Bildklassifizierungsaufgaben nicht notwendig ist. Was das MambaOut-Framework selbst betrifft, so handelt es sich um eine Reihe von Mamba-Modellen auf Basis von Gated Convolutional Neural Network-Blöcken ohne das Zustandsraummodell, und experimentelle Ergebnisse deuten darauf hin, dass das MambaOut-Framework in der Lage ist, Mamba-Modelle in Bildklassifizierungsaufgaben zu übertreffen, aber die Leistung auf Erkennungs- und Segmentierungsaufgaben nicht wiederholen kann.
Welche Aufgaben sind für Mamba geeignet?
Der Token-Mixer des Mamba-Frameworks ist ein selektives Zustandsraummodell, das vier eingegebene Parameter definiert. Die rekurrente Eigenschaft des Frameworks unterscheidet RNN-ähnliche Zustandsraummodelle von kausaler Aufmerksamkeit. Der versteckte Zustand kann als fester Speicher angesehen werden, der historische Informationen speichert. Der feste Speicher bedeutet, dass der Speicher verlustbehaftet ist, aber er stellt auch sicher, dass die Komplexität der Integration des Speichers mit dem aktuellen Input konstant bleibt. Andererseits speichern kausale Aufmerksamkeitsschichten alle Schlüssel und Werte von vorherigen Token und erweitern sich, indem sie den Schlüssel und den Wert des aktuellen Tokens mit jedem neuen Input hinzufügen, und dieser Speicher ist verlustfrei, theoretisch. Allerdings wächst die Speichergröße, wenn mehr Token eingegeben werden, was die Komplexität der Integration des Speichers mit dem aktuellen Input erhöht. Der Unterschied zwischen den Speichermechanismen zwischen kausaler Aufmerksamkeit und RNN-ähnlichen Modellen wird in der folgenden Abbildung veranschaulicht.

Da der Speicher des Zustandsraummodells inhärent verlustbehaftet ist, erreicht er nicht die verlustfreie Speicherung der kausalen Aufmerksamkeit, und als Ergebnis können die Mamba-Modelle ihre Stärke im Umgang mit kurzen Sequenzen nicht demonstrieren, ein Bereich, in dem der kausale Aufmerksamkeitsmechanismus problemlos funktioniert. Allerdings schlägt der kausale Aufmerksamkeitsansatz in Szenarien, die lange Sequenzen beinhalten, aufgrund der quadratischen Komplexität fehl. In diesem Szenario zeigt das Mamba-Framework seine Effizienz bei der Integration des Speichers mit dem aktuellen Input und kann lange Sequenzen reibungslos verarbeiten, was darauf hindeutet, dass die Mamba-Modellfamilie für die Verarbeitung langer Sequenzen gut geeignet ist.
Es ist auch erwähnenswert, dass die rekurrente Natur des Zustandsraummodells es dem Mamba-Modell ermöglicht, lange Sequenzen effizient zu verarbeiten, aber es führt auch eine bestimmte Einschränkung ein, da es nur Informationen aus dem aktuellen und vorherigen Zeitpunkten zugreifen kann, und diese Art von Token-Mixing wird als kausaler Modus bezeichnet und in der folgenden Abbildung veranschaulicht. Aufgrund seiner kausalen Natur ist diese Methode für autoregressive Generierungsaufgaben geeignet.

Der vollständig sichtbare Modus ist für Verständigungsaufgaben geeignet, bei denen das Modell alle Eingaben auf einmal zugreifen kann. Darüber hinaus ist die Aufmerksamkeit standardmäßig im vollständig sichtbaren Modus und kann leicht in den kausalen Modus umgewandelt werden, indem kausale Masken auf die Aufmerksamkeitskarten angewendet werden, und RNN-ähnliche Modelle operieren inhärent im kausalen Modus aufgrund ihrer rekurrenten Eigenschaften. Um alles zusammenzufassen, ist das Mamba-Framework für Aufgaben geeignet, die entweder die Verarbeitung langer Sequenzen beinhalten oder Aufgaben, die den kausalen Token-Mixing-Modus erfordern.
Bilderkennungsaufgaben, kausales Token-Mixing und sehr lange Sequenzen
Wie bereits diskutiert, ermöglicht der vollständig sichtbare Token-Mixing-Modus ein unbegrenztes Mischverhältnis, während der kausale Modus den aktuellen Token auf die Informationen aus den vorherigen Token beschränkt. Darüber hinaus wird die Bilderkennung als Verständigungsaufgabe kategorisiert, bei der das Modell das gesamte Bild auf einmal sehen kann, und dies eliminiert die Notwendigkeit, Einschränkungen für das Token-Mixing aufzuerlegen, und die Aufnahme zusätzlicher Einschränkungen kann die Modellleistung potenziell verschlechtern. Im Allgemeinen ist der vollständig sichtbare Modus für Verständigungsaufgaben geeignet, während der kausale Modus autoregressive Aufgaben besser geeignet ist. Darüber hinaus wird diese Behauptung durch die Tatsache unterstützt, dass BeRT- und ViT-Modelle häufiger für Verständigungsaufgaben als GPT-Modelle verwendet werden.
Experimentelle Überprüfung und Ergebnisse
Der nächste Schritt besteht darin, die Hypothesen des MambaOut-Frameworks experimentell zu überprüfen. Wie in der folgenden Abbildung gezeigt, basiert der Mamba-Block auf dem Gated Convolutional Neural Network-Block, und die Meta-Architektur der Mamba- und Gated CNN-Blöcke kann als vereinfachte Integration des Token-Mixers des MetaFormer-Frameworks und eines MLP betrachtet werden.

Der Mamba-Block erweitert den Gated Convolutional Neural Network-Block um ein zusätzliches Zustandsraummodell, und die Anwesenheit eines SSM ist es, was den Gated CNN-Block und den Mamba-Block unterscheidet. Darüber hinaus wird das MambaOut-Framework durchgeführt, um nur die Tiefe der Konvolution auf partiellen Kanälen durchzuführen, und wie in dem folgenden Algorithmus gezeigt, ist die Implementierung des Gated CNN-Blocks einfach, aber effektiv und elegant.

Bildklassifizierungsaufgabe
ImageNet dient als Benchmark für Bildklassifizierungsaufgaben, da es über 1.000 gemeinsame Klassen, über 1,3 Millionen Trainingsbilder und über 50.000 Validierungsbilder umfasst. Die für das Experiment verwendete Datenvergrößerung umfasst zufällige Bildausschnitte, Mixup, Farbveränderung, zufälliges Löschen, CutMix und Rand-Augment. Die folgende Tabelle fasst die Leistung der Mamba-Modellfamilie, des MambaOut-Modells und anderer Aufmerksamkeits-basierter und konvolutioneller Modelle auf dem ImageNet-Datensatz zusammen. Wie zu sehen ist, übertreffen die MambaOut-Modelle ohne Zustandsraummodell konsistent die visuellen Mamba-Modelle mit SSM über alle Modellgrößen hinweg.

Beispielsweise erreicht das MambaOut-Small-Modell einen Top-1-Genauigkeitswert von über 84 %, 0,4 % höher als sein nächster Mamba-Wettbewerber. Dieses Ergebnis unterstützt die erste Hypothese, die besagt, dass die Einführung eines Zustandsraummodells für Bildklassifizierungsaufgaben nicht erforderlich ist.
Objekterkennung und Instanzsegmentierung
COCO dient als Benchmark für Objekterkennung und Instanzsegmentierung. Obwohl das MambaOut-Framework in der Lage ist, die Leistung einiger visueller Mamba-Modelle zu übertreffen, bleibt es hinter State-of-the-Art-Modellen wie LocalVMamba und VMamba zurück. Die Leistungsunterschiede zwischen MambaOut und State-of-the-Art-Modellen betonen die Vorteile der Integration der Mamba-Modellfamilie in lange Sequenzen von Bilderkennungsaufgaben. Allerdings ist es erwähnenswert, dass ein erheblicher Leistungsunterschied zwischen State-of-the-Art-Konvolutions- und Aufmerksamkeits-Hybridmodellen und visuellen Mamba-Modellen besteht.

Schlussgedanken
Die Mamba-Modellfamilie scheint für Aufgaben mit autoregressiven und langen Sequenzen geeignet zu sein. Das MambaOut-Framework geht davon aus, dass Mamba nicht für Bilderkennungsaufgaben erforderlich ist, da die Bildklassifizierung weder autoregressiv noch langen Sequenzen entspricht. Obwohl Segmentierung und Erkennungsaufgaben auch nicht autoregressiv sind, zeigen sie lange Sequenzen, was das MambaOut-Framework dazu veranlasst, das Potenzial von Mamba für diese Aufgaben zu vermuten. Das MambaOut-Framework besteht aus gestapelten Mamba-Blöcken, bei denen das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese des MambaOut-Frameworks, da es in der Lage ist, alle visuellen Mamba-Modelle auf dem ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba für Bilderkennungsaufgaben nicht notwendig ist. Andererseits kann das MambaOut-Framework für Erkennungs- und Segmentierungsaufgaben die Leistung des State-of-the-Art-Mamba-Modells nicht wiederholen, was das Potenzial der Mamba-Modellfamilie für lange Sequenzen in Bilderkennungsaufgaben demonstriert.












