Künstliche Intelligenz

MambaOut: Brauchen wir Mamba wirklich für die Bildverarbeitung?

Published May 24, 2024

Updated April 27, 2026

Kunal Kejriwal

In modernen maschinellen Lernalgorithmen und künstlichen Intelligenz-Frameworks sind Transformer einer der am häufigsten verwendeten Komponenten in verschiedenen Bereichen, einschließlich der GPT-Serie und BERT in der Verarbeitung von natürlichen Sprachen sowie Vision Transformers in Computer-Vision-Aufgaben. Obwohl die Einbeziehung von Transformern in die Modellarchitektur einen signifikanten Boost in der Modellleistung bringt, skaliert das Attention-Modul in Transformern quadratisch mit der Sequenzlänge, was zu hohen Rechenaufwänden führt. Im Laufe der Jahre haben verschiedene Modelle unterschiedliche Strategien erforscht, um die Rechenaufwänden zu meistern, einschließlich Methoden wie Kernelisierung, History-Memory-Compression, Token-Mixing-Range-Begrenzung und Low-Rank-Ansätzen. Kürzlich haben rekurrente neuronale Netze wie Mamba und RWKV aufgrund ihrer vielversprechenden Ergebnisse in großen Sprachmodellen erhebliche Aufmerksamkeit erregt.

Mamba, eine Familie von Modellen, hat eine Architektur mit einem rekurrenten neuronalen Netzwerk-ähnlichen Token-Mixer eines Zustandsraummodells, das kürzlich eingeführt wurde, um die quadratische Komplexität der Attention-Mechanismen anzugehen und wurde anschließend auf Bildverarbeitungsaufgaben angewendet. Forscher haben bereits Wege erforscht, um Mamba und SSM oder Zustandsraummodelle in visuelle Erkennungsaufgaben einzubinden, und Vision Mamba, das Mamba einsetzt, um isotrope Bildmodelle ähnlich wie Vision Transformer zu entwickeln, ist ein gutes Beispiel dafür. Andererseits integriert LocalMamba lokale induktive Vorurteile, um visuelle Mamba-Modelle zu verbessern, und das VMamba-Framework setzt das Basis-Mamba-Modell ein, um hierarchische Modelle ähnlich wie ResNet und AlexNet zu konstruieren. Doch ist das Mamba-Framework wirklich essentiell für visuelle Erkennungskontextaufgaben? Die Frage entsteht, weil die Leistung der Mamba-Familie von Modellen für Bildverarbeitungsaufgaben bisher enttäuschend war, wenn man sie mit traditionellen attention-basierten und konvolutionellen Modellen vergleicht.

MambaOut versucht, zu beantworten, ob Mamba ideal für Aufgaben mit autoregressiven und langen Sequenzen geeignet ist. Das MambaOut-Framework geht davon aus, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben, da die Bildklassifizierung weder mit langen Sequenzen noch mit autoregressiven Merkmalen übereinstimmt. Obwohl Segmentierung und Erkennungsaufgaben nicht autoregressiv sind, zeigen sie lange Sequenzen, was das MambaOut-Framework dazu veranlasst, das Potenzial von Mamba für diese Aufgaben zu vermuten. Das MambaOut-Framework wird durch Stapeln von Mamba-Blöcken aufeinander aufgebaut, während das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese, die vom MambaOut-Framework aufgestellt wird, da es in der Lage ist, alle visuellen Mamba-Modelle auf dem ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben. Andererseits kann das MambaOut-Framework für Erkennung und Segmentierungsaufgaben die Leistung, die von state-of-the-art-Mamba-Modellen angeboten wird, nicht replizieren, was das Potenzial der Mamba-Familie von Modellen für lange Sequenzen in der Bildverarbeitung demonstriert.

Dieser Artikel zielt darauf ab, das MambaOut-Framework in der Tiefe zu beleuchten, und wir erforschen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit state-of-the-art-Frameworks. Also los geht’s.

MambaOut: Braucht man Mamba wirklich für die Bildverarbeitung?

Mit dem Fortschritt maschineller Lernanwendungen und -fähigkeiten sind Transformer zu einem der Hauptbestandteile in einer Reihe von Aufgaben geworden, darunter Vision Transformers, GPT-Modellreihen, BERT und einige mehr. Allerdings verursacht der Token-Mixer des Transformers eine quadratische Komplexität in Bezug auf die Sequenzlänge und birgt erhebliche Rechenaufwände. Um dieses Problem zu lösen, wurden verschiedene Token-Mixer mit linearer Komplexität in Bezug auf die Tokenlänge wie Linformer, Longformer, Performer, Dynamic Convolution und Big Bird eingeführt. In letzter Zeit gewinnen jedoch rekurrente neuronale Netze wie Mamba und RWKV aufgrund ihrer vielversprechenden Ergebnisse in großen Sprachmodellen an Bedeutung. Angesichts der bemerkenswerten Leistung, die von RNN-ähnlichen Modellen erzielt wird, versuchen Forscher, die Mamba-Familie von Modellen in visuelle Erkennungsaufgaben einzubinden, da der Token-Mixer der Mamba-Modelle das strukturierte Zustandsraummodell im Sinne der rekurrenten neuronalen Netze ist. Allerdings deuten experimentelle Ergebnisse darauf hin, dass Zustandsraummodell-basierte Frameworks für die Bildverarbeitung in realen Bildverarbeitungsaufgaben enttäuschend abschneiden, wenn man sie mit attention-basierten und state-of-the-art-konvolutionellen Modellen vergleicht.

MambaOut ist ein Versuch, die Natur der Mamba-Familie von Modellen zu untersuchen und fasst zusammen, dass Mamba für Aufgaben geeignet ist, die entweder autoregressiv oder lang sind, da das Zustandsraummodell einen inhärenten RNN-Mechanismus hat. Allerdings haben die meisten Bildverarbeitungsaufgaben nicht beide dieser Merkmale, und aufgrund einiger Experimente stellt MambaOut die folgenden zwei Hypothesen auf. Erstens ist das Zustandsraummodell nicht notwendig für die Bildklassifizierung, da die Bildklassifizierung weder autoregressiv noch lang ist. Zweitens können Zustandsraummodelle hypothetisch nützlich für Instanzsegmentierung und semantische Segmentierung sowie Objekterkennung sein, da sie lange Sequenzen aufweisen, obwohl sie nicht autoregressiv sind. Experimentelle Ergebnisse, die den RNN-ähnlichen Mechanismus des Zustandsraummodells analysieren, kommen zu dem Schluss, dass das Mamba-Framework für Aufgaben mit autoregressiven oder langen Sequenzen geeignet ist und für Bildklassifizierungsaufgaben nicht notwendig ist. Was das MambaOut-Framework selbst betrifft, so handelt es sich um eine Reihe von Mamba-Modellen, die auf Gated Convolutional Neural Network-Blöcken basieren, ohne das Zustandsraummodell, und experimentelle Ergebnisse zeigen, dass das MambaOut-Framework in der Lage ist, die visuellen Mamba-Modelle in Bildklassifizierungsaufgaben zu übertreffen, aber die Leistung auf Erkennung und Segmentierungsaufgaben nicht zu replizieren.

Für welche Aufgaben ist Mamba geeignet?

Der Token-Mixer des Mamba-Frameworks ist ein selektives Zustandsraummodell, das vier eingegebene Parameter definiert. Die rekurrente Eigenschaft des Frameworks unterscheidet RNN-ähnliche Zustandsraummodelle von kausalem Attention. Der versteckte Zustand kann als fester Größe angesehen werden, der historische Informationen speichert. Die feste Größe bedeutet, dass der Speicher verlustbehaftet ist, aber sie stellt auch sicher, dass die Rechenkomplexität der Integration des Speichers mit der aktuellen Eingabe konstant bleibt. Andererseits speichern kausale Attention-Schichten alle Schlüssel und Werte von vorherigen Token und erweitern sich, indem sie den Schlüssel und den Wert des aktuellen Tokens mit jedem neuen Eingabe hinzufügen, und dieser Speicher ist verlustfrei, theoretisch. Allerdings wächst die Speichergröße, wenn mehr Token eingegeben werden, was die Komplexität der Integration des Speichers mit der aktuellen Eingabe erhöht. Der Unterschied zwischen den Speichermechanismen von kausalem Attention und RNN-ähnlichen Modellen wird in der folgenden Abbildung veranschaulicht.

Da der Speicher des Zustandsraummodells inhärent verlustbehaftet ist, kommt er nicht an den verlustfreien Speicher des kausalen Attention heran, und daher können die Mamba-Modelle ihre Stärke im Umgang mit kurzen Sequenzen nicht unter Beweis stellen, einem Bereich, in dem der kausale Attention-Mechanismus problemlos gut funktioniert. Allerdings versagt der kausale Attention-Ansatz in Szenarien, die lange Sequenzen beinhalten, aufgrund der quadratischen Komplexität. In diesem Szenario zeigt das Mamba-Framework seine Effizienz bei der Integration des Speichers mit der aktuellen Eingabe und kann lange Sequenzen reibungslos verarbeiten, was darauf hindeutet, dass die Mamba-Familie von Modellen für die Verarbeitung langer Sequenzen gut geeignet ist.

Es ist auch erwähnenswert, dass die rekurrente Natur des Zustandsraummodells es dem Mamba-Modell ermöglicht, lange Sequenzen effizient zu verarbeiten, aber es führt auch eine bestimmte Einschränkung ein, da es nur auf Informationen aus der aktuellen und vorherigen Zeitpunkten zugreifen kann, und diese Art von Token-Mixing wird als kausaler Modus bezeichnet und in der folgenden Abbildung veranschaulicht. Aufgrund seiner kausalen Natur ist diese Methode für autoregressive Generierungsaufgaben geeignet.

Der vollständig sichtbare Modus ist für Verständigungsaufgaben geeignet, bei denen das Modell auf alle Eingaben zugreifen kann. Darüber hinaus ist die Attention im vollständig sichtbaren Modus standardmäßig und kann durch Anwenden von kausalen Masken auf die Attention-Karten leicht in den kausalen Modus umgewandelt werden, und RNN-ähnliche Modelle operieren inhärent im kausalen Modus aufgrund ihrer rekurrenten Eigenschaften. Zusammenfassend ist das Mamba-Framework für Aufgaben geeignet, die entweder lange Sequenzen beinhalten oder Aufgaben, die kausales Token-Mixing erfordern.

Visuelle Erkennungsaufgaben, kausales Token-Mixing-Code und sehr lange Sequenzen

Wie bereits diskutiert, ermöglicht der vollständig sichtbare Token-Mixing-Modus ein uneingeschränktes Mischen, während der kausale Modus das aktuelle Token auf die Informationen aus den vorherigen Token beschränkt. Darüber hinaus wird die visuelle Erkennung als Verständigungsaufgabe kategorisiert, bei der das Modell das gesamte Bild auf einmal sehen kann, was die Notwendigkeit von Einschränkungen des Token-Mixing eliminiert und das Hinzufügen zusätzlicher Einschränkungen des Token-Mixing potenziell die Modellleistung verschlechtern kann. Im Allgemeinen ist der vollständig sichtbare Modus für Verständigungsaufgaben geeignet, während der kausale Modus autoregressive Aufgaben besser geeignet ist. Darüber hinaus wird diese Behauptung durch die Tatsache unterstützt, dass BeRT- und ViT-Modelle häufiger für Verständigungsaufgaben als GPT-Modelle verwendet werden.

Experimentelle Verifizierung und Ergebnisse

Der nächste Schritt besteht darin, die Hypothesen, die vom MambaOut-Framework aufgestellt werden, experimentell zu verifizieren. Wie in der folgenden Abbildung gezeigt, basiert der Mamba-Block auf dem Gated Convolutional Neural Network-Block, und die Meta-Architektur der Mamba- und Gated CNN-Blöcke kann als vereinfachte Integration des Token-Mixers des MetaFormer-Frameworks und eines MLP behandelt werden.

Der Mamba-Block erweitert den Gated Convolutional Neural Network-Block um ein zusätzliches Zustandsraummodell, und die Anwesenheit eines SSM ist es, was den Gated CNN-Block und den Mamba-Block unterscheidet. Darüber hinaus wird das MambaOut-Framework durch Stapeln von Mamba-Blöcken aufeinander aufgebaut, während das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese, die vom MambaOut-Framework aufgestellt wird, da es in der Lage ist, alle visuellen Mamba-Modelle auf dem ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben. Andererseits kann das MambaOut-Framework für Erkennung und Segmentierungsaufgaben die Leistung, die von state-of-the-art-Mamba-Modellen angeboten wird, nicht replizieren, was das Potenzial der Mamba-Familie von Modellen für lange Sequenzen in der Bildverarbeitung demonstriert.

Bildklassifizierungsaufgabe

ImageNet dient als Benchmark für Bildklassifizierungsaufgaben, da es über 1000 allgemeine Klassen, über 1,3 Millionen Trainingsbilder und über 50.000 Validierungsbilder umfasst. Die für das Experiment verwendete Datenvergrößerung umfasst zufälliges vergrößertes Crop, Mixup, Farbverwirrung, zufälliges Löschen, CutMix und Rand-Ausrichtung. Die folgende Tabelle fasst die Leistung der Mamba-Familie von Modellen, des MambaOut-Modells und anderer attention-basierter und konvolutioneller Modelle auf dem ImageNet-Datensatz zusammen. Wie zu sehen ist, übertreffen die MambaOut-Modelle ohne Zustandsraummodell die visuellen Mamba-Modelle mit SSM konsistent über alle Modellgrößen hinweg.

Beispielsweise liefert das MambaOut-Small-Modell einen Top-1-Genauigkeitswert von über 84 %, 0,4 % höher als sein nächster Mamba-Wettbewerber. Dieses Ergebnis unterstützt die erste Hypothese, die besagt, dass die Einführung eines Zustandsraummodells für Bildklassifizierungsaufgaben nicht notwendig ist.

Objekterkennung und Instanzsegmentierung

COCO dient als Benchmark für Objekterkennung und Instanzsegmentierung. Obwohl das MambaOut-Framework in der Lage ist, die Leistung einiger visueller Mamba-Modelle zu übertreffen, verfehlt es immer noch die Leistung von state-of-the-art-Modellen, einschließlich LocalVMamba und VMamba. Die Leistungsunterschiede zwischen MambaOut und state-of-the-art-Modellen unterstreichen die Vorteile der Integration der Mamba-Familie von Modellen in lange Sequenzen der Bildverarbeitung. Es ist jedoch zu beachten, dass eine signifikante Leistungsunterschiede zwischen state-of-the-art-konvolutionell-attention-Hybridmodellen und visuellen Mamba-Modellen besteht.

Letzte Gedanken

Die Mamba-Familie von Modellen scheint für Aufgaben mit autoregressiven und langen Sequenzen geeignet zu sein. Das MambaOut-Framework geht davon aus, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben, da die Bildklassifizierung weder mit langen Sequenzen noch mit autoregressiven Merkmalen übereinstimmt. Obwohl Segmentierung und Erkennungsaufgaben nicht autoregressiv sind, zeigen sie lange Sequenzen, was das MambaOut-Framework dazu veranlasst, das Potenzial von Mamba für diese Aufgaben zu vermuten. Das MambaOut-Framework wird durch Stapeln von Mamba-Blöcken aufeinander aufgebaut, während das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese, die vom MambaOut-Framework aufgestellt wird, da es in der Lage ist, alle visuellen Mamba-Modelle auf dem ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben. Andererseits kann das MambaOut-Framework für Erkennung und Segmentierungsaufgaben die Leistung, die von state-of-the-art-Mamba-Modellen angeboten wird, nicht replizieren, was das Potenzial der Mamba-Familie von Modellen für lange Sequenzen in der Bildverarbeitung demonstriert.

Kunal Kejriwal

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.