Artificial Intelligence

MambaOut: hebben we Mamba echt nodig voor visie?

gepubliceerd

3 weken geleden

24 mei 2024

In moderne raamwerken voor machine learning en kunstmatige intelligentie zijn transformatoren een van de meest gebruikte componenten in verschillende domeinen, waaronder GPT-series, en BERT in Natural Language Processing, en Vision Transformers in computer vision-taken. Hoewel het opnemen van transformatoren in de modelarchitectuur een aanzienlijke boost geeft aan de modelprestaties, schaalt de aandachtsmodule in Transformers kwadratisch met de reekslengte, wat leidt tot grote rekenproblemen. In de loop der jaren hebben verschillende modellen verschillende strategieën onderzocht om de computationele uitdagingen aan te pakken, waaronder methoden als kernelisatie, compressie van geschiedenisgeheugen, beperking van het tokenmengbereik en benaderingen van lage rang. Onlangs hebben Recurrent Neural Networks-achtige methoden, waaronder Mamba en RWKV, veel aandacht gekregen vanwege hun veelbelovende resultaten in grote taalmodellen.

Mamba, een familie van modellen met een architectuur met een terugkerend neuraal netwerk, zoals een tokenmixer van een toestandsruimtemodel, werd onlangs geïntroduceerd om de kwadratische complexiteit van de aandachtsmechanismen aan te pakken en werd vervolgens toegepast op visietaken. Onderzoekers hebben al manieren onderzocht om Mamba en SSM of State Space Model op te nemen in visuele herkenningstaken, en Vision Mamba, dat Mamba integreert om isotrope visiemodellen te ontwikkelen, vergelijkbaar met Vision Transformer, is daar een goed voorbeeld van. Aan de andere kant bevat LocalMamba lokale inductieve vooroordelen om visuele Mamba-modellen te verbeteren, en het VMamba-framework gebruikt het basis-Mamba-model om hiërarchische modellen te construeren vergelijkbaar met ResNet en AlexNet. Is het Mamba-framework echter echt essentieel voor contexttaken voor visuele herkenning? De vraag rijst omdat de prestaties van de Mamba-familie van modellen voor visuele taken tot nu toe teleurstellend zijn geweest in vergelijking met traditionele, op aandacht gebaseerde en convolutionele modellen.

MambaOut is een werk dat probeert de essentie van het Mamba-framework te doorgronden en te beantwoorden of Mamba bij uitstek geschikt is voor taken met autoregressieve en lange-sequentiële kenmerken. Het MambaOut-framework veronderstelt dat Mamba niet nodig is voor zichttaken, aangezien beeldclassificatie niet aansluit bij lange-sequentiële of autoregressieve kenmerken. Hoewel segmentatie- en detectietaken ook niet autoregressief zijn, vertonen ze kenmerken van lange reeksen, waardoor het MambaOut-framework het potentieel van Mamba voor deze taken veronderstelt. Het MambaOut-framework is geconstrueerd door Mamba-blokken op elkaar te stapelen terwijl het toestandsruimtemodel, de kerntokenmixer, wordt verwijderd. De experimentele resultaten ondersteunen de hypothese van het MambaOut-framework, omdat het alle visuele Mamba-modellen op het ImageNet-framework voor beeldclassificatie kan overtreffen, wat aangeeft dat de Mamba niet nodig is voor zichttaken. Aan de andere kant is het MambaOut-framework voor detectie- en segmentatietaken niet in staat de prestaties van het geavanceerde Mamba-model te repliceren, wat het potentieel van de Mamba-modellenfamilie voor visuele taken met een lange reeks aantoont.

Dit artikel heeft tot doel het MambaOut-framework diepgaand te behandelen, en we onderzoeken het mechanisme, de methodologie en de architectuur van het raamwerk, samen met de vergelijking ervan met de modernste raamwerken. Dus laten we beginnen.

MambaOut: is Mamba echt nodig voor zicht?

Met de vooruitgang op het gebied van machine learning-toepassingen en -mogelijkheden zijn Transformers uitgegroeid tot de mainstream-ruggengraat voor een reeks taken, die prominente modellen aandrijven, waaronder Visietransformatoren, GPT-serie modellen, BERT en nog een paar. De tokenmixer van de transformator heeft echter te maken met een kwadratische complexiteit met betrekking tot de sequentielengte, en levert aanzienlijke uitdagingen op voor langere sequenties. Om dit probleem aan te pakken zijn er talloze tokenmixers met lineaire complexiteit tot tokenlengte geïntroduceerd, zoals Linformer, Longformer, Performer, Dynamic Convolution en Big Bird. De laatste tijd winnen Recurrent Neural Network-achtige modellen echter aan bekendheid vanwege hun vermogen tot parallelliseerbare training en het leveren van efficiënte prestaties op langere reeksen. Geleid door de opmerkelijke prestaties die RNN-achtige modellen bieden, proberen onderzoekers de Mamba-familie van modellen te introduceren en te gebruiken in visuele herkenningstaken, aangezien de tokenmixer van de Mamba-modellen het gestructureerde toestandsruimtemodel is in de geest van de Recurrent Neural Networks. . Experimentele resultaten geven echter aan dat op state space-modellen gebaseerde raamwerken voor visie teleurstellend presteren bij real-world visietaken in vergelijking met op aandacht gebaseerde en state-of-the-art convolutionele modellen.

MambaOut is een poging om de aard van de Soort slang familie van modellen, en vat samen dat Mamba geschikt is voor taken die autoregressief zijn of een lange reeks taken hebben, aangezien het toestandsruimtemodel een inherent RNN-mechanisme heeft. De meeste zichttaken vertonen echter niet beide kenmerken, en op basis van enkele experimenten stelt MambaOut de volgende twee hypothesen voor. Ten eerste is het toestandsruimtemodel niet nodig voor beeldclassificatie, aangezien de beeldclassificatietaak noch autoregressieve, noch lange-reekskarakteristieken volgt. Ten tweede kunnen toestandsruimtemodellen hypothetisch voordelig zijn voor bijvoorbeeld segmentatie en semantische segmentatie samen met objectdetectie, omdat ze de kenmerken van de lange sequentie volgen, hoewel ze niet autoregressief zijn. Experimentele resultaten die zijn uitgevoerd om het Recurrent Neural Network-achtige mechanisme van het toestandsruimtemodel te analyseren, concluderen dat het Mamba-framework geschikt is voor taken met autoregressieve of lange-sequentiële kenmerken, en niet nodig is voor beeldclassificatietaken. Wat betreft het MambaOut-framework zelf: het is een reeks Mamba-modellen gebaseerd op Gated Convolutional Neural Network-blokken zonder het state space-model, en experimentele resultaten geven aan dat het MambaOut-framework beter presteert dan Mamba-modellen bij beeldclassificatietaken, maar er niet in slaagt te repliceren de prestaties bij beelddetectie- en segmentatietaken.

Voor welke taken is Mamba geschikt?

De tokenmixer van het Mamba-framework is een selectief toestandsruimtemodel dat vier invoerafhankelijke parameters definieert. De terugkerende eigenschap van het raamwerk onderscheidt RNN-achtige toestandsruimtemodellen van causale aandacht. De verborgen toestand kan worden gezien als een geheugen met een vaste grootte waarin historische informatie wordt opgeslagen. De vaste grootte betekent dat het geheugen verliesgevend is, maar zorgt er ook voor dat de rekencomplexiteit van het integreren van geheugen met de huidige invoer constant blijft. Omgekeerd slaan causale aandachtslagen alle sleutels en waarden van eerdere tokens op, en worden ze uitgebreid door de sleutel en waarde van het huidige token toe te voegen bij elke nieuwe invoer, en dit geheugen is theoretisch verliesvrij. De geheugengrootte groeit echter naarmate er meer tokens worden ingevoerd, waardoor de complexiteit van de integratie van het geheugen met de huidige invoer toeneemt. Het verschil tussen de geheugenmechanismen tussen causale aandacht en RNN-achtige modellen wordt geïllustreerd in de volgende afbeelding.

Omdat het geheugen van het toestandsruimtemodel inherent verliesgevend is, schiet het tekort ten opzichte van het verliesloze geheugen van causale aandacht, en als gevolg daarvan Mamba-modellen kan zijn kracht niet demonstreren in het omgaan met korte reeksen, een gebied waar het causale aandachtsmechanisme gemakkelijk goed presteert. In scenario's met lange reeksen hapert de causale aandachtsbenadering echter vanwege de kwadratische complexiteit. In dit scenario demonstreert het Mamba-framework zijn efficiëntie bij het samenvoegen van geheugen met de huidige invoer, en kan het lange reeksen soepel verwerken, wat aangeeft dat de Mamba-modellenfamilie zeer geschikt is voor het verwerken van lange reeksen.

Het is ook vermeldenswaard dat aan de ene kant de terugkerende aard van het toestandsruimtemodel de Mamba-modellen in staat stelt lange sequenties efficiënt te verwerken, het een bepaalde beperking introduceert omdat het alleen toegang heeft tot informatie uit de huidige en voorgaande tijdstappen, en dit soort token-mixing wordt de causale modus genoemd en wordt geïllustreerd in de volgende afbeelding. Vanwege het causale karakter is deze methode hiervoor geschikt autoregressieve generatietaken.

De volledig zichtbare modus is geschikt voor het begrijpen van taken waarbij het model in één keer toegang heeft tot alle invoer. Bovendien bevindt de aandacht zich standaard in de volledig zichtbare modus en kan deze gemakkelijk in de causale modus worden omgezet door causale maskers op de aandachtskaarten toe te passen, en RNN-achtige modellen werken inherent in de causale modus vanwege hun terugkerende eigenschappen. Om de zaken samen te vatten: het Mamba-framework is geschikt voor taken waarbij lange reeksen moeten worden verwerkt, of taken waarvoor een causale token-mixmodus vereist is.

Visuele herkenningstaken, causale tokenmixcode en zeer grote reeksen

Zoals eerder besproken, maakt de volledig zichtbare token-mengmodus een onbeperkt mengbereik mogelijk, terwijl de causale modus het huidige token beperkt tot alleen toegang tot de informatie van de voorgaande tokens. Bovendien wordt visuele herkenning gecategoriseerd als een begripstaak waarbij het model het hele beeld in één keer kan zien, en dit elimineert de noodzaak voor beperkingen op het mixen van tokens, en het opleggen van extra beperkingen op het mixen van tokens kan de prestaties van het model mogelijk verslechteren. Over het algemeen is de volledig zichtbare modus geschikt voor het begrijpen van taken, terwijl de informele modus beter geschikt is voor autoregressieve taken. Bovendien wordt deze bewering verder ondersteund door het feit dat BeRT- en ViT-modellen meer worden gebruikt voor het begrijpen van taken dan GPT-modellen.

Experimentele verificatie en resultaten

De volgende stap is het experimenteel verifiëren van de hypothesen die door het MambaOut-framework worden voorgesteld. Zoals gedemonstreerd in de volgende afbeelding, is het Mamba-blok gebaseerd op het Gated Convolutional Neural Network-blok, en kan de meta-architectuur van de Mamba- en Gated CNN-blokken worden behandeld als een vereenvoudigde integratie van de tokenmixer van het MetaFormer-framework en een MLP .

Het Mamba-blok breidt het Gated Convolutional Neural Network uit met een aanvullend State Space Model, en de aanwezigheid van een SSm is wat het Gated CNN en het Mamba-blok onderscheidt. Om de praktische snelheid te verbeteren, voert het MambaOut-framework bovendien alleen convolutie in de diepte uit op gedeeltelijke kanalen, en zoals gedemonstreerd in het volgende algoritme is de implementatie van het Gated CNN-blok eenvoudig, maar toch effectief en elegant.

Taak voor beeldclassificatie

ImageNet dient als maatstaf voor beeldclassificatietaken, aangezien het bestaat uit meer dan duizend gemeenschappelijke klassen, meer dan 1.3 miljoen trainingsafbeeldingen en meer dan 50,000 validatieafbeeldingen. De voor het experiment gebruikte gegevensvergroting bestaat uit bijsnijden met willekeurige grootte, Mixup, kleurjitter, Willekeurig wissen, CutMix en Rand Augment. De volgende tabel geeft een overzicht van de prestaties van de Mamba-modellenfamilie, het MambaOut-model en andere op aandacht gebaseerde en convolutiemodellen op de ImageNet-gegevensset. Zoals u kunt zien, presteert het MambaOut-framework zonder het toestandsruimtemodel consistent beter dan visuele Mamba-modellen met SSM in alle modelgroottes.

Het MambaOut-Small-model retourneert bijvoorbeeld een top-1-nauwkeurigheidsscore van meer dan 84%, 0.4% hoger dan de dichtstbijzijnde Mamba-concurrent. Dit resultaat ondersteunt krachtig de eerste hypothese die beweert dat de introductie van een toestandsruimtemodel voor beeldclassificatietaken niet nodig is.

Taken voor objectdetectie en instancesegmentatie

COCO dient als benchmark voor objectdetectie- en instantiesegmentatietaken. Hoewel het MambaOut-framework de prestaties van sommige visuele Mamba-modellen kan overtreffen, schiet het nog steeds tekort bij de modernste visuele Mamba-modellen, waaronder LocalVMamba en VMamba. Het verschil in prestaties van MambaOut ten opzichte van de modernste visuele modellen benadrukt de voordelen van het integreren van de Mamba-modellenfamilie in visuele taken met een lange reeks. Het is echter vermeldenswaard dat er nog steeds een aanzienlijke prestatiekloof bestaat tussen de modernste convolutie-aandacht-hybride modellen en visuele Mamba-modellen.

Conclusie

In dit artikel hebben we de concepten van de Mamba-modellenfamilie besproken en geconcludeerd dat deze geschikt is voor taken met autoregressieve en lange-sequentiële kenmerken. MambaOut is een werk dat probeert de essentie van het Mamba-framework te doorgronden en te beantwoorden of Mamba bij uitstek geschikt is voor taken met autoregressieve en lange-sequentiële kenmerken. Het MambaOut-framework veronderstelt dat Mamba niet nodig is voor zichttaken, aangezien beeldclassificatie niet aansluit bij lange-sequentiële of autoregressieve kenmerken. Hoewel segmentatie- en detectietaken ook niet autoregressief zijn, vertonen ze kenmerken van lange reeksen, waardoor het MambaOut-framework het potentieel van Mamba voor deze taken veronderstelt. Het MambaOut-framework is geconstrueerd door Mamba-blokken op elkaar te stapelen terwijl het toestandsruimtemodel, de kerntokenmixer, wordt verwijderd. De experimentele resultaten ondersteunen de hypothese van het MambaOut-framework, omdat het alle visuele Mamba-modellen op het ImageNet-framework voor beeldclassificatie kan overtreffen, wat aangeeft dat de Mamba niet nodig is voor zichttaken. Aan de andere kant is het MambaOut-framework voor detectie- en segmentatietaken niet in staat de prestaties van het geavanceerde Mamba-model te repliceren, wat het potentieel van de Mamba-modellenfamilie voor visuele taken met een lange reeks aantoont.

Silicium benutten: hoe interne chips de toekomst van AI vormgeven

Mis het niet

CameraCtrl: Camerabediening inschakelen voor het genereren van tekst naar video

Kunal Kejriwal

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.

Verenig.AI

MambaOut: hebben we Mamba echt nodig voor visie?

Artificial Intelligence

MambaOut: hebben we Mamba echt nodig voor visie?

Inhoudsopgave

MambaOut: is Mamba echt nodig voor zicht?

Voor welke taken is Mamba geschikt?

Visuele herkenningstaken, causale tokenmixcode en zeer grote reeksen

Experimentele verificatie en resultaten

Taak voor beeldclassificatie

Taken voor objectdetectie en instancesegmentatie

Conclusie

Recente Nieuws

Verenig.AI

MambaOut: hebben we Mamba echt nodig voor visie?

Inhoudsopgave

MambaOut: is Mamba echt nodig voor zicht?

Voor welke taken is Mamba geschikt?

Visuele herkenningstaken, causale tokenmixcode en zeer grote reeksen

Experimentele verificatie en resultaten

Taak voor beeldclassificatie

Taken voor objectdetectie en instancesegmentatie

Conclusie

Misschien vind je het leuk

Recente Nieuws