csonk MambaOut: Valóban szükségünk van Mamba a Visionhoz? - Egyesüljetek.AI
Kapcsolatba velünk

Mesterséges Intelligencia

MambaOut: Valóban szükségünk van Mamba a Visionhoz?

mm

Közzététel:

 on

A modern gépi tanulási és mesterséges intelligencia keretrendszerekben a transzformátorok az egyik legszélesebb körben használt komponensek a különböző területeken, beleértve a GPT sorozatot és a BERT-et a természetes nyelvi feldolgozásban, valamint a Vision Transformers-t a számítógépes látási feladatokban. Bár a transzformátorok bevonása a modellarchitektúrába jelentős lökést ad a modell teljesítményében, a Transformers figyelmi modulja négyzetesen skálázza a sorozathosszt, ami nagy számítási kihívásokhoz vezet. Az évek során különböző modellek különböző stratégiákat fedeztek fel a számítási kihívások leküzdésére, beleértve az olyan módszereket, mint a kernelizálás, az előzménymemória-tömörítés, a token keverési tartomány korlátozása és az alacsony szintű megközelítések. A közelmúltban a visszatérő neurális hálózatok, például a Mamba és az RWKV módszerek jelentős figyelmet kaptak a nagy nyelvi modellekben elért ígéretes eredményeik miatt. 

A Mamba, egy modellcsalád olyan architektúrával rendelkezik, amely egy Recurrent Neural Network, mint egy állapottér-modell token keverője, a közelmúltban mutatkozott be a figyelemmechanizmusok kvadratikus összetettségének kezelésére, és ezt követően látási feladatokra is alkalmazták. A kutatók már megvizsgálták a Mamba és az SSM vagy State Space Model vizuális felismerési feladatokba való beépítésének módjait, és a Vision Mamba, amely a Mambát alkalmazza a Vision Transformerhez hasonló izotróp látásmodellek kifejlesztéséhez, ennek nagyszerű példája. Másrészt a LocalMamba helyi induktív torzításokat tartalmaz a vizuális Mamba modellek javítása érdekében, a VMamba keretrendszer pedig az alap Mamba modellt használja a ResNethez és az AlexNethez hasonló hierarchikus modellek felépítéséhez. A Mamba keretrendszer azonban valóban elengedhetetlen a vizuális felismerési kontextusfeladatokhoz? A kérdés azért merül fel, mert a Mamba modellcsalád látási feladatokra vonatkozó teljesítménye eddig elsöprőnek bizonyult a hagyományos figyelem alapú és konvolúciós modellekhez képest. 

A MambaOut egy olyan munka, amely megpróbálja elmélyülni a Mamba keretrendszer lényegében, és megválaszolni, hogy a Mamba ideális-e az autoregresszív és hosszú szekvenciájú feladatokhoz. A MambaOut keretrendszer azt feltételezi, hogy a Mamba nem szükséges a látási feladatokhoz, mivel a képosztályozás nem igazodik sem a hosszú sorozatú, sem az autoregresszív jellemzőkhöz. Bár a szegmentálási és észlelési feladatok szintén nem autoregresszívek, hosszú szekvenciájú jellemzőket mutatnak, ami arra készteti a MambaOut keretrendszert, hogy feltételezze a Mamba potenciálját ezekre a feladatokra. A MambaOut keretrendszer úgy épül fel, hogy a Mamba blokkokat egymásra rakják, miközben eltávolítják az állapottér-modellt, a mag token keverőjét. A kísérleti eredmények alátámasztják a MambaOut keretrendszer által felállított hipotézist, mivel képes felülmúlni az ImageNet képosztályozási keretrendszer összes vizuális Mamba modelljét, jelezve, hogy a Mamba nem szükséges a látási feladatokhoz. Másrészt az észlelési és szegmentálási feladatokhoz a MambaOut keretrendszer nem képes megismételni a legkorszerűbb Mamba modell által kínált teljesítményt, bemutatva a Mamba modellcsaládban rejlő lehetőségeket a hosszú sorozatú vizuális feladatokhoz. 

Ennek a cikknek a célja a MambaOut keretrendszer részletes bemutatása, és megvizsgáljuk a keretrendszer mechanizmusát, módszertanát, architektúráját, valamint összehasonlítását a legkorszerűbb keretrendszerekkel. Tehát kezdjük. 

MambaOut: Valóban szükség van Mamba a látáshoz?

A gépi tanulási alkalmazások és képességek fejlődésével a Transformers számos feladat fő gerincévé vált, és kiemelkedő modelleket biztosít, mint pl. Vision Transformers, GPT modellsorozat, BERT és még néhány. A transzformátor token keverője azonban a szekvencia hosszát tekintve négyzetes bonyolultságú, és jelentős kihívásokat jelent a hosszabb sorozatok esetében. A probléma megoldása érdekében számos lineáris komplexitású token-hosszúságú tokenkeverőt vezettek be, mint például a Linformer, a Longformer, a Performer, a Dynamic Convolution és a Big Bird. Az utóbbi időben azonban a Recurrent Neural Network-szerű modellek egyre előtérbe kerülnek, mivel képesek párhuzamosítani a képzést, és hatékony teljesítményt nyújtanak hosszabb sorozatokon. Az RNN-szerű modellek által kínált figyelemre méltó teljesítménytől vezérelve a kutatók megpróbálják bevezetni és felhasználni a Mamba modellcsaládot vizuális felismerési feladatokban, mivel a Mamba modellek token keverője a strukturált állapottér modell a Recurrent Neural Networks szellemében. . A kísérleti eredmények azonban azt mutatják, hogy az állapottérmodell-alapú látási keretrendszerek túlnyomórészt a valós látási feladatokban teljesítenek, összehasonlítva a figyelemalapú és a legkorszerűbb konvolúciós modellekkel. 

A MambaOut kísérlet arra, hogy megvizsgálja a Mámba kígyó modellcsalád, és összefoglalja, hogy a Mamba alkalmas olyan feladatokra, amelyek akár autoregresszívek, akár hosszú sorozatúak, mivel az állapottér-modellben rejlő RNN-mechanizmus található. A látási feladatok többsége azonban nem rendelkezik mindkét jellemzővel, és néhány kísérlet alapján a MambaOut a következő két hipotézist javasolja. Először is, az állapottér-modell nem szükséges a képosztályozáshoz, mivel a képosztályozási feladat nem felel meg sem az autoregresszív, sem a hosszú sorozatú jellemzőknek. Másodszor, az állapottér modellek hipotetikusan előnyösek lehetnek például a szegmentáció és a szemantikai szegmentáció esetében az objektumdetektálás mellett, mivel követik a hosszú sorozat jellemzőit, bár nem autoregresszívek. A Recurrent Neural Network-szerű állapottér-modell mechanizmusának elemzésére végzett kísérleti eredmények arra a következtetésre jutottak, hogy a Mamba keretrendszer alkalmas autoregresszív vagy hosszú szekvenciájú feladatokra, és nem szükséges képosztályozási feladatokhoz. Magához a MambaOut keretrendszerhez érve, ez Mamba modellek sorozata, amelyek kapuzott konvolúciós neurális hálózat blokkjain alapulnak állapottér modell nélkül, és a kísérleti eredmények azt mutatják, hogy a MambaOut keretrendszer képes felülmúlni a Mamba modelleket a képosztályozási feladatokban, de nem replikál. a képfelismerési és szegmentálási feladatok teljesítménye. 

Milyen feladatokra alkalmas a Mamba?

A Mamba keretrendszer tokenkeverője egy szelektív állapottér modell, amely négy bemenettől függő paramétert határoz meg. A keretrendszer visszatérő tulajdonsága megkülönbözteti az RNN-szerű állapottér modelleket az oksági figyelemtől. A rejtett állapot egy rögzített méretű memóriának tekinthető, amely történelmi információkat tárol. A fix méret azt jelenti, hogy a memória veszteséges, de azt is biztosítja, hogy az aktuális bemenettel való memória integrálásának számítási bonyolultsága állandó maradjon. Ezzel szemben az ok-okozati figyelemrétegek tárolják az összes kulcsot és értéket az előző tokenekből, és minden új bemenettel kibővülnek az aktuális token kulcsának és értékének hozzáadásával, és ez a memória elméletileg veszteségmentes. A memória mérete azonban növekszik, ahogy több token kerül beadásra, ami megnöveli a memória és az aktuális bemenet integrálásának bonyolultságát. Az oksági figyelem és az RNN-szerű modellek memóriamechanizmusai közötti különbséget a következő ábra szemlélteti. 

Mivel az állapottérmodell memóriája eredendően veszteséges, elmarad az oksági figyelem veszteségmentes emlékezetétől, és ennek eredményeként a Mamba modellek nem tudja kimutatni erejét a rövid sorozatok kezelésében, ahol az ok-okozati figyelem mechanizmusa könnyedén működik. Azonban a hosszú sorozatokat tartalmazó forgatókönyvekben az ok-okozati figyelem megközelítése a kvadratikus összetettség miatt megingat. Ebben a forgatókönyvben a Mamba keretrendszer bemutatja a memória és az aktuális bemeneti bemenettel való összevonásának hatékonyságát, és zökkenőmentesen képes kezelni a hosszú sorozatokat, ami azt jelzi, hogy a Mamba modellcsalád kiválóan alkalmas hosszú sorozatok feldolgozására. 

Azt is érdemes megjegyezni, hogy egyrészt ahol az állapottér-modell visszatérő jellege lehetővé teszi a Mamba modellek számára a hosszú sorozatok hatékony kezelését, ez egy bizonyos korlátot vezet be, mivel csak az aktuális és a korábbi időlépésekből férhet hozzá információkhoz, és ez a fajta a token keverést oksági módnak nevezzük, és a következő ábra szemlélteti. Ok-okozati jellege miatt ez a módszer alkalmas autoregresszív generálási feladatok

A teljesen látható mód olyan feladatok megértésére alkalmas, ahol a modell egyszerre tud hozzáférni az összes bemenethez. Ezenkívül a figyelem alapértelmezés szerint teljesen látható módban van, és könnyen kauzális módba alakítható a figyelemtérképekre kauzális maszkokkal, az RNN-szerű modellek pedig visszatérő tulajdonságaik miatt oksági módban működnek. Összefoglalva, a Mamba keretrendszer olyan feladatokra alkalmas, amelyek hosszú sorozatok feldolgozását foglalják magukban, vagy olyan feladatokat, amelyek ok-okozati token keverési módot igényelnek.

Vizuális felismerési feladatok, ok-okozati token keverési kód és nagyon nagy szekvenciák

Amint azt korábban tárgyaltuk, a teljesen látható tokenkeverési mód korlátlan keverési tartományt tesz lehetővé, míg az ok-okozati mód korlátozza, hogy az aktuális token csak az előző tokenek információihoz férhessen hozzá. Ezen túlmenően a vizuális felismerés olyan megértési feladatként van besorolva, ahol a modell egyszerre láthatja a teljes képet, és ez kiküszöböli a tokenkeverésre vonatkozó korlátozások szükségességét, és a tokenkeverésre vonatkozó további megszorítások ronthatják a modell teljesítményét. Általában a teljesen látható mód alkalmas a feladatok megértésére, míg az alkalmi mód jobban megfelel az autoregresszív feladatoknak. Továbbá ezt az állítást alátámasztja az a tény is, hogy a BeRT és a ViT modelleket jobban használják a feladatok megértésére, mint a GPT modelleket.

Kísérleti ellenőrzés és eredmények

A következő lépés a MambaOut keretrendszer által javasolt hipotézisek kísérleti ellenőrzése. Amint az a következő képen látható, a Mamba blokk a kapuzott konvolúciós neurális hálózat blokkon alapul, és a Mamba és a Gated CNN blokkok meta-architektúrája a MetaFormer keretrendszer tokenkeverőjének és egy MLP-nek egyszerűsített integrációjaként kezelhető. . 

A Mamba blokk kiterjeszti a kapuzott konvolúciós neurális hálózatot egy további állapottér modellel, és az SSm jelenléte az, ami megkülönbözteti a kapuzott CNN-t és a Mamba blokkot. Továbbá a gyakorlati sebesség javítása érdekében a MambaOut keretrendszer csak részcsatornákon hajt végre mélységi konvolúciót, és amint azt a következő algoritmus is bemutatja, a Gated CNN blokk megvalósítása egyszerű, mégis hatékony és elegáns. 

Képosztályozási feladat

Az ImageNet a képosztályozási feladatok viszonyítási alapja, mivel több mint ezer általános osztályból, több mint 1.3 millió képzési képből és több mint 50,000 XNUMX érvényesítési képből áll. A kísérlethez használt adatbővítés véletlenszerűen átméretezett kivágásból, keverésből, színrezgésből, véletlenszerű törlésből, CutMixből és Rand Augmentből áll. Az alábbi táblázat összefoglalja a Mamba modellcsalád, a MambaOut modell és más figyelem alapú és konvolúciós modellek teljesítményét az ImageNet adatkészleten. Amint látható, az állapottér-modell nélküli MambaOut keretrendszer minden modellméretben következetesen felülmúlja az SSM-mel rendelkező vizuális Mamba modelleket. 

Például a MambaOut-Small modell 1%-ot meghaladó pontossági pontszámot ad vissza, ami 84%-kal magasabb, mint a legközelebbi Mamba versenytárs. Ez az eredmény erősen alátámasztja azt az első hipotézist, amely azt állítja, hogy a képosztályozási feladatokhoz nem szükséges állapottér modellt bevezetni. 

Objektumészlelési és példányszegmentálási feladatok

A COCO viszonyítási alapként szolgál az objektumészlelési és példányszegmentálási feladatokhoz. Bár a MambaOut keretrendszer képes felülmúlni néhány vizuális Mamba modell teljesítményét, még mindig elmarad a legkorszerűbb vizuális Mamba modellektől, beleértve a LocalVMambát és a VMambát. A MambaOut és a legkorszerűbb vizuális modellek teljesítményének különbsége hangsúlyozza a Mamba modellcsalád hosszú sorozatú vizuális feladatokba való integrálásának előnyeit. Érdemes azonban megjegyezni, hogy még mindig jelentős a teljesítménybeli különbség a korszerű konvolúció-figyelem-hibrid modellek és a vizuális Mamba modellek között. 

Záró gondolatok

Ebben a cikkben a Mamba modellcsalád koncepcióit tárgyaltuk, és arra a következtetésre jutottunk, hogy alkalmas autoregresszív és hosszú szekvenciájú jellemzőket tartalmazó feladatokra. A MambaOut egy olyan munka, amely megpróbálja elmélyülni a Mamba keretrendszer lényegében, és megválaszolni, hogy a Mamba ideális-e az autoregresszív és hosszú szekvenciájú feladatokhoz. A MambaOut keretrendszer azt feltételezi, hogy a Mamba nem szükséges a látási feladatokhoz, mivel a képosztályozás nem igazodik sem a hosszú sorozatú, sem az autoregresszív jellemzőkhöz. Bár a szegmentálási és észlelési feladatok szintén nem autoregresszívek, hosszú szekvenciájú jellemzőket mutatnak, ami arra készteti a MambaOut keretrendszert, hogy feltételezze a Mamba potenciálját ezekre a feladatokra. A MambaOut keretrendszer úgy épül fel, hogy a Mamba blokkokat egymásra rakják, miközben eltávolítják az állapottér-modellt, a mag token keverőjét. A kísérleti eredmények alátámasztják a MambaOut keretrendszer által felállított hipotézist, mivel képes felülmúlni az ImageNet képosztályozási keretrendszer összes vizuális Mamba modelljét, jelezve, hogy a Mamba nem szükséges a látási feladatokhoz. Másrészt az észlelési és szegmentálási feladatokhoz a MambaOut keretrendszer nem képes megismételni a legkorszerűbb Mamba modell által kínált teljesítményt, bemutatva a Mamba modellcsaládban rejlő lehetőségeket a hosszú sorozatú vizuális feladatokhoz. 

 

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.