Inteligență artificială
MambaOut: Avem nevoie realmente de Mamba pentru Viziune?
În cadrul modern al învățării automate și al inteligenței artificiale, transformatorii sunt una dintre componentele cel mai frecvent utilizate în diverse domenii, inclusiv seria GPT, BERT în Procesarea Limbajului Natural și Transformatori de Viziune în sarcinile de viziune computerizată. Deși includerea transformatorilor în arhitectura modelului oferă o îmbunătățire semnificativă a performanței modelului, modulul de atenție din Transformatori se scalează cu lungimea secvenței în mod quadratic, ducând la provocări computaționale semnificative. De-a lungul anilor, diferite modele au explorat strategii diferite pentru a aborda provocările computaționale, inclusiv metode precum kernelizarea, comprimarea memoriei istorice, limitarea gamei de amestecare a token-urilor și abordări de rang scăzut. Recent, Rețelele Neurale Recurente, cum ar fi metodele Mamba și RWKV, au atras o atenție semnificativă datorită rezultatelor lor promițătoare în modelele de limbaj mare.
Mamba, o familie de modele, are o arhitectură cu un amestecător de token-uri recurent neural, similar cu un model de spațiu de stare, care a fost introdus recent pentru a aborda complexitatea quadratică a mecanismelor de atenție și a fost aplicat ulterior sarcinilor de viziune. Cercetătorii au explorat deja modalități de a incorpora Mamba și SSM sau Modelul de Spațiu de Stare în sarcinile de recunoaștere vizuală, iar Vision Mamba, care incorporează Mamba pentru a dezvolta modele de viziune izotrope, similare cu Transformatorul de Viziune, este un exemplu excelent. Pe de altă parte, LocalMamba incorporează prejudecăți inductive locale pentru a îmbunătăți modelele de viziune Mamba, iar cadrul VMamba utilizează modelul de bază Mamba pentru a construi modele ierarhice, similare cu ResNet și AlexNet. Cu toate acestea, este realmente esențială cadrul Mamba pentru sarcinile de context de recunoaștere vizuală? Întrebarea apare deoarece performanța familiei de modele Mamba pentru sarcinile de viziune a fost slabă până acum, comparativ cu modelele tradiționale bazate pe atenție și convoluție.
MambaOut încearcă să răspundă la întrebarea dacă Mamba este ideal potrivit pentru sarcinile cu caracteristici autoregresive și de secvență lungă. Cadrul MambaOut presupune că Mamba nu este necesar pentru sarcinile de viziune, deoarece clasificarea imaginilor nu se aliniază nici cu caracteristicile autoregresive, nici cu cele de secvență lungă. Deși sarcinile de segmentare și detectare nu sunt autoregresive, ele prezintă caracteristici de secvență lungă, ceea ce face ca cadrul MambaOut să presupună potențialul Mamba pentru aceste sarcini. Cadrul MambaOut este construit prin suprapunerea blocurilor Mamba unele peste altele, înlăturând modelul de spațiu de stare, amestecătorul său de token-uri de bază. Rezultatele experimentale susțin ipoteza propusă de cadrul MambaOut, deoarece este capabil să depășească toate modelele de viziune Mamba pe cadrul de clasificare a imaginilor ImageNet, indicând faptul că Mamba nu este necesar pentru sarcinile de viziune. Pe de altă parte, pentru sarcinile de detectare și segmentare, cadrul MambaOut nu reușește să reproducă performanța oferită de modelul Mamba de ultimă generație, demonstrând potențialul familiei de modele Mamba pentru sarcinile de viziune cu secvențe lungi.
Acest articol își propune să acopere cadrul MambaOut în profunzime, și vom explora mecanismul, metodologia, arhitectura cadrului, împreună cu comparația sa cu cadrele de ultimă generație. Așadar, să începem.
MambaOut: Este Mamba realmente necesar pentru Viziune?
Odată cu progresul aplicațiilor de învățare automată și a capacităților sale, Transformatorii au devenit coloana vertebrală a unei game largi de sarcini, alimentând modele proeminente, inclusiv Transformatorii de Viziune, seria de modele GPT, BERT, și multe altele. Cu toate acestea, amestecătorul de token-uri al transformatorului implică o complexitate quadratică în raport cu lungimea secvenței și prezintă provocări computaționale semnificative pentru secvențele mai lungi. Pentru a aborda această problemă, au fost introduse numeroase amestecătoare de token-uri cu complexitate liniară față de lungimea token-ului, cum ar fi Linformer, Longformer, Performer, Convoluția Dinamică și Big Bird. Cu toate acestea, în ultimul timp, modelele de tip Rețea Neurală Recurentă, cum ar fi metodele Mamba și RWKV, au atras o atenție semnificativă datorită rezultatelor lor promițătoare în modelele de limbaj mare.
Mamba, o familie de modele, are o arhitectură cu un amestecător de token-uri recurent neural, similar cu un model de spațiu de stare, care a fost introdus recent pentru a aborda complexitatea quadratică a mecanismelor de atenție și a fost aplicat ulterior sarcinilor de viziune. Cercetătorii au explorat deja modalități de a incorpora Mamba și SSM sau Modelul de Spațiu de Stare în sarcinile de recunoaștere vizuală, iar Vision Mamba, care incorporează Mamba pentru a dezvolta modele de viziune izotrope, similare cu Transformatorul de Viziune, este un exemplu excelent. Pe de altă parte, LocalMamba incorporează prejudecăți inductive locale pentru a îmbunătăți modelele de viziune Mamba, iar cadrul VMamba utilizează modelul de bază Mamba pentru a construi modele ierarhice, similare cu ResNet și AlexNet. Cu toate acestea, este realmente esențială cadrul Mamba pentru sarcinile de context de recunoaștere vizuală? Întrebarea apare deoarece performanța familiei de modele Mamba pentru sarcinile de viziune a fost slabă până acum, comparativ cu modelele tradiționale bazate pe atenție și convoluție.
MambaOut este o încercare de a investiga natura familiei de modele Mamba și rezumă că Mamba este potrivit pentru sarcinile care sunt fie autoregresive, fie cu secvențe lungi, deoarece modelul de spațiu de stare are un mecanism RNN înrudit. Cu toate acestea, majoritatea sarcinilor de viziune nu prezintă ambele caracteristici, și pe baza unor experimente, MambaOut propune două ipoteze. Prima, modelul de spațiu de stare nu este necesar pentru clasificarea imaginilor, deoarece clasificarea imaginilor nu se aliniază nici cu caracteristicile autoregresive, nici cu cele de secvență lungă. A doua, modelele de spațiu de stare pot fi benefice pentru segmentarea instanțelor și segmentarea semantică, împreună cu detectarea obiectelor, deoarece acestea prezintă caracteristici de secvență lungă, deși nu sunt autoregresive. Rezultatele experimentale efectuate pentru a analiza mecanismul de tip Rețea Neurală Recurentă al modelului de spațiu de stare concluzionează că cadrul Mamba este potrivit pentru sarcinile cu caracteristici autoregresive sau de secvență lungă și este inutil pentru sarcinile de clasificare a imaginilor. În ceea ce privește cadrul MambaOut însuși, acesta este o serie de modele Mamba bazate pe blocuri de Rețea Neurală Convoluțională Gated, fără modelul de spațiu de stare, și rezultatele experimentale indică faptul că cadrul MambaOut este capabil să depășească modelele Mamba în sarcinile de clasificare a imaginilor, dar nu reușește să reproducă performanța în sarcinile de detectare și segmentare a imaginilor.
Pentru ce sarcini este potrivit Mamba?
Amestecătorul de token-uri al cadrului Mamba este un model de spațiu de stare selectiv care definește patru parametri dependenți de intrare. Proprietatea recurentă a cadrului distinge modelele RNN de tip spațiu de stare de atenția cauzală. Starea ascunsă poate fi văzută ca o memorie de dimensiune fixă care stochează informații istorice. Dimensiunea fixă înseamnă că memoria este pierzătoare, dar asigură și faptul că complexitatea computațională a integrării memoriei cu intrarea curentă rămâne constantă. În schimb, straturile de atenție cauzală stochează toate cheile și valorile de la token-urile precedente și se extind prin adăugarea cheii și valorii token-ului curent cu fiecare intrare nouă, și această memorie este nepierzătoare, teoretic. Cu toate acestea, dimensiunea memoriei crește pe măsură ce se introduc mai multe token-uri, ceea ce crește complexitatea integrării memoriei cu intrarea curentă. Diferența dintre mecanismele de memorie dintre atenția cauzală și modelele RNN este ilustrată în figura de mai jos.

Deoarece memoria modelului de spațiu de stare este în mod inerent pierzătoare, ea nu se ridică la nivelul memoriei nepierzătoare a atenției cauzale, și ca urmare, modelele Mamba nu pot demonstra puterea lor în manipularea secvențelor scurte, o zonă în care mecanismul de atenție cauzală funcționează bine. Cu toate acestea, în scenariile care implică secvențe lungi, abordarea atenției cauzale se confruntă cu complexitatea quadratică. În acest scenariu, cadrul Mamba demonstrează eficiența sa în integrarea memoriei cu intrarea curentă și este capabil să manipuleze secvențe lungi cu ușurință, indicând faptul că familia de modele Mamba este potrivită pentru procesarea secvențelor lungi.
Este, de asemenea, important de remarcat că, pe de o parte, natura recurentă a modelului de spațiu de stare permite modelelor Mamba să manipuleze eficient secvențe lungi, dar introduce și o anumită limitare, deoarece poate accesa informații doar din timpul curent și din timpurile precedente, și acest tip de amestecare a token-urilor este numit mod cauzal, și este ilustrat în figura de mai jos. Din cauza naturii sale cauzale, această metodă este potrivită pentru sarcinile de generare autoregresivă.

Modul cu vizibilitate completă este potrivit pentru sarcinile de înțelegere în care modelul poate accesa toate intrările odată. Mai mult, atenția este, în mod implicit, în modul cu vizibilitate completă, și poate fi transformată în mod cauzal cu ușurință prin aplicarea de măști cauzale asupra hartilor de atenție, și modelele RNN funcționează în mod inerent în mod cauzal datorită proprietăților lor recurente. Pentru a rezuma, cadrul Mamba este potrivit pentru sarcinile care implică procesarea secvențelor lungi sau sarcinile care necesită modul de amestecare a token-urilor cauzal.
Sarcinile de Recunoaștere Vizuală, Codul de Amestecare a Token-urilor Cauzal și Secvențele Foarte Lungi
Așa cum s-a discutat anterior, modul de amestecare a token-urilor cu vizibilitate completă permite o gamă nelimitată de amestecare, în timp ce modul cauzal limitează token-ul curent să acceseze doar informațiile de la token-urile precedente. Mai mult, recunoașterea vizuală este categorisită ca o sarcină de înțelegere în care modelul poate vedea întreaga imagine odată, și acest lucru elimină nevoia de restricții asupra amestecării token-urilor, și impunerea de constrângeri suplimentare asupra amestecării token-urilor poate degrada performanța modelului în mod potențial. În general, modul cu vizibilitate completă este adecvat pentru sarcinile de înțelegere, în timp ce modul cauzal se potrivește mai bine sarcinilor autoregresive. Mai mult, această afirmație este susținută și de faptul că modelele BeRT și ViT sunt utilizate mai mult pentru sarcinile de înțelegere decât modelele GPT.
Verificare Experimentală și Rezultate
Următorul pas este de a verifica ipotezele propuse de cadrul MambaOut în mod experimental. Așa cum se demonstrează în imaginea de mai jos, blocul Mamba se bazează pe blocul de Rețea Neurală Convoluțională Gated, și meta-arhitectura blocurilor Mamba și Gated CNN poate fi tratată ca o integrare simplificată a amestecătorului de token-uri al cadrului MetaFormer și a unui MLP.

Blocul Mamba extinde blocul de Rețea Neurală Convoluțională Gated cu un model de spațiu de stare suplimentar, și prezența unui SSm este ceea ce diferențiază blocul Gated CNN și blocul Mamba. Mai mult, pentru a îmbunătăți viteza practică, cadrul MambaOut efectuează doar convoluție depthwise pe canale parțiale, și așa cum se demonstrează în algoritmul de mai jos, implementarea blocului Gated CNN este simplă, dar eficientă și elegantă.

Sarcina de Clasificare a Imaginilor
ImageNet servește ca o bază de referință pentru sarcinile de clasificare a imaginilor, deoarece constă în peste o mie de clase comune, peste 1,3 milioane de imagini de antrenament și peste 50.000 de imagini de validare. Augmentarea datelor utilizată pentru experiment constă în recoltare random, Mixup, jitter de culoare, ștergere random, CutMix și Rand Augment. Tabelul de mai jos rezumă performanța familiei de modele Mamba, a modelului MambaOut și a altor modele bazate pe atenție și convoluție pe setul de date ImageNet. Așa cum se poate vedea, cadrul MambaOut fără modelul de spațiu de stare depășește în mod constant modelele de viziune Mamba cu SSM pentru toate dimensiunile modelului.

De exemplu, modelul MambaOut-Small returnează un scor de acuratețe de peste 84%, cu 0,4% mai mare decât competitorul său Mamba cel mai apropiat. Acest rezultat susține puternic prima ipoteză care afirmă că introducerea unui model de spațiu de stare pentru sarcinile de clasificare a imaginilor nu este necesară.
Sarcinile de Detectare a Obiectelor și Segmentare a Instanțelor
COCO servește ca o bază de referință pentru sarcinile de detectare a obiectelor și segmentare a instanțelor. Deși cadrul MambaOut este capabil să depășească performanța unor modele de viziune Mamba, el nu reușește să reproducă performanța oferită de modelele de viziune Mamba de ultimă generație, inclusiv LocalVMamba și VMamba. Disparitatea în performanță a cadrului MambaOut față de modelele de viziune de ultimă generație subliniază beneficiile integrării familiei de modele Mamba în sarcinile de viziune cu secvențe lungi. Cu toate acestea, este important de remarcat că o diferență semnificativă de performanță încă există între modelele de viziune de ultimă generație bazate pe convoluție și atenție și modelele de viziune Mamba.

Gânduri Finale
Familia de modele Mamba pare să fie potrivită pentru sarcinile care implică caracteristici autoregresive și de secvență lungă. Cadrul MambaOut presupune că Mamba nu este necesar pentru sarcinile de viziune, deoarece clasificarea imaginilor nu se aliniază nici cu caracteristicile autoregresive, nici cu cele de secvență lungă. Deși sarcinile de segmentare și detectare nu sunt autoregresive, ele prezintă caracteristici de secvență lungă, ceea ce face ca cadrul MambaOut să presupună potențialul Mamba pentru aceste sarcini. Cadrul MambaOut este construit prin suprapunerea blocurilor Mamba unele peste altele, înlăturând modelul de spațiu de stare, amestecătorul său de token-uri de bază. Rezultatele experimentale susțin ipoteza propusă de cadrul MambaOut, deoarece este capabil să depășească toate modelele de viziune Mamba pe cadrul de clasificare a imaginilor ImageNet, indicând faptul că Mamba nu este necesar pentru sarcinile de viziune. Pe de altă parte, pentru sarcinile de detectare și segmentare, cadrul MambaOut nu reușește să reproducă performanța oferită de modelul Mamba de ultimă generație, demonstrând potențialul familiei de modele Mamba pentru sarcinile de viziune cu secvențe lungi.












