Inteligență artificială
MambaOut: Este Mamba Cu Adevărat Necessar Pentru Viziune?
În cadrul modern al învățării automate și al inteligenței artificiale, transformatorii sunt una dintre componentele cel mai frecvent utilizate în diverse domenii, inclusiv seria GPT și BERT în prelucrarea limbajului natural, precum și Transformatorii de Viziune în sarcinile de viziune computerizată. Deși includerea transformatorilor în arhitectura modelului oferă o îmbunătățire semnificativă a performanței modelului, modulul de atenție din Transformatori se scalează cu lungimea secvenței în mod quadratic, ceea ce duce la provocări computaționale semnificative. De-a lungul anilor, diverse modele au explorat strategii diferite pentru a aborda provocările computaționale, inclusiv metode precum kernelizarea, comprimarea memoriei istorice, limitarea gamei de amestecare a tokenilor și abordările de rang scăzut. Recent, Rețelele Neuronale Recurente, cum ar fi metodele Mamba și RWKV, au atras o atenție semnificativă datorită rezultatelor lor promițătoare în modelele de limbaj mare.
Mamba, o familie de modele, are o arhitectură cu un amestecător de tokenuri neuronale recurente, similar cu un model de spațiu de stare, care a fost introdus recent pentru a aborda complexitatea quadratică a mecanismelor de atenție și a fost aplicat ulterior sarcinilor de viziune. Cercetătorii au explorat deja modalități de a incorpora Mamba și SSM (Model de Spațiu de Stare) în sarcini de recunoaștere vizuală, iar Vision Mamba, care incorporează Mamba pentru a dezvolta modele de viziune izotrope, similare cu Transformatorul de Viziune, este un exemplu excelent. Pe de altă parte, LocalMamba incorporează prejudecăți inductive locale pentru a îmbunătăți modelele vizuale Mamba, iar framework-ul VMamba utilizează modelul de bază Mamba pentru a construi modele ierarhice, similare cu ResNet și AlexNet. Cu toate acestea, este framework-ul Mamba cu adevărat esențial pentru sarcinile de context vizual? Întrebarea apare deoarece performanța familiei de modele Mamba pentru sarcinile de viziune a fost slabă până acum, în comparație cu modelele tradiționale bazate pe atenție și convoluție.
MambaOut încearcă să răspundă la întrebarea dacă Mamba este ideal pentru sarcini cu caracteristici autoregresive și de secvență lungă. Framework-ul MambaOut presupune că Mamba nu este necesar pentru sarcinile de viziune, deoarece clasificarea imaginilor nu se aliniază nici cu caracteristicile de secvență lungă, nici cu cele autoregresive. Deși sarcinile de segmentare și detectare nu sunt autoregresive, ele prezintă caracteristici de secvență lungă, ceea ce face ca framework-ul MambaOut să presupună potențialul Mamba pentru aceste sarcini. Framework-ul MambaOut este construit prin suprapunerea blocurilor Mamba unele peste altele, înlăturând modelul de spațiu de stare, amestecătorul său de tokenuri principal. Rezultatele experimentale susțin ipoteza propusă de framework-ul MambaOut, deoarece este capabil să depășească toate modelele vizuale Mamba pe framework-ul de clasificare a imaginilor ImageNet, indicând faptul că Mamba nu este necesar pentru sarcinile de viziune. Pe de altă parte, pentru sarcinile de detectare și segmentare, framework-ul MambaOut nu este capabil să reproducă performanța oferită de modelul Mamba de ultimă generație, demonstrând potențialul familiei de modele Mamba pentru sarcinile vizuale cu secvențe lungi.
Acest articol își propune să acopere framework-ul MambaOut în profunzime și explorăm mecanismul, metodologia, arhitectura framework-ului, împreună cu comparația sa cu framework-urile de ultimă generație. Deci, să începem.
MambaOut: Este Mamba Cu Adevărat Necessar Pentru Viziune?
Odată cu progresul aplicațiilor și capacităților de învățare automată, Transformatorii au devenit coloana vertebrală principală pentru o gamă largă de sarcini, alimentând modele proeminente, cum ar fi Transformatorii de Viziune, seria GPT de modele, BERT și altele. Cu toate acestea, amestecătorul de tokenuri al transformatorului implică o complexitate quadratică în raport cu lungimea secvenței și prezintă provocări computaționale semnificative pentru secvențele mai lungi. Pentru a aborda această problemă, au fost introduse diverse amestecătoare de tokenuri cu complexitate liniară față de lungimea tokenului, cum ar fi Linformer, Longformer, Performer, Convoluția Dinamică și Big Bird. Cu toate acestea, în ultimul timp, modelele neuronale recurente, cum ar fi Mamba și RWKV, au câștigat o atenție semnificativă datorită capacității lor de a oferi o performanță eficientă pe secvențe lungi.
MambaOut este o încercare de a investiga natura familiei de modele Mamba și conchide că Mamba este potrivit pentru sarcini care sunt fie autoregresive, fie cu secvențe lungi, deoarece modelul de spațiu de stare are un mecanism inherent de rețea neuronală recurentă. Cu toate acestea, majoritatea sarcinilor de viziune nu prezintă ambele caracteristici, iar pe baza unor experimente, MambaOut propune două ipoteze. Prima, modelul de spațiu de stare nu este necesar pentru clasificarea imaginilor, deoarece sarcina de clasificare a imaginilor nu se aliniază nici cu caracteristicile autoregresive, nici cu cele de secvență lungă. A doua, modelele de spațiu de stare pot fi benefice pentru segmentarea instanțelor și segmentarea semantică, precum și pentru detectarea obiectelor, deoarece acestea prezintă caracteristici de secvență lungă, deși nu sunt autoregresive. Rezultatele experimentale efectuate pentru a analiza mecanismul de rețea neuronală recurentă al modelului de spațiu de stare conchid că framework-ul Mamba este potrivit pentru sarcini cu caracteristici autoregresive sau de secvență lungă și este inutil pentru sarcinile de clasificare a imaginilor.
Pentru Ce Sarcini Este Potrivit Mamba?
Amestecătorul de tokenuri al framework-ului Mamba este un model de spațiu de stare selectiv care definește patru parametri dependenți de intrare. Proprietatea recurentă a framework-ului distinge modelele de spațiu de stare de tip rețea neuronală recurentă de atenția cauzală. Starea ascunsă poate fi văzută ca o memorie de dimensiune fixă care stochează informații istorice. Dimensiunea fixă înseamnă că memoria este pierzătoare, dar asigură și faptul că complexitatea calculului integrării memoriei cu intrarea curentă rămâne constantă. În schimb, straturile de atenție cauzală stochează toate cheile și valorile de la tokenurile anterioare și se extind prin adăugarea cheii și valorii tokenului curent la fiecare nouă intrare, iar această memorie este fără pierderi, teoretic. Cu toate acestea, dimensiunea memoriei crește pe măsură ce se introduc mai multe tokenuri, ceea ce crește complexitatea integrării memoriei cu intrarea curentă.

Deoarece memoria modelului de spațiu de stare este în mod inerent pierzătoare, ea nu se ridică la nivelul memoriei fără pierderi a atenției cauzale, iar ca urmare, modelele Mamba nu pot demonstra puterea lor în gestionarea secvențelor scurte, un domeniu în care mecanismul de atenție cauzală funcționează bine și cu ușurință. Cu toate acestea, în scenariile care implică secvențe lungi, abordarea atenției cauzale se întrerupe din cauza complexității quadratice. În acest scenariu, framework-ul Mamba demonstrează eficiența sa în integrarea memoriei cu intrarea curentă și este capabil să gestioneze secvențe lungi cu ușurință, indicând faptul că familia de modele Mamba este potrivită pentru prelucrarea secvențelor lungi.
De asemenea, este important de remarcat că, pe de o parte, natura recurentă a modelului de spațiu de stare permite modelelor Mamba să gestioneze eficient secvențe lungi, dar introduce și o anumită limitare, deoarece poate accesa informații doar din timpul curent și din timpurile anterioare, iar acest tip de amestecare a tokenilor se numește mod cauzal, și este ilustrat în figura de mai jos. Din cauza naturii sale cauzale, această metodă este potrivită pentru sarcini de generare autoregresivă.

Modul cu vizibilitate completă este potrivit pentru sarcini de înțelegere în care modelul poate accesa toate intrările deodată. În plus, atenția este, în mod implicit, în modul cu vizibilitate completă, și poate fi transformată în mod cauzal prin aplicarea de măști cauzale asupra hartilor de atenție, iar modelele de tip rețea neuronală recurentă funcționează în mod inerent în mod cauzal din cauza proprietăților lor recurente. Pentru a rezuma, framework-ul Mamba este potrivit pentru sarcini care implică prelucrarea secvențelor lungi sau sarcini care necesită modul de amestecare a tokenilor cauzal.
Sarcini de Recunoaștere Vizuală, Cod de Amestecare a Tokenilor Cauzal și Secvențe Foarte Lungi
Așa cum s-a discutat mai devreme, modul de amestecare a tokenilor cu vizibilitate completă permite o gamă nelimitată de amestecare, în timp ce modul cauzal limitează tokenul curent să acceseze doar informațiile de la tokenurile precedente. În plus, recunoașterea vizuală este categorisită ca o sarcină de înțelegere în care modelul poate vedea întreaga imagine deodată, ceea ce elimină nevoia de restricții asupra amestecării tokenilor, și impunerea unor constrângeri suplimentare asupra amestecării tokenilor poate deteriora performanța modelului în mod potențial. În general, modul cu vizibilitate completă este adecvat pentru sarcini de înțelegere, în timp ce modul cauzal se potrivește mai bine sarcinilor autoregresive.
Verificare Experimentală și Rezultate
Următorul pas este să verifice ipotezele propuse de framework-ul MambaOut experimental. Așa cum se demonstrează în imaginea de mai jos, blocul Mamba se bazează pe blocul de rețea neuronală convolutivă cu poartă, și meta-arhitectura blocurilor Mamba și a blocurilor de rețea neuronală convolutivă cu poartă poate fi tratată ca o integrare simplificată a amestecătorului de tokenuri al framework-ului MetaFormer și a unui MLP.

Blocul Mamba extinde blocul de rețea neuronală convolutivă cu poartă cu un model de spațiu de stare suplimentar, iar prezența unui SSm (Model de Spațiu de Stare) este ceea ce diferențiază blocul de rețea neuronală convolutivă cu poartă și blocul Mamba. În plus, pentru a îmbunătăți viteza practică, framework-ul MambaOut efectuează doar convoluție în profunzime pe canale parțiale, și așa cum se demonstrează în algoritmul de mai jos, implementarea blocului de rețea neuronală convolutivă cu poartă este simplă, dar eficientă și elegantă.

Sarcina de Clasificare a Imaginilor
ImageNet servește ca benchmark pentru sarcinile de clasificare a imaginilor, deoarece constă în peste o mie de clase comune, peste 1,3 milioane de imagini de antrenament și peste 50.000 de imagini de validare. Datele de augmentare utilizate pentru experiment constau în recoltare aleatorie, Mixup, jitter de culoare, ștergere aleatorie, CutMix și Rand Augment. Tabelul de mai jos rezumă performanța familiei de modele Mamba, a modelului MambaOut și a altor modele bazate pe atenție și convoluție pe setul de date ImageNet. Așa cum se poate vedea, framework-ul MambaOut, fără modelul de spațiu de stare, depășește consistent toate modelele vizuale Mamba cu SSm, pentru toate dimensiunile modelului.

De exemplu, modelul MambaOut-Small returnează un scor de acuratețe de tip 1 de peste 84%, cu 0,4% mai mare decât cel mai apropiat concurent Mamba. Acest rezultat susține puternic prima ipoteză care afirmă că introducerea unui model de spațiu de stare pentru sarcinile de clasificare a imaginilor nu este necesară.
Sarcini de Detectare a Obiectelor și Segmentare a Instanțelor
COCO servește ca benchmark pentru sarcinile de detectare a obiectelor și segmentare a instanțelor. Deși framework-ul MambaOut este capabil să depășească performanța unor modele vizuale Mamba, el nu reușește să reproducă performanța oferită de modelele vizuale Mamba de ultimă generație, inclusiv LocalVMamba și VMamba. Disparitatea în performanță a framework-ului MambaOut față de modelele vizuale de ultimă generație subliniază beneficiile integrării familiei de modele Mamba în sarcinile vizuale cu secvențe lungi. Cu toate acestea, este important de remarcat că o diferență semnificativă de performanță încă există între modelele hibride de convoluție și atenție de ultimă generație și modelele vizuale Mamba.

Gânduri Finale
Familia de modele Mamba pare a fi potrivită pentru sarcini care implică caracteristici autoregresive și de secvență lungă. Framework-ul MambaOut presupune că Mamba nu este necesar pentru sarcinile de viziune, deoarece clasificarea imaginilor nu se aliniază nici cu caracteristicile de secvență lungă, nici cu cele autoregresive. Deși sarcinile de segmentare și detectare nu sunt autoregresive, ele prezintă caracteristici de secvență lungă, ceea ce face ca framework-ul MambaOut să presupună potențialul Mamba pentru aceste sarcini. Framework-ul MambaOut este construit prin suprapunerea blocurilor Mamba unele peste altele, înlăturând modelul de spațiu de stare, amestecătorul său de tokenuri principal. Rezultatele experimentale susțin ipoteza propusă de framework-ul MambaOut, deoarece este capabil să depășească toate modelele vizuale Mamba pe framework-ul de clasificare a imaginilor ImageNet, indicând faptul că Mamba nu este necesar pentru sarcinile de viziune. Pe de altă parte, pentru sarcinile de detectare și segmentare, framework-ul MambaOut nu este capabil să reproducă performanța oferită de modelul Mamba de ultimă generație, demonstrând potențialul familiei de modele Mamba pentru sarcinile vizuale cu secvențe lungi.












