Свържете се с нас

Изкуствен интелект

MambaOut: Наистина ли имаме нужда от Mamba за зрение?

mm

Публикуван

 on

В съвременните рамки за машинно обучение и изкуствен интелект трансформаторите са едни от най-широко използваните компоненти в различни области, включително серия GPT и BERT при обработка на естествен език и трансформатори на зрението в задачи за компютърно зрение. Въпреки че включването на трансформатори в архитектурата на модела дава значителен тласък в производителността на модела, модулът за внимание в Transformers се мащабира квадратично с дължината на последователността, което води до големи изчислителни предизвикателства. През годините различни модели са изследвали различни стратегии за справяне с изчислителните предизвикателства, включително методи като кернализация, компресия на паметта на историята, ограничаване на диапазона на смесване на токени и подходи от нисък ранг. Напоследък методи, подобни на повтарящи се невронни мрежи, включително Mamba и RWKV, привлякоха значително внимание поради техните обещаващи резултати в големи езикови модели. 

Mamba, семейство от модели, има архитектура с повтаряща се невронна мрежа като миксер на токени на модел на пространството на състоянието, наскоро беше въведен за справяне с квадратичната сложност на механизмите за внимание и впоследствие беше приложен към задачи за зрение. Изследователите вече са проучили начини за включване на Mamba и SSM или State Space Model в задачите за визуално разпознаване, а Vision Mamba, която включва Mamba за разработване на модели на изотропно зрение, подобни на Vision Transformer, е чудесен пример за същото. От друга страна, LocalMamba включва локални индуктивни отклонения за подобряване на визуалните модели на Mamba, а рамката на VMamba използва базовия модел на Mamba за конструиране на йерархични модели, подобни на ResNet и AlexNet. Въпреки това, рамката на Mamba наистина ли е от съществено значение за контекстните задачи за визуално разпознаване? Въпросът възниква, защото представянето на фамилията модели на Mamba за визуални задачи досега е било незадоволително в сравнение с традиционните модели, базирани на вниманието, и конволюционни модели. 

MambaOut е работа, която се опитва да навлезе в същността на рамката Mamba и да отговори дали Mamba е идеално подходяща за задачи с авторегресивни и дългопоследователни характеристики. Рамката MambaOut предполага, че Mamba не е необходима за зрителни задачи, тъй като класификацията на изображенията не е в съответствие нито с дълга последователност, нито с авторегресивни характеристики. Въпреки че задачите за сегментиране и откриване също не са авторегресивни, те показват характеристики с дълга последователност, което кара рамката MambaOut да предположи потенциала на Mamba за тези задачи. Рамката MambaOut е конструирана чрез подреждане на Mamba блокове един върху друг, като същевременно се премахва моделът на пространството на състоянието, неговият основен смесител на токени. Експерименталните резултати подкрепят хипотезата, изложена от рамката MambaOut, тъй като тя е в състояние да надмине всички визуални модели на Mamba в рамката за класификация на изображения на ImageNet, което показва, че Mamba не е необходима за визуални задачи. От друга страна за задачите за откриване и сегментиране, рамката MambaOut не е в състояние да възпроизведе производителността, предлагана от най-съвременния модел Mamba, демонстрирайки потенциала на семейството от модели Mamba за визуални задачи с дълга последователност. 

Тази статия има за цел да покрие рамката MambaOut в дълбочина и ние изследваме механизма, методологията, архитектурата на рамката заедно с нейното сравнение с най-съвременните рамки. Така че да започваме. 

MambaOut: наистина ли е необходима Mamba за зрението?

С напредъка на приложенията и възможностите за машинно обучение Transformers се превърнаха в основен гръбнак за редица задачи, задвижвайки видни модели, включително Визия Трансформърс, GPT серия от модели, BERT и още няколко. Смесителят на токени на трансформатора обаче е свързан с квадратична сложност по отношение на дължината на последователността и поставя значителни предизвикателства за по-дълги последователности. За да се реши този проблем, бяха въведени множество миксери на токени с линейна сложност спрямо дължина на токена, като Linformer, Longformer, Performer, Dynamic Convolution и Big Bird. Въпреки това, напоследък моделите, подобни на повтаряща се невронна мрежа, придобиват известност благодарение на способността си за паралелно обучение и осигуряване на ефективна производителност при по-дълги последователности. Водени от забележителната производителност, предлагана от модели, подобни на RNN, изследователите се опитват да въведат и използват фамилията модели Mamba в задачите за визуално разпознаване, тъй като миксерът на токени на моделите Mamba е структурираният модел на пространството на състоянието в духа на повтарящите се невронни мрежи . Експерименталните резултати обаче показват, че базираните на пространството на състоянието рамки за визия се представят слабо при задачите за визия в реалния свят в сравнение с базираните на вниманието и най-съвременните конволюционни модели. 

MambaOut е опит да се изследва природата на вид отровна африканска змия семейство от модели и обобщава, че Mamba е подходящ за задачи, които са или авторегресивни, или с дълга последователност, тъй като моделът на пространството на състоянието има присъщ RNN механизъм. Повечето зрителни задачи обаче не включват и двете характеристики и въз основа на някои експерименти MambaOut предлага следните две хипотези. Първо, моделът на пространството на състоянието не е необходим за класификация на изображения, тъй като задачата за класификация на изображения не отговаря нито на авторегресивни, нито на характеристики с дълга последователност. Второ, моделите на пространството на състоянието могат да бъдат хипотетично полезни, например сегментиране и семантично сегментиране заедно с откриване на обекти, тъй като те следват характеристиките на дълга последователност, въпреки че не са авторегресивни. Експерименталните резултати, проведени за анализиране на подобен на повтарящата се невронна мрежа механизъм на модела на пространството на състоянието, заключват, че рамката Mamba е подходяща за задачи с авторегресивни или дългопоследователни характеристики и не е необходима за задачи за класификация на изображения. Що се отнася до самата рамка MambaOut, това е серия от модели на Mamba, базирани на блокове на Gated Convolutional Neural Network без модела на пространството на състоянието, а експерименталните резултати показват, че рамката MambaOut е в състояние да превъзхожда моделите на Mamba в задачите за класификация на изображения, но не успява да възпроизведе ефективността на задачите за откриване и сегментиране на изображения. 

За какви задачи е подходящ Mamba?

Миксерът на токени на рамката Mamba е селективен модел на пространството на състоянието, който дефинира четири параметъра, зависещи от входа. Повтарящото се свойство на рамката отличава RNN-подобните модели на пространството на състоянието от каузалното внимание. Скритото състояние може да се разглежда като памет с фиксиран размер, която съхранява историческа информация. Фиксираният размер означава, че паметта е със загуби, но също така гарантира, че изчислителната сложност на интегрирането на паметта с текущия вход остава постоянна. Обратно, слоевете за каузално внимание съхраняват всички ключове и стойности от предишни токени и се разширяват чрез добавяне на ключа и стойността на текущия токен с всеки нов вход и тази памет теоретично е без загуби. Размерът на паметта обаче нараства с въвеждането на повече токени, което увеличава сложността на интегрирането на паметта с текущия вход. Разликата между механизмите на паметта между каузалното внимание и моделите, подобни на RNN, е илюстрирана на следващата фигура. 

Тъй като паметта на модела на пространството на състоянието по своята същност е със загуби, тя не достига паметта без загуба на каузалното внимание и в резултат на това Мамба модели не може да демонстрира силата си при обработката на кратки последователности, област, в която механизмът на каузалното внимание работи добре с лекота. Въпреки това, в сценарии, които включват дълги последователности, подходът на каузалното внимание се колебае поради квадратичната сложност. В този сценарий рамката Mamba демонстрира своята ефективност при обединяването на паметта с текущия вход и е в състояние да обработва безпроблемно дълги последователности, което показва, че семейството от модели на Mamba е подходящо за обработка на дълги последователности. 

Също така си струва да се отбележи, че от една страна, когато повтарящият се характер на модела на пространството на състоянието позволява на моделите Mamba ефективно да обработват дълги последователности, той въвежда известно ограничение, тъй като може да има достъп до информация само от текущите и предишните времеви стъпки и този тип смесването на токени се нарича каузален режим и е илюстрирано на следващата фигура. Поради своята причинно-следствена природа, този метод е подходящ за задачи за авторегресивно генериране

Напълно видимият режим е подходящ за разбиране на задачи, при които моделът има достъп до всички входове наведнъж. Освен това вниманието е в напълно видим режим по подразбиране и може лесно да се превърне в причинно-следствен режим чрез прилагане на причинно-следствени маски към картите на вниманието, а RNN-подобните модели работят по своята същност в причинно-следствен режим поради техните повтарящи се свойства. За да обобщим нещата, рамката Mamba е подходяща за задачи, които или включват обработка на дълги последователности, или задачи, които изискват режим на каузално смесване на токени.

Задачи за визуално разпознаване, код за смесване на каузални токени и много големи последователности

Както беше обсъдено по-рано, напълно видимият режим на смесване на токени позволява неограничен обхват на смесване, докато каузалният режим ограничава текущия токен за достъп само до информацията от предходните токени. Освен това визуалното разпознаване се категоризира като задача за разбиране, при която моделът може да види цялото изображение наведнъж и това елиминира необходимостта от ограничения върху смесването на токени, а налагането на допълнителни ограничения върху смесването на токени може потенциално да влоши производителността на модела. Като цяло напълно видимият режим е подходящ за разбиране на задачи, докато случайният режим е по-подходящ за авторегресивни задачи. Освен това, това твърдение се подкрепя допълнително от факта, че BeRT и ViT моделите се използват за разбиране на задачи повече от GPT моделите.

Експериментална проверка и резултати

Следващата стъпка е експерименталната проверка на хипотезите, предложени от рамката MambaOut. Както е показано на следващото изображение, блокът Mamba е базиран на блока Gated Convolutional Neural Network, а мета-архитектурата на блоковете Mamba и Gated CNN може да се третира като опростена интеграция на миксера на токени на рамката MetaFormer и MLP . 

Блокът Mamba разширява затворената конволюционна невронна мрежа с допълнителен пространствен модел на състоянието, а наличието на SSm е това, което отличава затворения CNN и блока Mamba. Освен това, за да подобри практическата скорост, рамката MambaOut провежда само навиване в дълбочина на частични канали и както е показано в следващия алгоритъм, внедряването на Gated CNN блок е просто, но ефективно и елегантно. 

Задача за класификация на изображения

ImageNet служи като еталон за задачи за класификация на изображения, тъй като се състои от над хиляда общи класа, над 1.3 милиона изображения за обучение и над 50,000 XNUMX изображения за валидиране. Увеличаването на данните, използвано за експеримента, се състои от произволно преоразмерено изрязване, Mixup, трептене на цветовете, Random Erasing, CutMix и Rand Augment. Следната таблица обобщава производителността на фамилията модели Mamba, модела MambaOut и други модели, базирани на вниманието и конволюция в набора от данни на ImageNet. Както може да се види, рамката MambaOut без модела на пространството на състоянието превъзхожда визуалните модели на Mamba със SSM последователно във всички размери на модела. 

Например, моделът MambaOut-Small връща топ 1 резултат за точност от над 84%, с 0.4% по-висок от най-близкия му конкурент Mamba. Този резултат силно подкрепя първата хипотеза, която твърди, че не е необходимо въвеждане на модел на пространство на състоянието за задачи за класификация на изображения. 

Задачи за откриване на обекти и сегментиране на екземпляри

COCO служи като еталон за откриване на обекти и задачи за сегментиране на екземпляри. Въпреки че рамката MambaOut е в състояние да надмине производителността на някои визуални модели на Mamba, тя все още не отговаря на най-съвременните визуални модели на Mamba, включително LocalVMamba и VMamba. Несъответствието в производителността на MambaOut спрямо най-съвременните визуални модели подчертава предимствата на интегрирането на фамилията модели на Mamba във визуални задачи с дълга последователност. Заслужава обаче да се отбележи, че все още съществува значителна разлика в производителността между най-съвременните хибридни модели на конволюция-внимание и визуалните модели Mamba. 

Заключителни мисли

В тази статия обсъдихме концепциите на фамилията модели Mamba и стигнахме до заключението, че тя е подходяща за задачи, включващи авторегресивни и дългопоследователни характеристики. MambaOut е работа, която се опитва да навлезе в същността на рамката Mamba и да отговори дали Mamba е идеално подходяща за задачи с авторегресивни и дългопоследователни характеристики. Рамката MambaOut предполага, че Mamba не е необходима за зрителни задачи, тъй като класификацията на изображенията не е в съответствие нито с дълга последователност, нито с авторегресивни характеристики. Въпреки че задачите за сегментиране и откриване също не са авторегресивни, те показват характеристики с дълга последователност, което кара рамката MambaOut да предположи потенциала на Mamba за тези задачи. Рамката MambaOut е конструирана чрез подреждане на Mamba блокове един върху друг, като същевременно се премахва моделът на пространството на състоянието, неговият основен смесител на токени. Експерименталните резултати подкрепят хипотезата, изложена от рамката MambaOut, тъй като тя е в състояние да надмине всички визуални модели на Mamba в рамката за класификация на изображения на ImageNet, което показва, че Mamba не е необходима за визуални задачи. От друга страна за задачите за откриване и сегментиране, рамката MambaOut не е в състояние да възпроизведе производителността, предлагана от най-съвременния модел Mamba, демонстрирайки потенциала на семейството от модели Mamba за визуални задачи с дълга последователност. 

 

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.