Зв'язатися з нами

Штучний Інтелект

MambaOut: Чи справді нам потрібна Mamba для зору?

mm

опублікований

 on

У сучасних системах машинного навчання та штучного інтелекту трансформатори є одними з найбільш широко використовуваних компонентів у різних областях, включаючи серію GPT і BERT в обробці природної мови, а також трансформатори зору в задачах комп’ютерного зору. Хоча включення трансформаторів в архітектуру моделі значно підвищує продуктивність моделі, модуль уваги в Transformers квадратично масштабується з довжиною послідовності, що призводить до великих обчислювальних проблем. Протягом багатьох років різні моделі досліджували різні стратегії для вирішення обчислювальних проблем, включаючи такі методи, як кернелізація, стиснення пам’яті історії, обмеження діапазону змішування маркерів і підходи низького рангу. Останнім часом методи, подібні до рекурентних нейронних мереж, включаючи Mamba та RWKV, привернули значну увагу завдяки їх багатообіцяючим результатам у великих мовних моделях. 

Мамба, сімейство моделей, має архітектуру з рекурентною нейронною мережею, подібною до змішувача маркерів моделі простору станів, яка нещодавно була представлена ​​для вирішення квадратичної складності механізмів уваги та згодом застосовувалася до завдань зору. Дослідники вже досліджували способи включення Mamba та SSM або State Space Model у завдання візуального розпізнавання, і Vision Mamba, яка включає Mamba для розробки ізотропних моделей зору, подібних до Vision Transformer, є чудовим прикладом того ж. З іншого боку, LocalMamba включає локальні індуктивні зміщення для покращення візуальних моделей Mamba, а фреймворк VMamba використовує базову модель Mamba для побудови ієрархічних моделей, подібних до ResNet і AlexNet. Однак чи справді фреймворк Mamba важливий для завдань контексту візуального розпізнавання? Питання виникає через те, що продуктивність сімейства моделей Mamba для завдань зору поки що була незадовільною порівняно з традиційними моделями на основі уваги та згортковими моделями. 

MambaOut — це робота, яка намагається заглибитися в суть фреймворку Mamba та відповісти, чи Mamba ідеально підходить для завдань із авторегресією та характеристиками довгої послідовності. Фреймворк MambaOut припускає, що Mamba не потрібна для завдань зору, оскільки класифікація зображень не узгоджується ні з довгою послідовністю, ні з авторегресійними характеристиками. Хоча завдання сегментації та виявлення також не є авторегресійними, вони відображають характеристики довгої послідовності, що спонукає структуру MambaOut до гіпотези про потенціал Mamba для цих завдань. Фреймворк MambaOut створюється шляхом накладання блоків Mamba один на інший, при цьому видаляється модель простору станів, її основний змішувач токенів. Експериментальні результати підтверджують гіпотезу, висунуту структурою MambaOut, оскільки вона здатна перевершити всі візуальні моделі Mamba у структурі класифікації зображень ImageNet, що вказує на те, що Mamba не потрібна для завдань зору. З іншого боку, для завдань виявлення та сегментації фреймворк MambaOut не в змозі відтворити продуктивність, яку пропонує найсучасніша модель Mamba, демонструючи потенціал сімейства моделей Mamba для довготривалих візуальних завдань. 

Ця стаття має на меті детально розглянути фреймворк MambaOut, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками. Тож почнемо. 

MambaOut: чи дійсно Mamba потрібна для зору?

З розвитком додатків і можливостей машинного навчання Transformers стали основною основою для виконання цілого ряду завдань, забезпечуючи роботу відомих моделей, зокрема Трансформери зору, моделі серії GPT, BERT і деякі інші. Однак змішувач маркерів трансформатора має квадратичну складність щодо довжини послідовності та створює значні проблеми для довших послідовностей. Щоб вирішити цю проблему, було представлено численні змішувачі маркерів із лінійною складністю до довжини маркера, наприклад Linformer, Longformer, Performer, Dynamic Convolution і Big Bird. Однак останнім часом моделі, подібні до рекурентних нейронних мереж, набувають популярності завдяки їхній здатності розпаралелювати навчання та забезпечувати ефективну роботу на довших послідовностях. Керуючись чудовою продуктивністю моделей, подібних до RNN, дослідники намагаються представити та використовувати сімейство моделей Mamba у задачах візуального розпізнавання, оскільки змішувач токенів моделей Mamba є структурованою моделлю простору станів у дусі рекурентних нейронних мереж. . Проте експериментальні результати вказують на те, що рамки бачення на основі моделі простору станів погано виконують задачі бачення реального світу порівняно з моделями на основі уваги та сучасними згортковими моделями. 

MambaOut — це спроба дослідити природу Mamba сімейство моделей і резюмує, що Mamba підходить для завдань, які є або авторегресійними, або завданнями з довгою послідовністю, оскільки модель простору станів має внутрішній механізм RNN. Однак більшість завдань із зору не мають обох цих характеристик, і на основі деяких експериментів MambaOut пропонує наступні дві гіпотези. По-перше, модель простору станів не потрібна для класифікації зображень, оскільки завдання класифікації зображень не відповідає ані авторегресійним, ані довгопослідовним характеристикам. По-друге, моделі простору станів можуть бути гіпотетично корисними, наприклад, сегментація та семантична сегментація разом із виявленням об’єктів, оскільки вони відповідають характеристикам довгої послідовності, хоча вони не є авторегресійними. Експериментальні результати, проведені для аналізу механізму моделі простору станів, подібного до рекурентної нейронної мережі, приводять до висновку, що структура Mamba підходить для завдань із авторегресійними або довгопослідовними характеристиками та не потрібна для завдань класифікації зображень. Якщо говорити про саму структуру MambaOut, то це серія моделей Mamba на основі блоків Gated Convolutional Neural Network без моделі простору станів, а експериментальні результати показують, що структура MambaOut здатна перевершити моделі Mamba в задачах класифікації зображень, але не вдається відтворити ефективність завдань виявлення та сегментації зображень. 

Для яких завдань підходить Mamba?

Змішувач токенів фреймворку Mamba — це вибіркова модель простору станів, яка визначає чотири залежні від вхідних даних параметри. Рекурентна властивість каркасу відрізняє RNN-подібні моделі простору стану від причинної уваги. Прихований стан можна розглядати як пам’ять фіксованого розміру, яка зберігає історичну інформацію. Фіксований розмір означає, що пам’ять втратить, але це також гарантує, що обчислювальна складність інтеграції пам’яті з поточним введенням залишається незмінною. І навпаки, рівні причинної уваги зберігають усі ключі та значення з попередніх маркерів і розширюються шляхом додавання ключа та значення поточного маркера з кожним новим введенням, і ця пам’ять теоретично є без втрат. Однак розмір пам’яті зростає, оскільки вводиться більше токенів, що збільшує складність інтеграції пам’яті з поточним введенням. Різниця між механізмами пам’яті між причинною увагою та RNN-подібними моделями проілюстрована на наступному малюнку. 

Оскільки пам’ять моделі простору станів за своєю суттю є втраченою, вона не досягає пам’яті без втрат причинної уваги, і, як наслідок, Моделі Mamba не може продемонструвати свою силу в обробці коротких послідовностей, області, де механізм причинної уваги працює добре з легкістю. Однак у сценаріях, які включають довгі послідовності, підхід причинно-наслідкової уваги сповільнюється через квадратичну складність. У цьому сценарії фреймворк Mamba демонструє свою ефективність у об’єднанні пам’яті з поточним введенням і здатний плавно обробляти довгі послідовності, що вказує на те, що сімейство моделей Mamba добре підходить для обробки довгих послідовностей. 

Варто також зазначити, що, з одного боку, коли рекурентна природа моделі простору станів дозволяє моделям Mamba ефективно обробляти довгі послідовності, це вводить певне обмеження, оскільки вона може отримати доступ до інформації лише з поточного та попереднього часових кроків, і цей тип змішування токенів називається причинно-наслідковим режимом і показано на наступному малюнку. Завдяки своїй причинній природі цей метод підходить для задачі авторегресійної генерації

Повністю видимий режим підходить для розуміння завдань, коли модель може отримати доступ до всіх вхідних даних одночасно. Крім того, за замовчуванням увага перебуває в повністю видимому режимі, і її можна легко перевести в причинно-наслідковий режим, застосовуючи причинні маски до карт уваги, а моделі, подібні до RNN, за своєю суттю працюють у причинно-наслідковому режимі завдяки своїм повторюваним властивостям. Підводячи підсумок, фреймворк Mamba підходить для завдань, які або передбачають обробку довгих послідовностей, або завдань, які вимагають режиму причинно-наслідкового змішування токенів.

Завдання візуального розпізнавання, причинно-наслідковий код змішування токенів і дуже великі послідовності

Як обговорювалося раніше, повністю видимий режим змішування маркерів дозволяє необмежений діапазон змішування, тоді як причинний режим обмежує доступ поточного маркера лише до інформації з попередніх маркерів. Крім того, візуальне розпізнавання класифікується як завдання розуміння, коли модель може бачити все зображення одночасно, і це усуває потребу в обмеженнях на змішування маркерів, а накладення додаткових обмежень на змішування маркерів може потенційно погіршити продуктивність моделі. Як правило, повністю видимий режим підходить для розуміння завдань, тоді як випадковий режим краще підходить для авторегресійних завдань. Крім того, це твердження підтверджується тим фактом, що моделі BeRT і ViT використовуються для розуміння завдань більше, ніж моделі GPT.

Експериментальна перевірка та результати

Наступним кроком є ​​експериментальна перевірка гіпотез, запропонованих фреймворком MambaOut. Як показано на наступному зображенні, блок Mamba базується на блоці Gated Convolutional Neural Network, а мета-архітектуру блоків Mamba та Gated CNN можна розглядати як спрощену інтеграцію змішувача маркерів фреймворку MetaFormer і MLP. . 

Блок Mamba розширює Gated Convolutional Neural Network додатковою моделлю простору станів, а наявність SSm – це те, що відрізняє Gated CNN і блок Mamba. Крім того, щоб покращити практичну швидкість, структура MambaOut проводить лише глибоку згортку на часткових каналах, і, як показано в наступному алгоритмі, реалізація блоку Gated CNN проста, але ефективна та елегантна. 

Завдання на класифікацію зображень

ImageNet служить еталоном для завдань класифікації зображень, оскільки складається з понад тисячі загальних класів, понад 1.3 мільйона навчальних зображень і понад 50,000 XNUMX зображень перевірки. Доповнення даних, що використовується для експерименту, складається з випадкового обрізання зі зміненим розміром, Mixup, коливання кольорів, Random Erasing, CutMix і Rand Augment. У наведеній нижче таблиці підсумовано продуктивність сімейства моделей Mamba, моделі MambaOut та інших моделей на основі уваги та згортки в наборі даних ImageNet. Як видно, фреймворк MambaOut без моделі простору станів перевершує візуальні моделі Mamba з SSM у всіх розмірах моделей. 

Наприклад, модель MambaOut-Small повертає топ-1 показник точності понад 84%, що на 0.4% вище, ніж її найближчий конкурент Mamba. Цей результат підтверджує першу гіпотезу, яка стверджує, що введення моделі простору станів для завдань класифікації зображень не потрібне. 

Завдання виявлення об’єктів і сегментації екземплярів

COCO служить еталоном для завдань виявлення об’єктів і сегментації примірників. Незважаючи на те, що фреймворк MambaOut здатний перевершити продуктивність деяких візуальних моделей Mamba, він все ще не відповідає сучасним візуальним моделям Mamba, включаючи LocalVMamba та VMamba. Невідповідність продуктивності MambaOut порівняно з сучасними візуальними моделями підкреслює переваги інтеграції сімейства моделей Mamba у довгострокові візуальні завдання. Однак варто зазначити, що все ще існує значний розрив у продуктивності між сучасними гібридними моделями згортки, уваги та візуальних моделей Mamba. 

Заключні думки

У цій статті ми обговорили концепції сімейства моделей Mamba і дійшли висновку, що вони підходять для завдань, що включають авторегресію та характеристики з довгою послідовністю. MambaOut — це робота, яка намагається заглибитися в суть фреймворку Mamba та відповісти, чи Mamba ідеально підходить для завдань із авторегресією та характеристиками довгої послідовності. Фреймворк MambaOut припускає, що Mamba не потрібна для завдань зору, оскільки класифікація зображень не узгоджується ні з довгою послідовністю, ні з авторегресійними характеристиками. Хоча завдання сегментації та виявлення також не є авторегресійними, вони відображають характеристики довгої послідовності, що спонукає структуру MambaOut до гіпотези про потенціал Mamba для цих завдань. Фреймворк MambaOut створюється шляхом накладання блоків Mamba один на інший, при цьому видаляється модель простору станів, її основний змішувач токенів. Експериментальні результати підтверджують гіпотезу, висунуту структурою MambaOut, оскільки вона здатна перевершити всі візуальні моделі Mamba у структурі класифікації зображень ImageNet, що вказує на те, що Mamba не потрібна для завдань зору. З іншого боку, для завдань виявлення та сегментації фреймворк MambaOut не в змозі відтворити продуктивність, яку пропонує найсучасніша модель Mamba, демонструючи потенціал сімейства моделей Mamba для довготривалих візуальних завдань. 

 

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.