Моделі та платформи ШІ

MambaOut: Чи дійсно потрібен Mamba для бачення?

Опубліковано 24 травня 2024

Оновлено 21 травня 2026

Kunal Kejriwal

У сучасних рамках машинного навчання та штучного інтелекту трансформери є одним з найбільш широко використовуваних компонентів у різних галузях, включаючи серію GPT, BERT у обробці природної мови та Vision Transformers у завдань комп’ютерного бачення. Хоча включення трансформерів до архітектури моделі дає значний імпульс продуктивності моделі, модуль уваги в трансформерах масштабується з довжиною послідовності квадратично, що призводить до великих обчислювальних проблем. За роки різні моделі досліджували різні стратегії для подолання обчислювальних проблем, включаючи методи, такі як ядро, стиснення історії пам’яті, обмеження діапазону змішування токенів та низькорангові підходи. Нещодавно рекурентні нейронні мережі, такі як методи, включаючи Mamba та RWKV, зібрали значну увагу завдяки своїм перспективним результатам у великих мовних моделях.

Mamba, сім’я моделей, має архітектуру з рекурентним нейронним мережевим токен-міксером стану простору моделі, який був недавно введений для вирішення квадратичної складності механізмів уваги та був застосований до завдань бачення згодом. Дослідники вже дослідили способи включення Mamba та SSM або моделі стану простору до завдань візуального розпізнавання, а Vision Mamba, який включає Mamba для розробки ізотропних моделей бачення, подібних до Vision Transformer, є чудовим прикладом цього. З іншого боку, LocalMamba включає локальні індуктивні упередження для поліпшення візуальних моделей Mamba, а框werk VMamba використовує базову модель Mamba для побудови ієрархічних моделей, подібних до ResNet та AlexNet. Однак, чи дійсно необхідна框werk Mamba для завдань візуального розпізнавання? Це питання виникає, оскільки продуктивність сім’ї моделей Mamba для завдань бачення була незадовільною на даний час у порівнянні з традиційними моделями уваги та конволюційними моделями.

MambaOut намагається відповісти на питання, чи підходить Mamba для завдань з автoregresивними та довгими послідовностями. Фреймворк MambaOut припускає, що Mamba не необхідний для завдань бачення, оскільки класифікація зображень не відповідає ні довгим послідовностям, ні автoregresивним характеристикам. Хоча завдання сегментації та виявлення об’єктів також не є автoregresивними, вони демонструють довгі послідовності, що призводить фреймворк MambaOut до припущення про потенціал Mamba для цих завдань. Фреймворк MambaOut побудований шляхом накладання блоків Mamba один на одного, видаляючи модель стану простору, свою ядро токен-міксу. Експериментальні результати підтверджують гіпотезу, висунуту фреймворком MambaOut, оскільки він能够 перевершити всі візуальні моделі Mamba на фреймворці класифікації зображень ImageNet, вказуючи на те, що Mamba не необхідний для завдань бачення. З іншого боку, для завдань виявлення та сегментації об’єктів фреймворк MambaOut не能够 повторити продуктивність, запропоновану моделлю Mamba найвищого рівня, демонструючи потенціал сім’ї моделей Mamba для завдань візуального розпізнавання з довгими послідовностями.

Ця стаття має на меті висвітлити фреймворк MambaOut докладно, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом з його порівнянням з фреймворками найвищого рівня. Тому давайте почнемо.

MambaOut: Чи дійсно потрібен Mamba для бачення?

З прогресом застосувань машинного навчання та їх можливостей трансформери виникли як основа для ряду завдань, живлячи відомі моделі, включаючи Vision Transformers, серію моделей GPT, BERT та деякі інші. Однак, токен-міксер трансформеру призводить до квадратичної складності щодо довжини послідовності та створює великі обчислювальні проблеми. Для вирішення цієї проблеми були введені численні токен-міксери з лінійною складністю щодо довжини токену, такі як Linformer, Longformer, Performer, Dynamic Convolution та Big Bird. Однак у останні часи рекурентні нейронні мережі, подібні до моделей Mamba та RWKV, набули значної популярності завдяки своїм перспективним результатам у великих мовних моделях. Під впливом вражаючих результатів, досягнутих моделями RNN-подібними, дослідники намагаються вводити та використовувати сім’ю моделей Mamba у завдань візуального розпізнавання, оскільки токен-міксер моделей Mamba є структурованою моделлю стану простору під духом рекурентних нейронних мереж. Однак експериментальні результати вказують на те, що фреймворки, засновані на моделі стану простору, виконують піднизько у завдань візуального розпізнавання у порівнянні з моделями уваги та конволюційними моделями найвищого рівня.

MambaOut є спробою дослідити природу сім’ї моделей Mamba та підсумовує, що Mamba підходить для завдань, які є автoregresивними або мають довгі послідовності, оскільки модель стану простору має внутрішній механізм RNN. Однак більшість завдань бачення не мають цих характеристик, і на підставі деяких експериментів, MambaOut пропонує дві гіпотези. По-перше, модель стану простору не необхідна для класифікації зображень, оскільки завдання класифікації зображень не відповідає ні автoregresивним, ні довгим послідовностям. По-друге, моделі стану простору можуть бути корисними для сегментації екземплярів та семантичної сегментації разом з виявленням об’єктів, оскільки вони відповідають довгим послідовностям, хоча не є автoregresивними. Експериментальні результати, проведені для аналізу механізму RNN-подібної моделі стану простору, висновують, що фреймворк Mamba підходить для завдань з автoregresивними або довгими послідовностями та не необхідний для завдань класифікації зображень. Що стосується самого фреймворку MambaOut, то це серія моделей Mamba, заснованих на блоках Gated Convolutional Neural Network, без моделі стану простору, та експериментальні результати вказують на те, що фреймворк MambaOut能够 перевершити моделі Mamba у завдань класифікації зображень, але не能够 повторити продуктивність у завданнях виявлення та сегментації зображень.

Для яких завдань підходить Mamba?

Токен-міксер фреймворку Mamba є селективною моделлю стану простору, яка визначає чотири входні залежні параметри. Рекурентна властивість фреймворку відрізняє RNN-подібні моделі стану простору від причинної уваги. Прихований стан можна розглядати як фіксований розмір пам’яті, який зберігає історичну інформацію. Фіксований розмір означає, що пам’ять є втратною, але вона також забезпечує постійну обчислювальну складність інтеграції пам’яті з поточним входом. Навпаки, причинна увага зберігає всі ключі та значення з попередніх токенів та розширюється шляхом додавання ключа та значення поточного токену з кожним новим входом, і ця пам’ять є безвтратною, теоретично. Однак розмір пам’яті зростає з введенням нових токенів, збільшуючи складність інтеграції пам’яті з поточним входом. Відмінність між механізмами пам’яті між причинною увагою та RNN-подібними моделями ілюструється на наступній схемі.

Оскільки пам’ять моделі стану простору є внутрішньо втратною, вона не дотягує до безвтратної пам’яті причинної уваги, і в результаті моделі Mamba не能够 продемонструвати свою силу у обробці коротких послідовностей, області, де механізм причинної уваги працює легко. Однак у сценаріях, які включають довгі послідовності, підхід причинної уваги слабшає через квадратичну складність. У цьому сценарії фреймворк Mamba демонструє свою ефективність у злитті пам’яті з поточним входом та能够 обробляти довгі послідовності гладко, вказуючи на те, що сім’я моделей Mamba підходить для обробки довгих послідовностей.

Також варто зазначити, що з одного боку, де рекурентна властивість моделі стану простору дозволяє моделям Mamba ефективно обробляти довгі послідовності, вона вводить певне обмеження, оскільки вона能够 доступитися лише до інформації з поточного та попередніх кроків часу, і цей тип токен-міксу називається причинним режимом, ілюстрованим на наступній схемі. Через свою причинну природу, цей метод підходить для автoregresивних завдань генерації.

Режим повної видимості підходить для завдань розуміння, де модель能够 доступитися до всіх входів одночасно. Крім того, увага знаходиться у режимі повної видимості за замовчуванням, і її能够 легко перетворити у причинний режим шляхом застосування причинних масок до карт уваги, і RNN-подібні моделі працюють внутрішньо у причинному режимі через свої рекурентні властивості. Підсумовуючи все, фреймворк Mamba підходить для завдань, які включають обробку довгих послідовностей або завдання, які вимагають причинного токен-міксу.

Завдання візуального розпізнавання, причинний токен-мікс та дуже довгі послідовності

Як обговорювалося раніше, режим повної видимості токен-міксу дозволяє необмежену область змішування, тоді як причинний режим обмежує поточний токен лише інформацією з попередніх токенів. Крім того, візуальне розпізнавання категоризується як завдання розуміння, де модель能够 бачити весь зображення одночасно, і це усуває необхідність обмежень на токен-мікс, і введення додаткових обмежень на токен-мікс能够 потенційно погіршити продуктивність моделі. Зазвичай, режим повної видимості підходить для завдань розуміння, тоді як причинний режим підходить для автoregresивних завдань краще. Крім того, це твердження підтверджується тим фактом, що моделі BeRT та ViT використовуються для завдань розуміння більше, ніж моделі GPT.

Експериментальна верифікація та результати

Наступний крок полягає у верифікації гіпотез, висунутих фреймворком MambaOut, експериментально. Як демонструється на наступному зображенні, блок Mamba заснований на блоці Gated Convolutional Neural Network, і мета-архітектура блоків Mamba та Gated CNN能够 бути розглядана як спрощена інтеграція токен-міксу фреймворку MetaFormer та MLP.

Блок Mamba розширює блок Gated Convolutional Neural Network додатковим державним простором моделі, і наявність державного простору моделі є тим, що відрізняє блоки Gated CNN та Mamba. Крім того, для покращення практичної швидкості фреймворк MambaOut проводить лише глибинову конволюцію на часткових каналах, і як демонструється на наступному алгоритмі, реалізація блоку Gated CNN є простою, проте ефективною та елегантною.

Завдання класифікації зображень

ImageNet служить бенчмарком для завдань класифікації зображень, оскільки він складається з понад тисячі загальних класів, понад 1,3 мільйона тренувальних зображень та понад 50 тисяч валідних зображень. Дані для експерименту складаються з випадкової обрізки, Mixup, колірної зміни, випадкового видалення, CutMix та Rand Augment. Наступна таблиця підсумовує продуктивність сім’ї моделей Mamba, моделі MambaOut та інших моделей уваги та конволюційних моделей на наборі даних ImageNet. Як можна побачити, фреймворк MambaOut без державного простору моделі перевершує візуальні моделі Mamba з державним простором моделі послідовно у всіх розмірах моделей.

Наприклад, модель MambaOut-Small повертає оцінку точності топ-1 понад 84%, що на 0,4% вище, ніж у найближчого конкурента Mamba. Цей результат сильно підтверджує першу гіпотезу, яка стверджує, що введення державного простору моделі для завдань класифікації зображень не потрібно.

Завдання виявлення об’єктів та сегментації екземплярів

COCO служить бенчмарком для завдань виявлення об’єктів та сегментації екземплярів. Хоча фреймворк MambaOut能够 перевершити продуктивність деяких візуальних моделей Mamba, він все ще не дотягує до моделей Mamba найвищого рівня, включаючи LocalVMamba та VMamba. Розбіжність у продуктивності фреймворку MambaOut проти моделей Mamba найвищого рівня підкреслює вигоди від інтеграції сім’ї моделей Mamba у завданнях візуального розпізнавання з довгими послідовностями. Однак варто зазначити, що значна продуктивна розбіжність все ще існує між моделями конволюційно-уважними гібридами та візуальними моделями Mamba.

Фінальні думки

Сім’я моделей Mamba здається підходить для завдань, які включають автoregresивні та довгі послідовності. Фреймворк MambaOut припускає, що Mamba не необхідний для завдань бачення, оскільки класифікація зображень не відповідає ні довгим послідовностям, ні автoregresивним характеристикам. Хоча завдання сегментації та виявлення об’єктів також не є автoregresивними, вони демонструють довгі послідовності, що призводить фреймворк MambaOut до припущення про потенціал Mamba для цих завдань. Фреймворк MambaOut побудований шляхом накладання блоків Mamba один на одного, видаляючи державний простір моделі, свою ядро токен-міксу. Експериментальні результати підтверджують гіпотезу, висунуту фреймворком MambaOut, оскільки він能够 перевершити всі візуальні моделі Mamba на фреймворці класифікації зображень ImageNet, вказуючи на те, що Mamba не необхідний для завдань бачення. З іншого боку, для завдань виявлення та сегментації об’єктів фреймворк MambaOut не能够 повторити продуктивність, запропоновану моделлю Mamba найвищого рівня, демонструючи потенціал сім’ї моделей Mamba для завдань візуального розпізнавання з довгими послідовностями.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.