Штучний інтелект
MambaOut: Чи дійсно нам потрібен Mamba для бачення?
У сучасних рамках машинного навчання та штучного інтелекту трансформери є одним з найбільш широко використовуваних компонентів у різних областях, включаючи серію GPT, BERT у обробці природної мови та трансформери бачення у задачах комп’ютерного бачення. Хоча включення трансформерів до архітектури моделі дає значний імпульс продуктивності моделі, модуль уваги в трансформерах масштабується з довжиною послідовності квадратично, що призводить до високих обчислювальних проблем. За роки різні моделі досліджували різні стратегії для подолання обчислювальних проблем, включаючи методи, такі як ядро, стиснення історії пам’яті, обмеження діапазону змішування токенів та підходи низького рангу. Нещодавно рекурентні нейронні мережі, подібні до методів Mamba та RWKV, привернули значну увагу завдяки своїй перспективній результатам у великих мовних моделях.
Mamba, сім’я моделей має архітектуру з рекурентним нейронним мережевим токен-міксером стану простору моделі, який був недавно введений для вирішення квадратичної складності механізмів уваги та був застосований до завдань бачення згодом. Дослідники вже досліджували способи включення Mamba та SSM або моделі стану простору до завдань візуального розпізнавання, а Vision Mamba, який включає Mamba для розробки ізотропних моделей бачення, подібних до трансформера бачення, є великим прикладом цього. З іншого боку, LocalMamba включає локальні індуктивні упередження для покращення візуальних моделей Mamba, а.framework VMamba використовує базову модель Mamba для побудови ієрархічних моделей, подібних до ResNet та AlexNet. Однак, чи дійсно необхідний фреймворк Mamba для контекстних завдань візуального розпізнавання? Цей питання виникає, оскільки продуктивність сім’ї моделей Mamba для завдань бачення була незадовільною на сьогодні порівняно з традиційними моделями, заснованими на увазі та конволюційними моделями.
MambaOut намагається відповісти на питання, чи підходить Mamba ідеально для завдань з автoregresивними та довгими-послідовними характеристиками. Фреймворк MambaOut припускає, що Mamba не необхідний для завдань бачення, оскільки класифікація зображень не відповідає ні довгій-послідовній, ні автoregresивній характеристиці. Хоча завдання сегментації та виявлення об’єктів також не є автoregresивними, вони демонструють довгі-послідовні характеристики, що призводить фреймворк MambaOut до припущення про потенціал Mamba для цих завдань. Фреймворк MambaOut побудований шляхом накладення блоків Mamba один на одного, видаляючи модель стану простору, свій основний токен-міксер. Експериментальні результати підтверджують гіпотезу, висунуту фреймворком MambaOut, оскільки він здатний перевершити всі візуальні моделі Mamba на фреймворку класифікації зображень ImageNet, вказуючи на те, що Mamba не необхідний для завдань бачення. З іншого боку, для завдань виявлення та сегментації об’єктів фреймворк MambaOut не能够 повторити продуктивність, запропоновану моделлю Mamba останнього покоління, демонструючи потенціал сім’ї моделей Mamba для завдань візуального розпізнавання з довгими послідовностями.
… (the rest of the translation remains the same, following the exact structure and formatting of the original text)












