Искусственный интеллект
MambaOut: Нам действительно нужен Mamba для зрения?
В современных рамках машинного обучения и искусственного интеллекта трансформеры являются одним из наиболее широко используемых компонентов в различных областях, включая серию GPT и BERT в обработке естественного языка, а также Vision Transformers в задачах компьютерного зрения. Хотя включение трансформеров в архитектуру модели дает значительный импульс производительности модели, модуль внимания в трансформерах масштабируется с длиной последовательности квадратично, что приводит к высоким вычислительным проблемам. За годы различные модели исследовали различные стратегии для решения вычислительных проблем, включая методы, такие как ядерная аппроксимация, сжатие истории памяти, ограничение диапазона смешивания токенов и подходы с низким рангом. Недавно рекуррентные нейронные сети, такие как методы Mamba и RWKV, привлекли значительное внимание благодаря их перспективным результатам в больших языковых моделях.
Mamba, семейство моделей, имеет архитектуру с рекуррентным нейронным сетевым миксером токенов государственного пространства, недавно представленной для решения квадратичной сложности механизмов внимания и примененной к задачам зрения. Исследователи уже исследовали способы включения Mamba и SSM или модели государственного пространства в задачи визуального распознавания, и Vision Mamba, которая включает Mamba для разработки изотропных моделей зрения, аналогичных Vision Transformer, является отличным примером этого. С другой стороны, LocalMamba включает локальные индуктивные предубеждения для улучшения моделей визуального Mamba, а фреймворк VMamba использует базовую модель Mamba для построения иерархических моделей, аналогичных ResNet и AlexNet. Однако действительно ли фреймворк Mamba необходим для контекстных задач визуального распознавания? Этот вопрос возникает, потому что производительность семейства моделей Mamba для задач зрения была до сих пор не впечатляющей по сравнению с традиционными моделями на основе внимания и свертки.
MambaOut пытается ответить на вопрос, подходит ли Mamba идеально для задач с автoreгрессивными и длинными последовательностями. Фреймворк MambaOut предполагает, что Mamba не необходим для задач зрения, поскольку классификация изображений не соответствует ни длинным последовательностям, ни автoreгрессивным характеристикам. Хотя задачи сегментации и обнаружения также не являются автoreгрессивными, они демонстрируют длинные последовательности, что приводит фреймворк MambaOut к гипотезе о потенциале Mamba для этих задач. Фреймворк MambaOut построен путем chồngирования блоков Mamba друг на друга, удаляя модель государственного пространства, ее основной миксер токенов. Экспериментальные результаты подтверждают гипотезу, выдвинутую фреймворком MambaOut, поскольку он способен превосходить все визуальные модели Mamba на фреймворке классификации изображений ImageNet, указывая на то, что Mamba не необходим для задач зрения. С другой стороны, для задач обнаружения и сегментации фреймворк MambaOut не может повторить производительность, предложенную современными моделями Mamba, демонстрируя потенциал семейства моделей Mamba для задач визуального распознавания с длинными последовательностями.
Эта статья направлена на глубокое освещение фреймворка MambaOut, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Итак, давайте начнем.
MambaOut: Нам действительно нужен Mamba для зрения?
С прогрессом приложений машинного обучения и возможностей трансформеры стали основой для ряда задач, обеспечивая известные модели, включая Vision Transformers, серию моделей GPT, BERT и несколько других. Однако миксер токенов трансформера имеет квадратичную сложность относительно длины последовательности и представляет значительные вычислительные проблемы. Чтобы решить эту проблему, были представлены различные миксеры токенов с линейной сложностью относительно длины токена, такие как Linformer, Longformer, Performer, Dynamic Convolution и Big Bird. Однако в последнее время рекуррентные нейронные сети, такие как модели Mamba и RWKV, привлекли значительное внимание благодаря своей перспективной производительности на больших языковых моделях.
MambaOut – это попытка исследовать природу семейства моделей Mamba и суммирует, что Mamba подходит для задач, которые являются либо автoreгрессивными, либо имеют длинные последовательности, поскольку модель государственного пространства имеет встроенный механизм РНН. Однако большинство задач зрения не демонстрируют обе эти характеристики, и на основе некоторых экспериментов MambaOut выдвигает две гипотезы. Во-первых, модель государственного пространства не необходима для классификации изображений, поскольку задача классификации изображений не соответствует ни автoreгрессивным, ни длинным последовательностям. Во-вторых, модели государственного пространства могут быть гипотетически полезны для задач сегментации и обнаружения, поскольку они демонстрируют длинные последовательности, хотя и не являются автoreгрессивными. Экспериментальные результаты, проведенные для анализа рекуррентного нейронного сетевого механизма модели государственного пространства, заключают, что фреймворк Mamba подходит для задач с автoreгрессивными или длинными последовательностями и не необходим для задач классификации изображений.
Для каких задач подходит Mamba?
Миксер токенов фреймворка Mamba является избирательной моделью государственного пространства, которая определяет четыре входных параметра. Рекуррентное свойство фреймворка отличает модели RNN-подобной модели государственного пространства от каузального внимания. Скрытое состояние можно рассматривать как фиксированную память, которая хранит историческую информацию. Фиксированный размер означает, что память является потерянной, но она также обеспечивает постоянную вычислительную сложность интеграции памяти с текущим входом. Напротив, каузальные слои внимания хранят все ключи и значения из предыдущих токенов и расширяются путем добавления ключа и значения текущего токена с каждым новым входом, и эта память является безошибочной в теории. Однако размер памяти увеличивается по мере ввода большего количества токенов, что увеличивает сложность интеграции памяти с текущим входом.

Поскольку память модели государственного пространства является внутренне потерянной, она не соответствует безошибочной памяти каузального внимания, и в результате модели Mamba не могут продемонстрировать свою силу в обработке коротких последовательностей, область, где механизм каузального внимания работает хорошо. Однако в сценариях, включающих длинные последовательности, подход каузального внимания терпит неудачу из-за квадратичной сложности. В этом сценарии фреймворк Mamba демонстрирует свою эффективность в объединении памяти с текущим входом и может обрабатывать длинные последовательности гладко, указывая на то, что семейство моделей Mamba хорошо подходит для обработки длинных последовательностей.
Также стоит отметить, что с одной стороны, где рекуррентное свойство модели государственного пространства позволяет моделям Mamba эффективно обрабатывать длинные последовательности, оно вводит определенное ограничение, поскольку оно может получить доступ только к информации из текущих и предыдущих временных шагов, и этот тип смешивания токенов называется каузальным режимом. Благодаря своему каузальному характеру, этот метод подходит для авторегрессивных задач генерации.

Полностью видимый режим подходит для задач понимания, где модель может получить доступ ко всем входам одновременно. Кроме того, внимание по умолчанию находится в полностью видимом режиме и может быть легко преобразовано в каузальный режим путем применения каузальных масок к картам внимания, и модели RNN-подобные работают внутренне в каузальном режиме из-за своих рекуррентных свойств. Чтобы суммировать, фреймворк Mamba подходит для задач, которые либо включают обработку длинных последовательностей, либо требуют каузального режима смешивания токенов.
Задачи визуального распознавания, каузальное смешивание кода и очень длинные последовательности
Как обсуждалось ранее, полностью видимый режим смешивания токенов позволяет неограниченный диапазон смешивания, тогда как каузальный режим ограничивает текущий токен доступом только к информации из предыдущих токенов. Кроме того, визуальное распознавание классифицируется как задача понимания, где модель может видеть все изображение одновременно, и это исключает необходимость ограничений на смешивание токенов, и введение дополнительных ограничений на смешивание токенов может потенциально ухудшить производительность модели. Обычно полностью видимый режим подходит для задач понимания, тогда как каузальный режим лучше подходит для автoreгрессивных задач.
Экспериментальное подтверждение и результаты
Следующий шаг – экспериментально подтвердить гипотезы, выдвинутые фреймворком MambaOut. Как показано на следующем изображении, блок Mamba основан на блоке свертки с управляемыми нейронами, и мета-архитектура блоков Mamba и Gated CNN может быть рассмотрена как упрощенная интеграция миксера токенов фреймворка MetaFormer и MLP.

Блок Mamba расширяет блок Gated CNN с дополнительной моделью государственного пространства, и наличие модели государственного пространства отличает блоки Gated CNN и Mamba. Кроме того, для улучшения практической скорости фреймворк MambaOut проводит только глубокую свертку на частичных каналах, и как показано на следующем алгоритме, реализация блока Gated CNN проста, но эффективна и элегантна.

Задача классификации изображений
ImageNet служит эталоном для задач классификации изображений, поскольку он состоит из более чем тысячи общих классов, более 1,3 миллиона тренировочных изображений и более 50 000 проверочных изображений. Данные для эксперимента включают случайное изменение размера, Mixup, изменение цвета, случайное удаление, CutMix и Rand Augment. Следующая таблица суммирует производительность семейства моделей Mamba, модели MambaOut и других моделей на основе внимания и свертки на наборе данных ImageNet. Как можно увидеть, фреймворк MambaOut без модели государственного пространства последовательно превосходит визуальные модели Mamba с SSM во всех размерах моделей.

Например, модель MambaOut-Small возвращает балл точности Top-1 более 84%, что на 0,4% выше, чем у ближайшего конкурента Mamba. Этот результат сильно поддерживает первую гипотезу, которая утверждает, что введение модели государственного пространства для задач классификации изображений не необходимо.
Обнаружение объектов и сегментация экземпляров
COCO служит эталоном для задач обнаружения объектов и сегментации экземпляров. Хотя фреймворк MambaOut способен превосходить производительность некоторых визуальных моделей Mamba, он все еще отстает от современных моделей Mamba, включая LocalVMamba и VMamba. Разница в производительности между MambaOut и современными визуальными моделями подчеркивает выгоды от интеграции семейства моделей Mamba в задачи визуального распознавания с длинными последовательностями. Однако стоит отметить, что значенный разрыв в производительности все еще существует между современными моделями на основе свертки и внимания и визуальными моделями Mamba.

Заключительные мысли
Семейство моделей Mamba, кажется, подходит для задач с автoreгрессивными и длинными последовательностями. Фреймворк MambaOut предполагает, что Mamba не необходим для задач зрения, поскольку классификация изображений не соответствует ни длинным последовательностям, ни автoreгрессивным характеристикам. Хотя задачи сегментации и обнаружения также не являются автoreгрессивными, они демонстрируют длинные последовательности, что приводит фреймворк MambaOut к гипотезе о потенциале Mamba для этих задач. Фреймворк MambaOut построен путем chồngирования блоков Mamba друг на друга, удаляя модель государственного пространства, ее основной миксер токенов. Экспериментальные результаты подтверждают гипотезу, выдвинутую фреймворком MambaOut, поскольку он способен превосходить все визуальные модели Mamba на фреймворке классификации изображений ImageNet, указывая на то, что Mamba не необходим для задач зрения. С другой стороны, для задач обнаружения и сегментации фреймворк MambaOut не может повторить производительность, предложенную современными моделями Mamba, демонстрируя потенциал семейства моделей Mamba для задач визуального распознавания с длинными последовательностями.












