Штучний інтелект

Mamba: Перевизначення моделей послідовності та перевершення архітектури трансформерів

mm
Mamba AI model

У цій статті про Mamba ми дослідимо, як ця інноваційна модель простору стану (SSM) революціонізує моделі послідовності. Розроблена Альбертом Гу та Трі Дао, Mamba відрізняється своєю ефективністю при обробці складних послідовностей у галузях, таких як обробка мови, геноміка та аналіз аудіо. Її лінійна обробка послідовностей з вибірковими просторами стану забезпечує виняткову продуктивність у цих різних модальностях.

Ми зануримося у можливість Mamba подолати обчислювальні виклики, з якими зіштовхуються традиційні трансформери, особливо при роботі з довгими послідовностями. Її вибірковий підхід у моделях простору стану дозволяє здійснювати швидшу інференцію та лінійне масштабування з довжиною послідовності, суттєво покращуючи пропускну здатність.

Унікальність Mamba полягає в її швидкій можливості обробки, вибірковому шарі SSM та апаратно-орієнтованому дизайні, натхненному FlashAttention. Ці особливості дозволяють Mamba перевершити багато існуючих моделей, включаючи ті, що базуються на підході трансформерів, роблячи її помітним досягненням у машинному навчанні.

Трансформери проти Mamba

Трансформери, як GPT-4, встановили стандарти в обробці природної мови. Однак їхня ефективність знижується при роботі з довгими послідовностями. Саме тут Mamba виходить вперед, завдяки своїй здатності обробляти довгі послідовності більш ефективно та своїй унікальній архітектурі, яка спрощує весь процес.

Трансформери вміють обробляти послідовності даних, такі як текст для мовних моделей. На відміну від попередніх моделей, які обробляли дані послідовно, трансформери обробляють всю послідовність одночасно, дозволяючи їм захоплювати складні відносини всередині даних.

Вони використовують механізм уваги, який дозволяє моделі зосередитися на різних частинах послідовності при прогнозуванні.

Ця увага обчислюється за допомогою трьох наборів ваг: запитів, ключів і значень, отриманих з вхідних даних. Кожен елемент у послідовності порівнюється з кожним іншим елементом, надаючи вагу, яка позначає важливість, або “увагу”, яку кожний елемент повинен отримати при прогнозуванні наступного елемента у послідовності.

Трансформери підтримують два основні блоки: кодувач, який обробляє вхідні дані, і декодувач, який генерує вихідні дані. Кодувач складається з декількох шарів, кожен з яких містить два підшари: механізм багатократної уваги та просту, позиційну повністю зв’язану нейронну мережу. Нормалізація та залишкові з’єднання використовуються на кожному підшарі для допомоги у навчанні глибоких мереж.

Декодувач також має шари з двома підшарами, подібними до кодувача, але додає третій підшар, який здійснює багатократну увагу над вихідними даними кодувача. Послідовна природа декодувача забезпечує, що прогнози для позиції можуть розглядатися лише раніше позицій, зберігаючи автoregressивну властивість.

На відміну від трансформерів, модель Mamba використовує інший підхід. Хоча трансформери займаються проблемою довгих послідовностей за допомогою більш складних механізмів уваги, Mamba використовує вибіркові простори стану, надаючи більш ефективний спосіб обробки.

Ось високорівневий огляд того, як працює трансформер:

  1. Обробка вхідних даних: Трансформери спочатку кодують вхідні дані у формат, який модель може зрозуміти, часто використовуючи вкладення, які також включають позицію кожного елемента у послідовності.
  2. Механізм уваги: У своєму ядрі механізм уваги обчислює оцінку, яка представляє, наскільки потрібно зосередитися на інших частинах вхідної послідовності при розумінні поточного елемента.
  3. Архітектура кодувача-декодувача: Модель трансформера складається з кодувача для обробки вхідних даних і декодувача для генерації вихідних даних. Кожен складається з декількох шарів, які уточнюють розуміння моделі вхідних даних.
  4. Багатократна увага: У кодувачі та декодувачі багатократна увага дозволяє моделі одночасно зосередитися на різних частинах послідовності з різних представницьких просторів, покращуючи її здатність навчатися з різних контекстів.
  5. Позиційно-незалежні повністю зв’язані нейронні мережі: Після уваги проста нейронна мережа обробляє вихід кожного положення окремо та однаково. Це поєднується з вхідними даними через залишкове з’єднання та слідує за нормалізацією шару.
  6. Генерація вихідних даних: Декодувач потім прогнозує вихідну послідовність, під впливом контексту кодувача та того, що було згенеровано до цього.

Спроможність трансформера обробляти послідовності паралельно та його потужний механізм уваги роблять його потужним для завдань, таких як переклад та генерація тексту.

На відміну від цього, модель Mamba працює інакше, використовуючи вибіркові простори стану для обробки послідовностей. Цей підхід вирішує обчислювальну неефективність трансформерів при роботі з довгими послідовностями. Дизайн Mamba дозволяє здійснювати швидшу інференцію та лінійне масштабування з довжиною послідовності, встановлюючи новий парадигму для моделей послідовностей, який може бути більш ефективним, особливо при роботі з довгими послідовностями.

Mamba

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя тривала цікавість також привела мене до природної обробки мови, галузі, яку я бажаю дослідити далі.