Штучний інтелект
Зростання суміші експертів для ефективних великих мовних моделей

By
Aayush Mittal Mittal
У світі обробки природної мови (NLP) прагнення створення більших і більш потужних мовних моделей було основним мотиватором багатьох останніх досягнень. Однак, оскільки ці моделі зростають у розмірі, обчислювальні вимоги для навчання та висновку стають дедалі більш вимогливими, що тягне за собою обмеження наявних апаратних ресурсів.
З’являється Суміш-експертів (MoE), техніка, яка обіцяє полегшити цю обчислювальну負у, одночасно дозволяючи навчати більші та потужніші мовні моделі. Нижче ми обговоримо MoE, дослідимо її походження, внутрішню структуру та її застосування в трансформаторних мовних моделях.
Походження Суміші-експертів
Концепція Суміші-експертів (MoE) можна простежити до початку 1990-х років, коли дослідники досліджували ідею умовної обчислювання, коли частини нейронної мережі вибірково активуються на основі вхідних даних. Однією з піонерських робіт в цій галузі була робота “Адаптивна суміш локальних експертів” Джейкобса та ін. у 1991 році, яка запропонувала керовану систему навчання для ансамблю нейронних мереж, кожна з яких спеціалізувалася на різних регіонах вхідного простору.
Основна ідея Суміші-експертів полягає в тому, щоб мати кілька “експертних” мереж, кожна з яких відповідає за обробку підмножини вхідних даних. Механізм управління, зазвичай сам нейронна мережа, визначає, який експерт(и) повинен обробляти певний вхід. Цій підхід дозволяє моделі розподіляти свої обчислювальні ресурси більш ефективно, активуючи лише відповідних експертів для кожного входу, а не займаючи повну потужність моделі для кожного входу.
За роки різні дослідники досліджували та розширили ідею умовної обчислювання, що привело до розробок, таких як ієрархічні MoE, низькорангові апроксимації для умовної обчислювання та техніки для оцінки градієнтів через стохастичні нейрони та функції активації з жорстким порогом.
Суміш-експертів у трансформаторах
Хоча ідея Суміші-експертів існує вже кілька десятиліть, її застосування до трансформаторних мовних моделей відносно недавнє. Трансформери, які стали де-факто стандартом для сучасних мовних моделей, складаються з декількох шарів, кожний з яких містить механізм самоуваження та густу нейронну мережу (FFN).
Ключова інновація у застосуванні Суміші-експертів до трансформерів полягає в заміні густих шарів FFN на розріджені шари Суміші-експертів, кожний з яких складається з декількох експертних FFN та механізму управління. Механізм управління визначає, який експерт(и) повинен обробляти кожен вхідний токен, дозволяючи моделі вибірково активувати лише підмножину експертів для кожного вхідного рядка.
Однією з перших робіт, яка продемонструвала потенціал Суміші-експертів у трансформерах, була робота “Нейронні мережі неймовірно великого розміру: Розріджений шар Суміші-експертів” Шейзера та ін. у 2017 році. Ця робота ввела концепцію розрідженого шару Суміші-експертів, який використовував механізм управління, який додав розрідженість та шум до процесу вибору експертів, забезпечуючи активацію лише підмножини експертів для кожного входу.
Відтоді декілька інших робіт进一步 просунули застосування Суміші-експертів до трансформерів, вирішуючи проблеми, такі як нестабільність навчання, балансування навантаження та ефективне висновок. До них належать Switch Transformer (Fedus et al., 2021), ST-MoE (Zoph et al., 2022) та GLaM (Du et al., 2022).
Переваги Суміші-експертів для мовних моделей
Основна перевага застосування Суміші-експертів у мовних моделях полягає в можливості збільшення розміру моделі при збереженні відносно сталої обчислювальної витрати під час висновку. Вибірково активуючи лише підмножину експертів для кожного вхідного токену, моделі Суміші-експертів можуть досягти виразної потужності густих моделей значно меншого розміру, одночасно вимагаючи значно менше обчислень.
Наприклад, розглянемо мовну модель з густим шаром FFN розміром 7 мільярдів параметрів. Якщо ми замінимо цей шар на шар Суміші-експертів, який складається з восьми експертів, кожний з яких має 7 мільярдів параметрів, загальна кількість параметрів збільшується до 56 мільярдів. Однак під час висновку, якщо ми активуємо лише два експерти для кожного токену, обчислювальна витрата еквівалентна густій моделі розміром 14 мільярдів параметрів, оскільки вона здійснює дві матричні множення розміром 7 мільярдів параметрів.
Ця обчислювальна ефективність під час висновку особливо цінна в сценаріях розгортання, де ресурси обмежені, наприклад, на мобільних пристроях або в середовищах=edge-обчислювань. Крім того, знижені обчислювальні вимоги під час навчання можуть привести до суттєвої економії енергії та нижчого вуглецевого сліду, що відповідає зростаючому акценту на сталій практиці штучного інтелекту.
Виклики та розгляди
Хоча моделі Суміші-експертів пропонують переконливі переваги, їхнє прийняття та розгортання також супроводжуються декількома викликами та розглядами:
- Нестабільність навчання: Моделі Суміші-експертів відомі тим, що вони більш схильні до нестабільності навчання порівняно зі своїми густими аналогами. Ця проблема виникає через розріджену та умовну природу активації експертів, що може привести до труднощів у пропагації градієнтів та збіжності. Були запропоновані техніки, такі як з втратами маршрутизації (Zoph et al., 2022), для пом’якшення цих нестабільностей, але подальші дослідження все ще потрібні.
- Файнетюнинг та переобучення: Моделі Суміші-експертів схильні до переобучення під час файнетюнингу, особливо коли завдання має відносно малий набір даних. Це поведінка пояснюється підвищеною потужністю та розрідженістю моделей Суміші-експертів, що може привести до надспеціалізації на тренувальних даних. Потрібні ретельні регуляризація та стратегії файнетюнингу для пом’якшення цієї проблеми.
- Вимоги до пам’яті: Хоча моделі Суміші-експертів можуть зменшити обчислювальні витрати під час висновку, вони часто мають вищі вимоги до пам’яті порівняно з густими моделями подібного розміру. Це відбувається через те, що всі ваги експертів потрібно завантажувати до пам’яті, хоча лише підмножина активується для кожного входу. Обмеження пам’яті можуть обмежити масштабованість моделей Суміші-експертів на пристроях з обмеженими ресурсами.
- Балансування навантаження: Для досягнення оптимальної обчислювальної ефективності важливо балансувати навантаження між експертами, забезпечуючи, щоб жоден експерт не був перевантажений, тоді як інші залишаються недообладнаними. Це балансування навантаження зазвичай досягається за допомогою допоміжних втрат під час навчання та ретельного налаштування коефіцієнта потужності, який визначає максимальну кількість токенів, які можуть бути призначені кожному експерту.
- Передача даних: У розподілених сценаріях навчання та висновку моделі Суміші-експертів можуть вводити додаткову передачу даних через необхідність обміну інформацією про активацію та градієнти між експертами, розміщеними на різних пристроях або прискорювачах. Ефективні стратегії передачі даних та апаратно-орієнтований дизайн моделі є суттєвими для пом’якшення цієї передачі.
Незважаючи на ці виклики, потенційні переваги моделей Суміші-експертів у дозволіанні більших та потужніших мовних моделей спонукали суттєві дослідження зусиль для вирішення та пом’якшення цих проблем.
Приклад: Mixtral 8x7B та GLaM
Для ілюстрації практичного застосування Суміші-експертів у мовних моделях розглянемо два примітні приклади: Mixtral 8x7B та GLaM.
Mixtral 8x7B – це варіант Суміші-експертів мовної моделі Mistral, розроблений компанією Anthropic. Він складається з восьми експертів, кожний з яких має 7 мільярдів параметрів, що призводить до загальної кількості параметрів у 56 мільярдів. Однак під час висновку активуються лише два експерти для кожного токену, що ефективно знижує обчислювальну витрату до рівня густої моделі розміром 14 мільярдів параметрів, оскільки вона здійснює дві матричні множення розміром 7 мільярдів параметрів.
Mixtral 8x7B продемонстрував вражаючі результати, випереджаючи модель Llama розміром 70 мільярдів параметрів, одночасно пропонуючи значно швидші часи висновку. Варіант Mixtral 8x7B, налаштований для інструкцій, називається Mixtral-8x7B-Instruct-v0.1, також був випущений, ще більше підвищуючи його можливості щодо виконання природних мовних інструкцій.
Іншим примітним прикладом є GLaM (Google Language Model), великомасштабна модель Суміші-експертів, розроблена компанією Google. GLaM використовує архітектуру трансформатора лише з декодером та була навчена на величезному наборі даних розміром 1,6 трильйона токенів. Модель досягла вражаючих результатів у тестах з декількома зразками та одним зразком, демонструючи якість, порівнянну з GPT-3, при цьому використовуючи лише одну третину енергії, необхідної для навчання GPT-3.
Успіх GLaM можна віднести до її ефективної архітектури Суміші-експертів, яка дозволила навчати модель із величезною кількістю параметрів при збереженні розумних обчислювальних вимог. Модель також продемонструвала потенціал моделей Суміші-експертів бути більш енергоефективними та екологічно чистими порівняно з їхніми густими аналогами.
Архітектура Grok-1
Grok-1 – це модель Суміші-експертів на основі трансформера з унікальною архітектурою, розробленою для максимізації ефективності та продуктивності. Давайте розглянемо ключові характеристики:
- Параметри: З приголомшливими 314 мільярдами параметрів Grok-1 є найбільшою відкритою мовною моделлю на сьогодні. Однак завдяки архітектурі Суміші-експертів лише 25% ваг (приблизно 86 мільярдів параметрів) активні в будь-який момент часу, підвищуючи можливості обробки.
- Архітектура: Grok-1 використовує архітектуру Суміші з 8 експертами, кожний з яких обробляє два токени під час висновку.
- Шари: Модель складається з 64 шарів трансформера, кожний з яких включає механізм самоуваження та густу блок.
- Токенізація: Grok-1 використовує токенізацію SentencePiece з розміром словника 131 072 токенів.
- Вбудовування та позиційне кодування: Модель має 6 144-мірні вбудовування та використовує обертальне позиційне кодування, що дозволяє більш динамічну інтерпретацію даних порівняно з традиційним фіксованим позиційним кодуванням.
- Увага: Grok-1 використовує 48 голів уваги для запитів та 8 голів уваги для ключів і значень, кожна з яких має розмір 128.
- Довжина контексту: Модель може обробляти послідовності довжиною до 8 192 токенів, використовуючи точність bfloat16 для ефективних обчислень.
Продуктивність та деталі реалізації
Grok-1 продемонстрував вражаючі результати, випереджаючи LLaMa 2 70B та Mixtral 8x7B з оцінкою MMLU у 73%, демонструючи свою ефективність та точність у різних тестах.
Однак, варто зазначити, що Grok-1 вимагає суттєвих ресурсів GPU через свій величезний розмір. Поточна реалізація у відкритому релізі фокусується на перевірці правильності моделі та використовує неефективну реалізацію шару Суміші-експертів, щоб уникнути необхідності у спеціальних ядрах.
Незважаючи на це, модель підтримує шардування активації та 8-бітову квантизацію, які можуть оптимізувати продуктивність та зменшити вимоги до пам’яті.
У вражаючому русі xAI випустила Grok-1 під ліцензією Apache 2.0, зробивши її ваги та архітектуру доступними для глобальної спільноти для використання та внесення вкладу.
Відкритий реліз включає репозиторій прикладового коду JAX, який демонструє, як завантажити та запустити модель Grok-1. Користувачі можуть завантажити ваги моделі за допомогою клієнта торрентів або безпосередньо через HuggingFace Hub, що полегшує доступ до цієї революційної моделі.
Майбутнє Суміші-експертів у мовних моделях
Поки триває зростання попиту на більші та потужніші мовні моделі, прийняття техніки Суміші-експертів, як очікується, буде набувати подальшого імпульсу. Триває дослідження зусиль, спрямованих на вирішення існуючих проблем, таких як покращення стабільності навчання, пом’якшення переобучення під час файнетюнингу та оптимізація вимог до пам’яті та передачі даних.
Одним з перспективних напрямків є дослідження ієрархічних архітектур Суміші-експертів, де кожен експерт сам складається з декількох субекспертів. Цей підхід потенційно може забезпечити ще більшу масштабованість та обчислювальну ефективність при збереженні виразної потужності великих моделей.
Крім того, розвиток апаратних та програмних систем, оптимізованих для моделей Суміші-експертів, є активною областю дослідження. Спеціалізовані прискорювачі та розподілені框и навчання, розроблені для ефективної обробки розріджених та умовних обчислювальних шаблонів моделей Суміші-експертів, можуть ще більше підвищити їхню продуктивність та масштабованість.
Крім того, інтеграція техніки Суміші-експертів з іншими досягненнями у галузі мовних моделей, такими як розріджені механізми уваги, ефективні стратегії токенізації та багатомодальні представлення, може привести до ще більш потужних та універсальних мовних моделей, здатних вирішувати широкий спектр завдань.
Висновок
Техніка Суміші-експертів виникла як потужний інструмент у пошуках більших та потужніших мовних моделей. Вибірково активуючи експертів на основі вхідних даних, моделі Суміші-експертів пропонують перспективне рішення обчислювальних проблем, пов’язаних зі збільшенням густих моделей. Хоча існують виклики, які потрібно подолати, такі як нестабільність навчання, переобучення та вимоги до пам’яті, потенційні переваги моделей Суміші-експертів у термінах обчислювальної ефективності, масштабованості та екологічної чистоти роблять їх цікавою областю дослідження та розробки.
Поки галузь обробки природної мови продовжує розширювати межі того, що можливо, прийняття техніки Суміші-експертів, як очікується, відіграє важливу роль у дозволіленні наступного покоління мовних моделей. Об’єднавши Суміш-експертів з іншими досягненнями у галузі архітектури моделей, технік навчання та апаратної оптимізації, ми можемо очікувати ще більш потужних та універсальних мовних моделей, які можуть справді зрозуміти та спілкуватися з людьми природним та безшовним чином.
Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.
You may like
-


Чому більшість сучасних застосунків стануть безкорисними у добу штучного інтелекту
-


Mistral AI отримує 830 мільйонів доларів кредиту для будівництва центру даних у Парижі
-


Gemini 3.1 Pro Досягає Рекордних Розумових Здобутків
-


Код Людини З 2020 Року Переміг Vibe-Кодованих Агентів У Агентських Тестах
-
Google представила Gemini 3 Pro з рекордною продуктивністю
-


Революція MoE: Як розширення маршрутизації та спеціалізації перетворюють великі мовні моделі

