Штучний інтелект

Остання суміш експертів (MoE) 8x7B від Mistral AI

Published December 15, 2023

Updated April 28, 2026

Aayush Mittal Mittal

яка є паризькою відкритою стартап-компанією моделей, викликала норми, випустивши свою останню велику мовну модель (LLM), MoE 8x7B, через просте посилання на торент. Це суперечить традиційному підходу Google з їхнім випуском Gemini, викликаючи розмови та збудження в спільноті штучного інтелекту.

Підхід Mistral AI до випусків завжди був незвичайним. Часто відмовляючись від звичайних супровідних документів, блогів або прес-релізів, їхня стратегія була унікально ефективною в захопленні уваги спільноти штучного інтелекту.

Недавно компанія досягла видатної $2 млрд оцінки після раунду фінансування під керівництвом Andreessen Horowitz. Цей раунд фінансування був історичним, встановивши рекорд з $118 млн сीड-раунду, найбільшим в європейській історії. Окрім успіхів у фінансуванні, активна участь Mistral AI у дискусіях навколо Закону ЄС про штучний інтелект, відстоювання зменшення регулювання відкритих джерел штучного інтелекту.

Чому MoE 8x7B привертає увагу

Описана як “масштабована GPT-4”, Mixtral 8x7B використовує рамку суміші експертів (MoE) з вісьмома експертами. Кожен експерт має 111 млрд параметрів, поєднаних з 55 млрд спільних параметрів уваги, щоб дати загалом 166 млрд параметрів на модель. Це проектування значуще, оскільки дозволяє лише двом експертам брати участь у висновку кожного токену, підкреслюючи зрушення до більш ефективної та зосередженої обробки штучного інтелекту.

Одним з ключових висвітлень Mixtral є її здатність керувати широким контекстом 32 000 токенів, забезпечуючи достатній простір для виконання складних завдань. Мультимовні можливості моделі включають потужну підтримку англійської, французької, італійської, німецької та іспанської мов, обслуговуючи глобальну спільноту розробників.

Предварительна підготовка Mixtral включає дані з відкритого Вебу, з одночасним навчанням як експертів, так і маршрутизаторів. Цей метод забезпечує, що модель не тільки величезна у своєму параметричному просторі, але також тонко налаштована до нюансів величезних даних, яким вона була піддана.

Mixtral 8x7B досягає вражаючого рахунку

Mixtral 8x7B перевершує LLaMA 2 70B і суперник GPT-3.5, особливо помітно в завданні MBPP з успішністю 60,7%, значно вищою, ніж у її аналогів. Навіть у суворому тесті MT-Bench, призначеному для моделей, що слідують інструкціям, Mixtral 8x7B досягає вражаючого рахунку, майже збігаючись з GPT-3.5

Розуміння рамки суміші експертів (MoE)

Модель суміші експертів (MoE), хоча й набуває останнім часом уваги через її включення до моделей мови штучного інтелекту, таких як MoE 8x7B від Mistral AI, насправді коріння цієї ідеї сягає кількох років. Давайте переглянемо походження цієї ідеї через фундаментальні дослідження.

Концепція MoE

Суміш експертів (MoE) представляє собою зрушення парадигми в архітектурі нейронної мережі. На відміну від традиційних моделей, які використовують єдину, однорідну мережу для обробки всіх типів даних, MoE приймає більш спеціалізований та модульний підхід. Вона складається з декількох “експертних” мереж, кожна з яких призначена для обробки конкретних типів даних або завдань, під контролем “гейтінгової” мережі, яка динамічно спрямовує вхідні дані до найбільш підходящого експерта.

Шар суміші експертів (MoE) вбудований у рекурентну мовну модель (Джерело)

Вище зображення представляє високорівневий вигляд шару MoE, вбудованого у мовну модель. У своїй суті шар MoE складається з декількох підмереж, позначених як “експерти”, кожна з яких має потенціал спеціалізуватися на обробці різних аспектів даних. Гейтінгова мережа, виділена на діаграмі, визначає, яку комбінацію цих експертів залучено для даного входу. Це умовне активація дозволяє мережі значно збільшити свою потужність без відповідного зростання обчислювального попиту.

Функціональність шару MoE

У практиці гейтінгова мережа оцінює вхід (позначений як G(x) на діаграмі) та вибирає розріджену множину експертів для його обробки. Цей вибір модулюється виходами гейтінгової мережі, ефективно визначаючи “голос” або внесок кожного експерта у кінцевий вихід. Наприклад, як показано на діаграмі, можуть бути вибрані лише два експерти для обчислення виходу для кожного конкретного входного токену, роблячи процес ефективним шляхом концентрації обчислювальних ресурсів там, де вони найбільш потрібні.

Трансформер-енкодер з шарами MoE (Джерело)

Друге зображення вище контрасті традиційний трансформер-енкодер з тим, який доповнений шаром MoE. Архітектура трансформера, широко відома своєю ефективністю у мовних завданнях, традиційно складається з шарів самої уваги та фідфорвард-шарів, укладених послідовно. Введення шарів MoE замінює деякі з цих фідфорвард-шарів, дозволяючи моделі масштабуватися щодо потужності більш ефективно.

У доповненій моделі шари MoE розподілені по декількох пристроях, демонструючи підхід моделі-паралелізму. Це критично при масштабуванні до дуже великих моделей, оскільки дозволяє розподіл обчислювального навантаження та вимог до пам’яті по кластеру пристроїв, таких як GPU або TPU. Це розподілення життєво важливо для ефективного навчання та розгортання моделей з мільярдами параметрів, як свідчить навчання моделей з сотнями мільярдів до понад трильйона параметрів на великомасштабних обчислювальних кластерах.

Розріджений підхід MoE з налаштуванням інструкцій на LLM

У статті “Розріджена суміш експертів (MoE) для масштабування мовної моделі” обговорюється інноваційний підхід до поліпшення великих мовних моделей (LLM), інтегруючи архітектуру суміші експертів з техніками налаштування інструкцій.

Вона підкреслює загальну проблему, коли моделі MoE показують нижчу продуктивність порівняно з густими моделями рівної обчислювальної потужності при тонкому налаштуванні для конкретних завдань через розбіжності між загальним попереднім навчанням та завданням-специфічним тонким налаштуванням.

Налаштування інструкцій – це методологія навчання, при якій моделі уточнюються для кращого виконання природних мовних інструкцій, ефективно підвищуючи їхню продуктивність завдань. Стаття пропонує, що моделі MoE демонструють помітне покращення, коли поєднуються з налаштуванням інструкцій, ще більше, ніж їхні густі аналоги. Ця техніка узгоджує попередньо натреновані представлення моделі для виконання інструкцій більш ефективно, що призводить до суттєвого підвищення продуктивності.

Дослідники провели дослідження у трьох експериментальних умовах, показавши, що моделі MoE спочатку показують нижчу продуктивність у прямому завдань-специфічному тонкому налаштуванні. Однак, коли застосовується налаштування інструкцій, моделі MoE виділяються, особливо коли додатково доповнюються завданням-специфічним тонким налаштуванням. Це свідчить про те, що налаштування інструкцій є важливим кроком для моделей MoE, щоб перевершити густі моделі у завдань.

Ефект налаштування інструкцій на MOE

Вона також вводить FLAN-MOE32B, модель, яка демонструє успішне застосування цих концепцій. Помітно, що вона перевершує FLAN-PALM62B, густу модель, у завданнях-бенчмарках, використовуючи лише одну третину обчислювальних ресурсів. Це демонструє потенціал розріджених моделей MoE, поєднаних з налаштуванням інструкцій, для встановлення нових стандартів ефективності та продуктивності LLM.

Реалізація суміші експертів у реальних сценаріях

Універсальність моделей MoE робить їх ідеальними для ряду застосунків:

Обробка природної мови (NLP): Моделі MoE можуть обробляти нюанси та складності людської мови більш ефективно, роблячи їх ідеальними для просунутих завдань NLP.
Обробка зображень та відео: У завданнях, що вимагають високої роздільної здатності обробки, MoE може керувати різними аспектами зображень або кадрів відео, підвищуючи як якість, так і швидкість обробки.
Настроювані рішення штучного інтелекту: Бізнес та дослідники можуть налаштовувати моделі MoE для конкретних завдань, що призводить до більш цілевих та ефективних рішень штучного інтелекту.

Виклики та розгляди

Хоча моделі MoE пропонують численні переваги, вони також представляють унікальні виклики:

Складність у навчанні та налаштуванні: Розподілена природа моделей MoE може ускладнити процес навчання, вимагаючи ретельного балансування та налаштування експертів та гейтінгової мережі.
Керування ресурсами: Ефективне керування обчислювальними ресурсами по декількох експертам є критично важливим для максимізації переваг моделей MoE.

Включення шарів MoE до нейронних мереж, особливо у сфері мовних моделей, пропонує шлях до масштабування моделей до розмірів, раніше недосяжних через обчислювальні обмеження. Умовне обчислення, яке дозволяють шари MoE, дозволяє розподіл обчислювальних ресурсів більш ефективно, роблячи можливим навчання більших, більш потужних моделей. Коли ми продовжимо вимагати більше від наших систем штучного інтелекту, архітектури, такі як MoE-еквіпований трансформер, ймовірно, стануть стандартом для обробки складних, великомасштабних завдань у різних областях.

Related Topics:gemini large language model Mistral

Aayush Mittal

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.

Unite.AI

Остання суміш експертів (MoE) 8x7B від Mistral AI

You may like