Штучний інтелект

Uni-MoE: Масштабування Єдиних Мультимодальних Моделей Великої Мови з допомогою Міксу Експертів

Published May 31, 2024

Updated May 15, 2026

Kunal Kejriwal

Нещодавні досягнення в архітектурі та продуктивності мультимодальних великих мовних моделей (MLLM) підкреслили значення масштабованих даних та моделей для покращення продуктивності. Хоча цей підхід дійсно покращує продуктивність, він супроводжується суттєвими обчислювальними витратами, що обмежує практичність та придатність таких підходів. За останні роки моделі Міксу Експертів (MoE) виявилися успішним альтернативним підходом до ефективного масштабування моделей великої мови та зображень, оскільки моделі Міксу Експертів мають суттєво нижчі обчислювальні витрати та сильну продуктивність. Однак, попри їхні переваги, моделі Міксу Експертів не є ідеальним підходом до масштабування великих мовних моделей, оскільки вони часто включають менше експертів та обмежені модальності, що обмежує застосування.

Щоб подолати перешкоди, з якими зіштовхнулися сучасні підходи, та ефективно масштабувати великі мовні моделі, в цій статті ми обговоримо Uni-MoE, єдину мультимодальну велику мовну модель з архітектурою Міксу Експертів, яка здатна обробляти широкий спектр модальностей та експертів. Фреймворк Uni-MoE також реалізує розріджену архітектуру Міксу Експертів у великих мовних моделях у спробі зробити процес навчання та висновку більш ефективним за допомогою паралелізму моделей та даних. Крім того, для покращення узагальнення та співробітництва експертів фреймворк Uni-MoE пропонує прогресивну стратегію навчання, яка являє собою поєднання трьох різних процесів. На першому етапі фреймворк Uni-MoE досягає узгодження між модальностями за допомогою різних конекторів з різними даними. Другий етап полягає у активації переваг експертних компонентів шляхом навчання модальностям-специфічних експертів з даними інструкцій. Нарешті, модель Uni-MoE реалізує техніку навчання Low-Rank Adaptation (LoRA) на змішаних мультимодальних даних інструкцій для налаштування моделі.

Ця стаття має на меті детально розглянути фреймворк Uni-MoE, дослідити механізм, методологію, архітектуру фреймворка та його порівняння з сучасними фреймворками. Тому почнімо.

Uni-MoE: Масштабування Єдиних Мультимодальних Моделей Великої Мови

Поява відкритих мультимодальних великих мовних моделей, таких як LLama та InstantBlip, підкреслила успіхи та розвиток завдань, пов’язаних із розумінням зображень та тексту за останні роки. Крім того, спільнота штучного інтелекту активно працює над створенням єдиної мультимодальної великої мовної моделі, яка могла б обробляти широкий спектр модальностей, включаючи зображення, текст, аудіо, відео та інше, виходячи за рамки традиційного парадигми зображення-текст. Поширений підхід, який використовується відкритою спільнотою для покращення можливостей мультимодальних великих мовних моделей, полягає у збільшенні розміру моделей основи бачення та інтеграції їх з великими мовними моделями з мільярдами параметрів, а також використанні різноманітних мультимодальних наборів даних для покращення налаштування інструкцій. Ці розробки підкреслили зростаючу здатність мультимодальних великих мовних моделей до розуміння та обробки декількох модальностей, демонструючи важливість розширення мультимодальних інструктивних даних та масштабованості моделей.

Хоча масштабування моделі є перевіреним підходом, який забезпечує суттєві результати, масштабування моделі є обчислювально дорогим процесом для процесів навчання та висновку.

Щоб подолати проблему високих обчислювальних витрат, відкрита спільнота переходить до інтеграції архітектури Міксу Експертів у великі мовні моделі для покращення ефективності процесів навчання та висновку. На відміну від мультимодальних великих мовних моделей та великих мовних моделей, які використовують всі доступні параметри для обробки кожного входу, що призводить до щільного обчислювального підходу, архітектура Міксу Експертів потребує лише активації підмножини експертних параметрів для кожного входу. Таким чином, архітектура Міксу Експертів виявляється життєздатним шляхом до покращення ефективності великих моделей без суттєвої активації параметрів та високих обчислювальних витрат. Хоча існуючі роботи підкреслили успішну реалізацію та інтеграцію моделей Міксу Експертів у текстові та текстово-зображенні великі моделі, дослідники ще не повністю дослідили потенціал розробки архітектури Міксу Експертів для створення потужних єдиних мультимодальних великих мовних моделей.

Uni-MoE є мультимодальною великою мовною моделлю, яка використовує розріджені моделі Міксу Експертів для інтерпретації та управління декількома модальностями у спробі дослідити масштабування єдиних мультимодальних великих мовних моделей з архітектурою Міксу Експертів. Як показано на наступному зображенні, фреймворк Uni-MoE спочатку отримує кодування різних модальностей за допомогою модальностям-специфічних кодувальників, а потім відображає ці кодування у мовний простір великої мовної моделі за допомогою різних конекторів. Ці конектори містять тренований трансформер-модель з наступними лінійними проєкціями для витягування та проєкції вивідних представлень замороженого кодувальника. Фреймворк Uni-MoE потім вводить розріджені шари Міксу Експертів у внутрішній блоці густої великої мовної моделі. Таким чином, кожний блок Міксу Експертів містить спільний шар самої уваги, який застосовується до всіх модальностей, розріджений роутер для розподілу експертизи на рівні токенів та різні експерти на основі фідфорвард-мереж. Завдяки цьому підходу фреймворк Uni-MoE здатний розуміти декілька модальностей, включаючи мову, аудіо, текст, відео, зображення, та потребує лише активації часткових параметрів під час висновку.

Крім того, для покращення співробітництва експертів та узагальнення фреймворк Uni-MoE реалізує триетапну стратегію навчання. На першому етапі фреймворк використовує обширні пари зображення/аудіо/мови до мови для навчання відповідного конектору через єдину модальність у мовному просторі великої мовної моделі. Другий етап полягає у навчанні модальностям-специфічних експертів за допомогою даних інструкцій, що містять різні модальності, у спробі доопрацювати професіоналізм кожного експерта у своїй галузі. На третьому етапі фреймворк Uni-MoE інтегрує这些 навчені експерти у шар Міксу Експертів великої мовної моделі та тренує весь фреймворк Uni-MoE з змішаними мультимодальними інструкційними даними. Для подальшого зниження витрат на навчання фреймворк Uni-MoE використовує підхід навчання LoRA для доопрацювання цих шарів самої уваги та попередньо налаштованих експертів.

Uni-MoE: Методологія та Архітектура

Основною мотивацією створення фреймворку Uni-MoE є висока вартість навчання та висновку мультимодальних великих мовних моделей, а також ефективність моделей Міксу Експертів, та дослідження можливості створення ефективної, потужної та єдиної мультимодальної великої мовної моделі з використанням архітектури Міксу Експертів. Наступна фігура представляє архітектуру, реалізовану у фреймворку Uni-MoE, демонструючи дизайн, який включає окремі кодувальники для різних модальностей, тобто аудіо, мови та зображень, разом з їхніми відповідними модальностям-конекторами.

Фреймворк Uni-MoE потім інтегрує архітектуру Міксу Експертів з основними блоками великої мовної моделі, процес, який є важливим для покращення загальної ефективності процесів навчання та висновку. Фреймворк Uni-MoE досягає цього шляхом реалізації розрідженої системи маршрутизації. Загальний процес навчання фреймворку Uni-MoE можна розділити на три фази: узгодження між модальностями, навчання модальностям-специфічних експертів та налаштування Uni-MoE з використанням різноманітних мультимодальних інструкційних наборів даних. Для ефективної трансформації різних модальних входів у лінгвістичний формат фреймворк Uni-MoE побудований на основі попередньо тренованої візуально-мовної моделі LLaVA. Модель LLaVA включає CLIP як візуальний кодувальник разом з лінійним проєкційним шаром, який перетворює особливості зображень у м’які токени зображень. Крім того, для обробки відео фреймворк Uni-MoE вибирає вісім представницьких кадрів з кожного відео та перетворює їх у відео-токени шляхом平均ного пуліングу для агрегації їхнього зображення чи кадрового представлення. Для завдань, пов’язаних з аудіо, фреймворк Uni-MoE розгортає два кодувальники, BEATs та кодувальник Whisper, для покращення витягування особливостей. Модель потім витягує вектори аудіо-особливостей та фіксовану довжину мови, та відображає їх у токени мови та м’які аудіо-токени через лінійний проєкційний шар.

Стратегія Навчання

Фреймворк Uni-MoE вводить прогресивну стратегію навчання для поступового розвитку моделі. Ця стратегія спрямована на використання окремих можливостей різних експертів, покращення ефективності співробітництва експертів та загальної узагальнювальної здатності фреймворку. Процес навчання розділений на три етапи з метою реалізації структури Міксу Експертів, побудованої на основі інтегрованої моделі Міксу Експертів.

Етап 1: Узгодження між Модальностями

На першому етапі фреймворк Uni-MoE намагається встановити зв’язок між різними лінгвістичними модальностями. Фреймворк Uni-MoE досягає цього шляхом перекладу модальних даних у м’які токени шляхом побудови конекторів. Основною метою першого етапу навчання є мінімізація генеративної ентропійної втрати.У фреймворку Uni-MoE велика мовна модель оптимізована для генерації описів для входів у різних модальностях, а модель піддається тренуванню лише конекторів, стратегія, яка дозволяє фреймворку Uni-MoE інтегрувати різні модальності у єдиному мовному фреймворку.

Етап 2: Навчання Модальностям-Специфічних Експертів

На другому етапі фреймворк Uni-MoE зосереджується на розвитку експертів окремих модальностей шляхом навчання моделі, присвяченої конкретним даним інструкцій. Основною метою є доопрацювання професіоналізму кожного експерта у своїй галузі, тим самим покращуючи загальну продуктивність системи Міксу Експертів на широкому спектрі мультимодальних даних. Крім того, фреймворк Uni-MoE доопрацює фідфорвард-мережі для більш тісного збігу з характеристиками модальності, зберігаючи при цьому генеративну ентропійну втрату як фокус метрики навчання.

Етап 3: Налаштування Uni-MoE

На третьому та останньому етапі фреймворк Uni-MoE інтегрує ваги, доопрацьовані експертами під час етапу 2, у шари Міксу Експертів. Фреймворк Uni-MoE потім доопрацьовує МЛЛМ, використовуючи змішані мультимодальні інструкційні дані спільно. Криві втрат на наступному зображенні відображають прогрес процесу навчання.

Порівняльний аналіз між конфігураціями Міксу Експертів показав, що експерти, яких модель доопрацювала під час другого етапу навчання, демонстрували покращену стабільність та досягали швидшого збігу на змішаних мультимодальних наборах даних. Крім того, на завданнях, що включали складні мультимодальні дані, включаючи текст, зображення, аудіо, відео, фреймворк Uni-MoE демонстрував більш стабільну продуктивність навчання та знижену варіативність втрат, коли він використовував чотири експерти, ніж коли він використовував два експерти.

Uni-MoE: Експерименти та Результати

Наступна таблиця підсумовує архітектурні специфікації фреймворку Uni-MoE. Основною метою фреймворку Uni-MoE, побудованому на основі архітектури LLaMA-7B, є масштабування розміру моделі.

Наступна таблиця підсумовує дизайн та оптимізацію фреймворку Uni-MoE, керовану спеціалізованими завданнями навчання. Ці завдання важливі для доопрацювання можливостей шарів MLP, тим самим використовуючи їхню спеціалізовану знання для покращення продуктивності моделі. Фреймворк Uni-MoE проводить вісім завдань навчання окремих модальностей для демонстрації різниці різних методів навчання.

Модель оцінює продуктивність різних варіантів моделей на широкому спектрі тестових наборів, які включають два завдання розуміння відео, три завдання розуміння аудіо та п’ять завдань, пов’язаних з мовою. Спочатку модель тестується на її здатність розуміти мову-зображення та мову-текст, а результати містяться у наступній таблиці.

Як можна побачити, попередні базові моделі демонструють нижчі результати на завданнях розуміння мови, що впливає на продуктивність на завданнях розуміння зображення-мови. Результати показують, що введення архітектури Міксу Експертів може покращити узагальнювальну здатність МЛЛМ на невидимих завданнях розуміння аудіо-зображення. Наступна таблиця представляє результати експериментів на завданнях розуміння зображення-текст.

Фінальні Думки

У цій статті ми обговорили Uni-MoE, єдину мультимодальну велику мовну модель з архітектурою Міксу Експертів, яка здатна обробляти широкий спектр модальностей та експертів. Фреймворк Uni-MoE також реалізує розріджену архітектуру Міксу Експертів у великих мовних моделях у спробі зробити процес навчання та висновку більш ефективним за допомогою паралелізму моделей та даних. Крім того, для покращення узагальнення та співробітництва експертів фреймворк Uni-MoE пропонує прогресивну стратегію навчання, яка являє собою поєднання трьох різних процесів. На першому етапі фреймворк Uni-MoE досягає узгодження між модальностями за допомогою різних конекторів з різними даними. Другий етап полягає у активації переваг експертних компонентів шляхом навчання модальностям-специфічних експертів з даними інструкцій. Нарешті, модель Uni-MoE реалізує техніку навчання Low-Rank Adaptation (LoRA) на змішаних мультимодальних даних інструкцій для налаштування моделі.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.