Зв'язатися з нами

Uni-MoE: масштабування уніфікованих мультимодальних LLM за допомогою суміші експертів

Штучний Інтелект

Uni-MoE: масштабування уніфікованих мультимодальних LLM за допомогою суміші експертів

mm

Останні досягнення в архітектурі та продуктивності мультимодальних великих мовних моделей або MLLM підкреслили важливість масштабованих даних і моделей для підвищення продуктивності. Незважаючи на те, що цей підхід підвищує продуктивність, він несе значні обчислювальні витрати, що обмежує практичність і зручність використання таких підходів. Протягом багатьох років моделі Mixture of Expert або MoE з’явилися як успішний альтернативний підхід до ефективного масштабування моделей зображення, тексту та великих мов, оскільки моделі Mixture of Expert мають значно нижчі обчислювальні витрати та високу продуктивність. Однак, незважаючи на свої переваги, суміш моделей не є ідеальним підходом до масштабування великих мовних моделей, оскільки вони часто включають менше експертів і обмежені модальності, таким чином обмежуючи застосування. 

Щоб протистояти перешкодам, з якими стикаються сучасні підходи, і ефективно масштабувати великі мовні моделі, у цій статті ми розповімо про Uni-MoE, уніфіковану мультимодальну велику мовну модель із архітектурою MoE або Mixture of Expert, яка здатна обробляти широкий спектр різноманітність модальностей та експертів. Фреймворк Uni-MoE також реалізує розріджену суміш архітектури Expert у великих мовних моделях, намагаючись зробити процес навчання та логічного висновку більш ефективним шляхом використання паралелізму моделі експертного рівня та паралелізму даних. Крім того, для посилення узагальнення та співпраці між кількома експертами, структура Uni-MoE представляє прогресивну стратегію навчання, яка є комбінацією трьох різних процесів. У першому випадку фреймворк Uni-MoE досягає перехресного вирівнювання за допомогою різних конекторів із різними даними перехресної модальності. По-друге, структура Uni-MoE активує перевагу експертних компонентів, навчаючи експертів із конкретної модальності за допомогою даних інструкцій між модальністю. Нарешті, модель Uni-MoE реалізує методику навчання LoRA або Low-Rank Adaptation на змішаних мультимодальних інструкційних даних для налаштування моделі. Коли фреймворк Uni-MoE, налаштований на інструкції, оцінювався на повному наборі мультимодальних наборів даних, широкі експериментальні результати підкреслили головну перевагу фреймворку Uni-MoE у значному зниженні зміщення продуктивності при обробці змішаних мультимодальних наборів даних. Результати також свідчать про значне покращення взаємодії кількох експертів та узагальнення. 

Ця стаття має на меті детально висвітлити фреймворк Uni-MoE, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками. Тож почнемо. 

Uni-MoE: масштабування уніфікованих мультимодальних LLM

Поява мультимодальних великих мовних моделей з відкритим вихідним кодом, включаючи LLama та InstantBlip, окреслила помітний успіх і прогрес у задачах, пов’язаних із розумінням зображення та тексту за останні кілька років. Крім того, спільнота штучного інтелекту активно працює над створенням уніфікованої мультимодальної великої мовної моделі, яка могла б вмістити широкий спектр модальностей, включаючи зображення, текст, аудіо, відео тощо, виходячи за рамки традиційної парадигми зображення-текст. Загальний підхід, якого дотримується спільнота з відкритим кодом для підвищення можливостей мультимодальних великих мовних моделей, полягає у збільшенні розміру базових моделей бачення та їх інтеграції з великими мовними моделями з мільярдами параметрів, а також у використанні різноманітних мультимодальних наборів даних для покращення налаштування інструкцій. Ці розробки підкреслили зростаючу здатність мультимодальних великих мовних моделей міркувати та обробляти кілька модальностей, демонструючи важливість розширення мультимодальних навчальних даних і масштабованості моделі. 

Хоча масштабування моделі є перевіреним підходом, який дає значні результати, масштабування моделі є обчислювально дорогим процесом як для процесу навчання, так і для процесу логічного висновку. 

Щоб протистояти проблемі великих накладних витрат на обчислення, співтовариство відкритого коду рухається до інтеграції MoE або Mixture of Expert архітектура моделі у великих мовних моделях для підвищення ефективності як навчання, так і висновку. На відміну від мультимодальної великої мови та великих мовних моделей, які використовують усі доступні параметри для обробки кожного вхідного сигналу, що призводить до щільного обчислювального підходу, архітектура Mixture of Expert вимагає від користувачів лише активації підмножини експертних параметрів для кожного вхідного сигналу. Як наслідок, підхід Mixture of Expert стає життєздатним шляхом для підвищення ефективності великих моделей без значної активації параметрів і великих накладних витрат на обчислення. Незважаючи на те, що існуючі роботи підкреслюють успішне впровадження та інтеграцію моделей Mixture of Expert у побудову великих моделей лише з текстом і текстовим зображенням, дослідникам ще належить повністю вивчити потенціал розробки архітектури Mixture of Expert для створення потужних уніфікованих мультимодальних великих моделей. мовні моделі. 

Uni-MoE — це мультимодальна велика мовна модель, яка використовує розріджені моделі Mixture of Expert для інтерпретації та керування кількома модальностями в спробі дослідити масштабування уніфікованих мультимодальних великих мовних моделей за допомогою архітектури MoE. Як показано на наступному зображенні, фреймворк Uni-MoE спочатку отримує кодування різних модальностей за допомогою специфічних для модальності кодерів, а потім відображає ці кодування в просторі представлення мови великих мовних моделей за допомогою різних розроблених з’єднувачів. Ці роз’єми містять модель трансформатора, яку можна навчити, з наступними лінійними проекціями для дистиляції та проектування вихідних представлень замороженого кодера. Потім фреймворк Uni-MoE представляє розріджену суміш експертних рівнів у внутрішньому блоці щільної моделі великої мови. У результаті кожен блок на основі суміші експертів має спільний рівень самоконтролю, застосовний для всіх модальностей, розріджений маршрутизатор для розподілу експертних знань на рівні маркерів і різноманітних експертів на основі мережі прямого зв’язку. Завдяки цьому підходу структура Uni-MoE здатна розуміти кілька модальностей, включаючи мову, аудіо, текст, відео, зображення, і потребує лише активації часткових параметрів під час логічного висновку. 

Крім того, для покращення співпраці між експертами та узагальнення, структура Uni-MoE реалізує триетапну стратегію навчання. На першому етапі фреймворк використовує обширні пари «зображення/аудіо/мовлення на мову», щоб навчити відповідний з’єднувач завдяки уніфікованому представленню модальності в мовному просторі великої мовної моделі. По-друге, модель Uni-MoE навчає експертів із конкретної модальності, використовуючи набори даних між модальністю окремо, намагаючись удосконалити кваліфікацію кожного експерта в межах його відповідної області. На третьому етапі структура Uni-MoE інтегрує цих підготовлених експертів у рівень Mixture of Expert великої мовної моделі та навчає всю структуру Uni-MoE зі змішаними мультимодальними даними інструкцій. Щоб ще більше зменшити витрати на навчання, структура Uni-MoE використовує навчальний підхід LoRA для точного налаштування цих рівнів самоуважності та попередньо налаштованих експертів. 

Uni-MoE: Методологія та архітектура

Основною мотивацією, що стоїть за структурою Uni-MoE, є висока вартість навчання та висновків для масштабування мультимодальних великих мовних моделей, а також ефективність моделей Mixture of Expert, а також дослідження можливості створення ефективної, потужної та уніфікованої багатомодальної великої мовної моделі з використанням в Архітектура МО. На наступному малюнку представлено представлення архітектури, реалізованої у фреймворку Uni-MoE, що демонструє дизайн, який включає окремі кодери для різних модальностей, тобто аудіо, мовлення та зображення разом із відповідними роз’ємами модальності. 

Потім фреймворк Uni-MoE інтегрує архітектуру Mixture of Expert з основними великими блоками мовної моделі, процес, який має вирішальне значення для підвищення загальної ефективності як процесу навчання, так і процесу висновку. Фреймворк Uni-MoE досягає цього шляхом реалізації механізму розрідженої маршрутизації. Загальний навчальний процес структури Uni-MoE можна розділити на три етапи: міжмодальне узгодження, навчання експертів із конкретної модальності та налаштування Uni-MoE за допомогою різноманітного набору мультимодальних наборів даних інструкцій. Для ефективного перетворення різноманітних модальних вводів у лінгвістичний формат фреймворк Uni-MoE побудовано на основі LLaVA, попередньо навченого фреймворку візуальної мови. Базова модель LLaVA інтегрує CLIP як візуальний кодер разом із шаром лінійної проекції, який перетворює характеристики зображення у відповідні токени м’якого зображення. Крім того, для обробки відеовмісту платформа Uni-MoE вибирає вісім репрезентативних кадрів із кожного відео та перетворює їх у відеотокени за допомогою об’єднання середніх значень, щоб агрегувати їх зображення або представлення на основі кадрів. Для аудіозавдань платформа Uni-MoE розгортає два кодери, BEAT і кодер Whisper для покращення вилучення функцій. Потім модель дистилює аудіофункції векторної мови та мови фіксованої довжини та відображає їх у мовні маркери та м’яке аудіо відповідно за допомогою шару лінійної проекції. 

Стратегія навчання

Структура Uni-MoE запроваджує прогресивну стратегію навчання для поступового розвитку моделі. Прогресивна стратегія навчання запровадила спроби використовувати різні можливості різних експертів, підвищити ефективність співпраці між кількома експертами та підвищити загальну можливість узагальнення структури. Навчальний процес розбивається на три етапи з метою актуалізації MLLM структура, побудована на основі інтегрованої суміші експертів. 

Етап 1: Перехресне узгодження модальності

На першому етапі структура Uni-MoE намагається встановити зв’язок між різними лінгвістиками та модальностями. Фреймворк Uni-MoE досягає цього шляхом перекладу модальних даних у програмні токени шляхом створення конекторів. Основною метою першого етапу навчання є мінімізація генеративної втрати ентропії.  У структурі Uni-MoE LLM оптимізовано для створення описів для вхідних даних у різних модальностях, а модель піддає лише навчанню з’єднувачі, стратегію, яка дозволяє структурі Uni-MoE інтегрувати різні модальності в єдину мовну структуру. 

Етап 2: Експерти з конкретного методу навчання

На другому етапі структура Uni-MoE зосереджена на розробці експертів з однієї модальності шляхом спеціального навчання моделі на конкретних кросмодальних даних. Основна мета полягає в тому, щоб удосконалити кваліфікацію кожного експерта в його відповідній області, таким чином підвищивши загальну продуктивність системи Mixture of Expert на широкому масиві мультимодальних даних. Крім того, структура Uni-MoE налаштовує мережі прямого зв’язку, щоб тісніше відповідати характеристикам модальності, зберігаючи генеративну втрату ентропії як фокусне навчання метрики. 

Етап 3: Налаштування Uni-MoE

На третьому й останньому етапі структура Uni-MoE інтегрує вагові коефіцієнти, налаштовані експертами під час етапу 2, у суміш експертних рівнів. Потім структура Uni-MoE точно налаштовує MLLM, спільно використовуючи дані змішаних мультимодальних інструкцій. Криві втрат на наступному зображенні відображають хід тренувального процесу. 

Порівняльний аналіз між конфігураціями Mixture of Expert показав, що експерти, які вдосконалили модель під час 2-го етапу навчання, продемонстрували підвищену стабільність і досягли швидшої конвергенції на змішаних модальних наборах даних. Крім того, у завданнях, які включали складні мультимодальні дані, включаючи текст, зображення, аудіо та відео, платформа Uni-MoE продемонструвала більш узгоджену ефективність навчання та зменшила варіативність втрат, коли в ній працювало чотири експерти, ніж у випадку, коли працювало два експерти. 

Uni-MoE: Експерименти та результати

У наведеній нижче таблиці підсумовано архітектурні специфікації структури Uni-MoE. Основною метою фреймворку Uni-MoE, побудованого на архітектурі LLaMA-7B, є масштабування розміру моделі. 

У наступній таблиці підсумовано дизайн та оптимізацію структури Uni-MoE відповідно до спеціалізованих навчальних завдань. Ці завдання відіграють важливу роль у вдосконаленні можливостей рівнів MLP, таким чином використовуючи їхні спеціальні знання для підвищення продуктивності моделі. Структура Uni-MoE виконує вісім одномодальних експертних завдань для з’ясування різного впливу різних методологій навчання. 

Модель оцінює продуктивність різних варіантів моделі за різноманітним набором тестів, який охоплює два завдання на розуміння відео, три на розуміння аудіо та п’ять завдань, пов’язаних із мовленням. По-перше, модель перевіряється на її здатність розуміти мовленнєві зображення та мовленнєві текстові завдання, і результати містяться в наступній таблиці. 

Як можна помітити, попередні базові моделі дають гірші результати для завдань із розуміння мовлення, що ще більше впливає на продуктивність завдань із образно-мовленнєвим мисленням. Результати вказують на те, що запровадження архітектури Mixture of Expert може підвищити можливість узагальнення MLLM для завдань обґрунтування невидимих ​​звукових зображень. У наступній таблиці представлені експериментальні результати завдань із розуміння зображення та тексту. Як можна спостерігати, найкращі результати моделей Uni-MoE перевершують базові показники та перевершують завдання тонкого налаштування в середньому на 4 бали. 

Заключні думки

У цій статті ми говорили про Uni-MoE, уніфіковану мультимодальну модель великої мови з архітектурою MoE або Mixture of Expert, яка здатна обробляти широкий спектр модальностей і експертів. Фреймворк Uni-MoE також реалізує розріджену суміш архітектури Expert у великих мовних моделях, намагаючись зробити процес навчання та логічного висновку більш ефективним шляхом використання паралелізму моделі експертного рівня та паралелізму даних. Крім того, для посилення узагальнення та співпраці між кількома експертами, структура Uni-MoE представляє прогресивну стратегію навчання, яка є комбінацією трьох різних процесів. У першому випадку фреймворк Uni-MoE досягає перехресного вирівнювання за допомогою різних конекторів із різними даними перехресної модальності. По-друге, структура Uni-MoE активує перевагу експертних компонентів, навчаючи експертів із конкретної модальності за допомогою даних інструкцій між модальністю. Нарешті, модель Uni-MoE реалізує методику навчання LoRA або Low-Rank Adaptation на змішаних мультимодальних інструкційних даних для налаштування моделі.

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.