Искусственный интеллект

Uni-MoE: Масштабирование объединенных многомодальных моделей LLM с помощью смеси экспертов

Published May 31, 2024

Updated May 15, 2026

Kunal Kejriwal

Недавние достижения в области архитектуры и производительности многомодальных больших языковых моделей (MLLM) подчеркнули важность масштабируемых данных и моделей для улучшения производительности. Хотя этот подход действительно улучшает производительность, он требует значительных вычислительных затрат, что ограничивает практичность и удобство использования таких подходов. За годы модели смеси экспертов (MoE) стали успешной альтернативой для эффективного масштабирования моделей изображений и текста, а также больших языковых моделей, поскольку модели смеси экспертов имеют значительно более низкие вычислительные затраты и высокую производительность. Однако, несмотря на их преимущества, модели смеси экспертов не являются идеальным подходом для масштабирования больших языковых моделей, поскольку они часто включают меньшее количество экспертов и ограниченные модальности, что ограничивает их применения.

Чтобы преодолеть препятствия, с которыми сталкиваются текущие подходы, и эффективно масштабировать большие языковые модели, в этой статье мы поговорим об Uni-MoE, объединенной многомодальной большой языковой модели с архитектурой смеси экспертов, которая может обрабатывать широкий спектр модальностей и экспертов. Фреймворк Uni-MoE также реализует разреженную архитектуру смеси экспертов внутри больших языковых моделей в попытке сделать процесс обучения и вывода более эффективным за счет использования параллелизма моделей и данных на уровне экспертов. Кроме того, для улучшения обобщения и сотрудничества между экспертами фреймворк Uni-MoE представляет прогрессивную стратегию обучения, которая является комбинацией трех разных процессов. Во-первых, фреймворк Uni-MoE достигает согласования модальностей с помощью различных соединителей с разными данными модальностей. Во-вторых, фреймворк Uni-MoE активирует предпочтение компонентов экспертов путем обучения экспертов, специфичных для модальностей, с помощью инструкций модальностей. Наконец, модель Uni-MoE реализует технику обучения LoRA (Low-Rank Adaptation) на смешанных многомодальных инструкциях для настройки модели. Когда обученная модель Uni-MoE была оценена на всестороннем наборе многомодальных наборов данных, обширные экспериментальные результаты подчеркнули основное преимущество фреймворка Uni-MoE в снижении предвзятости производительности при обработке смешанных многомодальных наборов данных. Результаты также указали на значительное улучшение сотрудничества между экспертами и обобщения.

Эта статья направлена на подробное описание фреймворка Uni-MoE, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Итак, давайте начнем.

Uni-MoE: Масштабирование объединенных многомодальных моделей LLM

Появление открытых многомодальных больших языковых моделей, включая LLama и InstantBlip, подчеркнуло заметный успех и прогресс в задачах, связанных с пониманием изображений и текста, за последние несколько лет. Кроме того, сообщество искусственного интеллекта активно работает над созданием объединенной многомодальной большой языковой модели, которая могла бы вместить широкий спектр модальностей, включая изображения, текст, аудио, видео и многое другое, выходя за рамки традиционной парадигмы изображения и текста. Общий подход, используемый открытым сообществом для улучшения возможностей многомодальных больших языковых моделей, заключается в увеличении размера моделей основы видения и интеграции их с большими языковыми моделями с миллиардами параметров, а также использовании различных многомодальных наборов данных для улучшения инструктивного обучения. Эти разработки подчеркнули растущую способность многомодальных больших языковых моделей рассуждать и обрабатывать несколько модальностей, демонстрируя важность расширения многомодальных инструктивных данных и масштабируемости моделей.

Хотя масштабирование модели является проверенным подходом, который дает значительные результаты, масштабирование модели является вычислительчески дорогим процессом как для обучения, так и для вывода.

Чтобы преодолеть проблему высоких вычислительных затрат, открытое сообщество переходит к интеграции архитектуры смеси экспертов (MoE) в большие языковые модели для улучшения эффективности как обучения, так и вывода. В отличие от многомодальных больших языковых и больших языковых моделей, которые используют все доступные параметры для обработки каждого входа, что приводит к плотному вычислительному подходу, архитектура смеси экспертов требует только активации подмножества параметров экспертов для каждого входа. В результате архитектура смеси экспертов становится жизнеспособным путем для улучшения эффективности больших моделей без обширной активации параметров и высоких вычислительных затрат. Хотя существующие работы подчеркнули успешную реализацию и интеграцию моделей смеси экспертов в строительстве текстовых и текстово-изображенных больших моделей, исследователи еще не полностью исследовали потенциал разработки архитектуры смеси экспертов для создания мощных объединенных многомодальных больших языковых моделей.

Uni-MoE – это многомодальная большая языковая модель, которая использует разреженные модели смеси экспертов для интерпретации и управления несколькими модальностями в попытке исследовать масштабирование объединенных многомодальных больших языковых моделей с помощью архитектуры смеси экспертов. Как показано на следующем изображении, фреймворк Uni-MoE сначала получает кодирование различных модальностей с помощью модальности-специфических кодировщиков, а затем отображает эти кодирования в языковое представление больших языковых моделей с помощью различных соединителей. Эти соединители содержат обучаемую трансформерную модель с последующими линейными проекциями для дистилляции и проекции выходных представлений замороженного кодировщика. Фреймворк Uni-MoE затем вводит разреженные слои смеси экспертов внутри внутреннего блока плотной большой языковой модели. В результате каждый блок смеси экспертов имеет общий слой само-внимания, применимый ко всем модальностям, разреженный маршрутизатор для распределения экспертизы на уровне токена и различные эксперты на основе сети прямого распространения. Благодаря этому подходу фреймворк Uni-MoE может понимать несколько модальностей, включая речь, аудио, текст, видео, изображения, и требует активации только частичных параметров во время вывода.

Кроме того, для улучшения сотрудничества между экспертами и обобщения фреймворк Uni-MoE реализует трехэтапную стратегию обучения. На первом этапе фреймворк использует обширные пары изображений/аудио/речи и языка для обучения соответствующих соединителей из-за объединенного представления модальности в языковом пространстве большой языковой модели. Во втором этапе модель Uni-MoE обучает экспертов, специфичных для модальностей, с помощью инструкций модальностей отдельно в попытке усовершенствовать профессионализм каждого эксперта в его соответствующей области. На третьем этапе фреймворк Uni-MoE интегрирует этих обученных экспертов в слой смеси экспертов большой языковой модели и обучает всю модель Uni-MoE с помощью смешанных многомодальных инструкций. Для дальнейшего снижения затрат на обучение фреймворк Uni-MoE использует подход обучения LoRA для дообучения этих слоев само-внимания и предварительно обученных экспертов.

Uni-MoE: Методология и Архитектура

Основной мотивацией фреймворка Uni-MoE является высокая стоимость обучения и вывода масштабирования многомодальных больших языковых моделей, а также эффективность моделей смеси экспертов, и исследование возможности создания эффективной, мощной и объединенной многомодальной большой языковой модели с помощью архитектуры смеси экспертов. Следующая фигура представляет собой архитектуру, реализованную в фреймворке Uni-MoE, демонстрирующую дизайн, который включает отдельные кодировщики для различных модальностей, такие как аудио, речь и визуальные, а также их соответствующие соединители модальностей.

Фреймворк Uni-MoE затем интегрирует архитектуру смеси экспертов с основными блоками большой языковой модели, процесс, который имеет решающее значение для повышения общей эффективности как процесса обучения, так и вывода. Фреймворк Uni-MoE достигает этого, реализуя разреженный механизм маршрутизации. Общий процесс обучения фреймворка Uni-MoE можно разделить на три фазы: согласование модальностей, обучение экспертов, специфичных для модальностей, и настройка Uni-MoE с помощью разнообразного набора многомодальных инструкций. Для эффективного преобразования различных модальных входов в лингвистический формат фреймворк Uni-MoE построен на основе LLaVA, предварительно обученной визуально-языковой модели. Модель LLaVA включает CLIP в качестве визуального кодировщика, а также линейный слой проекции, который преобразует изображения в их соответствующие мягкие изображения-токены. Кроме того, для обработки видеоконтента фреймворк Uni-MoE выбирает восемь представительных кадров из каждого видео и преобразует их в видео-токены путем среднего пулинга для агрегации их изображения или кадрового представления. Для аудио-задач фреймворк Uni-MoE развертывает два кодировщика, BEATs и кодировщик Whisper, для улучшения извлечения признаков. Модель затем дистиллирует векторы аудио-признаков и фиксированной длины речи и отображает их в токены речи и мягкие аудио-токены соответственно через линейный слой проекции.

Стратегия Обучения

Фреймворк Uni-MoE вводит прогрессивную стратегию обучения для постепенного развития модели. Стратегия прогрессивного обучения, введенная в фреймворке, попытается использовать различные возможности различных экспертов, улучшить эффективность сотрудничества между экспертами и повысить общую обобщаемость фреймворка. Процесс обучения разделен на три этапа с целью реализации структуры MLLM, построенной на основе интегрированной смеси экспертов.

Этап 1: Согласование Модальностей

На первом этапе фреймворк Uni-MoE попытается установить связь между различными лингвистическими и модальностями. Фреймворк Uni-MoE достигает этого, переводя модальные данные в мягкие токены, создавая соединители. Основной объект первого этапа обучения – минимизировать генеративную энтропию потерь.В фреймворке Uni-MoE большая языковая модель оптимизируется для генерации описаний для входных данных из различных модальностей, и модель подвергается обучению только соединителей, стратегия, которая позволяет фреймворку Uni-MoE интегрировать различные модальности в объединенную языковую основу.

Этап 2: Обучение Экспертов, Специфичных для Модальностей

На втором этапе фреймворк Uni-MoE фокусируется на развитии экспертов, специфичных для отдельных модальностей, путем обучения модели, посвященной конкретным данным модальностей. Основная цель – усовершенствовать профессионализм каждого эксперта в его соответствующей области, тем самым улучшая общую производительность системы смеси экспертов на широком спектре многомодальных данных. Кроме того, фреймворк Uni-MoE настраивает сети прямого распространения для более близкого соответствия характеристикам модальности, сохраняя при этом генеративную энтропию потерь в качестве метрики обучения.

Этап 3: Настройка Uni-MoE

На третьем и последнем этапе фреймворк Uni-MoE интегрирует веса, настроенные экспертами на втором этапе, в слои смеси экспертов. Фреймворк Uni-MoE затем дообучает MLLM, используя смешанные многомодальные инструкции совместно. Кривые потерь на следующем изображении отражают прогресс процесса обучения.

Сравнительный анализ между конфигурациями смеси экспертов показал, что эксперты, которые были усовершенствованы во втором этапе обучения, демонстрировали улучшенную стабильность и достигали более быстрого сходимости на смешанных модальных наборах данных. Кроме того, на задачах, которые включали сложные многомодальные данные, включая текст, изображения, аудио и видео, фреймворк Uni-MoE продемонстрировал более последовательную производительность обучения и снижение вариативности потерь, когда он использовал четыре экспертов, чем когда он использовал два экспертов.

Uni-MoE: Эксперименты и Результаты

Следующая таблица суммирует архитектурные спецификации фреймворка Uni-MoE. Основная цель фреймворка Uni-MoE, построенного на основе архитектуры LLaMA-7B, – масштабировать размер модели.

Следующая таблица суммирует дизайн и оптимизацию фреймворка Uni-MoE, руководствующуюся специализированными задачами обучения. Эти задачи являются важными для усовершенствования возможностей слоев MLP, а также использования их специализированных знаний для улучшения производительности модели. Фреймворк Uni-MoE выполняет восемь задач обучения экспертов для отдельных модальностей, чтобы проиллюстрировать различное влияние различных методов обучения.

Модель оценивает производительность различных вариантов моделей на широком наборе бенчмарков, который включает две задачи понимания видео, три задачи понимания аудио и пять задач, связанных с речью. Сначала модель тестируется на ее способность понимать речь-изображение и речь-текст, и результаты содержатся в следующей таблице.

Как можно наблюдать, предыдущие базовые модели демонстрируют худшие результаты на задачах понимания речи, что также влияет на производительность на задачах рассуждения изображение-речь. Результаты указывают на то, что введение архитектуры смеси экспертов может улучшить обобщаемость MLLM на ранее не виденных аудио-изображениях задачах рассуждения. Следующая таблица представляет результаты экспериментов на задачах понимания изображений и текста. Как можно наблюдать, лучшие результаты моделей Uni-MoE превосходят базовые модели и превосходят задачу дообучения в среднем на 4 пункта.

Заключительные Мысли

В этой статье мы говорили об Uni-MoE, объединенной многомодальной большой языковой модели с архитектурой смеси экспертов, которая может обрабатывать широкий спектр модальностей и экспертов. Фреймворк Uni-MoE также реализует разреженную архитектуру смеси экспертов внутри больших языковых моделей в попытке сделать процесс обучения и вывода более эффективным за счет использования параллелизма моделей и данных на уровне экспертов. Кроме того, для улучшения обобщения и сотрудничества между экспертами фреймворк Uni-MoE представляет прогрессивную стратегию обучения, которая является комбинацией трех разных процессов. Во-первых, фреймворк Uni-MoE достигает согласования модальностей с помощью различных соединителей с разными данными модальностей. Во-вторых, фреймворк Uni-MoE активирует предпочтение компонентов экспертов путем обучения экспертов, специфичных для модальностей, с помощью инструкций модальностей. Наконец, модель Uni-MoE реализует технику обучения LoRA на смешанных многомодальных инструкциях для настройки модели.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.