Искусственный интеллект

Uni-MoE: масштабирование унифицированных мультимодальных программ LLM с привлечением экспертов

опубликованный 31 мая 2024

Кунал Кеджривал

Недавние достижения в архитектуре и производительности мультимодальных моделей большого языка или MLLM подчеркнули важность масштабируемых данных и моделей для повышения производительности. Хотя этот подход действительно повышает производительность, он требует значительных вычислительных затрат, что ограничивает практичность и удобство использования таких подходов. За прошедшие годы модели Mixture of Expert или MoE стали успешным альтернативным подходом к эффективному масштабированию моделей изображения-текста и больших языковых моделей, поскольку модели Mixture of Expert имеют значительно более низкие вычислительные затраты и высокую производительность. Однако, несмотря на свои преимущества, смесь моделей не является идеальным подходом для масштабирования больших языковых моделей, поскольку в них часто задействовано меньше экспертов и ограничены методы, что ограничивает возможности применения.

Чтобы противостоять препятствиям, с которыми сталкиваются современные подходы, и эффективно масштабировать большие языковые модели, в этой статье мы поговорим о Uni-MoE, единой мультимодальной модели большого языка с архитектурой MoE или смесью экспертов, которая способна обрабатывать широкий спектр языков. множество модальностей и экспертов. Платформа Uni-MoE также реализует разреженную архитектуру Mixture of Expert в больших языковых моделях, пытаясь сделать процесс обучения и вывода более эффективным за счет использования параллелизма моделей на экспертном уровне и параллелизма данных. Кроме того, для повышения обобщения и сотрудничества между несколькими экспертами структура Uni-MoE представляет собой прогрессивную стратегию обучения, которая представляет собой комбинацию трех различных процессов. Во-первых, структура Uni-MoE обеспечивает межмодальное согласование с использованием различных соединителей с разными кросс-модальными данными. Во-вторых, структура Uni-MoE активирует предпочтение экспертных компонентов путем обучения экспертов, специфичных для конкретных модальностей, с использованием данных перекрестных инструкций. Наконец, модель Uni-MoE реализует метод обучения LoRA или адаптации низкого ранга на смешанных мультимодальных данных инструкций для настройки модели. Когда настроенная на инструкции платформа Uni-MoE была оценена на комплексном наборе мультимодальных наборов данных, обширные экспериментальные результаты подчеркнули основное преимущество платформы Uni-MoE в значительном снижении систематической ошибки производительности при обработке смешанных мультимодальных наборов данных. Результаты также показали значительное улучшение сотрудничества нескольких экспертов и обобщения.

Целью этой статьи является более глубокое освещение платформы Uni-MoE, и мы исследуем механизм, методологию, архитектуру платформы, а также ее сравнение с современными платформами. Итак, давайте начнем.

Uni-MoE: масштабирование унифицированных мультимодальных LLM

Появление мультимодальных больших языковых моделей с открытым исходным кодом, включая LLama и InstantBlip, обозначило заметный успех и прогресс в решении задач, связанных с пониманием изображения и текста, за последние несколько лет. Кроме того, сообщество ИИ активно работает над созданием единой мультимодальной модели большого языка, которая могла бы включать широкий спектр модальностей, включая изображение, текст, аудио, видео и многое другое, выходя за рамки традиционной парадигмы изображения и текста. Общий подход, которого придерживается сообщество разработчиков ПО с открытым исходным кодом для расширения возможностей мультимодальных больших языковых моделей, заключается в увеличении размера базовых моделей видения и их интеграции с большими языковыми моделями с миллиардами параметров, а также использовании разнообразных мультимодальных наборов данных для улучшения настройки инструкций. Эти разработки подчеркнули растущую способность мультимодальных моделей большого языка рассуждать и обрабатывать множество модальностей, демонстрируя важность расширения мультимодальных учебных данных и масштабируемости модели.

Хотя масштабирование модели — это проверенный и проверенный подход, дающий существенные результаты, масштабирование модели — это вычислительно затратный процесс как для процессов обучения, так и для процессов вывода.

Чтобы решить проблему высоких накладных вычислительных затрат, сообщество открытого исходного кода движется к интеграции МО или смесь экспертов Архитектура модели в больших языковых моделях для повышения эффективности обучения и вывода. В отличие от мультимодальных моделей большого языка и больших языков, которые используют все доступные параметры для обработки каждого ввода, что приводит к плотному вычислительному подходу, архитектура Mixture of Expert требует от пользователей только активации подмножества экспертных параметров для каждого ввода. В результате подход Mixture of Expert становится жизнеспособным путем повышения эффективности больших моделей без обширной активации параметров и высоких накладных вычислительных затрат. Хотя существующие работы подчеркивают успешную реализацию и интеграцию моделей Mixture of Expert при построении больших текстовых и текстовых больших моделей, исследователям еще предстоит полностью изучить потенциал разработки архитектуры Mixture of Expert для создания мощных унифицированных мультимодальных больших моделей. языковые модели.

Uni-MoE — это мультимодальная модель большого языка, которая использует разреженную смесь экспертных моделей для интерпретации и управления несколькими модальностями в попытке изучить масштабирование унифицированных мультимодальных моделей большого языка с архитектурой MoE. Как показано на следующем изображении, платформа Uni-MoE сначала получает кодировку различных модальностей с помощью кодировщиков, специфичных для модальностей, а затем отображает эти кодировки в пространство языкового представления больших языковых моделей с использованием различных разработанных соединителей. Эти соединители содержат обучаемую модель преобразователя с последующими линейными проекциями для фильтрации и проецирования выходных представлений замороженного кодера. Затем структура Uni-MoE вводит разреженную смесь экспертных уровней во внутренний блок плотной модели большого языка. В результате каждый блок на основе смеси экспертов имеет общий уровень самообслуживания, применимый ко всем модальностям, разреженный маршрутизатор для распределения опыта на уровне токена и различных экспертов на основе сети прямой связи. Благодаря этому подходу платформа Uni-MoE способна понимать несколько модальностей, включая речь, аудио, текст, видео, изображение, и требует активации только частичных параметров во время вывода.

Кроме того, для расширения сотрудничества и обобщения результатов работы нескольких экспертов в рамках Uni-MoE реализована трехэтапная стратегия обучения. На первом этапе фреймворк использует расширенные пары изображение/аудио/речь в язык для обучения соответствующего коннектора благодаря унифицированному представлению модальности в языковом пространстве большой языковой модели. Во-вторых, модель Uni-MoE обучает экспертов по конкретным модальностям, используя кросс-модальные наборы данных отдельно, пытаясь повысить квалификацию каждого эксперта в своей соответствующей области. На третьем этапе платформа Uni-MoE интегрирует этих обученных экспертов в уровень Mixture of Expert большой языковой модели и обучает всю структуру Uni-MoE смешанными мультимодальными данными инструкций. Чтобы еще больше снизить стоимость обучения, структура Uni-MoE использует подход обучения LoRA для точной настройки этих уровней самообслуживания и предварительно настроенных экспертов.

Uni-MoE: методология и архитектура

Основной мотивацией структуры Uni-MoE является высокая стоимость обучения и вывода при масштабировании мультимодальных моделей большого языка наряду с эффективностью моделей Mixture of Expert, а также изучение возможности создания эффективной, мощной и унифицированной мультимодальной модели большого языка с использованием тот МО архитектуры. На следующем рисунке представлено представление архитектуры, реализованной в структуре Uni-MoE, демонстрирующей конструкцию, включающую отдельные кодеры для различных модальностей, т. е. аудио, речи и визуальных изображений, а также соответствующие соединители модальности.

Затем платформа Uni-MoE интегрирует архитектуру Mixture of Expert с основными блоками большой языковой модели, и этот процесс имеет решающее значение для повышения общей эффективности как процесса обучения, так и процесса вывода. Платформа Uni-MoE достигает этого за счет реализации механизма разреженной маршрутизации. Общий процесс обучения в рамках Uni-MoE можно разделить на три этапа: согласование перекрестных модальностей, обучение экспертов по конкретным модальностям и настройка Uni-MoE с использованием разнообразного набора наборов данных мультимодальных инструкций. Чтобы эффективно преобразовывать разнообразные модальные входные данные в лингвистический формат, платформа Uni-MoE построена на основе LLaVA, предварительно обученной среды визуального языка. Базовая модель LLaVA объединяет CLIP в качестве визуального кодировщика вместе со слоем линейной проекции, который преобразует элементы изображения в соответствующие им программные токены изображения. Кроме того, для обработки видеоконтента платформа Uni-MoE выбирает восемь репрезентативных кадров из каждого видео и преобразует их в видеотокены путем усреднения пула для агрегирования их изображения или представления на основе кадров. Для задач аудио платформа Uni-MoE использует два кодировщика: BEAT и кодировщик Whisper, чтобы улучшить извлечение функций. Затем модель выделяет векторные аудиохарактеристики и речь фиксированной длины и отображает их в речевые токены и мягкий звук соответственно через слой линейной проекции.

Стратегия обучения

Структура Uni-MoE представляет прогрессивную стратегию обучения для постепенного развития модели. Стратегия прогрессивного обучения предприняла попытки использовать различные способности различных экспертов, повысить эффективность сотрудничества нескольких экспертов и повысить общую обобщаемость структуры. Процесс обучения разбит на три этапа с попыткой реализовать MLLM структура, построенная на основе интегрированной смеси экспертов.

Этап 1: Кросс-модальное согласование

На первом этапе структура Uni-MoE пытается установить связь между различными лингвистиками и модальностями. Платформа Uni-MoE достигает этого путем перевода модальных данных в программные токены путем создания соединителей. Основная цель первого этапа обучения — минимизировать потери генеративной энтропии. В рамках Uni-MoE LLM оптимизирован для создания описаний входных данных в различных модальностях, а модель подвергает обучению только коннекторы — стратегия, которая позволяет платформе Uni-MoE интегрировать различные модальности в единую языковую структуру.

Этап 2: Обучение экспертов по конкретным методам

На втором этапе структура Uni-MoE фокусируется на подготовке экспертов по одной модальности путем обучения модели специально на конкретных кросс-модальных данных. Основная цель состоит в том, чтобы повысить квалификацию каждого эксперта в своей соответствующей области, тем самым повысив общую производительность системы «Смесь экспертов» по широкому спектру мультимодальных данных. Кроме того, структура Uni-MoE адаптирует сети прямой связи для более точного согласования с характеристиками модальности, сохраняя при этом потерю генеративной энтропии в качестве тренировки фокусных показателей.

Этап 3: Настройка Uni-MoE

На третьем и последнем этапе система Uni-MoE интегрирует веса, настроенные экспертами на этапе 2, в слои «Смесь экспертов». Затем структура Uni-MoE настраивает MLLM, совместно используя смешанные мультимодальные данные команд. Кривые потерь на следующем изображении отражают ход процесса обучения.

Сравнительный анализ конфигураций Mixture of Expert показал, что эксперты, усовершенствовавшие модель на 2-м этапе обучения, продемонстрировали повышенную стабильность и достигли более быстрой сходимости на смешанно-модальных наборах данных. Кроме того, при выполнении задач, включающих сложные мультимодальные данные, включая текст, изображения, аудио и видео, система Uni-MoE продемонстрировала более стабильные результаты обучения и снижение вариативности потерь при использовании четырех экспертов, чем при использовании двух экспертов.

Uni-MoE: эксперименты и результаты

В следующей таблице приведены архитектурные характеристики платформы Uni-MoE. Основная цель платформы Uni-MoE, построенной на архитектуре LLaMA-7B, — масштабировать размер модели.

В следующей таблице кратко представлены проектирование и оптимизация структуры Uni-MoE с учетом специализированных учебных задач. Эти задачи играют важную роль в совершенствовании возможностей уровней MLP, тем самым используя их специальные знания для повышения производительности модели. В рамках Uni-MoE выполняются восемь одномодальных экспертных задач для выяснения дифференцированного воздействия различных методологий обучения.

Модель оценивает производительность различных вариантов модели по разнообразному набору тестов, который включает в себя две задачи, связанные с пониманием видео, три — понимание звука и пять задач, связанных с речью. Сначала модель проверяется на ее способность понимать задачи речи-изображения и речи-текста, результаты содержатся в следующей таблице.

Как можно заметить, предыдущие базовые модели дают худшие результаты в задачах понимания речи, что еще больше влияет на производительность в задачах образно-речевого рассуждения. Результаты показывают, что внедрение архитектуры Mixture of Expert может повысить возможность обобщения MLLM для решения невидимых задач рассуждения с использованием аудиоизображения. В следующей таблице представлены результаты экспериментов по задачам понимания изображения и текста. Как можно заметить, лучшие результаты моделей Uni-MoE превосходят базовые показатели и превосходят задачу тонкой настройки в среднем на 4 балла.

Заключение

В этой статье мы говорили о Uni-MoE, унифицированной мультимодальной модели большого языка с архитектурой MoE или Mixture of Expert, которая способна обрабатывать широкий спектр модальностей и экспертов. Платформа Uni-MoE также реализует разреженную архитектуру Mixture of Expert в больших языковых моделях, пытаясь сделать процесс обучения и вывода более эффективным за счет использования параллелизма моделей на экспертном уровне и параллелизма данных. Кроме того, для повышения обобщения и сотрудничества между несколькими экспертами структура Uni-MoE представляет собой прогрессивную стратегию обучения, которая представляет собой комбинацию трех различных процессов. Во-первых, структура Uni-MoE обеспечивает межмодальное согласование с использованием различных соединителей с разными кросс-модальными данными. Во-вторых, структура Uni-MoE активирует предпочтение экспертных компонентов путем обучения экспертов, специфичных для конкретных модальностей, с использованием данных перекрестных инструкций. Наконец, модель Uni-MoE реализует метод обучения LoRA или адаптации низкого ранга на смешанных мультимодальных данных инструкций для настройки модели.

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.