Искусственный интеллект

Последняя смесь экспертов (MoE) 8x7B от Mistral AI

Published December 15, 2023

Updated April 28, 2026

Aayush Mittal Mittal

— парижская стартап, занимающаяся открытыми моделями, бросила вызов нормам, выпустив свою последнюю большую языковую модель (LLM), MoE 8x7B, через простую torrent-ссылку. Это контрастирует с традиционным подходом Google с их выпуском Gemini, вызывая разговоры и волнение в сообществе ИИ.

Подход Mistral AI к выпускам всегда был необычным. Часто отказываясь от обычных сопровождающих статей, блогов или пресс-релизов, их стратегия была уникально эффективной в привлечении внимания сообщества ИИ.

Недавно компания достигла замечательной $2 миллиардной оценки после раунда финансирования под руководством Andreessen Horowitz. Этот раунд финансирования был историческим, установив рекорд с $118 миллионами стартового раунда, который является крупнейшим в европейской истории. Помимо успехов в финансировании, активное участие Mistral AI в обсуждениях вокруг Закона ИИ ЕС, выступающего за снижение регулирования в области открытого ИИ.

Почему MoE 8x7B привлекает внимание

Описанная как “масштабированная GPT-4”, Mixtral 8x7B использует рамку смеси экспертов (MoE) с восемью экспертами. Каждый эксперт имеет 111B параметров, в сочетании с 55B общими параметрами внимания, что дает в общей сложности 166B параметров на модель. Этот выбор дизайна значим, поскольку позволяет только двум экспертам участвовать в выводе каждого токена, подчеркивая сдвиг в сторону более эффективной и сосредоточенной обработки ИИ.

Одним из ключевых моментов Mixtral является ее способность управлять обширным контекстом из 32 000 токенов, предоставляя широкий потенциал для обработки сложных задач. Мультимедийные возможности модели включают надежную поддержку английского, французского, итальянского, немецкого и испанского языков, удовлетворяя глобальному сообществу разработчиков.

Предварительная подготовка Mixtral включает данные из открытого Интернета, с одновременным обучением как экспертов, так и маршрутизаторов. Этот метод гарантирует, что модель не только обширна в своем пространстве параметров, но и тонко настроена на нюансы обширных данных, с которыми она была знакомится.

Mixtral 8x7B достигает впечатляющего результата

Mixtral 8x7B превосходит LLaMA 2 70B и соперничает с GPT-3.5, особенно заметно в задаче MBPP с результатом 60,7%, что значительно выше, чем у ее аналогов. Даже в строгой задаче MT-Bench, предназначенной для моделей, следующих инструкциям, Mixtral 8x7B достигает впечатляющего результата, почти соперничая с GPT-3.5

Понимание рамки смеси экспертов (MoE)

Модель смеси экспертов (MoE), хотя и привлекает недавнее внимание из-за ее включения в передовые языковые модели, такие как MoE 8x7B от Mistral AI, на самом деле основана на фундаментальных концепциях, которые восходят к нескольким годам. Давайте вернемся к истокам этой идеи через семинальные исследовательские статьи.

Концепция MoE

Смесь экспертов (MoE) представляет собой сдвиг парадигмы в архитектуре нейронной сети. В отличие от традиционных моделей, которые используют единую, однородную сеть для обработки всех типов данных, MoE принимает более специализированный и модульный подход. Она состоит из нескольких “экспертных” сетей, каждая из которых предназначена для обработки конкретных типов данных или задач, под наблюдением “гейтинговой” сети, которая динамически направляет входные данные к наиболее подходящему эксперту.

Слой смеси экспертов (MoE) встроенный в рекуррентную языковую модель (Источник)

Изображение выше представляет собой высокоуровневый вид слоя MoE, встроенного в языковую модель. По своей сути, слой MoE состоит из нескольких под-сетей прямого распространения, называемых “экспертами”, каждая из которых имеет потенциал специализироваться в обработке различных аспектов данных. Гейтинговая сеть, выделенная на диаграмме, определяет, какая комбинация этих экспертов участвует для данного входного сигнала. Это условная активация позволяет сети значительно увеличить свою емкость без соответствующего скачка в вычислительном спросе.

Функциональность слоя MoE

На практике гейтинговая сеть оценивает входные данные (обозначенные как G(x) на диаграмме) и выбирает скудное множество экспертов для их обработки. Этот выбор модулируется выходами гейтинговой сети, эффективно определяя “голос” или вклад каждого эксперта в окончательный результат. Например, как показано на диаграмме, могут быть выбраны только два эксперта для вычисления результата для каждого конкретного входного токена, что делает процесс эффективным, концентрируя вычислительные ресурсы там, где они наиболее необходимы.

Трансформер-энкодер с слоями MoE (Источник)

Второе изображение выше контрастирует традиционный трансформер-энкодер с тем, который дополнен слоем MoE. Архитектура трансформера, широко известная своей эффективностью в языковых задачах, традиционно состоит из слоев само-внимания и прямого распространения, сложенных в последовательность. Введение слоев MoE заменяет некоторые из этих слоев прямого распространения, позволяя модели масштабироваться с точки зрения емкости более эффективно.

В дополненной модели слои MoE разделены на несколько устройств, демонстрируя подход модели-параллелизма. Это имеет решающее значение при масштабировании до очень больших моделей, поскольку позволяет распределять вычислительную нагрузку и требования к памяти по кластеру устройств, таких как GPU или TPU. Этот разделение имеет важное значение для эффективного обучения и развертывания моделей с миллиардами параметров, как это видно из обучения моделей с сотнями миллиардов до более чем триллиона параметров на крупномасштабных вычислительных кластерах.

Редкая смесь экспертов с настройкой инструкций на LLM

В статье “Редкая смесь экспертов (MoE) для масштабируемой языковой модели” обсуждается инновационный подход к улучшению больших языковых моделей (LLM), интегрируя архитектуру смеси экспертов с методами настройки инструкций.

Она подчеркивает общую проблему, когда модели MoE хуже работают по сравнению с плотными моделями равной вычислительной емкости при тонкой настройке для конкретных задач из-за расхождений между общей предварительной подготовкой и задачной тонкой настройкой.

Настройка инструкций — это методология обучения, при которой модели совершенствуются для лучшего выполнения естественных языковых инструкций, эффективно повышая их задачную производительность. Статья предполагает, что модели MoE демонстрируют заметное улучшение, когда объединены с настройкой инструкций, больше, чем их плотные аналоги. Этот метод выравнивает предварительно обученные представления модели для выполнения инструкций более эффективно, что приводит к значительному повышению производительности.

Исследователи провели исследования в трех экспериментальных установках, показав, что модели MoE изначально хуже работают в прямой задачной тонкой настройке. Однако, когда применяется настройка инструкций, модели MoE превосходят, особенно когда дополнительно дополняются задачной тонкой настройкой. Это говорит о том, что настройка инструкций является важным шагом для моделей MoE, чтобы превосходить плотные модели в задачах.

Влияние настройки инструкций на MOE

Она также вводит FLAN-MOE32B, модель, которая демонстрирует успешное применение этих концепций. Заметно, что она превосходит FLAN-PALM62B, плотную модель, в задачах-бенчмарках, используя только одну треть вычислительных ресурсов. Это демонстрирует потенциал для редких моделей MoE, объединенных с настройкой инструкций, чтобы устанавливать новые стандарты эффективности и производительности LLM.

Реализация смеси экспертов в реальных сценариях

Универсальность моделей MoE делает их идеальными для широкого спектра приложений:

Обработка естественного языка (NLP): Модели MoE могут лучше обрабатывать нюансы и сложности человеческого языка, что делает их идеальными для передовых задач NLP.
Обработка изображений и видео: В задачах, требующих высококачественной обработки, MoE может управлять различными аспектами изображений или видеокадров, повышая и качество, и скорость обработки.
Пользовательские решения ИИ: Бизнес и исследователи могут адаптировать модели MoE к конкретным задачам, что приводит к более целенаправленным и эффективным решениям ИИ.

Проблемы и соображения

Сложность в обучении и настройке: Распределенная природа моделей MoE может усложнить процесс обучения, требуя тщательного балансирования и настройки экспертов и гейтинговой сети.
Управление ресурсами: Эффективное управление вычислительными ресурсами на нескольких экспертах имеет решающее значение для максимизации преимуществ моделей MoE.

Включение слоев MoE в нейронные сети, особенно в области языковых моделей, предлагает путь к масштабированию моделей до размеров, ранее невозможных из-за вычислительных ограничений. Условная вычислительная возможность, обеспечиваемая слоями MoE, позволяет более эффективно распределять вычислительные ресурсы, что делает возможным обучение более крупных и способных моделей. По мере того, как мы продолжаем требовать больше от наших систем ИИ, архитектуры, такие как MoE-эквипированный трансформер, вероятно, станут стандартом для обработки сложных, крупномасштабных задач в различных областях.

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.

Unite.AI

Последняя смесь экспертов (MoE) 8x7B от Mistral AI

You may like