Artificial Intelligence

Рост числа экспертов для эффективных моделей большого языка

обновленный on 23 апреля 2024

В мире обработки естественного языка (НЛП) стремление к созданию более крупных и эффективных языковых моделей стало движущей силой многих недавних достижений. Однако по мере того, как эти модели растут в размерах, вычислительные требования для обучения и вывода становятся все более требовательными, что выходит за пределы доступных аппаратных ресурсов.

Введите смесь экспертов (MoE) — метод, который обещает облегчить эту вычислительную нагрузку, одновременно позволяя обучать более крупные и мощные языковые модели. Ниже мы обсудим MoE, изучим его происхождение, внутреннюю работу и его применение в языковых моделях на основе преобразователей.

Происхождение смеси экспертов

Концепция смеси экспертов (MoE) восходит к началу 1990-х годов, когда исследователи исследовали идею условных вычислений, когда части нейронной сети выборочно активируются на основе входных данных. Одной из новаторских работ в этой области стала «Адаптивная смесь местных экспертов» статья Джейкобса и др. в 1991 году, который предложил структуру контролируемого обучения для ансамбля нейронных сетей, каждая из которых специализируется на отдельной области входного пространства.

Основная идея Министерства экологии состоит в том, чтобы иметь несколько «экспертных» сетей, каждая из которых отвечает за обработку определенного подмножества входных данных. Механизм шлюзования, обычно сама нейронная сеть, определяет, какой эксперт(ы) должен обработать данный ввод. Этот подход позволяет модели более эффективно распределять свои вычислительные ресурсы, активируя только соответствующих экспертов для каждого входа, а не задействуя всю мощность модели для каждого входа.

На протяжении многих лет различные исследователи исследовали и расширяли идею условных вычислений, что привело к таким разработкам, как иерархические MoE, низкоранговые аппроксимации для условных вычислений и методы оценки градиентов с помощью стохастических нейронов и функций активации с жестким порогом.

Сочетание экспертов в области трансформаторов

Смесь экспертов

Хотя идея МОС существует уже несколько десятилетий, его применение к языковым моделям на основе преобразователей появилось сравнительно недавно. Трансформаторы, которые стали стандартом де-факто для современных языковых моделей, состоят из нескольких слоев, каждый из которых содержит механизм самообслуживания и нейронную сеть с прямой связью (FFN).

Ключевым нововведением в применении MoE к трансформаторам является замена плотных слоев FFN разреженными слоями MoE, каждый из которых состоит из нескольких экспертных FFN и механизма стробирования. Механизм шлюзования определяет, какой эксперт(ы) должен обрабатывать каждый входной токен, позволяя модели выборочно активировать только подмножество экспертов для данной входной последовательности.

Одной из первых работ, продемонстрировавших потенциал MoE в трансформаторах, была статья Шазира и др. «Невероятно большие нейронные сети: разреженный слой смешанных экспертов». в 2017 году. В этой работе была представлена концепция разреженного уровня MoE, в котором использовался механизм стробирования, который добавлял разреженность и шум в процесс выбора экспертов, гарантируя, что для каждого входа активируется только подмножество экспертов.

С тех пор несколько других работ еще больше продвинули применение MoE к трансформаторам, решая такие проблемы, как нестабильность обучения, балансировка нагрузки и эффективный вывод. Яркие примеры включают Переключатель трансформатора (Федус и др., 2021), СТ-МОЭ (Зоф и др., 2022) и GLAM (Ду и др., 2022).

Преимущества сочетания экспертов для языковых моделей

Основным преимуществом использования MoE в языковых моделях является возможность увеличивать размер модели при сохранении относительно постоянных вычислительных затрат во время вывода. Выборочно активируя только подмножество экспертов для каждого входного токена, модели MoE могут достичь выразительной силы гораздо более крупных плотных моделей, требуя при этом значительно меньше вычислений.

Например, рассмотрим языковую модель с плотным слоем FFN из 7 миллиардов параметров. Если заменить этот слой слоем MoE, состоящим из восьми экспертов, каждый из которых имеет 7 миллиардов параметров, общее количество параметров увеличится до 56 миллиардов. Однако во время вывода, если мы активируем только двух экспертов на каждый токен, вычислительные затраты будут эквивалентны модели с плотностью 14 миллиардов параметров, поскольку она вычисляет два умножения матриц по 7 миллиардов параметров.

Такая вычислительная эффективность при выводе особенно ценна в сценариях развертывания, где ресурсы ограничены, например, на мобильных устройствах или в средах периферийных вычислений. Кроме того, снижение вычислительных требований во время обучения может привести к существенной экономии энергии и уменьшению выбросов углекислого газа, что согласуется с растущим вниманием к устойчивым практикам искусственного интеллекта.

Проблемы и соображения

Хотя модели MoE предлагают убедительные преимущества, их внедрение и внедрение также сопряжено с рядом проблем и соображений:

Тренировочная нестабильность: Известно, что модели MoE более склонны к нестабильности обучения по сравнению с их плотными аналогами. Эта проблема возникает из-за редкого и условного характера активаций экспертов, что может привести к проблемам с распространением и сходимостью градиента. Для смягчения этой нестабильности были предложены такие методы, как z-потеря маршрутизатора (Zoph et al., 2022), но все еще необходимы дальнейшие исследования.
Точная настройка и переоснащение: Модели MoE, как правило, легче переопределяются во время точной настройки, особенно когда последующая задача имеет относительно небольшой набор данных. Такое поведение объясняется возросшей емкостью и редкостью моделей MoE, что может привести к чрезмерной специализации на обучающих данных. Для смягчения этой проблемы необходимы стратегии тщательной регуляризации и точной настройки.
Требования к памяти: Хотя модели MoE могут снизить вычислительные затраты во время вывода, они часто требуют более высоких требований к памяти по сравнению с плотными моделями аналогичного размера. Это связано с тем, что все экспертные веса необходимо загрузить в память, хотя для каждого входа активируется только подмножество. Ограничения памяти могут ограничивать масштабируемость моделей MoE на устройствах с ограниченными ресурсами.
Балансировка нагрузки: Для достижения оптимальной вычислительной эффективности крайне важно сбалансировать нагрузку между экспертами, гарантируя, что ни один эксперт не будет перегружен, а другие остаются недостаточно загруженными. Такая балансировка нагрузки обычно достигается за счет вспомогательных потерь во время обучения и тщательной настройки коэффициента мощности, который определяет максимальное количество токенов, которые можно назначить каждому эксперту.
Накладные расходы на связь: В сценариях распределенного обучения и вывода модели MoE могут создавать дополнительные коммуникационные издержки из-за необходимости обмениваться информацией об активации и градиенте между экспертами, проживающими на разных устройствах или ускорителях. Эффективные стратегии связи и разработка моделей с учетом аппаратного обеспечения необходимы для уменьшения этих накладных расходов.

Несмотря на эти проблемы, потенциальные преимущества моделей MoE в обеспечении более крупных и эффективных языковых моделей стимулировали значительные исследовательские усилия по решению и смягчению этих проблем.

Пример: Mixtral 8x7B и GLaM.

Чтобы проиллюстрировать практическое применение MoE в языковых моделях, давайте рассмотрим два ярких примера: Mixtral 8x7B и GLaM.

Mixtral 8x7B - это вариант MoE. Языковая модель Мистраля, разработанный Anthropic. Он состоит из восьми экспертов, каждый из которых имеет 7 миллиардов параметров, в результате чего всего получается 56 миллиардов параметров. Однако во время вывода на каждый токен активируются только два эксперта, что эффективно снижает вычислительные затраты до модели с плотностью 14 миллиардов параметров.

Mixtral 8x7B продемонстрировал впечатляющую производительность, превзойдя модель Llama с 70 миллиардами параметров, обеспечивая при этом гораздо более быстрое время вывода. Также была выпущена настроенная на инструкции версия Mixtral 8x7B, получившая название Mixtral-8x7B-Instruct-v0.1, что еще больше расширило ее возможности в следовании инструкциям на естественном языке.

Еще одним заслуживающим внимания примером является GLaM (языковая модель Google), крупномасштабная модель Министерства образования, разработанная Google. GLaM использует архитектуру преобразователя, состоящую только из декодера, и был обучен на огромном наборе данных из 1.6 триллиона токенов. Модель демонстрирует впечатляющую производительность при однократных и однократных оценках, соответствуя качеству GPT-3, используя при этом только одну треть энергии, необходимой для обучения GPT-3.

Успех GLaM можно объяснить его эффективной архитектурой MoE, которая позволяла обучать модель с огромным количеством параметров, сохраняя при этом разумные вычислительные требования. Модель также продемонстрировала потенциал моделей МО как более энергоэффективных и экологически устойчивых по сравнению с их плотными аналогами.

Архитектура Грока-1

ГРОК СМЕСЬ ЭКСПЕРТА

Грок-1 представляет собой модель MoE на основе трансформатора с уникальной архитектурой, предназначенной для максимизации эффективности и производительности. Давайте углубимся в ключевые характеристики:

параметры: Grok-314 с ошеломляющими 1 миллиардами параметров является крупнейшим открытым LLM на сегодняшний день. Однако благодаря архитектуре MoE только 25% весов (около 86 миллиардов параметров) активны в любой момент времени, что расширяет возможности обработки.
Архитектура: Grok-1 использует архитектуру «Смесь 8 экспертов», при которой каждый токен обрабатывается двумя экспертами во время вывода.
Слои: Модель состоит из 64 слоев-трансформеров, каждый из которых включает в себя многоголовое внимание и плотные блоки.
лексемизацию: Grok-1 использует токенизатор SentencePiece с размером словаря 131,072 XNUMX токена.
Вложения и позиционное кодирование: Модель имеет 6,144-мерные представления и использует вращающиеся позиционные представления, что обеспечивает более динамичную интерпретацию данных по сравнению с традиционными фиксированными позиционными кодировками.
Внимание: Grok-1 использует 48 головок внимания для запросов и 8 головок внимания для ключей и значений, каждая размером 128.
Длина контекста: модель может обрабатывать последовательности длиной до 8,192 токенов, используя точность bfloat16 для эффективных вычислений.

Подробности производительности и реализации

Grok-1 продемонстрировал впечатляющую производительность, превзойдя LLaMa 2 70B и Mixtral 8x7B с показателем MMLU 73%, продемонстрировав свою эффективность и точность в различных тестах.

Однако важно отметить, что Grok-1 требует значительных ресурсов графического процессора из-за своего огромного размера. Текущая реализация в версии с открытым исходным кодом сосредоточена на проверке правильности модели и использует неэффективную реализацию уровня MoE, чтобы избежать необходимости в пользовательских ядрах.

Тем не менее, модель поддерживает сегментирование активации и 8-битное квантование, что позволяет оптимизировать производительность и снизить требования к памяти.

В замечательном движении, xAI выпустила Грок-1 под лицензией Apache 2.0, что делает его веса и архитектуру доступными для глобального сообщества для использования и внесения вклада.

Релиз с открытым исходным кодом включает репозиторий примеров кода JAX, который демонстрирует, как загрузить и запустить модель Grok-1. Пользователи могут загрузить веса контрольных точек с помощью торрент-клиента или напрямую через HuggingFace Hub, что облегчает доступ к этой революционной модели.

Будущее смеси экспертов в языковых моделях

Поскольку спрос на более крупные и функциональные языковые модели продолжает расти, ожидается, что внедрение методов MoE получит дальнейший импульс. Текущие исследовательские усилия сосредоточены на решении остающихся проблем, таких как повышение стабильности обучения, уменьшение переобучения во время точной настройки и оптимизация требований к памяти и коммуникации.

Одним из перспективных направлений является исследование иерархической архитектуры МО, где каждый эксперт состоит из нескольких субэкспертов. Этот подход потенциально может обеспечить еще большую масштабируемость и вычислительную эффективность, сохраняя при этом выразительную мощь больших моделей.

Кроме того, активным направлением исследований является разработка аппаратных и программных комплексов, оптимизированных для моделей МЧС. Специализированные ускорители и среды распределенного обучения, предназначенные для эффективной обработки разреженных и условных моделей вычислений моделей MoE, могут еще больше повысить их производительность и масштабируемость.

Более того, интеграция методов MoE с другими достижениями в языковом моделировании, такими как механизмы разреженного внимания, эффективные стратегии токенизации и мультимодальные представления, может привести к созданию еще более мощных и универсальных языковых моделей, способных решать широкий спектр задач.

Заключение

Методика «Смесь экспертов» стала мощным инструментом в поисках более крупных и эффективных языковых моделей. За счет выборочной активации экспертов на основе входных данных модели MoE предлагают многообещающее решение вычислительных задач, связанных с масштабированием плотных моделей. Хотя еще предстоит преодолеть проблемы, такие как нестабильность обучения, переобучение и требования к памяти, потенциальные преимущества моделей MoE с точки зрения вычислительной эффективности, масштабируемости и экологической устойчивости делают их интересной областью исследований и разработок.

Поскольку область обработки естественного языка продолжает расширять границы возможного, внедрение методов MoE, вероятно, сыграет решающую роль в создании языковых моделей следующего поколения. Объединив MoE с другими достижениями в области архитектуры моделей, методов обучения и оптимизации оборудования, мы можем рассчитывать на еще более мощные и универсальные языковые модели, которые смогут по-настоящему понимать людей и общаться с ними естественным и беспрепятственным образом.

AI GPT для базы данных PostgreSQL: могут ли они работать?

Не пропустите

Что нужно знать о новом суперчипе и архитектуре NVIDIA Blackwell AI

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.