ИИ 101
Возрождение Моделей Mixture-of-Experts: Как Редкие Модели ИИ Формируют Будущее Машинного Обучения

Модели Mixture-of-Experts (MoE) революционизируют способ, которым мы масштабируем ИИ. Выключая только подмножество компонентов модели в любой момент времени, MoE предлагают новый подход к управлению компромиссом между размером модели и вычислительной эффективностью. В отличие от традиционных плотных моделей, которые используют все параметры для каждого входа, MoE достигают огромного количества параметров, сохраняя при этом управляемыми затраты на вывод и обучение. Этот прорыв привел к волне исследований и разработок, что привело к тому, что как технологические гиганты, так и стартапы инвестировали значительные средства в архитектуры на основе MoE.
Как работают модели Mixture-of-Experts
В своей основе модели MoE состоят из нескольких специализированных подсетей, называемых “экспертами”, под наблюдением механизма управления, который решает, какие эксперты должны обрабатывать каждый вход. Например, предложение, переданное в языковую модель, может включать только двух из восьми экспертов, что значительно снижает вычислительную нагрузку.
Эта концепция была введена в мейнстрим с моделями Switch Transformer и GLaM от Google, где эксперты заменили традиционные слои прямого распространения в трансформерах. Трансформер Switch, например, маршрутизирует токены в один эксперт на слой, в то время как GLaM использует маршрутизацию top-2 для улучшения производительности. Эти конструкции продемонстрировали, что MoE могут соответствовать или превосходить плотные модели, такие как GPT-3, при этом используя значительно меньше энергии и вычислительных ресурсов.
Ключевым инновационным решением является условное вычисление. Вместо активации всей модели MoE активируют только наиболее актуальные части, что означает, что модель с сотнями миллиардов или даже триллионами параметров может работать с эффективностью модели, которая на несколько порядков меньше. Это позволяет исследователям увеличивать емкость без линейного увеличения вычислений, что является подвигом, недостижимым с помощью традиционных методов масштабирования.

Реальные применения MoE
Модели MoE уже оставили свой след в нескольких областях. Модели GLaM и Switch Transformer от Google показали результаты на уровне состояния искусства в языковом моделировании с более низкими затратами на обучение и вывод. Модель Z-Code MoE от Microsoft используется в инструменте Translator, обрабатывая более 100 языков с большей точностью и эффективностью, чем более ранние модели. Это не просто исследовательские проекты – они обеспечивают работу живых сервисов.
В области компьютерного зрения архитектура V-MoE от Google улучшила точность классификации на бенчмарках, таких как ImageNet, а модель LIMoE продемонстрировала сильную производительность в многомодальных задачах, включающих как изображения, так и текст. Способность экспертов специализироваться – некоторые обрабатывают текст, другие – изображения – добавляет новый слой возможностей системам ИИ.
Системы рекомендаций и платформы многозадачного обучения также извлекли выгоду из MoE. Например, система рекомендаций YouTube использовала архитектуру, подобную MoE, для более эффективного обработки целей, таких как время просмотра и коэффициент кликабельности. Назначая разным экспертам разные задачи или поведение пользователей, MoE помогают создавать более прочные движки персонализации.
Преимущества и проблемы
Основным преимуществом MoE является эффективность. Они позволяют обучать и развертывать огромные модели с значительно меньшими вычислительными затратами. Например, модель Mixtral 8×7B от Mistral AI имеет 47 миллиардов параметров, но активирует только 12,9 миллиардов параметров на токен, что дает ей эффективность модели размером 13 миллиардов, при этом конкурируя с моделями, такими как GPT-3.5, по качеству.
MoE также способствуют специализации. Поскольку разные эксперты могут учиться различным закономерностям, общая модель становится лучше в обработке разнообразных входов. Это особенно полезно в многоязычных, многодоменных или многомодальных задачах, где плотная модель может не справиться.
Однако MoE имеют инженерные проблемы. Обучение их требует тщательного балансирования для обеспечения эффективного использования всех экспертов. Перегрузка памяти является еще одной проблемой – хотя только часть параметров активна на каждом выводе, все они должны быть загружены в память. Эффективная распределение вычислений по GPU или TPU не является тривиальной задачей и привело к разработке специализированных фреймворков, таких как DeepSpeed от Microsoft и GShard от Google.
Несмотря на эти препятствия, преимущества по производительности и затратам достаточно существенны, чтобы MoE теперь рассматривались как важнейший компонент крупномасштабного проектирования ИИ. По мере того, как больше инструментов и инфраструктуры созревают, эти проблемы постепенно преодолеваются.
Сравнение MoE с другими методами масштабирования
Традиционное плотное масштабирование увеличивает размер модели и вычисления пропорционально. MoE нарушают эту линейность, увеличивая общее количество параметров без увеличения вычислений на вход. Это позволяет обучать модели с триллионами параметров на том же оборудовании, которое ранее было ограничено десятками миллиардов.
По сравнению с ансамблевым моделированием, которое также вводит специализацию, но требует нескольких полных прямых проходов, MoE намного более эффективны. Вместо запуска нескольких моделей параллельно MoE запускают только одну – но с преимуществом нескольких экспертных путей.
MoE также дополняют стратегии, такие как масштабирование обучающих данных (например, метод Chinchilla). В то время как Chinchilla подчеркивает использование большего количества данных с меньшими моделями, MoE расширяют емкость модели, сохраняя при этом стабильные вычисления, что делает их идеальными для случаев, когда вычисления являются узким местом.
Наконец, в то время как методы, такие как обрезка и квантование, уменьшают модели после обучения, MoE увеличивают емкость модели во время обучения. Они не заменяют сжатие, а являются ортогональным инструментом для эффективного роста.
Компании, возглавляющие революцию MoE
Технологические гиганты
Google пIONировала большую часть современных исследований MoE. Их модели Switch Transformer и GLaM масштабировались до 1,6 триллионов и 1,2 триллионов параметров соответственно. GLaM соответствовала производительности GPT-3, используя при этом только треть энергии. Google также применила MoE к компьютерному зрению (V-MoE) и многомодальным задачам (LIMoE), что соответствует их более широкой концепции Pathways для универсальных моделей ИИ.
Microsoft интегрировала MoE в производство через свою модель Z-Code в Microsoft Translator. Она также разработала DeepSpeed-MoE, позволяющую быстро обучать и выводить модели с триллионами параметров с низкой задержкой. Их вклад включает алгоритмы маршрутизации и библиотеку Tutel для эффективных вычислений MoE.
Meta исследовала MoE в крупномасштабных языковых моделях и системах рекомендаций. Их модель MoE размером 1,1 триллиона параметров показала, что она может соответствовать качеству плотных моделей, используя при этом в 4 раза меньше вычислений. Хотя модели LLaMA являются плотными, исследования Meta в области MoE продолжают информировать более широкое сообщество.
Amazon поддерживает MoE через свою платформу SageMaker и внутренние усилия. Они облегчили обучение модели Mixtral от Mistral и, как говорят, используют MoE в сервисах, таких как Alexa AI. Документация AWS активно продвигает MoE для крупномасштабного обучения моделей.
Huawei и BAAI в Китае также разработали рекордные модели MoE, такие как PanGu-Σ (1,085 триллионов параметров). Это демонстрирует потенциал MoE в языковых и многомодальных задачах и подчеркивает их глобальную привлекательность.
Стартапы и претенденты
Mistral AI является постером для инноваций MoE в открытом исходном коде. Их модели Mixtral 8×7B и 8×22B продемонстрировали, что MoE могут превосходить плотные модели, такие как LLaMA-2 70B, при этом работающие с меньшими затратами. С более чем 600 миллионами евро финансирования Mistral делает большую ставку на разреженные архитектуры.
xAI, основанная Илоном Маском, якобы исследует MoE в своей модели Grok. Хотя подробности ограничены, MoE предлагают способ для стартапов, таких как xAI, конкурировать с более крупными игроками без необходимости огромных вычислительных мощностей.
Databricks, через свою компанию MosaicML, выпустила DBRX, открытую модель MoE, предназначенную для эффективности. Они также предоставляют инфраструктуру и рецепты для обучения MoE, снижая барьер для принятия.
Другие игроки, такие как Hugging Face, интегрировали поддержку MoE в свои библиотеки, что делает проще для разработчиков строить на этих моделях. Даже если они не строят MoE сами, платформы, которые их облегчают, имеют решающее значение для экосистемы.
Заключение
Модели Mixture-of-Experts не являются просто трендом – они представляют собой фундаментальный сдвиг в том, как строятся и масштабируются системы ИИ. Выбирая активацию только части сети, MoE предлагают силу огромных моделей без их запретительных затрат. По мере того, как программная инфраструктура улучшается и алгоритмы маршрутизации совершенствуются, MoE готовы стать стандартной архитектурой для многодоменных, многоязычных и многомодальных систем ИИ.
Независимо от того, являетесь ли вы исследователем, инженером или инвестором, MoE предлагают взгляд в будущее, где ИИ более мощный, эффективный и адаптивный, чем когда-либо прежде.












