Свяжитесь с нами:

Рост популярности смешанных экспертов: как разреженные модели ИИ формируют будущее машинного обучения

AI 101

Рост популярности смешанных экспертов: как разреженные модели ИИ формируют будущее машинного обучения

mm

Смесь экспертов (МО) Модели революционизируют способ масштабирования ИИ. Активируя только подмножество компонентов модели в любой момент времени, MoE предлагают новый подход к управлению компромиссом между размером модели и вычислительной эффективностью. В отличие от традиционных плотных моделей, которые используют все параметры для каждого ввода, MoE достигают огромного количества параметров, сохраняя при этом управляемые затраты на вывод и обучение. Этот прорыв вызвал волну исследований и разработок, заставив как технологических гигантов, так и стартапы вкладывать значительные средства в архитектуры на основе MoE.

Как работают модели со смешанными экспертами

По своей сути модели MoE состоят из нескольких специализированных подсетей, называемых «экспертами», контролируемых механизмом гейтирования, который решает, какие эксперты должны обрабатывать каждый ввод. Например, предложение, переданное в языковую модель, может задействовать только двух из восьми экспертов, что радикально снижает вычислительную нагрузку.

Эта концепция была введена в мейнстрим с Модели Switch Transformer и GLaM от Google, где эксперты заменили традиционные слои прямой связи в Transformers. Switch Transformer, например, направляет токены одному эксперту на слой, в то время как GLaM использует топ-2 маршрутизации для повышения производительности. Эти разработки продемонстрировали, что MoE могут соответствовать или превосходить плотные модели, такие как GPT-3, при этом потребляя значительно меньше энергии и вычислений.

Ключевое новшество заключается в условном вычислении. Вместо запуска всей модели, MoE активируют только наиболее важные части, что означает, что модель с сотнями миллиардов или даже триллионами параметров может работать с эффективностью модели, которая на порядки меньше. Это позволяет исследователям масштабировать мощность без линейного увеличения вычислений, что недостижимо при традиционных методах масштабирования.

Реальные применения MoE

Модели MoE уже зарекомендовали себя в нескольких областях. GLaM и Switch Transformer от Google продемонстрировали передовые результаты в языковом моделировании с меньшими затратами на обучение и вывод. Z-Code MoE от Microsoft работает в своем инструменте Translator, обрабатывая более 100 языков с большей точностью и эффективностью, чем предыдущие модели. Это не просто исследовательские проекты — они поддерживают живые сервисы.

В компьютерном зрении Архитектура V-MoE от Google улучшила точность классификации на таких бенчмарках, как ImageNet, а модель LIMoE продемонстрировала высокую производительность в мультимодальных задачах, включающих как изображения, так и текст. Способность экспертов специализироваться — некоторые обрабатывают текст, другие изображения — добавляет новый уровень возможностей для систем ИИ.

Системы рекомендаций и платформы многозадачного обучения также получили выгоду от MoEs. Например, Рекомендательный механизм YouTube использует архитектуру, похожую на MoE для более эффективного управления такими целями, как время просмотра и показатель кликов. Назначая разных экспертов для разных задач или поведения пользователей, MoE помогают создавать более надежные механизмы персонализации.

Преимущества и проблемы

Главное преимущество MoEs — эффективность. Они позволяют обучать и развертывать массивные модели с существенно меньшими вычислительными затратами. Например, модель Mixtral 8×7B от Mistral AI имеет 47B общих параметров, но активирует только 12.9B на токен, что обеспечивает ей экономическую эффективность модели 13B, при этом конкурируя по качеству с такими моделями, как GPT-3.5.

MoE также способствуют специализации. Поскольку разные эксперты могут изучать различные шаблоны, общая модель становится лучше в обработке разнообразных входных данных. Это особенно полезно в многоязычных, многодоменных или многомодальных задачах, где универсальная плотная модель может оказаться неэффективной.

Однако MoEs сопряжены с инженерными проблемами. Их обучение требует тщательного балансирования, чтобы гарантировать эффективное использование всех экспертов. Еще одной проблемой является издержки памяти — хотя только часть параметров активна для каждого вывода, все они должны быть загружены в память. Эффективное распределение вычислений между графическими процессорами или TPU — нетривиальная задача, которая привела к разработке специализированных фреймворков, таких как DeepSpeed ​​от Microsoft и GShard от Google.

Несмотря на эти препятствия, преимущества производительности и стоимости достаточно существенны, поэтому MoE теперь рассматриваются как критически важный компонент крупномасштабного проектирования ИИ. По мере того, как все больше инструментов и инфраструктуры становятся более зрелыми, эти проблемы постепенно преодолеваются.

Сравнение MoE с другими методами масштабирования

Традиционное плотное масштабирование пропорционально увеличивает размер модели и вычисляет ее. MoE нарушают эту линейность, увеличивая общие параметры без увеличения вычислений на вход. Это позволяет обучать модели с триллионами параметров на том же оборудовании, которое ранее ограничивалось десятками миллиардов.

По сравнению с ансамблированием моделей, которое также вводит специализацию, но требует нескольких полных проходов вперед, MoE гораздо более эффективны. Вместо того, чтобы запускать несколько моделей параллельно, MoE запускают только одну, но с преимуществом нескольких экспертных путей.

MoE также дополняют стратегии, такие как масштабирование данных обучения (например, метод Chinchilla). В то время как Chinchilla делает акцент на использовании большего количества данных с меньшими моделями, MoE расширяют возможности модели, сохраняя при этом стабильность вычислений, что делает их идеальными для случаев, когда вычисления являются узким местом.

Наконец, в то время как такие методы, как обрезка и квантизация, сжимают модели после обучения, MoE увеличивают емкость модели во время обучения. Они не являются заменой сжатия, а ортогональным инструментом для эффективного роста.

Компании, возглавляющие революцию в области образования

Технические гиганты

Google был пионером многих современных исследований Министерства образования. Их модели Switch Transformer и GLaM масштабировались до параметров 1.6T и 1.2T соответственно. GLaM соответствовал производительности GPT-3, используя всего треть энергии. Google также применила MoEs к зрению (V-MoE) и мультимодальным задачам (LIMoE), что соответствует их более широкому видению Pathways для универсальных моделей ИИ.

Microsoft и интегрировал MoE в производство с помощью модели Z-Code в Microsoft Translator. Также была разработана технология DeepSpeed-MoE, обеспечивающая быстрое обучение и вывод с малой задержкой для моделей с триллионом параметров. Их вклад включает алгоритмы маршрутизации и библиотеку Tutel для эффективного вычисления MoE.

Мета его начали использовать MoE в крупномасштабных языковых моделях и рекомендательные системы. Их модель MoE 1.1T показала, что она может соответствовать качеству плотной модели, используя в 4 раза меньше вычислений. Хотя модели LLaMA плотные, исследования Meta в области MoE продолжают информировать более широкое сообщество.

Amazon поддерживает министерства образования через свою платформу SageMaker и внутренние усилия. Они способствовали обучению модели Mixtral от Mistral и, по слухам, используют MoE в таких сервисах, как Alexa AI. Документация AWS активно продвигает MoE для обучения крупномасштабных моделей.

Huawei и БААЙ в Китае также разработали рекордные модели МО, такие как ПаньГу-Σ (1.085T параметров). Это демонстрирует потенциал MoE в языковых и многомодальных задачах и подчеркивает его глобальную привлекательность.

Стартапы и претенденты

Мистраль ИИ является образцом для подражания Инновации MoE в открытом исходном коде. Их модели Mixtral 8×7B и 8×22B доказали, что MoE могут превосходить плотные модели, такие как LLaMA-2 70B, при этом работая за часть стоимости. Имея более €600 млн финансирования, Mistral делает большую ставку на разреженные архитектуры.

хАИ, основанная Илоном Маском, является как сообщается, исследуют МО в своей модели Grok. Хотя подробности ограничены, MoE предоставляют стартапам, таким как xAI, возможность конкурировать с более крупными игроками без необходимости в огромных вычислительных мощностях.

Databricks, благодаря приобретению MosaicML, выпустила ДБРКС, открытая модель MoE, разработанная для эффективности. Они также предоставляют инфраструктуру и рецепты для обучения MoE, снижая барьер для принятия.

Другие игроки, такие как Hugging Face, интегрировали поддержку MoE в свои библиотеки, что упрощает разработчикам разработку на основе этих моделей. Даже если они не создают сами MoE, платформы, которые их поддерживают, имеют решающее значение для экосистемы.

Заключение

Модели Mixture-of-Experts — это не просто тенденция, они представляют собой фундаментальный сдвиг в том, как строятся и масштабируются системы ИИ. Выборочно активируя только части сети, MoE предлагают мощь массивных моделей без их непомерной стоимости. По мере того, как инфраструктура программного обеспечения догоняет и алгоритмы маршрутизации улучшаются, MoE готовы стать архитектурой по умолчанию для многодоменного, многоязычного и многомодального ИИ.

Независимо от того, являетесь ли вы исследователем, инженером или инвестором, MoEs предлагают заглянуть в будущее, в котором ИИ станет более мощным, эффективным и адаптивным, чем когда-либо прежде.

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.