Искусственный интеллект

MPT-30B: MosaicML превосходит GPT-3 с новой ЛЛМ для расширения границ NLP

mm
Featured Blog Image-MPT-30B: MosaicML Outshines GPT-3 With A New LLM To Push The Boundaries of Language Models

MosaicML – это компания по генеративному ИИ, которая предоставляет решения для развертывания и масштабирования ИИ. Их последняя большая языковая модель (LLM) MPT-30B вызывает волны в сообществе ИИ.

Путешествие MosaicML по ЛЛМ началось с выпуска MPT-7B (Mosaic Pretrained Transformer) в мае 2023 года, который имел три варианта:

  1. MPT-7B-StoryWriter-65k+ (для генерации длинных историй)
  2. MPT-7B-Instruct (для выполнения коротких инструкций)
  3. MPT-7B-Chat (для генерации диалогов)

Модели имели огромный успех в сообществе ML благодаря их открытому исходному коду, коммерческой пригодности и исключительной способности обрабатывать расширенные контекстные окна.

Самое главное, модель была наравне и, в некоторых случаях, превосходила другие сравнимые модели (LLaMA-7B, StableLM 7B и т. д.). К июню серия MPT-7B была скачана более 3 миллионов раз. 22 июня MosaicML выпустила MPT-30B, которая еще больше повысила планку для открытых фондовых моделей.

MPT-30B: мощная ЛЛМ, которая превосходит GPT-3

MPT-30B – это открытая и коммерчески лицензированная декодерная ЛЛМ, которая более мощная, чем GPT-3-175B, с только 17% параметров GPT-3, т. е. 30B. Она превосходит GPT-3 в нескольких задачах. Вот сравнение между MPT-30B и GPT-3.

MPT-30B основана на предыдущей модели MPT-7B. Она вычислительно эффективна для обучения по сравнению с моделями подобного размера. Например, LLaMA-30B использовала примерно в 1,44 раза больше бюджета FLOPs, чем MPT-30B, а Falcon-40B имела в 1,27 раза больший бюджет FLOPs, чем MPT-30B. Вот иллюстрация улучшения MPT-30B в различных задачах по сравнению с ее предшественником.

Некоторые особые функции MPT-30B следующие:

8к токенов контекстное окно

Контекстное окно в ЛЛМ относится к диапазону токенов, которые модель может рассматривать перед генерацией вывода. MPT-30B имела контекстное окно размером 8000 токенов во время обучения. Сначала она была обучена на 1Т токенах с использованием последовательностей из 2к токенов, а затем на дополнительных 50Б токенах с последовательностями из 8к токенов (примерно 6000 слов).

Поддержка ALiBi

Чтобы объяснить эту функцию, рассмотрим вопрос:

Как MPT-30B может понимать и делать прогнозы для более длинных последовательностей, чем те, на которых она была обучена?

MPT-30B использует технику Attention with Linear Biases (ALiBi), чтобы понять более длинные последовательности и расширить контекстное окно beyond 8к токенов во время тонкой настройки или вывода.

Вместо расчета позиционных вложений, при котором мы присваиваем вектор каждому слову в последовательности, ALiBi рассчитывает баллы внимания между ключевыми и запросными токенами. Когда ключевые и запросные токены находятся близко друг к другу, штраф низкий, но более высокий в противном случае. В результате базовая архитектура трансформера может экстраполировать к длинным входным данным.

Эффективное вывод и обучение через FlashAttention

Внимание, т. е. фокусировка на соответствующих частях входной последовательности, является критическим компонентом трансформеров, но оно может быть медленным и требовать много памяти, особенно при обработке длинных текстовых последовательностей.

FlashAttention – это подход, предложенный исследователями Корнелльского университета, который решает эту проблему для MPT-30B. Используя технику, называемую тесселяцией, FlashAttention снижает количество раз, когда модель должна читать из или записывать в память, ускоряя обработку. Следовательно, модель использует современную технику FlashAttention и библиотеку оптимизации FasterTransformer от NVIDIA для эффективного обучения и вывода.

Легкость обучения и развертывания

Разработчики могут обучать MPT-30B с нуля или использовать контрольные точки MosaicML для более быстрого развертывания. Кроме того, ее можно тонко настроить для конкретных случаев использования в конкретном наборе данных.

Размер модели был выбран для обеспечения безусильного развертывания на одном GPU, в частности 1xA100-80GB в 16-битной точности или 1xA100-40GB в 8-битной точности. Это означает, что модель была разработана для того, чтобы поместиться в пределы памяти этих GPU.

Возможности кодирования

MPT-30B обеспечивает исключительные возможности кодирования. HumanEval – это набор данных, выпущенный OpenAI, который содержит 164手crafted программных задач. На наборе данных HumanEval модель превосходит специально разработанные ЛЛМ-модели, такие как серия StarCoder.

Тонко настроенные варианты: MPT-30B-Instruct и MPT-30B-Chat

MPT-30B-Instruct

ЛЛМ в основном используются для инструкций, таких как ответы на вопросы, суммирование текста, перевод языка и т. д. MPT-30B-Instruct – это коммерчески пригодный (сохраняет коммерческую лицензию CC-By-SA-3.0) вариант MPT-30B, тонко настроенный специально для задач выполнения инструкций. Для тонкой настройки использовались следующие наборы данных:

  1. FLAN
  2. P3
  3. Alpaca
  4. Dolly-15k

Набор данных Dolly был дополнительно дополнен набором данных Anthropic’s Helpful and Harmless для тонкой настройки инструкций. Кроме того, разнообразный набор данных был использован для аугментации данных, который включает:

  1. CompetitionMath
  2. GradeSchoolMath
  3. DialogSum
  4. DuoRC
  5. QASPER
  6. QuALITY
  7. SummScreen
  8. Spider

MPT-30B-Chat

MPT-30B-Chat – это тонко настроенная версия MPT-30B для генерации диалогов. Это исследовательский артефакт, выпущенный под лицензией CC-By-NC-SA-4.0, которая позволяет только некоммерческое использование. Модель была тонко настроена с использованием различных языковых наборов данных, включая:

  1. Airoboros/GPT4-1.2
  2. Baize
  3. Camel
  4. GPTeacher
  5. Guanaco
  6. LongCoversations
  7. ShareGPT
  8. WizardLM

ЛЛМ занимают большую часть много миллиардного долларового рынка генеративного ИИ, который пережил огромный рост за короткое время после того, как ChatGPT революционизировал ландшафт в прошлом году. Семейство MPT является фундаментальной частью этой революции. В ближайшем будущем мы можем ожидать появления коммерчески доступных открытых моделей, которые будут намного более мощными и эффективными, чем семейство MPT.

Для получения последних новостей об ИИ посетите unite.ai.

Haziqa является Data Scientist с обширным опытом написания технического контента для компаний AI и SaaS.