Искусственный интеллект
MPT-30B: MosaicML превосходит GPT-3 с новой ЛЛМ для расширения границ NLP

MosaicML – это компания по генеративному ИИ, которая предоставляет решения для развертывания и масштабирования ИИ. Их последняя большая языковая модель (LLM) MPT-30B вызывает волны в сообществе ИИ.
Путешествие MosaicML по ЛЛМ началось с выпуска MPT-7B (Mosaic Pretrained Transformer) в мае 2023 года, который имел три варианта:
- MPT-7B-StoryWriter-65k+ (для генерации длинных историй)
- MPT-7B-Instruct (для выполнения коротких инструкций)
- MPT-7B-Chat (для генерации диалогов)
Модели имели огромный успех в сообществе ML благодаря их открытому исходному коду, коммерческой пригодности и исключительной способности обрабатывать расширенные контекстные окна.
Самое главное, модель была наравне и, в некоторых случаях, превосходила другие сравнимые модели (LLaMA-7B, StableLM 7B и т. д.). К июню серия MPT-7B была скачана более 3 миллионов раз. 22 июня MosaicML выпустила MPT-30B, которая еще больше повысила планку для открытых фондовых моделей.
MPT-30B: мощная ЛЛМ, которая превосходит GPT-3
MPT-30B – это открытая и коммерчески лицензированная декодерная ЛЛМ, которая более мощная, чем GPT-3-175B, с только 17% параметров GPT-3, т. е. 30B. Она превосходит GPT-3 в нескольких задачах. Вот сравнение между MPT-30B и GPT-3.
MPT-30B основана на предыдущей модели MPT-7B. Она вычислительно эффективна для обучения по сравнению с моделями подобного размера. Например, LLaMA-30B использовала примерно в 1,44 раза больше бюджета FLOPs, чем MPT-30B, а Falcon-40B имела в 1,27 раза больший бюджет FLOPs, чем MPT-30B. Вот иллюстрация улучшения MPT-30B в различных задачах по сравнению с ее предшественником.
Некоторые особые функции MPT-30B следующие:
8к токенов контекстное окно
Контекстное окно в ЛЛМ относится к диапазону токенов, которые модель может рассматривать перед генерацией вывода. MPT-30B имела контекстное окно размером 8000 токенов во время обучения. Сначала она была обучена на 1Т токенах с использованием последовательностей из 2к токенов, а затем на дополнительных 50Б токенах с последовательностями из 8к токенов (примерно 6000 слов).
Поддержка ALiBi
Чтобы объяснить эту функцию, рассмотрим вопрос:
Как MPT-30B может понимать и делать прогнозы для более длинных последовательностей, чем те, на которых она была обучена?
MPT-30B использует технику Attention with Linear Biases (ALiBi), чтобы понять более длинные последовательности и расширить контекстное окно beyond 8к токенов во время тонкой настройки или вывода.
Вместо расчета позиционных вложений, при котором мы присваиваем вектор каждому слову в последовательности, ALiBi рассчитывает баллы внимания между ключевыми и запросными токенами. Когда ключевые и запросные токены находятся близко друг к другу, штраф низкий, но более высокий в противном случае. В результате базовая архитектура трансформера может экстраполировать к длинным входным данным.
Эффективное вывод и обучение через FlashAttention
Внимание, т. е. фокусировка на соответствующих частях входной последовательности, является критическим компонентом трансформеров, но оно может быть медленным и требовать много памяти, особенно при обработке длинных текстовых последовательностей.
FlashAttention – это подход, предложенный исследователями Корнелльского университета, который решает эту проблему для MPT-30B. Используя технику, называемую тесселяцией, FlashAttention снижает количество раз, когда модель должна читать из или записывать в память, ускоряя обработку. Следовательно, модель использует современную технику FlashAttention и библиотеку оптимизации FasterTransformer от NVIDIA для эффективного обучения и вывода.
Легкость обучения и развертывания
Разработчики могут обучать MPT-30B с нуля или использовать контрольные точки MosaicML для более быстрого развертывания. Кроме того, ее можно тонко настроить для конкретных случаев использования в конкретном наборе данных.
Размер модели был выбран для обеспечения безусильного развертывания на одном GPU, в частности 1xA100-80GB в 16-битной точности или 1xA100-40GB в 8-битной точности. Это означает, что модель была разработана для того, чтобы поместиться в пределы памяти этих GPU.
Возможности кодирования
MPT-30B обеспечивает исключительные возможности кодирования. HumanEval – это набор данных, выпущенный OpenAI, который содержит 164手crafted программных задач. На наборе данных HumanEval модель превосходит специально разработанные ЛЛМ-модели, такие как серия StarCoder.
Тонко настроенные варианты: MPT-30B-Instruct и MPT-30B-Chat
MPT-30B-Instruct
ЛЛМ в основном используются для инструкций, таких как ответы на вопросы, суммирование текста, перевод языка и т. д. MPT-30B-Instruct – это коммерчески пригодный (сохраняет коммерческую лицензию CC-By-SA-3.0) вариант MPT-30B, тонко настроенный специально для задач выполнения инструкций. Для тонкой настройки использовались следующие наборы данных:
- FLAN
- P3
- Alpaca
- Dolly-15k
Набор данных Dolly был дополнительно дополнен набором данных Anthropic’s Helpful and Harmless для тонкой настройки инструкций. Кроме того, разнообразный набор данных был использован для аугментации данных, который включает:
- CompetitionMath
- GradeSchoolMath
- DialogSum
- DuoRC
- QASPER
- QuALITY
- SummScreen
- Spider
MPT-30B-Chat
MPT-30B-Chat – это тонко настроенная версия MPT-30B для генерации диалогов. Это исследовательский артефакт, выпущенный под лицензией CC-By-NC-SA-4.0, которая позволяет только некоммерческое использование. Модель была тонко настроена с использованием различных языковых наборов данных, включая:
- Airoboros/GPT4-1.2
- Baize
- Camel
- GPTeacher
- Guanaco
- LongCoversations
- ShareGPT
- WizardLM
ЛЛМ занимают большую часть много миллиардного долларового рынка генеративного ИИ, который пережил огромный рост за короткое время после того, как ChatGPT революционизировал ландшафт в прошлом году. Семейство MPT является фундаментальной частью этой революции. В ближайшем будущем мы можем ожидать появления коммерчески доступных открытых моделей, которые будут намного более мощными и эффективными, чем семейство MPT.
Для получения последних новостей об ИИ посетите unite.ai.















