Artificial Intelligence

MPT-30B: MosaicML затмевает GPT-3 с новым LLM, расширяющим границы НЛП

опубликованный

10 меc. назад

Июль 5, 2023

Рекомендуемое изображение блога-MPT-30B: MosaicML затмевает GPT-3 с помощью нового LLM, расширяющего границы языковых моделей

МозаикаML - это генеративный ИИ компания, предоставляющая решения для развертывания и масштабирования ИИ. Их последняя модель большого языка (LLM) МПТ-30Б волнует сообщество ИИ.

Путь MosaicML к LLM начался с выпуска МПТ-7Б (Mosaic Pretrained Transformer) в мае 2023 года, который был представлен в трех вариантах:

MPT-7B-StoryWriter-65k+ (для создания длинных историй)
MPT-7B-Instruct (для краткой инструкции)
MPT-7B-Chat (для генерации диалогов)

Модели стали свидетелями огромного успеха в сообществе машинного обучения из-за их открытого исходного кода, коммерческого использования и исключительной способности обрабатывать расширенные контекстные окна.

Самое главное, модель была на одном уровне, а в некоторых случаях превосходила другие сопоставимые модели (ЛЛаМА-7Б, СтабильныйLM 7B, и т. д). К июню серию MPT-7B скачали более 3 миллионов раз. 22 июня MosaicML выпустил МПТ-30Б что еще больше подняло планку для моделей фундамента с открытым исходным кодом.

MPT-30B: мощный LLM, превосходящий GPT-3

MPT-30B — это LLM с открытым исходным кодом и коммерческой лицензией на основе декодера, который является более мощным, чем ГПТ-3-175Б всего с 17% параметров ОПЗ-3, т.е. 30В. Он превосходит GPT-3 по ряду задач. Вот сравнение между МПТ-30Б и ГПТ-3.

MPT-30B: мощный LLM, который превосходит GPT-3-GPT3-vs-MPT-30B-сравнение

Источник

MPT-30B основан на предыдущей модели MPT-7B. Это вычислительно эффективно для обучения по сравнению с моделями с аналогичными размерами. Например, LLaMA-30B использовал примерно в 1.44 раза больше FLOP, чем MPT-30B, а Falcon-40B имел в 1.27 раза больше FLOP, чем MPT-30B. Вот иллюстрация улучшения MPT-30B в различных задачах по сравнению с его предшественником.

MPT-30B: мощный LLM, превосходящий GPT-3-MPT-30B-MPT-7B-Compariance

Источник

Некоторые особенности MPT-30B заключаются в следующем:

Контекстное окно токена 8k

Контекстное окно в LLM относится к диапазону токенов, которые модель может рассмотреть перед созданием вывода. MPT-30B имел контекстное окно из 8000 токенов во время обучения. Сначала он был обучен на токене 1T с использованием последовательностей токенов 2k, а затем на дополнительных токенах 50B последовательностей токенов 8k (примерно Слова 6000).

Поддержка АлиБи

Чтобы объяснить эту особенность, давайте рассмотрим вопрос:

Как MPT-30B может понимать и делать прогнозы для более длинных последовательностей, чем те, на которых он был обучен?

МПТ-30Б использует Внимание с линейными смещениями (ALiBi) метод для понимания более длинных последовательностей и расширения окна контекста за пределы 8k токенов во время точной настройки или логического вывода.

Вместо вычисления позиционных вложений, в которых мы назначаем вектор каждому слову в последовательности, ALiBi вычисляет оценки внимания между токенами ключа и запроса. Когда токены ключа и запроса расположены близко друг к другу, штраф невелик, но в противном случае он выше. В результате в основе трансформаторная архитектура может экстраполировать на длинные входные данные.

Эффективные логические выводы и производительность обучения с помощью FlashAttention

Внимание, т. е. сосредоточение внимания на соответствующих частях входной последовательности, является критически важным компонентом преобразователей, но оно может быть медленным и интенсивно использовать память, особенно при обработке длинных текстовых последовательностей.

FlashAttention — это подход, предложенный исследователями Корнельского университета для решения этой проблемы для MPT-30B. Используя метод, называемый тайлингом, FlashAttention сокращает количество операций чтения или записи в память модели, что ускоряет обработку. Таким образом, модель использует современную технологию FlashAttention и технологию NVIDIA. БыстрееТрансформер библиотека оптимизации для эффективного обучения и логического вывода.

Простота обучения и развертывания

Разработчики могут обучать MPT-30B с нуля или использовать контрольные точки MosaicML для более быстрого развертывания. Кроме того, его можно настроить для конкретных случаев использования в конкретном наборе данных.

Размер модели был выбран для обеспечения легкого развертывания на одном графическом процессоре, в частности, 1xA100-80 ГБ с 16-битной точностью или 1xA100-40 ГБ с 8-битной точностью. Это означает, что модель была разработана с учетом ограничений памяти этих графических процессоров.

Возможности кодирования

MPT-30B также обеспечивает исключительные возможности кодирования. HumanEval — это набор данных, выпущенный OpenAI, который содержит 164 задачи программирования, созданные вручную. В наборе данных HumanEval модель превосходит специально созданные модели LLM, такие как Старкодер серии.

Источник

Доработанные варианты: MPT-30B-Instruct и MPT-30B-Chat

MPT-30B-Инструктировать

LLM в основном используются для инструкций, таких как ответы на вопросы, обобщение текста, языковой перевод и т. д. MPT-30B-Instruct — это коммерчески используемый (поддерживает коммерческую лицензию CC-By-SA-3.0) вариант MPT-30B, точно настроенный специально для инструкция после выполнения заданий. Для тонкой настройки использовались следующие наборы данных:

ФЛАН
P3
Альпака
Долли-15к

Набор данных Dolly был дополнен Полезный и безвредный набор данных Anthropic для тонкой настройки инструкции. Кроме того, для дополнения данных использовался широкий спектр наборов данных, а именно:

КонкурсМатематика
КлассШколаМатематика
ДиалогСумма
ДуоRC
КАСПЕР
Качество
СуммЭкран
Spiders

МПТ-30Б-Чат

MPT-30B-Chat — это доработанная версия MPT-30B для генерации диалогов. Это исследовательский артефакт, выпущенный под лицензией CC-By-NC-SA-4.0, разрешающей только некоммерческое использование. Модель была доработана с использованием различных языковых наборов данных, в том числе:

Аэроборос/ГПТ4-1.2
байка
верблюд
GPTучитель
гуанако
Длинные каверы
ПоделитьсяGPT
МастерLM

LLM разделяют большую часть многомиллиардный доллар рынок генеративного искусственного интеллекта, который быстро вырос после того, как ChatGPT произвел революцию в прошлом году. Семейство MPT является основополагающей частью этой революции. В ближайшем будущем мы можем ожидать появления коммерчески доступных моделей с открытым исходным кодом, которые будут гораздо более мощными и эффективными, чем семейство MPT.

Чтобы узнать последние новости об искусственном интеллекте, посетите объединить.ай.