Artificial Intelligence
MPT-30B: MosaicML затмевает GPT-3 с новым LLM, расширяющим границы НЛП
МозаикаML - это генеративный ИИ компания, предоставляющая решения для развертывания и масштабирования ИИ. Их последняя модель большого языка (LLM) МПТ-30Б волнует сообщество ИИ.
Путь MosaicML к LLM начался с выпуска МПТ-7Б (Mosaic Pretrained Transformer) в мае 2023 года, который был представлен в трех вариантах:
- MPT-7B-StoryWriter-65k+ (для создания длинных историй)
- MPT-7B-Instruct (для краткой инструкции)
- MPT-7B-Chat (для генерации диалогов)
Модели стали свидетелями огромного успеха в сообществе машинного обучения из-за их открытого исходного кода, коммерческого использования и исключительной способности обрабатывать расширенные контекстные окна.
Самое главное, модель была на одном уровне, а в некоторых случаях превосходила другие сопоставимые модели (ЛЛаМА-7Б, СтабильныйLM 7B, и т. д). К июню серию MPT-7B скачали более 3 миллионов раз. 22 июня MosaicML выпустил МПТ-30Б что еще больше подняло планку для моделей фундамента с открытым исходным кодом.
MPT-30B: мощный LLM, превосходящий GPT-3
MPT-30B — это LLM с открытым исходным кодом и коммерческой лицензией на основе декодера, который является более мощным, чем ГПТ-3-175Б всего с 17% параметров ОПЗ-3, т.е. 30В. Он превосходит GPT-3 по ряду задач. Вот сравнение между МПТ-30Б и ГПТ-3.
MPT-30B основан на предыдущей модели MPT-7B. Это вычислительно эффективно для обучения по сравнению с моделями с аналогичными размерами. Например, LLaMA-30B использовал примерно в 1.44 раза больше FLOP, чем MPT-30B, а Falcon-40B имел в 1.27 раза больше FLOP, чем MPT-30B. Вот иллюстрация улучшения MPT-30B в различных задачах по сравнению с его предшественником.
Некоторые особенности MPT-30B заключаются в следующем:
Контекстное окно токена 8k
Контекстное окно в LLM относится к диапазону токенов, которые модель может рассмотреть перед созданием вывода. MPT-30B имел контекстное окно из 8000 токенов во время обучения. Сначала он был обучен на токене 1T с использованием последовательностей токенов 2k, а затем на дополнительных токенах 50B последовательностей токенов 8k (примерно Слова 6000).
Поддержка АлиБи
Чтобы объяснить эту особенность, давайте рассмотрим вопрос:
Как MPT-30B может понимать и делать прогнозы для более длинных последовательностей, чем те, на которых он был обучен?
МПТ-30Б использует Внимание с линейными смещениями (ALiBi) метод для понимания более длинных последовательностей и расширения окна контекста за пределы 8k токенов во время точной настройки или логического вывода.
Вместо вычисления позиционных вложений, в которых мы назначаем вектор каждому слову в последовательности, ALiBi вычисляет оценки внимания между токенами ключа и запроса. Когда токены ключа и запроса расположены близко друг к другу, штраф невелик, но в противном случае он выше. В результате в основе трансформаторная архитектура может экстраполировать на длинные входные данные.
Эффективные логические выводы и производительность обучения с помощью FlashAttention
Внимание, т. е. сосредоточение внимания на соответствующих частях входной последовательности, является критически важным компонентом преобразователей, но оно может быть медленным и интенсивно использовать память, особенно при обработке длинных текстовых последовательностей.
FlashAttention — это подход, предложенный исследователями Корнельского университета для решения этой проблемы для MPT-30B. Используя метод, называемый тайлингом, FlashAttention сокращает количество операций чтения или записи в память модели, что ускоряет обработку. Таким образом, модель использует современную технологию FlashAttention и технологию NVIDIA. БыстрееТрансформер библиотека оптимизации для эффективного обучения и логического вывода.
Простота обучения и развертывания
Разработчики могут обучать MPT-30B с нуля или использовать контрольные точки MosaicML для более быстрого развертывания. Кроме того, его можно настроить для конкретных случаев использования в конкретном наборе данных.
Размер модели был выбран для обеспечения легкого развертывания на одном графическом процессоре, в частности, 1xA100-80 ГБ с 16-битной точностью или 1xA100-40 ГБ с 8-битной точностью. Это означает, что модель была разработана с учетом ограничений памяти этих графических процессоров.
Возможности кодирования
MPT-30B также обеспечивает исключительные возможности кодирования. HumanEval — это набор данных, выпущенный OpenAI, который содержит 164 задачи программирования, созданные вручную. В наборе данных HumanEval модель превосходит специально созданные модели LLM, такие как Старкодер серии.
Доработанные варианты: MPT-30B-Instruct и MPT-30B-Chat
MPT-30B-Инструктировать
LLM в основном используются для инструкций, таких как ответы на вопросы, обобщение текста, языковой перевод и т. д. MPT-30B-Instruct — это коммерчески используемый (поддерживает коммерческую лицензию CC-By-SA-3.0) вариант MPT-30B, точно настроенный специально для инструкция после выполнения заданий. Для тонкой настройки использовались следующие наборы данных:
- ФЛАН
- P3
- Альпака
- Долли-15к
Набор данных Dolly был дополнен Полезный и безвредный набор данных Anthropic для тонкой настройки инструкции. Кроме того, для дополнения данных использовался широкий спектр наборов данных, а именно:
- КонкурсМатематика
- КлассШколаМатематика
- ДиалогСумма
- ДуоRC
- КАСПЕР
- Качество
- СуммЭкран
- Spiders
МПТ-30Б-Чат
MPT-30B-Chat — это доработанная версия MPT-30B для генерации диалогов. Это исследовательский артефакт, выпущенный под лицензией CC-By-NC-SA-4.0, разрешающей только некоммерческое использование. Модель была доработана с использованием различных языковых наборов данных, в том числе:
- Аэроборос/ГПТ4-1.2
- байка
- верблюд
- GPTучитель
- гуанако
- Длинные каверы
- ПоделитьсяGPT
- МастерLM
LLM разделяют большую часть многомиллиардный доллар рынок генеративного искусственного интеллекта, который быстро вырос после того, как ChatGPT произвел революцию в прошлом году. Семейство MPT является основополагающей частью этой революции. В ближайшем будущем мы можем ожидать появления коммерчески доступных моделей с открытым исходным кодом, которые будут гораздо более мощными и эффективными, чем семейство MPT.
Чтобы узнать последние новости об искусственном интеллекте, посетите объединить.ай.