заглушки MPT-30B: MosaicML затмевает GPT-3 с новым LLM, расширяющим границы НЛП - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

MPT-30B: MosaicML затмевает GPT-3 с новым LLM, расширяющим границы НЛП

mm

опубликованный

 on

Рекомендуемое изображение блога-MPT-30B: MosaicML затмевает GPT-3 с помощью нового LLM, расширяющего границы языковых моделей

МозаикаML - это генеративный ИИ компания, предоставляющая решения для развертывания и масштабирования ИИ. Их последняя модель большого языка (LLM) МПТ-30Б волнует сообщество ИИ.

Путь MosaicML к LLM начался с выпуска МПТ-7Б (Mosaic Pretrained Transformer) в мае 2023 года, который был представлен в трех вариантах:

  1. MPT-7B-StoryWriter-65k+ (для создания длинных историй)
  2. MPT-7B-Instruct (для краткой инструкции)
  3. MPT-7B-Chat (для генерации диалогов)

Модели стали свидетелями огромного успеха в сообществе машинного обучения из-за их открытого исходного кода, коммерческого использования и исключительной способности обрабатывать расширенные контекстные окна.

Самое главное, модель была на одном уровне, а в некоторых случаях превосходила другие сопоставимые модели (ЛЛаМА-7Б, СтабильныйLM 7B, и т. д). К июню серию MPT-7B скачали более 3 миллионов раз. 22 июня MosaicML выпустил МПТ-30Б что еще больше подняло планку для моделей фундамента с открытым исходным кодом.

MPT-30B: мощный LLM, превосходящий GPT-3

MPT-30B — это LLM с открытым исходным кодом и коммерческой лицензией на основе декодера, который является более мощным, чем ГПТ-3-175Б всего с 17% параметров ОПЗ-3, т.е. 30В. Он превосходит GPT-3 по ряду задач. Вот сравнение между МПТ-30Б и ГПТ-3.

MPT-30B основан на предыдущей модели MPT-7B. Это вычислительно эффективно для обучения по сравнению с моделями с аналогичными размерами. Например, LLaMA-30B использовал примерно в 1.44 раза больше FLOP, чем MPT-30B, а Falcon-40B имел в 1.27 раза больше FLOP, чем MPT-30B. Вот иллюстрация улучшения MPT-30B в различных задачах по сравнению с его предшественником.

Некоторые особенности MPT-30B заключаются в следующем:

Контекстное окно токена 8k

Контекстное окно в LLM относится к диапазону токенов, которые модель может рассмотреть перед созданием вывода. MPT-30B имел контекстное окно из 8000 токенов во время обучения. Сначала он был обучен на токене 1T с использованием последовательностей токенов 2k, а затем на дополнительных токенах 50B последовательностей токенов 8k (примерно Слова 6000).

Поддержка АлиБи

Чтобы объяснить эту особенность, давайте рассмотрим вопрос:

Как MPT-30B может понимать и делать прогнозы для более длинных последовательностей, чем те, на которых он был обучен?

МПТ-30Б использует Внимание с линейными смещениями (ALiBi) метод для понимания более длинных последовательностей и расширения окна контекста за пределы 8k токенов во время точной настройки или логического вывода.

Вместо вычисления позиционных вложений, в которых мы назначаем вектор каждому слову в последовательности, ALiBi вычисляет оценки внимания между токенами ключа и запроса. Когда токены ключа и запроса расположены близко друг к другу, штраф невелик, но в противном случае он выше. В результате в основе трансформаторная архитектура может экстраполировать на длинные входные данные.

Эффективные логические выводы и производительность обучения с помощью FlashAttention

Внимание, т. е. сосредоточение внимания на соответствующих частях входной последовательности, является критически важным компонентом преобразователей, но оно может быть медленным и интенсивно использовать память, особенно при обработке длинных текстовых последовательностей.

FlashAttention — это подход, предложенный исследователями Корнельского университета для решения этой проблемы для MPT-30B. Используя метод, называемый тайлингом, FlashAttention сокращает количество операций чтения или записи в память модели, что ускоряет обработку. Таким образом, модель использует современную технологию FlashAttention и технологию NVIDIA. БыстрееТрансформер библиотека оптимизации для эффективного обучения и логического вывода.

Простота обучения и развертывания

Разработчики могут обучать MPT-30B с нуля или использовать контрольные точки MosaicML для более быстрого развертывания. Кроме того, его можно настроить для конкретных случаев использования в конкретном наборе данных.

Размер модели был выбран для обеспечения легкого развертывания на одном графическом процессоре, в частности, 1xA100-80 ГБ с 16-битной точностью или 1xA100-40 ГБ с 8-битной точностью. Это означает, что модель была разработана с учетом ограничений памяти этих графических процессоров.

Возможности кодирования

MPT-30B также обеспечивает исключительные возможности кодирования. HumanEval — это набор данных, выпущенный OpenAI, который содержит 164 задачи программирования, созданные вручную. В наборе данных HumanEval модель превосходит специально созданные модели LLM, такие как Старкодер серии.

Доработанные варианты: MPT-30B-Instruct и MPT-30B-Chat

MPT-30B-Инструктировать

LLM в основном используются для инструкций, таких как ответы на вопросы, обобщение текста, языковой перевод и т. д. MPT-30B-Instruct — это коммерчески используемый (поддерживает коммерческую лицензию CC-By-SA-3.0) вариант MPT-30B, точно настроенный специально для инструкция после выполнения заданий. Для тонкой настройки использовались следующие наборы данных:

  1. ФЛАН
  2. P3
  3. Альпака
  4. Долли-15к

Набор данных Dolly был дополнен Полезный и безвредный набор данных Anthropic для тонкой настройки инструкции. Кроме того, для дополнения данных использовался широкий спектр наборов данных, а именно:

  1. КонкурсМатематика
  2. КлассШколаМатематика
  3. ДиалогСумма
  4. ДуоRC
  5. КАСПЕР
  6. Качество
  7. СуммЭкран
  8. Spiders

МПТ-30Б-Чат

MPT-30B-Chat — это доработанная версия MPT-30B для генерации диалогов. Это исследовательский артефакт, выпущенный под лицензией CC-By-NC-SA-4.0, разрешающей только некоммерческое использование. Модель была доработана с использованием различных языковых наборов данных, в том числе:

  1. Аэроборос/ГПТ4-1.2
  2. байка
  3. верблюд
  4. GPTучитель
  5. гуанако
  6. Длинные каверы
  7. ПоделитьсяGPT
  8. МастерLM

LLM разделяют большую часть многомиллиардный доллар рынок генеративного искусственного интеллекта, который быстро вырос после того, как ChatGPT произвел революцию в прошлом году. Семейство MPT является основополагающей частью этой революции. В ближайшем будущем мы можем ожидать появления коммерчески доступных моделей с открытым исходным кодом, которые будут гораздо более мощными и эффективными, чем семейство MPT.

Чтобы узнать последние новости об искусственном интеллекте, посетите объединить.ай.