Изкуствен интелект

MPT-30B: MosaicML засенчва GPT-3 с нов LLM, за да разшири границите на НЛП

Публикуван

Преди 10 месеца

Юли 5, 2023

Представено изображение на блога-MPT-30B: MosaicML засенчва GPT-3 с нов LLM, за да разшири границите на езиковите модели

MosaicML е генеративен AI компания, която предоставя решения за внедряване и скалируемост на AI. Техният най-нов голям езиков модел (LLM) MPT-30B прави вълни в общността на AI.

LLM пътуването на MosaicML започна с пускането на MPT-7B (Mosaic Pretrained Transformer) през май 2023 г., който се предлага с три варианта:

MPT-7B-StoryWriter-65k+ (за генериране на история в дълга форма)
MPT-7B-Instruct (за следващи кратки инструкции)
MPT-7B-Chat (за генериране на диалог)

Моделите станаха свидетели на огромен успех в ML общността поради тяхната природа с отворен код, търговска използваемост и изключителна способност за обработка на прозорци с разширен контекст.

Най-важното е, че моделът беше на ниво и в някои случаи превъзхождаше другите сравними модели (LLaMA-7B, StableLM 7Bи т.н.). До юни серията MPT-7B беше изтеглена над 3 милиона пъти. На 22 юни излезе MosaicML MPT-30B което вдигна летвата още повече за моделите на основата с отворен код.

MPT-30B: Мощен LLM, който надминава GPT-3

MPT-30B е LLM с отворен код и лицензиран декодер, който е по-мощен от GPT-3-175B само със 17% от параметрите на GPT-3, т.е. 30B. Той превъзхожда GPT-3 при няколко задачи. Ето сравнение между MPT-30B и GPT-3.

източник

MPT-30B се основава на предишния модел MPT-7B. Обучението е ефективно в изчислителна гледна точка в сравнение с модели с подобни размери. Например, LLaMA-30B използва приблизително 1.44 пъти повече FLOP бюджет от MPT-30B, докато Falcon-40B има 1.27 пъти по-висок FLOP бюджет от MPT-30B. Ето илюстрация на подобрението на MPT-30B при различни задачи спрямо своя предшественик.

MPT-30B: Мощен LLM, който надминава GPT-3-MPT-30B-MPT-7B-Сравнение

източник

Някои специални характеристики на MPT-30B са следните:

8k Token контекстен прозорец

Контекстният прозорец в LLM се отнася до диапазона от токени, които моделът може да вземе предвид, преди да генерира изхода. MPT-30B имаше контекстен прозорец от 8000 токена по време на обучение. Първо беше обучен на 1T токен, използвайки 2k последователности от токени и след това допълнителни 50B токена от 8k последователности от токени (приблизително 6000 думи).

Поддръжка на ALiBi

За да обясним тази функция, нека разгледаме един въпрос:

Как може MPT-30B да разбира и прави прогнози за по-дълги последователности от това, на което е трениран?

MPT-30B използва an Внимание с линейни отклонения (ALiBi) техника за разбиране на по-дълги последователности и разширяване на контекстния прозорец отвъд 8k токена по време на фина настройка или извод.

Вместо да изчислява позиционни вграждания, в които присвояваме вектор на всяка дума в последователността, ALiBi изчислява оценки на вниманието между ключови и токени за заявка. Когато ключът и токените на заявката са близо един до друг, наказанието е ниско, но в противен случай по-високо. В резултат на това осн трансформаторна архитектура може да екстраполира към входове в дълга форма.

Ефективно заключение и ефективност на обучението чрез FlashAttention

Вниманието, т.е. фокусирането върху съответните части от входната последователност, е критичен компонент на трансформаторите, но може да бъде бавно и интензивно към паметта, особено при обработка на дълги текстови последователности.

FlashAttention е подход, предложен от изследователи от университета Корнел, който се занимава с този проблем за MPT-30B. Използвайки техника, наречена tiling, FlashAttention намалява броя пъти, които моделът трябва да чете от или да записва в паметта, като ускорява обработката. Следователно, моделът използва най-съвременната техника FlashAttention и NVIDIA FasterTransformer оптимизационна библиотека за ефективно обучение и изводи.

Лесно обучение и внедряване

Разработчиците могат да обучават MPT-30B от нулата или да използват контролните точки на MosaicML за по-бързо внедряване. Освен това може да се настрои фино за специфични за домейна случаи на използване на определен набор от данни.

Размерът на модела е избран, за да позволи безпроблемно внедряване на един GPU, по-специално 1xA100-80GB с 16-битова точност или 1xA100-40GB с 8-битова точност. Това означава, че моделът е проектиран да отговаря на ограниченията на паметта на тези графични процесори.

Възможности за кодиране

MPT-30B предоставя и изключителни възможности за кодиране. HumanEval е набор от данни, издаден от OpenAI, който съдържа 164 ръчно изработени програмни задачи. В набора от данни HumanEval моделът надминава целево създадените LLM модели, като например StarCoder серия.

източник

Фино настроени варианти: MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

LLM се използват основно за инструкции като отговаряне на въпроси, обобщаване на текст, превод на език и т.н. MPT-30B-Instruct е комерсиално използваем (поддържа търговски лиценз CC-By-SA-3.0) вариант на MPT-30B, фино настроен специално за инструкции след задачи. За фина настройка бяха използвани следните набори от данни:

FLAN
P3
алпака
Доли-15к

Наборът от данни Dolly беше допълнително разширен с Полезният и безвреден набор от данни на Anthropic за фина настройка на инструкциите. Освен това за увеличаване на данните бяха използвани разнообразни набори от данни, които са както следва:

CompetitionMath
GradeSchoolMath
DialogSum
DuoRC
QASPER
КАЧЕСТВО
SummScreen
Паяк

MPT-30B-Чат

MPT-30B-Chat е фино настроена версия на MPT-30B за генериране на диалог. Това е изследователски артефакт, пуснат под лиценз CC-By-NC-SA-4.0, позволяващ само некомерсиална употреба. Моделът беше фино настроен с помощта на различни езикови набори от данни, включително:

Airoboros/GPT4-1.2
Байз
Камила
GPTeacher
Гуанако
Дълги корици
ShareGPT
WizardLM

LLM споделят голяма част от много милиарди долари generative AI пазар, който претърпя огромен растеж за нула време, след като ChatGPT революционизира пейзажа миналата година. Фамилията MPT е основополагаща част от тази революция. В близко бъдеще можем да очакваме да видим налични в търговската мрежа модели с отворен код, които са много по-мощни и ефективни от фамилията MPT.

За последните новини за AI посетете обединявам.ai.