Изкуствен интелект
MPT-30B: MosaicML засенчва GPT-3 с нов LLM, за да разшири границите на НЛП
MosaicML е генеративен AI компания, която предоставя решения за внедряване и скалируемост на AI. Техният най-нов голям езиков модел (LLM) MPT-30B прави вълни в общността на AI.
LLM пътуването на MosaicML започна с пускането на MPT-7B (Mosaic Pretrained Transformer) през май 2023 г., който се предлага с три варианта:
- MPT-7B-StoryWriter-65k+ (за генериране на история в дълга форма)
- MPT-7B-Instruct (за следващи кратки инструкции)
- MPT-7B-Chat (за генериране на диалог)
Моделите станаха свидетели на огромен успех в ML общността поради тяхната природа с отворен код, търговска използваемост и изключителна способност за обработка на прозорци с разширен контекст.
Най-важното е, че моделът беше на ниво и в някои случаи превъзхождаше другите сравними модели (LLaMA-7B, StableLM 7Bи т.н.). До юни серията MPT-7B беше изтеглена над 3 милиона пъти. На 22 юни излезе MosaicML MPT-30B което вдигна летвата още повече за моделите на основата с отворен код.
MPT-30B: Мощен LLM, който надминава GPT-3
MPT-30B е LLM с отворен код и лицензиран декодер, който е по-мощен от GPT-3-175B само със 17% от параметрите на GPT-3, т.е. 30B. Той превъзхожда GPT-3 при няколко задачи. Ето сравнение между MPT-30B и GPT-3.
MPT-30B се основава на предишния модел MPT-7B. Обучението е ефективно в изчислителна гледна точка в сравнение с модели с подобни размери. Например, LLaMA-30B използва приблизително 1.44 пъти повече FLOP бюджет от MPT-30B, докато Falcon-40B има 1.27 пъти по-висок FLOP бюджет от MPT-30B. Ето илюстрация на подобрението на MPT-30B при различни задачи спрямо своя предшественик.
Някои специални характеристики на MPT-30B са следните:
8k Token контекстен прозорец
Контекстният прозорец в LLM се отнася до диапазона от токени, които моделът може да вземе предвид, преди да генерира изхода. MPT-30B имаше контекстен прозорец от 8000 токена по време на обучение. Първо беше обучен на 1T токен, използвайки 2k последователности от токени и след това допълнителни 50B токена от 8k последователности от токени (приблизително 6000 думи).
Поддръжка на ALiBi
За да обясним тази функция, нека разгледаме един въпрос:
Как може MPT-30B да разбира и прави прогнози за по-дълги последователности от това, на което е трениран?
MPT-30B използва an Внимание с линейни отклонения (ALiBi) техника за разбиране на по-дълги последователности и разширяване на контекстния прозорец отвъд 8k токена по време на фина настройка или извод.
Вместо да изчислява позиционни вграждания, в които присвояваме вектор на всяка дума в последователността, ALiBi изчислява оценки на вниманието между ключови и токени за заявка. Когато ключът и токените на заявката са близо един до друг, наказанието е ниско, но в противен случай по-високо. В резултат на това осн трансформаторна архитектура може да екстраполира към входове в дълга форма.
Ефективно заключение и ефективност на обучението чрез FlashAttention
Вниманието, т.е. фокусирането върху съответните части от входната последователност, е критичен компонент на трансформаторите, но може да бъде бавно и интензивно към паметта, особено при обработка на дълги текстови последователности.
FlashAttention е подход, предложен от изследователи от университета Корнел, който се занимава с този проблем за MPT-30B. Използвайки техника, наречена tiling, FlashAttention намалява броя пъти, които моделът трябва да чете от или да записва в паметта, като ускорява обработката. Следователно, моделът използва най-съвременната техника FlashAttention и NVIDIA FasterTransformer оптимизационна библиотека за ефективно обучение и изводи.
Лесно обучение и внедряване
Разработчиците могат да обучават MPT-30B от нулата или да използват контролните точки на MosaicML за по-бързо внедряване. Освен това може да се настрои фино за специфични за домейна случаи на използване на определен набор от данни.
Размерът на модела е избран, за да позволи безпроблемно внедряване на един GPU, по-специално 1xA100-80GB с 16-битова точност или 1xA100-40GB с 8-битова точност. Това означава, че моделът е проектиран да отговаря на ограниченията на паметта на тези графични процесори.
Възможности за кодиране
MPT-30B предоставя и изключителни възможности за кодиране. HumanEval е набор от данни, издаден от OpenAI, който съдържа 164 ръчно изработени програмни задачи. В набора от данни HumanEval моделът надминава целево създадените LLM модели, като например StarCoder серия.
Фино настроени варианти: MPT-30B-Instruct & MPT-30B-Chat
MPT-30B-Instruct
LLM се използват основно за инструкции като отговаряне на въпроси, обобщаване на текст, превод на език и т.н. MPT-30B-Instruct е комерсиално използваем (поддържа търговски лиценз CC-By-SA-3.0) вариант на MPT-30B, фино настроен специално за инструкции след задачи. За фина настройка бяха използвани следните набори от данни:
- FLAN
- P3
- алпака
- Доли-15к
Наборът от данни Dolly беше допълнително разширен с Полезният и безвреден набор от данни на Anthropic за фина настройка на инструкциите. Освен това за увеличаване на данните бяха използвани разнообразни набори от данни, които са както следва:
- CompetitionMath
- GradeSchoolMath
- DialogSum
- DuoRC
- QASPER
- КАЧЕСТВО
- SummScreen
- Паяк
MPT-30B-Чат
MPT-30B-Chat е фино настроена версия на MPT-30B за генериране на диалог. Това е изследователски артефакт, пуснат под лиценз CC-By-NC-SA-4.0, позволяващ само некомерсиална употреба. Моделът беше фино настроен с помощта на различни езикови набори от данни, включително:
- Airoboros/GPT4-1.2
- Байз
- Камила
- GPTeacher
- Гуанако
- Дълги корици
- ShareGPT
- WizardLM
LLM споделят голяма част от много милиарди долари generative AI пазар, който претърпя огромен растеж за нула време, след като ChatGPT революционизира пейзажа миналата година. Фамилията MPT е основополагаща част от тази революция. В близко бъдеще можем да очакваме да видим налични в търговската мрежа модели с отворен код, които са много по-мощни и ефективни от фамилията MPT.
За последните новини за AI посетете обединявам.ai.