Вештачка интелигенција

MPT-30B: MosaicML го надминува GPT-3 со нов LLM за да ги помести границите на NLP

Објавено

пред 11 месеци

Јули 5, 2023

Истакната слика на блогот-MPT-30B: MosaicML го надминува GPT-3 со нов LLM за поместување на границите на јазичните модели

MosaicML е генеративна вештачка интелигенција компанија која обезбедува решенија за распоредување на вештачка интелигенција и приспособливост. Нивниот најнов модел на голем јазик (LLM) MPT-30B прави бранови низ заедницата за вештачка интелигенција.

Патувањето LLM на MosaicML започна со објавувањето на MPT-7B (Mosaic Pretrained Transformer) во мај 2023 година кој дојде со три варијанти:

MPT-7B-StoryWriter-65k+ (за генерирање приказни со долга форма)
MPT-7B-Instruct (за инструкции во кратки форми кои следуваат)
MPT-7B-Chat (за генерирање дијалог)

Моделите беа сведоци на огромен успех во ML заедницата поради нивната природа со отворен код, комерцијална употребливост и исклучителна способност за ракување со продолжени контекстни прозорци.

Што е најважно, моделот беше на исто ниво и, во некои случаи, ги надмина другите споредливи модели (LLaMA-7B, StableLM 7B, итн). До јуни, серијата MPT-7B беше преземена над 3 милиони пати. На 22-ри јуни, MosaicML беше објавен MPT-30B што уште повеќе ја подигна границата за моделите на темели со отворен код.

MPT-30B: Моќен LLM што го надминува GPT-3

MPT-30B е LLM со отворен код и комерцијално лиценциран декодер кој е помоќен од GPT-3-175B со само 17% од GPT-3 параметрите, т.е. 30B. Тој го надминува GPT-3 на неколку задачи. Еве споредба помеѓу MPT-30B и GPT-3.

MPT-30B: Моќен LLM што ја надминува GPT-3-GPT3-vs-MPT-30B-Споредба

извор

MPT-30B се надоврзува на претходниот модел MPT-7B. Пресметковно е ефикасно да се тренира во споредба со моделите со слични големини. На пример, LLaMA-30B користел приближно 1.44 пати повеќе буџет за FLOPs од MPT-30B, додека Falcon-40B имал 1.27 пати поголем буџет за FLOP од MPT-30B. Еве илустрација за подобрувањето на MPT-30B за различни задачи во однос на неговиот претходник.

MPT-30B: Моќен LLM што ја надминува GPT-3-MPT-30B-MPT-7B-Споредба

извор

Некои посебни карактеристики на MPT-30B се како што следува:

Контекстен прозорец со токени 8k

Контекстен прозорец во LLM се однесува на опсегот на токени што моделот може да ги земе предвид пред да го генерира излезот. MPT-30B имаше контекстуален прозорец од 8000 токени за време на обуката. Прво беше обучен на 1T токен користејќи 2k токени секвенци, а потоа дополнителни 50B токени од 8k токени секвенци (приближно 6000 зборови).

Поддршка ALiBi

За да ја објасниме оваа карактеристика, да разгледаме едно прашање:

Како може MPT-30B да разбере и да прави предвидувања за подолги секвенци од она на што бил обучен?

MPT-30B користи ан Внимание со линеарни предрасуди (ALiBi) техника за разбирање подолги секвенци и проширување на контекстниот прозорец надвор од 8k токени за време на дотерување или заклучување.

Наместо да пресметува позициони вградувања во кои доделуваме вектор на секој збор во низата, ALiBi ги пресметува резултатите на вниманието помеѓу клучните и токените за барање. Кога клучот и токените за барање се блиску еден до друг, казната е мала, но во спротивно повисока. Како резултат на тоа, основните трансформаторска архитектура може да се екстраполира на влезови со долги форми.

Ефикасно заклучување и изведба на обука преку FlashAttention

Вниманието, т.е. фокусирањето на релевантните делови од влезната низа, е критична компонента на трансформаторите, но може да биде бавно и интензивно за меморија, особено кога се обработуваат долги текстуални секвенци.

Блесок Внимание е пристап предложен од истражувачите од Универзитетот Корнел кој го решава овој проблем за MPT-30B. Користејќи ја техниката наречена поплочување, FlashAttention го намалува бројот на пати што моделот треба да чита од или да пишува во меморијата, забрзувајќи ја обработката. Оттука, моделот ја користи најсовремената техника FlashAttention и NVIDIA Побрз трансформатор библиотека за оптимизација за ефикасна обука и заклучоци.

Леснотија на обука и распоредување

Програмерите можат да го обучуваат MPT-30B од нула или да ги користат контролните точки на MosaicML за побрзо распоредување. Исто така, може да се прилагоди за случаи на употреба специфични за домен на одредена база на податоци.

Големината на моделот е избрана за да овозможи без напор распоредување на еден графички процесор, поточно 1xA100-80GB во 16-битна прецизност или 1xA100-40GB во 8-битна прецизност. Ова значи дека моделот е дизајниран да се вклопи во границите на меморијата на овие графички процесори.

Способности за кодирање

MPT-30B обезбедува и исклучителни можности за кодирање. HumanEval е база на податоци објавена од OpenAI која содржи 164 рачно изработени програмски проблеми. На базата на податоци HumanEval, моделот ги надминува наменските модели LLM, како што е StarCoder серија.

извор

Добро подесени варијанти: MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

LLM првенствено се користат за инструкции како што се одговарање прашања, сумирање на текст, превод на јазик итн. MPT-30B-Instruct е комерцијално употреблива (ја одржува комерцијалната лиценца CC-By-SA-3.0) варијанта на MPT-30B фино подесена специјално за инструкции следните задачи. За фино подесување, користени се следните збирки на податоци:

ФЛАН
P3
Алпака
Доли-15к

Базата на податоци на Доли беше дополнително зголемена со Корисна и безопасна база на податоци на Anthropic за дотерување на инструкциите. Дополнително, за зголемување на податоците се користеше разновиден опсег на збирки на податоци, кои се како што следува:

CompetitionMath
GradeSchoolMath
DialogSum
DuoRC
КАСПЕР
Квалитет
Збирен екран
Пајакот

MPT-30B-Разговор

MPT-30B-Chat е фино подесена верзија на MPT-30B за генерирање дијалози. Тоа е истражувачки артефакт објавен под лиценцата CC-By-NC-SA-4.0, дозволувајќи само некомерцијална употреба. Моделот беше фино подесен со користење на различни јазични сетови на податоци, вклучувајќи:

Airoboros/GPT4-1.2
Бајз
Камила
GPTeacher
Гуанако
Долги обвивки
ShareGPT
WizardLM

LLMs делат голем дел од мулти милијарди долари генеративен пазар на вештачка интелигенција, кој доживеа огромен раст за кратко време откако ChatGPT го револуционизираше пејзажот минатата година. Семејството МПТ е основен дел од оваа револуција. Во блиска иднина, можеме да очекуваме да видиме комерцијално достапни модели со отворен код кои се многу помоќни и поефикасни од семејството MPT.

За најновите вести за вештачката интелигенција, посетете обедини.ai.