Mākslīgais intelekts

MPT-30B: MosaicML pārspēj GPT-3 ar jaunu LLM, lai pārkāptu NLP robežas

Izdots

pirms 10 mēnešiem

Jūlijs 5, 2023

Piedāvātais emuāra attēls-MPT-30B: MosaicML pārspēj GPT-3 ar jaunu LLM, lai pārspētu valodu modeļu robežas

MosaicML ir ģeneratīvais AI uzņēmums, kas nodrošina AI izvietošanas un mērogojamības risinājumus. Viņu jaunākais lielās valodas modelis (LLM) MPT-30B rada viļņus visā AI kopienā.

MosaicML LLM ceļojums sākās ar izlaišanu MPT-7B (Mosaic Pretrained Transformer) 2023. gada maijā, kurā bija trīs varianti:

MPT-7B-StoryWriter-65k+ (ilgas formas stāstu ģenerēšanai)
MPT-7B-Instruct (sekojošai īsai instrukcijai)
MPT-7B-Chat (dialoga ģenerēšanai)

Modeļi guva milzīgus panākumus ML kopienā, pateicoties to atvērtā pirmkoda raksturam, komerciālai lietojamībai un izcilai spējai apstrādāt paplašinātus konteksta logus.

Vissvarīgākais ir tas, ka modelis bija līdzvērtīgs un dažos gadījumos pārspēja citus salīdzināmus modeļus (LLaMA-7B, StableLM 7Butt.). Līdz jūnijam MPT-7B sērija tika lejupielādēta vairāk nekā 3 miljonus reižu. 22. jūnijā tika izlaists MosaicML MPT-30B kas vēl vairāk pacēla latiņu atvērtā pirmkoda pamatu modeļiem.

MPT-30B: jaudīgs LLM, kas pārsniedz GPT-3

MPT-30B ir atvērtā koda un komerciāli licencēta dekodētāja LLM, kas ir jaudīgāka par GPT-3-175B ar tikai 17% no GPT-3 parametriem, ti, 30B. Vairākos uzdevumos tas pārspēj GPT-3. Šeit ir MPT-30B un GPT-3 salīdzinājums.

avots

MPT-30B balstās uz iepriekšējo MPT-7B modeli. Apmācība ir skaitļošanas ziņā efektīva salīdzinājumā ar līdzīga izmēra modeļiem. Piemēram, LLaMA-30B izmantoja aptuveni 1.44 reizes lielāku FLOP budžetu nekā MPT-30B, savukārt Falcon-40B bija 1.27 reizes lielāks FLOP budžets nekā MPT-30B. Šeit ir ilustrācija par MPT-30B uzlabojumiem dažādos uzdevumos salīdzinājumā ar tā priekšgājēju.

MPT-30B: jaudīgs LLM, kas pārsniedz GPT-3-MPT-30B-MPT-7B salīdzinājumu

avots

Dažas MPT-30B īpašās funkcijas ir šādas:

8k marķiera konteksta logs

LLM konteksta logs attiecas uz marķieru diapazonu, ko modelis var apsvērt pirms izvades ģenerēšanas. MPT-30B apmācības laikā konteksta logs bija 8000 marķieru. Vispirms tas tika apmācīts par 1T marķieri, izmantojot 2 50 marķieru secības un pēc tam papildu 8 B marķieru XNUMX XNUMX marķieru secības (aptuveni 6000 vārdi).

ALiBi atbalsts

Lai izskaidrotu šo funkciju, apsveriet jautājumu:

Kā MPT-30B var saprast un prognozēt garākas sekvences, nekā tas tika apmācīts?

MPT-30B izmanto a Uzmanība ar lineārām novirzēm (ALiBi) tehnika, lai izprastu garākas secības un paplašinātu konteksta logu, pārsniedzot 8k marķierus precīzās noregulēšanas vai secinājumu laikā.

Tā vietā, lai aprēķinātu pozicionālo iegulšanu, kurā mēs piešķiram vektoru katram vārdam secībā, ALiBi aprēķina uzmanības rādītājus starp atslēgas un vaicājuma marķieriem. Ja atslēga un vaicājuma marķieri atrodas tuvu viens otram, sods ir mazs, bet citādi lielāks. Rezultātā pamatā esošais transformatoru arhitektūra var ekstrapolēt uz garas formas ievadi.

Efektīva secinājumu veikšana un apmācība, izmantojot FlashAttention

Uzmanība, ti, koncentrēšanās uz attiecīgajām ievades secības daļām, ir kritiska transformatoru sastāvdaļa, taču tā var būt lēna un ietilpīga atmiņā, it īpaši, apstrādājot garas teksta secības.

FlashUzmanību ir Kornela universitātes pētnieku piedāvātā pieeja, kas risina šo MPT-30B problēmu. Izmantojot paņēmienu, ko sauc par flīzēšanu, FlashAttention samazina to reižu skaitu, kad modelim ir jālasa no atmiņas vai jāieraksta tajā, tādējādi paātrinot apstrādi. Tādējādi modelī tiek izmantota vismodernākā FlashAttention tehnika un NVIDIA Ātrāks transformators optimizācijas bibliotēka efektīvai apmācībai un secinājumiem.

Apmācības un ieviešanas vienkāršība

Izstrādātāji var apmācīt MPT-30B no nulles vai izmantot MosaicML kontrolpunktus ātrākai izvietošanai. To var arī precīzi pielāgot domēna lietošanas gadījumiem noteiktā datu kopā.

Modeļa izmērs tika izvēlēts, lai nodrošinātu vieglu izvietošanu vienā GPU, īpaši 1xA100-80GB 16 bitu precizitātē vai 1xA100-40GB ar 8 bitu precizitāti. Tas nozīmē, ka modelis tika izstrādāts tā, lai tas atbilstu šo GPU atmiņas ierobežojumiem.

Kodēšanas iespējas

MPT-30B nodrošina arī izcilas kodēšanas iespējas. HumanEval ir OpenAI izdota datu kopa, kas satur 164 ar rokām izstrādātas programmēšanas problēmas. HumanEval datu kopā modelis pārspēj mērķtiecīgi izveidotos LLM modeļus, piemēram, StarCoder sērija.

avots

Precīzi noregulēti varianti: MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruēt

LLM galvenokārt tiek izmantoti norādījumiem, piemēram, atbildēm uz jautājumiem, teksta apkopošanai, valodas tulkošanai utt. MPT-30B-Instruct ir komerciāli lietojams (uztur komerciālu CC-By-SA-3.0 licenci) MPT-30B variants, kas īpaši pielāgots norādījumi pēc uzdevumiem. Precizēšanai tika izmantotas šādas datu kopas:

FLAN
P3
Alpaka
Dollija-15k

Dolly datu kopa tika vēl vairāk papildināta ar Anthropic noderīgā un nekaitīgā datu kopa instrukciju precizēšanai. Turklāt datu papildināšanai tika izmantotas dažādas datu kopas, kas ir šādas:

KonkurssMath
GradeSchoolMath
DialogSum
DuoRC
QASPER
KVALITĀTE
SummScreen
Zirneklis

MPT-30B-Tērzēšana

MPT-30B-Chat ir precīza MPT-30B versija dialoga ģenerēšanai. Tas ir pētniecības artefakts, kas izdots saskaņā ar CC-By-NC-SA-4.0 licenci, un tas ir atļauts tikai nekomerciālai lietošanai. Modelis tika precīzi noregulēts, izmantojot dažādas valodu datu kopas, tostarp:

Airoboros/GPT4-1.2
Beize
Kamielis
GPTskolotājs
Gvanako
Long Coversations
ShareGPT
WizardLM

LLM dala lielu daļu vairāku miljardu dolāru ģeneratīvais AI tirgus, kas ir piedzīvojis milzīgu izaugsmi pēc neilga laika pēc tam, kad ChatGPT pagājušajā gadā radīja revolūciju ainavā. MPT saime ir šīs revolūcijas pamatdaļa. Tuvākajā nākotnē mēs varam sagaidīt komerciāli pieejamus atvērtā pirmkoda modeļus, kas ir daudz jaudīgāki un efektīvāki nekā MPT saime.

Lai iegūtu jaunākās AI ziņas, apmeklējiet vietni apvienoties.ai.