Mākslīgais intelekts

Zephyr-7B: HuggingFace hiperoptimizētais LLM, kas izveidots uz Mistral 7B

Atjaunināts on Novembris 23, 2023

Ievads

Atvērto lielo valodu modeļu (LLM) attīstība ir būtiski ietekmējusi AI pētnieku kopienu, jo īpaši tērzēšanas robotu un līdzīgu lietojumprogrammu izstrādē. Pēc tādu modeļu izlaišanas kā LLaMA ir pieaudzis pētniecība par efektīvu precizēšanu, paplašinātu tūlītēju apstrādi, izguves paplašināto ģenerēšanu (RAG) un kvantēšanu.

Piemēram, LLaMA modelis iezīmēja jaunu ēru precizēšanā un tūlītējā kontekstualizācijā, paverot ceļu nākamajiem modeļiem, piemēram, MosaicML MPT, Together AI's RedPajama-INCITE, TII's Falcon un Meta's Llama 2. Katrs no šiem modeļiem sniedz unikālas iespējas. , uzlabojot LLM vispārējo funkcionalitāti un darbības jomu.

Mistral AI, jaunuzņēmums no Parīzes un kuru dibināja bijušie Google DeepMind un Meta darbinieki, ir iemantojis savu pirmo piedāvājumu: Mistral 7B.

Mistral 7B priekšrocība ir tā efektivitāte, nodrošinot līdzīgas vai uzlabotas iespējas, salīdzinot ar līdzīgām ierīcēm, piemēram, Llama 2, taču ar mazāku skaitļošanas pieprasījumu.

Īpaši pielāgots mācību uzdevumiem, Mistral 7B Instruct spīd uz tādām platformām kā Hugging Face, kur tas pārspēj citus tāda paša izmēra modeļus un cieši konkurē ar tiem, kuru parametri ir gandrīz divreiz lielāki.

Balstoties uz to, tika ieviesta Hugging Face Zephyr 7B Alpha, kas parāda, ka precīzi noregulēts Mistral 7B patiešām var pārspēt ievērojami lielāku tērzēšanas modeļu iespējas un dažos uzdevumos pat konkurējošo GPT-4. "Alfa" bija tikai sākums, kā Zefīrs 7B Drīz sekoja Beta.

Šajā rakstā tiks pētīts, kā Zephyr 7B izmanto lielāku modeļu iespējas, lai uzlabotu savu spēju reaģēt un pielāgoties cilvēka norādījumiem — process ir iespējams, izmantojot zināšanu destilācijas paņēmienu. Šī metode ietver mazāku modeļu apmācību, izmantojot sarežģītos modeļus, ko apguvuši lielāki, samazinot apmācības prasības, nezaudējot valodas modelēšanas iespējas. Mēs iedziļināsimies Hugging Face zināšanu destilācijas pieejas specifikā.

Zināšanu destilācija

Galvenais jauninājums tādu modeļu izstrādē kā Zefīrs-7B ir destilēta uzraudzīta precīza regulēšana (dSFT). Šī metode ietver lielāka, spējīgāka “skolotāja” modeļa izvades izmantošanu, lai apmācītu mazāku “studenta” modeli, uzlabojot tā precizitāti. Lai gan destilācija uzlabo dažādu uzdevumu atvērtos modeļus, joprojām pastāv atšķirības sniegumā salīdzinājumā ar skolotāju modeļiem.

Zināšanu destilācija ir metode mašīna mācīšanās ja kompakts modelis, saukts par "students”, tiek mācīts atkārtot lielāku, sarežģītākuskolotājs” modelis. Šis paņēmiens ļauj audzēknim veikt uzdevumus, kas iepriekš nebija spējīgi, pārnesot skolotāja apgūtos sarežģītos modeļus.

Zināšanu destilācija,| Skolotāja-Skolēna modelis

Zināšanas Destilācija | Skolotāja-Skolēna modelis

Studentu modelis apmāca skolotāja modeļa radītās izvades varbūtības vai pazīmes, koncentrējoties uz šo rezultātu saskaņošanu, nevis tikai uz galīgajām prognozēm. Tas ļauj studentam apgūt niansētos skolotāja lēmumu pieņemšanas procesus, kā rezultātā bieži vien tiek uzlaboti sniegumi, salīdzinot ar apmācību, izmantojot tikai pamata patiesības datus.

Vēsturiski zināšanu destilācija ir izmantota tādos modeļos kā Hintona oriģinālie destilācijas tīkli un nesen NLP ar tādiem modeļiem kā DistilBERT, kas BERT modeli destilēja mazākā, ātrākā versijā, kas saglabā lielāko daļu oriģinālā valodas izpratnes iespēju. Vēl viens piemērs ir TinyBERT, kas iet tālāk, optimizējot izmēru un ātrumu mobilajām vai malas ierīcēm.

Zephyr-7B gadījumā zināšanu destilācija tiek izmantota, lai piesātinātu mazāku 7B parametru modeli ar tā lielāko kolēģu iespējām. Šādi rīkojoties, Zephyr-7B panāk līdzsvaru starp veiktspēju un efektivitāti, padarot to piemērotu vidēm, kur skaitļošanas resursi ir ierobežoti, nezaudējot mijiedarbības un izpratnes kvalitāti.

Izstrādājot Zephyr-7B, pētnieki risināja izaicinājumu izveidot nelielu atvērtu LLM pilnībā ar destilācijas palīdzību. Viņi ieviesa pieeju, ko sauc par destilētu tiešo preferenču optimizāciju (dDPO), kas izmanto AI atsauksmes no skolotāju modeļu ansambļa kā preferenču datus. Šī metode, kurai nav nepieciešama cilvēka anotācija, ievērojami samazina modeļu apmācībai nepieciešamo laiku un resursus.

ZEPHYR-7B būvniecība

Lai apstiprinātu dDPO, pētnieki izveidoja ZEPHYR-7B, saskaņotu versiju Mistral-7B modelis. Process ietvēra trīs soļus:

dSFT, izmantojot UltraChat datu kopu:Distilled Supervised Fine-Tuning (dSFT) ir uzlabota metode lielu valodu modeļu (LLM) apmācīšanai, izmantojot lielāku, spējīgāku “skolotāju” modeļu izvadi. Tas sākas ar neapstrādātu LLM, kas ir apmācīts reaģēt uz lietotāja uzvednēm. Atšķirībā no tradicionālās uzraudzītās precizēšanas (SFT), kas izmanto fiksētu datu kopu, dSFT izmanto dinamisku pieeju, kurā modelis pats ģenerē instrukcijas un atbildes. Šī metode, kas pazīstama kā pašmācība, ietver skolotāja modeļa izmantošanu, lai gan atbildētu, gan precizētu uz atbildēm balstītus norādījumus. Process sākas ar sākuma uzvedņu kopu (x₀₁, x₀₂, …, x₀_J), kas atspoguļo dažādas tēmas. Katra uzvedne tiek precizēta iteratīvi: noteiktai uzvednei x₀ skolotāja modelis ģenerē atbildi y₀, un pēc tam tiek atlasīta jauna instrukcija x₁, pamatojoties uz x₀ un y₀. Galīgo datu kopu C = {(x₁, y₁), …, (x_J, y_J)} izmanto modeļa precizēšanai.
Iekļauti AI atgriezeniskās saites dati no UltraFeedback: Šie dati bija ļoti svarīgi, lai uzlabotu modeļa atbildes. Šajā darbībā modelis ģenerē atbildes uz dažādām uzvednēm (piemēram, aprakstu, kā pagatavot šokolādes cepumus), kuras pēc tam klasificē pēc uzlabotā modeļa, piemēram, GPT-4. Visaugstākā atbilde (yw) un nejauši izvēlēta atbilde ar zemāku punktu skaitu (yl) veido atgriezeniskās saites datu kopu D.
dDPO piemērošana: Pēdējā fāze, destilēta tiešā preferenču optimizācija (dDPO), ietver dSFT modeļa uzlabošanu, palielinot varbūtību, ka vēlamās atbildes tiks klasificētas augstāk. Tas tiek panākts, preferenču modelī izmantojot atlīdzības funkciju rθ(x, y), kuras pamatā ir optimālā LLM politika π* un sākotnējā politika πdSFT. Optimizācijas mērķis ir formulēts šādi: πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), kas vienkāršo apmācības procesu, sākot ar modeļa dSFT versiju un atkārtojot katru AIF trīskāršu.

Zephyr-7B izmantotā metode atspoguļo InstructGPT izmantotos procesus.

Jāatzīmē, ka Zephyr-7B veiktspēja ir salīdzināma ar daudz lielākiem 70B parametru modeļiem, kas saskaņoti ar cilvēku atsauksmēm. Tas izceļas gan ar akadēmiskiem etaloniem, gan sarunvalodas spējām, izceļot priekšrocību mācīšanās efektivitāti modeļu izstrādē. Plašākai izpētei modeļi, kods un instrukcijas ir pieejamas vietnē Hugging Face's GitHub krātuve.

Nodomu saskaņošanas izaicinājuma risināšana

Ievērojama problēma saistībā ar LLM ir viņu saskaņošana ar cilvēka nodomiem. Iepriekšējie modeļi bieži nesniedza atbildes, kas atbilst lietotāju vēlmēm, kā rezultātā tika sniegtas neprecīzas vai neatbilstošas atbildes. Tomēr jaunākie kritēriji, piemēram, MT-Bench un AlpacaEval, ir nodrošinājuši rīkus, lai kvantitatīvi noteiktu un uzlabotu šo aspektu, uzsverot patentētu modeļu izcilāko veiktspēju, kas apmācītas, izmantojot cilvēku atgriezenisko saiti, salīdzinājumā ar tiem, kas apmācīti tikai destilācijas ceļā.

Novērtēšanas metodes

Zephyr 7B novērtējums ietvēra stingru testēšanu visos etalonos, kas novērtē modeļa sarunvalodas spējas gan viena, gan vairāku apgriezienu kontekstā:

MT-Bench: šim vairāku pagriezienu etalonam ir nepieciešams modelis, kas atbilst 160 jautājumiem, kas aptver astoņus domēnus. Katra atbilde tiek novērtēta pēc GPT-4, un modeļa gala rezultāts atspoguļo vidējo divu jautājumu kārtu rādītāju.
AlpakaEval: šajā viena pagrieziena etalonā modelim ir 805 jautājumi par dažādām tēmām. Šeit galvenā uzmanība tiek pievērsta modeļa izpalīdzībai, GPT-4 novērtējot atbildes, lai noteiktu salīdzinošo uzvaras līmeni.

Turklāt Zephyr 7B tika pārbaudīts Open LLM līderu sarakstā, kas, lai gan nav tiešs sarunvalodas prasmju novērtējums, sniedz ieskatu modeļa argumentācijā un patiesumā pēc precizēšanas.

Zephyr 7B tika salīdzināts ar dažādiem atvērtiem un patentētiem modeļiem, tostarp tiem, kuriem ir dažādi izmēri un izlīdzināšanas metodes. Tas noteica jaunus etalonus 7B modeļiem MT-Bench un AlpacaEval un parādīja konkurētspējīgu veiktspēju salīdzinājumā ar lielākiem modeļiem, apstiprinot tiešās preferenču optimizācijas (dDPO) efektivitāti apmācībā.

SFT un DPO apmācības fāzes tika rūpīgi konfigurētas, aptverot vairākus laikmetus un precizējot mācīšanās ātrumus un partijas lielumus optimālai veiktspējai. Pēdējais Zephyr modelis izrādījās ne tikai izturīgs pret pārmērīgu pielāgošanu, bet arī uzlabojās praktisko uzdevumu un akadēmisko etalonu veikšanā.

Datu kopas un rezultāti

Izmantotās datu kopas

Izstrādājot Zephyr-7B, modeļa apmācīšanai un pilnveidošanai tika izmantotas divas galvenās datu kopas, katra risina dažādus dialoga veidošanas aspektus:

UltraChat datu kopa

avots: Izstrādāts no GPT-3.5-TURBO ģenerētajiem dialogiem.
Saturs: satur 1.47 miljonus vairāku apgriezienu dialogu par 30 tēmām un 20 teksta materiāla veidiem.
Precizējums: datu kopai tika veikta īsto burtu heiristika, lai labotu gramatikas problēmas, un tika izmantoti filtri, lai palielinātu atbilžu noderīgumu un novērstu nederīgas ievadfrāzes.

UltraFeedback datu kopa

avots: ietver GPT-4 novērtētās uzvednes, kurās atbildes tika novērtētas, pamatojoties uz norādījumu ievērošanu, godīgumu un izpalīdzību.
Saturs: Ietver 64,000 4 uzvedņu ar četrām atbildēm katrā, kas novērtētas pēc GPT-XNUMX.
Binārās preferences: ģenerēts, izvēloties atbildi ar augstāko vidējo punktu skaitu kā “izvēlēta” un nejaušu atbildi no pārējām kā “noraidīta”, lai uzlabotu daudzveidību un izaicinātu tiešās preferenču optimizācijas (DPO) procesu.

Abas datu kopas ir ļoti svarīgas, lai apmācītu Zephyr-7B, lai izprastu un radītu cilvēkiem līdzīgu dialogu, kas seko norādījumiem, ir godīgs un noderīgs. Šīs datu kopas ir pieejamas Hugging Face Hub, kuram varat piekļūt šeit.

Veiktspēja un rezultāti

Zemāk redzamā diagramma ilustrē Zephyr 7B veiktspēju dažādās uzdevumu kategorijās salīdzinājumā ar citiem modeļiem, piemēram, GPT-3.5-turbo, Claude 1, GPT-4 un Llama-2-70b-chat. Kategorijas var ietvert rakstīšanu, humanitārās zinātnes, lomu spēles, spriešanu, STEM, ekstrakciju, kodēšanu un matemātiku.

No diagrammas mēs varam secināt, kuros domēnos Zephyr 7B izceļas un kuros domēnos varētu būt nepieciešami turpmāki uzlabojumi. Piemēram, ja Zephyr līnija stiepjas tālāk uz rakstīšanas ass, salīdzinot ar citām, tas liecina, ka Zephyr ir īpaši spēcīgs rakstiska satura veidošanā. Un otrādi, ja līnija atrodas tuvāk matemātikas ass centram, tas var norādīt uz relatīvu vājumu matemātikas uzdevumu risināšanā.

Radara diagramma palīdz identificēt Zephyr 7B stiprās un vājās puses, sniedzot vizuālu priekšstatu par to, kur tas ir salīdzinājumā ar lielākiem modeļiem, piemēram, GPT-4 un specializētiem modeļiem, piemēram, Llama-2-70b-chat.

Modeļa veiktspējas radara diagramma

Dažādu valodu modeļu salīdzināšana ar diviem etaloniem: MT-Bench un AlpacaEval. Modeļi tiek novērtēti, pamatojoties uz to izmēru, izlīdzināšanas metodi (piemēram, dSFT destilētai uzraudzītai precizēšanai vai dDPO destilētai tiešai preferenču optimizācijai) un veiktspējas rādītājiem. Zephyr izceļas ar augstiem rādītājiem abos etalonos, kas liecina par tā efektivitāti saskaņotu atbilžu ģenerēšanā.

MT-Bench un AlpacaEval

Secinājumi

Visbeidzot, Zephyr-7B izstrāde parāda, ka sarunvalodas spēju pielīdzināšanu un destilāciju no liela valodas modeļa (LLM) uz mazāku modeli var panākt, nepaļaujoties uz paraugu ņemšanas metodēm. Izmantojot tiešo preferenču optimizāciju (DPO) ar AI atgriezenisko saiti, Zephyr-7B izmanto spēcīgo Mistral-7B pamatu, lai iestatītu jaunu etalonu 7B parametru tērzēšanas modeļiem, demonstrējot mazāku atvērtā koda modeļu spēju saprast lietotāju un reaģēt uz to. efektīvi.

Tomēr šis pētījums nav bez ierobežojumiem. Paļaušanās uz GPT-4 kā etalonu vērtētāju ievieš neobjektivitāti pret modeļiem, kas ir atdalīti no tā, potenciāli dodot priekšroku precīzām atbildēm. Turklāt šīs metodes mērogojamība uz lielākiem modeļiem, piemēram, LLAMA2-70B, un tās ietekme uz veiktspējas pieaugumu joprojām ir turpmākas izpētes jomas. Šie ierobežojumi uzsver nepieciešamību pēc nepārtrauktas inovācijas un objektīvu novērtēšanas metožu izstrādes AI kopienā.

Raugoties ārpus pētījuma, ir acīmredzams, ka mazāku modeļu potenciāls darboties lielāku līdzinieku līmenī var demokratizēt AI, ļaujot to izmantot dažādās lietojumprogrammās pieejamāk un efektīvāk. Zephyr-7B panākumi mudina turpināt atklātā pirmkoda modeļu izpēti, kas var paātrināt AI progresu, veicinot kopīgu pētniecību un izstrādi.

Saistītās tēmas:GPT LLM Mistral 7B zefīrs Zefīrs-7B

Nākošais

Fiziskie ierobežojumi veicina smadzenēm līdzīgā AI attīstību

Nepalaidiet garām

7 veidi, kā zvanu centri izmanto AI, lai atbrīvotu laiku saviem aģentiem un klientiem

Ājušs Mitāls

Pēdējos piecus gadus esmu pavadījis, iegremdējot sevi aizraujošajā mašīnmācīšanās un dziļās mācīšanās pasaulē. Mana aizraušanās un pieredze lika man piedalīties vairāk nekā 50 dažādos programmatūras inženierijas projektos, īpašu uzmanību pievēršot AI/ML. Mana pastāvīgā ziņkārība mani ir piesaistījusi arī dabiskās valodas apstrādei, jomai, kuru vēlos izpētīt tālāk.

Apvienojieties.AI

Zephyr-7B: HuggingFace hiperoptimizētais LLM, kas izveidots uz Mistral 7B

Mākslīgais intelekts

Zephyr-7B: HuggingFace hiperoptimizētais LLM, kas izveidots uz Mistral 7B

Satura rādītājs

Ievads

Zināšanu destilācija

ZEPHYR-7B būvniecība

Nodomu saskaņošanas izaicinājuma risināšana

Novērtēšanas metodes

Datu kopas un rezultāti

Secinājumi

Jaunākās publikācijas

Apvienojieties.AI

Zephyr-7B: HuggingFace hiperoptimizētais LLM, kas izveidots uz Mistral 7B

Satura rādītājs

Ievads

Zināšanu destilācija

ZEPHYR-7B būvniecība

Nodomu saskaņošanas izaicinājuma risināšana

Novērtēšanas metodes

Datu kopas un rezultāti

Secinājumi

Jums varētu patikt

Jaunākās publikācijas