Mākslīgais intelekts
Zephyr-7B: HuggingFace hiperoptimizētais LLM, kas izveidots uz Mistral 7B
Ievads
Atvērto lielo valodu modeļu (LLM) attīstība ir būtiski ietekmējusi AI pētnieku kopienu, jo īpaši tērzēšanas robotu un līdzīgu lietojumprogrammu izstrādē. Pēc tādu modeļu izlaišanas kā LLaMA ir pieaudzis pētniecība par efektīvu precizēšanu, paplašinātu tūlītēju apstrādi, izguves paplašināto ģenerēšanu (RAG) un kvantēšanu.
Piemēram, LLaMA modelis iezīmēja jaunu ēru precizēšanā un tūlītējā kontekstualizācijā, paverot ceļu nākamajiem modeļiem, piemēram, MosaicML MPT, Together AI's RedPajama-INCITE, TII's Falcon un Meta's Llama 2. Katrs no šiem modeļiem sniedz unikālas iespējas. , uzlabojot LLM vispārējo funkcionalitāti un darbības jomu.
Mistral AI, jaunuzņēmums no Parīzes un kuru dibināja bijušie Google DeepMind un Meta darbinieki, ir iemantojis savu pirmo piedāvājumu: Mistral 7B.
Mistral 7B priekšrocība ir tā efektivitāte, nodrošinot līdzīgas vai uzlabotas iespējas, salīdzinot ar līdzīgām ierīcēm, piemēram, Llama 2, taču ar mazāku skaitļošanas pieprasījumu.
Īpaši pielāgots mācību uzdevumiem, Mistral 7B Instruct spīd uz tādām platformām kā Hugging Face, kur tas pārspēj citus tāda paša izmēra modeļus un cieši konkurē ar tiem, kuru parametri ir gandrīz divreiz lielāki.
Balstoties uz to, tika ieviesta Hugging Face Zephyr 7B Alpha, kas parāda, ka precīzi noregulēts Mistral 7B patiešām var pārspēt ievērojami lielāku tērzēšanas modeļu iespējas un dažos uzdevumos pat konkurējošo GPT-4. "Alfa" bija tikai sākums, kā Zefīrs 7B Drīz sekoja Beta.
Šajā rakstā tiks pētīts, kā Zephyr 7B izmanto lielāku modeļu iespējas, lai uzlabotu savu spēju reaģēt un pielāgoties cilvēka norādījumiem — process ir iespējams, izmantojot zināšanu destilācijas paņēmienu. Šī metode ietver mazāku modeļu apmācību, izmantojot sarežģītos modeļus, ko apguvuši lielāki, samazinot apmācības prasības, nezaudējot valodas modelēšanas iespējas. Mēs iedziļināsimies Hugging Face zināšanu destilācijas pieejas specifikā.
Zināšanu destilācija
Galvenais jauninājums tādu modeļu izstrādē kā Zefīrs-7B ir destilēta uzraudzīta precīza regulēšana (dSFT). Šī metode ietver lielāka, spējīgāka “skolotāja” modeļa izvades izmantošanu, lai apmācītu mazāku “studenta” modeli, uzlabojot tā precizitāti. Lai gan destilācija uzlabo dažādu uzdevumu atvērtos modeļus, joprojām pastāv atšķirības sniegumā salīdzinājumā ar skolotāju modeļiem.
Zināšanu destilācija ir metode mašīna mācīšanās ja kompakts modelis, saukts par "students”, tiek mācīts atkārtot lielāku, sarežģītākuskolotājs” modelis. Šis paņēmiens ļauj audzēknim veikt uzdevumus, kas iepriekš nebija spējīgi, pārnesot skolotāja apgūtos sarežģītos modeļus.
Studentu modelis apmāca skolotāja modeļa radītās izvades varbūtības vai pazīmes, koncentrējoties uz šo rezultātu saskaņošanu, nevis tikai uz galīgajām prognozēm. Tas ļauj studentam apgūt niansētos skolotāja lēmumu pieņemšanas procesus, kā rezultātā bieži vien tiek uzlaboti sniegumi, salīdzinot ar apmācību, izmantojot tikai pamata patiesības datus.
Vēsturiski zināšanu destilācija ir izmantota tādos modeļos kā Hintona oriģinālie destilācijas tīkli un nesen NLP ar tādiem modeļiem kā DistilBERT, kas BERT modeli destilēja mazākā, ātrākā versijā, kas saglabā lielāko daļu oriģinālā valodas izpratnes iespēju. Vēl viens piemērs ir TinyBERT, kas iet tālāk, optimizējot izmēru un ātrumu mobilajām vai malas ierīcēm.
Zephyr-7B gadījumā zināšanu destilācija tiek izmantota, lai piesātinātu mazāku 7B parametru modeli ar tā lielāko kolēģu iespējām. Šādi rīkojoties, Zephyr-7B panāk līdzsvaru starp veiktspēju un efektivitāti, padarot to piemērotu vidēm, kur skaitļošanas resursi ir ierobežoti, nezaudējot mijiedarbības un izpratnes kvalitāti.
Izstrādājot Zephyr-7B, pētnieki risināja izaicinājumu izveidot nelielu atvērtu LLM pilnībā ar destilācijas palīdzību. Viņi ieviesa pieeju, ko sauc par destilētu tiešo preferenču optimizāciju (dDPO), kas izmanto AI atsauksmes no skolotāju modeļu ansambļa kā preferenču datus. Šī metode, kurai nav nepieciešama cilvēka anotācija, ievērojami samazina modeļu apmācībai nepieciešamo laiku un resursus.
ZEPHYR-7B būvniecība
Lai apstiprinātu dDPO, pētnieki izveidoja ZEPHYR-7B, saskaņotu versiju Mistral-7B modelis. Process ietvēra trīs soļus:
- dSFT, izmantojot UltraChat datu kopu:Distilled Supervised Fine-Tuning (dSFT) ir uzlabota metode lielu valodu modeļu (LLM) apmācīšanai, izmantojot lielāku, spējīgāku “skolotāju” modeļu izvadi. Tas sākas ar neapstrādātu LLM, kas ir apmācīts reaģēt uz lietotāja uzvednēm. Atšķirībā no tradicionālās uzraudzītās precizēšanas (SFT), kas izmanto fiksētu datu kopu, dSFT izmanto dinamisku pieeju, kurā modelis pats ģenerē instrukcijas un atbildes. Šī metode, kas pazīstama kā pašmācība, ietver skolotāja modeļa izmantošanu, lai gan atbildētu, gan precizētu uz atbildēm balstītus norādījumus. Process sākas ar sākuma uzvedņu kopu (x₀₁, x₀₂, …, x₀_J), kas atspoguļo dažādas tēmas. Katra uzvedne tiek precizēta iteratīvi: noteiktai uzvednei x₀ skolotāja modelis ģenerē atbildi y₀, un pēc tam tiek atlasīta jauna instrukcija x₁, pamatojoties uz x₀ un y₀. Galīgo datu kopu C = {(x₁, y₁), …, (x_J, y_J)} izmanto modeļa precizēšanai.
- Iekļauti AI atgriezeniskās saites dati no UltraFeedback: Šie dati bija ļoti svarīgi, lai uzlabotu modeļa atbildes. Šajā darbībā modelis ģenerē atbildes uz dažādām uzvednēm (piemēram, aprakstu, kā pagatavot šokolādes cepumus), kuras pēc tam klasificē pēc uzlabotā modeļa, piemēram, GPT-4. Visaugstākā atbilde (yw) un nejauši izvēlēta atbilde ar zemāku punktu skaitu (yl) veido atgriezeniskās saites datu kopu D.
- dDPO piemērošana: Pēdējā fāze, destilēta tiešā preferenču optimizācija (dDPO), ietver dSFT modeļa uzlabošanu, palielinot varbūtību, ka vēlamās atbildes tiks klasificētas augstāk. Tas tiek panākts, preferenču modelī izmantojot atlīdzības funkciju rθ(x, y), kuras pamatā ir optimālā LLM politika π* un sākotnējā politika πdSFT. Optimizācijas mērķis ir formulēts šādi: πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), kas vienkāršo apmācības procesu, sākot ar modeļa dSFT versiju un atkārtojot katru AIF trīskāršu.
Jāatzīmē, ka Zephyr-7B veiktspēja ir salīdzināma ar daudz lielākiem 70B parametru modeļiem, kas saskaņoti ar cilvēku atsauksmēm. Tas izceļas gan ar akadēmiskiem etaloniem, gan sarunvalodas spējām, izceļot priekšrocību mācīšanās efektivitāti modeļu izstrādē. Plašākai izpētei modeļi, kods un instrukcijas ir pieejamas vietnē Hugging Face's GitHub krātuve.
Nodomu saskaņošanas izaicinājuma risināšana
Ievērojama problēma saistībā ar LLM ir viņu saskaņošana ar cilvēka nodomiem. Iepriekšējie modeļi bieži nesniedza atbildes, kas atbilst lietotāju vēlmēm, kā rezultātā tika sniegtas neprecīzas vai neatbilstošas atbildes. Tomēr jaunākie kritēriji, piemēram, MT-Bench un AlpacaEval, ir nodrošinājuši rīkus, lai kvantitatīvi noteiktu un uzlabotu šo aspektu, uzsverot patentētu modeļu izcilāko veiktspēju, kas apmācītas, izmantojot cilvēku atgriezenisko saiti, salīdzinājumā ar tiem, kas apmācīti tikai destilācijas ceļā.
Novērtēšanas metodes
Zephyr 7B novērtējums ietvēra stingru testēšanu visos etalonos, kas novērtē modeļa sarunvalodas spējas gan viena, gan vairāku apgriezienu kontekstā:
- MT-Bench: šim vairāku pagriezienu etalonam ir nepieciešams modelis, kas atbilst 160 jautājumiem, kas aptver astoņus domēnus. Katra atbilde tiek novērtēta pēc GPT-4, un modeļa gala rezultāts atspoguļo vidējo divu jautājumu kārtu rādītāju.
- AlpakaEval: šajā viena pagrieziena etalonā modelim ir 805 jautājumi par dažādām tēmām. Šeit galvenā uzmanība tiek pievērsta modeļa izpalīdzībai, GPT-4 novērtējot atbildes, lai noteiktu salīdzinošo uzvaras līmeni.
Turklāt Zephyr 7B tika pārbaudīts Open LLM līderu sarakstā, kas, lai gan nav tiešs sarunvalodas prasmju novērtējums, sniedz ieskatu modeļa argumentācijā un patiesumā pēc precizēšanas.
Zephyr 7B tika salīdzināts ar dažādiem atvērtiem un patentētiem modeļiem, tostarp tiem, kuriem ir dažādi izmēri un izlīdzināšanas metodes. Tas noteica jaunus etalonus 7B modeļiem MT-Bench un AlpacaEval un parādīja konkurētspējīgu veiktspēju salīdzinājumā ar lielākiem modeļiem, apstiprinot tiešās preferenču optimizācijas (dDPO) efektivitāti apmācībā.
SFT un DPO apmācības fāzes tika rūpīgi konfigurētas, aptverot vairākus laikmetus un precizējot mācīšanās ātrumus un partijas lielumus optimālai veiktspējai. Pēdējais Zephyr modelis izrādījās ne tikai izturīgs pret pārmērīgu pielāgošanu, bet arī uzlabojās praktisko uzdevumu un akadēmisko etalonu veikšanā.
Datu kopas un rezultāti
Izmantotās datu kopas
Veiktspēja un rezultāti
Zemāk redzamā diagramma ilustrē Zephyr 7B veiktspēju dažādās uzdevumu kategorijās salīdzinājumā ar citiem modeļiem, piemēram, GPT-3.5-turbo, Claude 1, GPT-4 un Llama-2-70b-chat. Kategorijas var ietvert rakstīšanu, humanitārās zinātnes, lomu spēles, spriešanu, STEM, ekstrakciju, kodēšanu un matemātiku.
No diagrammas mēs varam secināt, kuros domēnos Zephyr 7B izceļas un kuros domēnos varētu būt nepieciešami turpmāki uzlabojumi. Piemēram, ja Zephyr līnija stiepjas tālāk uz rakstīšanas ass, salīdzinot ar citām, tas liecina, ka Zephyr ir īpaši spēcīgs rakstiska satura veidošanā. Un otrādi, ja līnija atrodas tuvāk matemātikas ass centram, tas var norādīt uz relatīvu vājumu matemātikas uzdevumu risināšanā.
Radara diagramma palīdz identificēt Zephyr 7B stiprās un vājās puses, sniedzot vizuālu priekšstatu par to, kur tas ir salīdzinājumā ar lielākiem modeļiem, piemēram, GPT-4 un specializētiem modeļiem, piemēram, Llama-2-70b-chat.
Dažādu valodu modeļu salīdzināšana ar diviem etaloniem: MT-Bench un AlpacaEval. Modeļi tiek novērtēti, pamatojoties uz to izmēru, izlīdzināšanas metodi (piemēram, dSFT destilētai uzraudzītai precizēšanai vai dDPO destilētai tiešai preferenču optimizācijai) un veiktspējas rādītājiem. Zephyr izceļas ar augstiem rādītājiem abos etalonos, kas liecina par tā efektivitāti saskaņotu atbilžu ģenerēšanā.
Secinājumi
Visbeidzot, Zephyr-7B izstrāde parāda, ka sarunvalodas spēju pielīdzināšanu un destilāciju no liela valodas modeļa (LLM) uz mazāku modeli var panākt, nepaļaujoties uz paraugu ņemšanas metodēm. Izmantojot tiešo preferenču optimizāciju (DPO) ar AI atgriezenisko saiti, Zephyr-7B izmanto spēcīgo Mistral-7B pamatu, lai iestatītu jaunu etalonu 7B parametru tērzēšanas modeļiem, demonstrējot mazāku atvērtā koda modeļu spēju saprast lietotāju un reaģēt uz to. efektīvi.
Tomēr šis pētījums nav bez ierobežojumiem. Paļaušanās uz GPT-4 kā etalonu vērtētāju ievieš neobjektivitāti pret modeļiem, kas ir atdalīti no tā, potenciāli dodot priekšroku precīzām atbildēm. Turklāt šīs metodes mērogojamība uz lielākiem modeļiem, piemēram, LLAMA2-70B, un tās ietekme uz veiktspējas pieaugumu joprojām ir turpmākas izpētes jomas. Šie ierobežojumi uzsver nepieciešamību pēc nepārtrauktas inovācijas un objektīvu novērtēšanas metožu izstrādes AI kopienā.
Raugoties ārpus pētījuma, ir acīmredzams, ka mazāku modeļu potenciāls darboties lielāku līdzinieku līmenī var demokratizēt AI, ļaujot to izmantot dažādās lietojumprogrammās pieejamāk un efektīvāk. Zephyr-7B panākumi mudina turpināt atklātā pirmkoda modeļu izpēti, kas var paātrināt AI progresu, veicinot kopīgu pētniecību un izstrādi.