škrbina Zephyr-7B : HuggingFaceov hiper-optimiziran LLM, zgrajen na vrhu Mistrala 7B – Unite.AI
Povežite se z nami

Umetna inteligenca

Zephyr-7B : HuggingFaceov hiper-optimiziran LLM, zgrajen na vrhu Mistrala 7B

mm
Posodobljeno on
Zypher 7B

Predstavitev

Razvoj odprtih velikih jezikovnih modelov (LLM) je močno vplival na raziskovalno skupnost AI, zlasti pri razvoju chatbotov in podobnih aplikacij. Po izdaji modelov, kot je LLaMA, je prišlo do porasta raziskav o učinkoviti fini nastavitvi, razširjenem hitrem ravnanju, generiranju razširjenega pridobivanja (RAG) in kvantizaciji.

Model LLaMA je na primer zaznamoval novo dobo v natančnem prilagajanju in hitri kontekstualizaciji ter utrl pot naslednjim modelom, kot so MPT podjetja MosaicML, RedPajama-INCITE podjetja Together AI, Falcon podjetja TII in Llama 2 podjetja Meta. Vsak od teh modelov prispeva edinstvene zmogljivosti , izboljšanje splošne funkcionalnosti in obsega LLM.

Mistral AI, startup iz Pariza, ki so ga ustanovili nekdanji zaposleni pri Google DeepMind in Meta, je zaslovel s svojo prvo ponudbo: Mistral 7B.

Prednost Mistrala 7B je v njegovi učinkovitosti, saj zagotavlja podobne ali izboljšane zmogljivosti v primerjavi z enakovrednimi napravami, kot je Llama 2, vendar z manjšo računalniško zahtevo.

Mistral 7B Instruct, ki je posebej prilagojen za naloge poučevanja, blesti na platformah, kot je Hugging Face, kjer prekaša druge modele enake velikosti in tesno tekmuje s tistimi, ki imajo skoraj dvojne parametre.

Na podlagi tega smo predstavili Hugging Face Zephyr 7B Alpha, ki prikazuje, da lahko natančno nastavljeni Mistral 7B dejansko preseže zmogljivosti znatno večjih modelov za klepet in se pri nekaterih nalogah celo kosa z GPT-4. "Alpha" je bil šele začetek, kot Zephyr 7B Beta je sledila kmalu.

Ta članek bo raziskal, kako Zephyr 7B izkorišča moč večjih modelov za izboljšanje svoje sposobnosti odzivanja in usklajevanja s človeškimi navodili, proces, ki ga omogoča tehnika destilacije znanja. Ta metoda vključuje usposabljanje manjših modelov na kompleksnih vzorcih, ki so se jih naučili večji, s čimer se zmanjšajo zahteve po usposabljanju brez žrtvovanja zmožnosti jezikovnega modeliranja. Poglobili se bomo v posebnosti pristopa destilacije znanja Hugging Face.

Destilacija znanja

Ključna novost pri razvoju modelov, kot je Zefir-7B je destilirano nadzorovano fino uravnavanje (dSFT). Ta metoda vključuje uporabo rezultatov iz večjega, zmogljivejšega modela 'učitelja' za usposabljanje manjšega modela 'učenca', s čimer se izboljša njegova natančnost. Medtem ko destilacija izboljša odprte modele pri različnih nalogah, še vedno obstaja vrzel v zmogljivosti v primerjavi z modeli učiteljev.

Destilacija znanja je metoda v strojnem učenju, kjer kompaktni model, imenovan »študent,« se nauči posnemati delovanje večjega, bolj zapletenega »Učitelj” model. Ta tehnika omogoča učencu, da izvaja naloge, ki so prej presegale njegove zmožnosti, s prenosom zapletenih vzorcev, ki se jih je naučil učitelj.

Destilacija znanja,| Model učitelj-učenec

Destilacija znanja | Model učitelj-učenec

Študentski model se usposablja na izhodnih verjetnostih ali značilnostih, ki jih ustvari učiteljev model, pri čemer se osredotoča na ujemanje teh izhodov in ne le na končne napovedi. To študentu omogoča, da se nauči niansiranih procesov odločanja učitelja, kar pogosto povzroči izboljšano uspešnost v primerjavi z usposabljanjem samo z osnovnimi resničnimi podatki.

Zgodovinsko gledano je bila destilacija znanja uporabljena v modelih, kot so Hintonova prvotna destilacijska omrežja, in nedavno v NLP z modeli, kot je DistilBERT, ki je model BERT destiliral v manjšo, hitrejšo različico, ki ohranja večino zmožnosti razumevanja jezika izvirnika. Drug primer je TinyBERT, ki gre še dlje pri optimizaciji velikosti in hitrosti za mobilne ali robne naprave.

V primeru Zephyr-7B je destilacija znanja uporabljena za prepolnitev manjšega parametrskega modela 7B z zmogljivostmi njegovih večjih primerkov. S tem dosega Zephyr-7B ravnovesje med zmogljivostjo in učinkovitostjo, zaradi česar je primeren za okolja, kjer so računalniški viri omejeni, ne da bi pri tem žrtvovali kakovost interakcije in razumevanja.

Pri razvoju Zephyr-7B so se raziskovalci lotili izziva poravnave majhne odprte LLM v celoti z destilacijo. Uvedli so pristop, imenovan destilirana direktna optimizacija preferenc (dDPO), ki kot podatke o preferencah uporablja povratne informacije AI iz niza modelov učiteljev. Ta metoda, ki ne zahteva človeške opombe, znatno skrajša čas in vire, potrebne za usposabljanje modela.

Izdelava ZEPHYR-7B

Za potrditev dDPO so raziskovalci izdelali ZEPHYR-7B, usklajeno različico Model Mistral-7B. Postopek je vključeval tri korake:

  1. dSFT z uporabo nabora podatkov UltraChat:Destilled Supervised Fine-Tuning (dSFT) je napredna metoda za usposabljanje velikih jezikovnih modelov (LLM) z izkoriščanjem rezultatov večjih, zmogljivejših modelov »učitelja«. Začne se z neobdelanim LLM, ki je usposobljen za odzivanje na uporabniške pozive. Za razliko od tradicionalne nadzorovane natančne nastavitve (SFT), ki uporablja fiksni nabor podatkov, dSFT uporablja dinamičen pristop, kjer model sam ustvarja navodila in odzive. Ta metoda, znana kot samopoučevanje, vključuje uporabo modela učitelja za odgovarjanje in izboljšanje navodil na podlagi odgovorov. Postopek se začne z nizom začetnih pozivov (x₀₁, x₀₂, …, x₀_J), ki predstavljajo različne teme. Vsak poziv je iterativno izboljšan: za dani poziv x₀ model učitelja generira odgovor y₀, nato pa se novo navodilo x₁ vzorči na podlagi x₀ in y₀. Končni nabor podatkov C = {(x₁, y₁), …, (x_J, y_J)} se uporablja za natančno nastavitev modela.
  2. Vključuje povratne podatke AI iz UltraFeedback: Ti podatki so bili ključni za izboljšanje odzivov modela. V tem koraku model generira odgovore na različne pozive (kot je opis, kako narediti čokoladne piškote), ki jih nato razvrsti naprednejši model, kot je GPT-4. Odgovor z najvišjo oceno (yw) in naključno izbran odziv z nižjo oceno (yl) tvorita nabor povratnih podatkov D.
  3. Uporaba dDPO: Zadnja faza, destilirana neposredna prednostna optimizacija (dDPO), vključuje izboljšanje modela dSFT z maksimiranjem verjetnosti višjega rangiranja prednostnih odgovorov. To dosežemo z uporabo funkcije nagrajevanja rθ(x, y) v modelu preferenc, ki temelji na optimalni politiki LLM π* in izvirni politiki πdSFT. Cilj optimizacije je formuliran kot πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), ki poenostavi proces usposabljanja tako, da se začne z dSFT različico modela in ponovi skozi vsako trojko AIF.
Metoda, uporabljena v Zephyr-7B, zrcali postopke, uporabljene v InstructGPT.

Metoda, uporabljena v Zephyr-7B, zrcali postopke, uporabljene v InstructGPT.

Izjemno je, da Zephyr-7B dosega zmogljivost, ki je primerljiva z veliko večjimi modeli parametrov 70B, ki so usklajeni s človeškimi povratnimi informacijami. Odlikuje ga tako v akademskih merilih uspešnosti kot v pogovornih zmožnostih, pri čemer poudarja učinkovitost prednostnega učenja pri razvoju modela. Za nadaljnje raziskovanje so modeli, koda in navodila na voljo na Repozitorij GitHub Hugging Face.

Obravnavanje izziva usklajevanja namenov

Pomembna skrb pri LLM je bila njihova usklajenost s človeškimi nameni. Prejšnji modeli pogosto niso uspeli ustvariti odgovorov, ki bi se ujemali z nastavitvami uporabnikov, kar je vodilo do netočnih ali nepomembnih odgovorov. Vendar so nedavna merila uspešnosti, kot sta MT-Bench in AlpacaEval, zagotovila orodja za količinsko opredelitev in izboljšanje tega vidika, pri čemer so poudarili vrhunsko zmogljivost lastniških modelov, usposobljenih s človeškimi povratnimi informacijami, v primerjavi s tistimi, ki so usposobljeni izključno z destilacijo.

Metode vrednotenja

Vrednotenje Zephyrja 7B je vključevalo strogo testiranje med merili uspešnosti, ki ocenjujejo pogovorne zmožnosti modela tako v kontekstu z enim kot večkratnim obratom:

  • MT-Klop: To večstopenjsko merilo uspešnosti zahteva model za obravnavanje 160 vprašanj, ki zajemajo osem področij. Vsak odgovor je ocenjen z GPT-4, pri čemer končna ocena modela odraža povprečje dveh krogov vprašanj.
  • AlpacaEval: V tem merilu uspešnosti z enim obratom je model predstavljen z 805 vprašanji za različne teme. Tu je poudarek na uporabnosti modela, pri čemer GPT-4 točkuje odgovore za določitev primerjalne stopnje zmage.

Poleg tega je bil Zephyr 7B preizkušen na lestvici Open LLM Leaderboard, ki sicer ni neposredna ocena pogovornih sposobnosti, vendar ponuja vpogled v sklepanje in resničnost modela po natančnem prilagajanju.

Zephyr 7B so primerjali z različnimi odprtimi in lastniškimi modeli, vključno s tistimi z različnimi velikostmi in načini poravnave. Vzpostavil je nova merila uspešnosti za modele 7B na MT-Bench in AlpacaEval ter pokazal konkurenčno zmogljivost v primerjavi z večjimi modeli, s čimer je potrdil učinkovitost neposredne optimizacije preferenc (dDPO) pri usposabljanju.

Fazi usposabljanja SFT in DPO sta bili natančno konfigurirani, zajemata več obdobij in natančno prilagajata stopnje učenja ter velikosti serij za optimalno delovanje. Končni model Zephyr se je pojavil ne samo kot odporen na prekomerno opremljanje, ampak tudi izboljšan pri obravnavanju praktičnih nalog in akademskih meril uspešnosti.

Podatkovni nizi in rezultati

Uporabljeni nabori podatkov

Pri razvoju Zephyr-7B sta bila za usposabljanje in izboljšanje modela uporabljena dva ključna niza podatkov, od katerih je vsak obravnaval različne vidike ustvarjanja dialoga:

Nabor podatkov UltraChat

  • vir: Razvito iz dialogov, ki jih je ustvaril GPT-3.5-TURBO.
  • vsebina: Vsebuje 1.47 milijona večkratnih dialogov v 30 temah in 20 vrstah besedilnega gradiva.
  • Prečiščevanje: Nabor podatkov je bil podvržen hevristiki pravilnega oblikovanja velikih in malih črk za odpravo slovničnih težav, filtri pa so bili uporabljeni za povečanje uporabnosti odgovorov in odpravo neuporabnih besednih zvez v uvodu.

Nabor podatkov UltraFeedback

  • vir: Vsebuje pozive, ki jih je ocenil GPT-4, ki je ocenjeval odgovore na podlagi upoštevanja navodil, poštenosti in ustrežljivosti.
  • vsebina: Vključuje 64,000 pozivov s štirimi odgovori, ocenjenimi po GPT-4.
  • Binarne nastavitve: Ustvarjeno z izbiro odgovora z najvišjo srednjo vrednostjo kot »izbranega« in naključnega odgovora izmed preostalih kot »zavrnjenega«, da se poveča raznolikost in izzove postopek neposredne optimizacije preferenc (DPO).

Oba nabora podatkov sta ključnega pomena za usposabljanje Zephyr-7B za razumevanje in ustvarjanje človeškega dialoga, ki sledi navodilom, je iskren in koristen. Ti nabori podatkov so bili na voljo v središču Hugging Face Hub, do katerega lahko dostopate tukaj.

Učinkovitost in rezultati

Spodnja tabela prikazuje zmogljivost Zephyr 7B v različnih kategorijah nalog v primerjavi z drugimi modeli, kot so GPT-3.5-turbo, Claude 1, GPT-4 in Llama-2-70b-chat. Kategorije lahko vključujejo pisanje, humanistiko, igro vlog, sklepanje, STEM, ekstrakcijo, kodiranje in matematiko.

Iz grafikona lahko sklepamo, v katerih domenah je Zephyr 7B odličen in katere domene bodo morda treba še izboljšati. Na primer, če se Zephyrjeva črta razteza dlje na osi pisanja v primerjavi z drugimi, to nakazuje, da je Zephyr še posebej močan pri ustvarjanju pisne vsebine. Nasprotno, če je črta bližje središču na osi matematike, lahko kaže na relativno šibkost pri reševanju matematičnih problemov.

Radarska karta pomaga pri prepoznavanju prednosti in slabosti Zephyrja 7B ter zagotavlja vizualno predstavitev njegovega položaja v primerjavi z večjimi modeli, kot je GPT-4, in specializiranimi modeli, kot je Llama-2-70b-chat.

 

Radarska tabela zmogljivosti modela

Radarska tabela zmogljivosti modela

Primerjava različnih jezikovnih modelov na dveh merilih: MT-Bench in AlpacaEval. Modeli so ocenjeni na podlagi njihove velikosti, metode poravnave (kot je dSFT za destilirano nadzorovano fino uravnavanje ali dDPO za destilirano neposredno optimizacijo preferenc) in rezultatov uspešnosti. Zephyr izstopa z visokimi rezultati v obeh merilih, kar kaže na njegovo učinkovitost pri ustvarjanju usklajenih odzivov.

MT-Bench in AlpacaEval

MT-Bench in AlpacaEval

zaključek

Skratka, razvoj Zephyr-7B dokazuje, da je mogoče uskladitev in destilacijo pogovornih zmožnosti iz velikega jezikovnega modela (LLM) v manjši model doseči brez zanašanja na metode, ki temeljijo na vzorčenju. Z uporabo optimizacije neposrednih preferenc (DPO) s povratnimi informacijami umetne inteligence Zephyr-7B izkorišča močne temelje Mistrala-7B, da postavi novo merilo uspešnosti za modele klepeta s parametri 7B, ki prikazuje sposobnost manjših, odprtokodnih modelov, da razumejo in se odzivajo na uporabnika. namen učinkovito.

Vendar ta študija ni brez omejitev. Zanašanje na GPT-4 kot ocenjevalca meril uspešnosti uvaja pristranskost do modelov, ki so iz njega pridobljeni, kar lahko daje prednost pred natančnimi odzivi. Poleg tega sta razširljivost te metode na večje modele, kot je LLAMA2-70B, in njen vpliv na izboljšanje zmogljivosti še vedno področji za nadaljnje raziskave. Te omejitve poudarjajo potrebo po stalnih inovacijah in razvoju nepristranskih metod vrednotenja v skupnosti umetne inteligence.

Če pogledamo dlje od študije, je očitno, da lahko potencial manjših modelov, da delujejo na ravni večjih primerkov, demokratizira AI, kar omogoča bolj dostopno in učinkovito uporabo v različnih aplikacijah. Uspeh Zephyr-7B spodbuja nadaljnje raziskovanje odprtokodnih modelov, ki lahko pospešijo napredek v AI s spodbujanjem skupnih raziskav in razvoja.

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.