stub Zephyr-7B: HuggingFace'i hüper-optimeeritud LLM, mis on ehitatud Mistral 7B peale – Unite.AI
Ühenda meile

Tehisintellekt

Zephyr-7B: HuggingFace'i hüper-optimeeritud LLM, mis on ehitatud Mistral 7B peale

mm
Ajakohastatud on
Süfer 7B

Sissejuhatus

Avatud suurte keelemudelite (LLM) areng on oluliselt mõjutanud tehisintellekti teadlaskonda, eriti vestlusrobotite ja sarnaste rakenduste arendamisel. Pärast selliste mudelite nagu LLaMA väljaandmist on tõhusa peenhäälestamise, laiendatud kiire käsitsemise, otsimise suurendatud genereerimise (RAG) ja kvantiseerimise alased uuringud hoogustunud.

Näiteks LLaMA mudel tähistas uut ajastut peenhäälestamisel ja kiires kontekstualiseerimises, sillutades teed järgmistele mudelitele nagu MosaicML MPT, Together AI RedPajama-INCITE, TII Falcon ja Meta Llama 2. Kõik need mudelid pakuvad ainulaadseid võimalusi. , suurendades LLM-ide üldist funktsionaalsust ja ulatust.

Pariisi idufirma Mistral AI, mille asutasid endised Google DeepMind ja Meta töötajad, on teinud endale nime oma esimese pakkumisega: Mistral 7B.

Mistral 7B eelis seisneb selle tõhususes, pakkudes sarnaseid või täiustatud võimalusi võrreldes analoogidega nagu Llama 2, kuid väiksema arvutusvajadusega.

Spetsiaalselt juhendamisülesannete jaoks häälestatud Mistral 7B Instruct särab sellistel platvormidel nagu Hugging Face, kus see ületab teisi sama suurusega mudeleid ja konkureerib tihedalt nendega, mille parameetrid on peaaegu kahekordsed.

Sellele toetudes tutvustas Hugging Face Zephyr 7B Alpha, mis näitab, et peenhäälestatud Mistral 7B suudab tõepoolest ületada oluliselt suuremate vestlusmudelite ja mõne ülesande puhul isegi rivaali GPT-4 võimeid. "Alfa" oli alles algus, nagu Sefiir 7B Beeta järgnes peagi.

See artikkel uurib, kuidas Zephyr 7B kasutab suuremate mudelite jõudu, et täiustada oma võimet reageerida ja viia vastavusse inimese juhistega – see protsess on võimalik tänu teadmiste destilleerimise tehnikale. See meetod hõlmab väiksemate mudelite koolitamist suuremate õpitud keeruliste mustrite põhjal, vähendades koolitusvajadusi ilma keele modelleerimisvõimalusi ohverdamata. Süveneme Hugging Face'i teadmiste destilleerimise lähenemisviisi eripäradesse.

Teadmiste destilleerimine

Peamine uuendus selliste mudelite väljatöötamisel nagu Sefiir-7B on destilleeritud järelevalvega peenhäälestus (dSFT). See meetod hõlmab suurema, võimekama „õpetaja” mudeli väljundi kasutamist väiksema „õpilase” mudeli koolitamiseks, suurendades selle täpsust. Kuigi destilleerimine parandab erinevate ülesannete avatud mudeleid, on tulemuslikkuses võrreldes õpetajate mudelitega ikka veel erinevusi.

Teadmiste destilleerimine on masinõppe meetod, kus kompaktne mudel, mida nimetatakse "õpilane”, õpetatakse kopeerima suurema ja keerukama „õpetaja” mudel. See tehnika võimaldab õpilasel täita ülesandeid, mis varem ületasid tema suutlikkust, edastades õpetaja õpitud keerukaid mustreid.

Teadmised Destilleerimine,| Õpetaja-õpilase mudel

Teadmised destilleerimine | Õpetaja-õpilase mudel

Õpilasmudel treenib õpetajamudeli loodud väljundi tõenäosusi või omadusi, keskendudes pigem nende väljundite sobitamisele kui ainult lõplikele ennustustele. See võimaldab õpilasel õppida õpetaja nüansirikkaid otsustusprotsesse, mille tulemuseks on sageli paremad tulemused, võrreldes ainult põhitõeandmetega koolitusega.

Ajalooliselt on teadmiste destilleerimist kasutatud sellistes mudelites nagu Hintoni algsed destilleerimisvõrgud ja hiljuti NLP-s mudelitega nagu DistilBERT, mis destilleeris BERT-i mudeli väiksemaks ja kiiremaks versiooniks, mis säilitab suurema osa originaali keele mõistmise võimalustest. Teine näide on TinyBERT, mis läheb mobiil- või servaseadmete suuruse ja kiiruse optimeerimisel kaugemale.

Zephyr-7B puhul kasutatakse teadmiste destilleerimist väiksema 7B parameetri mudeli immutamiseks selle suuremate kolleegide võimalustega. Seda tehes saavutab Zephyr-7B tasakaalu jõudluse ja tõhususe vahel, muutes selle sobivaks keskkondades, kus arvutusressursid on piiratud, ohverdamata suhtlemise ja mõistmise kvaliteeti.

Zephyr-7B väljatöötamisel lahendasid teadlased väikese avatud LLM-i joondamise väljakutsega täielikult destilleerimise teel. Nad tutvustasid lähenemisviisi, mida nimetatakse destilleeritud otseste eelistuste optimeerimiseks (dDPO), mis kasutab eelistuste andmetena õpetajamudelite ansambli AI tagasisidet. See meetod, mis ei nõua inimesepoolset annotatsiooni, vähendab oluliselt mudelikoolituse aega ja ressursse.

ZEPHYR-7B ehitamine

dDPO kinnitamiseks konstrueerisid teadlased ZEPHYR-7B, mis on süsteemi joondatud versioon. Mistral-7B mudel. Protsess hõlmas kolme etappi:

  1. dSFT, kasutades UltraChati andmestikku:Distilled Supervised Fine-Tuning (dSFT) on täiustatud meetod suurte keelemudelite (LLM) koolitamiseks, võimendades suuremate ja võimekamate "õpetaja" mudelite väljundit. See algab töötlemata LLM-iga, mis on koolitatud reageerima kasutaja viipadele. Erinevalt traditsioonilisest kontrollitud peenhäälestusest (SFT), mis kasutab fikseeritud andmekogumit, kasutab dSFT dünaamilist lähenemist, kus mudel ise genereerib juhiseid ja vastuseid. See meetod, mida tuntakse kui enesejuhendamist, hõlmab õpetajamudeli kasutamist nii vastamiseks kui ka vastuste põhjal juhiste täpsustamiseks. Protsess algab algviipade komplektiga (x₀₁, x₀₂, …, x₀_J), mis esindavad erinevaid teemasid. Iga viipa täpsustatakse iteratiivselt: antud käsu x₀ jaoks genereerib õpetaja mudel vastuse y₀ ja seejärel valitakse x₀ ja y₀ põhjal uus käsk x₁. Mudeli peenhäälestamiseks kasutatakse lõplikku andmekogumit C = {(x₁, y₁), …, (x_J, y_J)}.
  2. Sisaldab UltraFeedbacki tehisintellekti tagasisideandmeid: Need andmed olid mudeli vastuste täpsustamisel üliolulised. Selles etapis genereerib mudel vastuseid erinevatele viipadele (nt šokolaadiküpsiste valmistamise kirjeldus), mis seejärel järjestatakse täiustatud mudeliga, näiteks GPT-4. Kõrgeima punktisummaga vastus (yw) ja juhuslikult valitud madalama skooriga vastus (yl) moodustavad tagasiside andmestiku D.
  3. dDPO rakendamine:Viimane etapp, destilleeritud otseeelistuste optimeerimine (dDPO), hõlmab dSFT-mudeli täiustamist, maksimeerides eelistatud vastuste järjestamise tõenäosust. See saavutatakse, kasutades eelistusmudelis tasufunktsiooni rθ(x, y), mis põhineb optimaalsel LLM-poliitikal π* ja algsel poliitikal πdSFT. Optimeerimise eesmärk on sõnastatud järgmiselt: πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), mis lihtsustab koolitusprotsessi, alustades mudeli dSFT versioonist ja itereerides läbi iga AIF-i kolmiku.
Zephyr-7B-s kasutatav meetod peegeldab InstructGPT-s kasutatud protsesse.

Zephyr-7B-s kasutatav meetod peegeldab InstructGPT-s kasutatud protsesse.

Märkimisväärselt saavutab Zephyr-7B jõudluse, mis on võrreldav palju suuremate 70B parameetritega mudelitega, mis on kooskõlas inimeste tagasisidega. See paistab silma nii akadeemiliste võrdlusnäitajate kui ka vestlusvõime poolest, tuues esile eelistuste õppimise tõhususe mudeli väljatöötamisel. Edasiseks uurimiseks on mudelid, kood ja juhised saadaval aadressil Kallistab nägu GitHubi hoidla.

Kavatsuste ühtlustamise väljakutse lahendamine

Märkimisväärne probleem LLM-ide puhul on olnud nende vastavus inimese kavatsustele. Varasemad mudelid ei andnud sageli kasutaja eelistustele vastavaid vastuseid, mis tõi kaasa ebatäpsed või ebaolulised vastused. Hiljutised võrdlusnäitajad, nagu MT-Bench ja AlpacaEval, on aga pakkunud tööriistu selle aspekti kvantifitseerimiseks ja täiustamiseks, rõhutades inimeste tagasisidega koolitatud patenteeritud mudelite paremat jõudlust võrreldes ainult destilleerimisega koolitatud mudelitega.

Hindamismeetodid

Zephyr 7B hindamine hõlmas ranget testimist võrdlusnäitajate vahel, mis hindavad mudeli vestlusvõimet nii ühe kui ka mitme pöörde kontekstis:

  • MT-pink: see mitme pöördega võrdlusalus nõuab mudelit, mis vastaks 160 küsimusele, mis hõlmavad kaheksat domeeni. Iga vastust hindab GPT-4, kusjuures mudeli lõppskoor peegeldab kahe küsimustevooru keskmist.
  • AlpakaEval: selles ühe pöörde võrdlusaluses esitatakse mudelile 805 küsimust erinevate teemade kohta. Siin keskendutakse mudeli abivalmidusele, kusjuures GPT-4 hindab vastuseid võrdleva võidumäära määramiseks.

Lisaks testiti Zephyr 7B-d avatud LLM-i edetabelil, mis küll ei ole vestlusoskuste otsene hinnang, kuid annab ülevaate mudeli arutluskäigust ja tõepärasusest pärast peenhäälestamist.

Zephyr 7B võrreldi mitmesuguste avatud ja patenteeritud mudelitega, sealhulgas erineva suuruse ja joondusmeetoditega mudelitega. See kehtestas MT-Benchi ja AlpacaEvali 7B mudelite jaoks uued võrdlusalused ning näitas konkurentsivõimelist jõudlust suuremate mudelitega, kinnitades otsese eelistuse optimeerimise (dDPO) tõhusust koolitusel.

SFT ja DPO koolitusfaasid olid täpselt konfigureeritud, hõlmates mitut ajajärku ning peenhäälestades õppimiskiirusi ja partiide suurusi optimaalse jõudluse tagamiseks. Lõplik Zephyri mudel ei osutus mitte ainult vastupidavaks ülepaigutamisele, vaid paranes ka praktiliste ülesannete ja akadeemiliste võrdlusnäitajate lahendamisel.

Andmestikud ja tulemused

Kasutatud andmestikud

Zephyr-7B väljatöötamisel kasutati mudeli koolitamiseks ja täiustamiseks kahte võtmeandmestikku, millest igaüks käsitleb dialoogi genereerimise erinevaid aspekte:

UltraChati andmestik

  • allikas: välja töötatud GPT-3.5-TURBO loodud dialoogidest.
  • Sisu: sisaldab 1.47 miljonit mitme pöördega dialoogi 30 teema ja 20 tüüpi tekstimaterjali kohta.
  • Täpsustamine: andmestik läbis grammatiliste probleemide parandamiseks tõsitähtede heuristika ja rakendati filtreid, et suurendada vastuste kasulikkust ja kõrvaldada kasutud eessõna.

UltraFeedbacki andmestik

  • allikas: sisaldab GPT-4 poolt hinnatud viipasid, mis hindasid vastuseid juhiste järgimise, aususe ja abivalmiduse alusel.
  • Sisu: sisaldab 64,000 4 viipa nelja vastusega, mis on hinnatud GPT-XNUMX järgi.
  • Binaarsed eelistused: luuakse, valides kõrgeima keskmise hindega vastuse väärtuseks „valitud” ja juhusliku vastuse valiku „tagalükatud” hulgast, et suurendada mitmekesisust ja vaidlustada otsese eelistuse optimeerimise (DPO) protsessi.

Mõlemad andmestikud on Zephyr-7B koolitamiseks üliolulised, et mõista ja luua inimlikku dialoogi, mis on juhiseid järgiv, aus ja abivalmis. Need andmestikud on tehtud kättesaadavaks Hugging Face Hubis, millele pääsete juurde siin.

Tulemused ja tulemused

Allolev tabel illustreerib Zephyr 7B jõudlust erinevates ülesannete kategooriates võrreldes teiste mudelitega, nagu GPT-3.5-turbo, Claude 1, GPT-4 ja Llama-2-70b-chat. Kategooriad võivad hõlmata kirjutamist, humanitaarteadusi, rollimänge, arutlemist, STEM-i, ekstraheerimist, kodeerimist ja matemaatikat.

Diagrammi põhjal saame järeldada, millistes domeenides Zephyr 7B paistab silma ja millised domeenid võivad vajada täiendavat täiustamist. Näiteks kui Zephyri joon ulatub kirjutamise teljel teistega võrreldes kaugemale, viitab see sellele, et Zephyr on kirjaliku sisu loomisel eriti tugev. Ja vastupidi, kui joon on matemaatikatelje keskpunktile lähemal, võib see viidata suhtelisele nõrkusele matemaatikaülesannete lahendamisel.

Radari diagramm aitab tuvastada Zephyr 7B tugevaid ja nõrku külgi, pakkudes visuaalset esitust selle kohta, kus see on võrreldes suuremate mudelitega, nagu GPT-4, ja spetsiaalsete mudelitega, nagu Llama-2-70b-chat.

 

Mudeli jõudluse radari diagramm

Mudeli jõudluse radari diagramm

Erinevate keelemudelite võrdlemine kahel võrdlusalusel: MT-Bench ja AlpacaEval. Mudeleid hinnatakse nende suuruse, joondusmeetodi (nt dSFT destilleeritud järelevalvega peenhäälestuse jaoks või dDPO destilleeritud eelistuste optimeerimise jaoks) ja jõudlusskooride alusel. Zephyr paistab silma kõrgete skooridega mõlemas võrdlusaluses, mis näitab selle tõhusust joondatud vastuste genereerimisel.

MT-Bench ja AlpacaEval

MT-Bench ja AlpacaEval

Järeldus

Kokkuvõtteks võib öelda, et Zephyr-7B väljatöötamine näitab, et vestlusvõimaluste joondamine ja destilleerimine suurest keelemudelist (LLM) väiksemale mudelile on saavutatav ilma valimipõhistele meetoditele tuginemata. Kasutades otsest eelistuste optimeerimist (DPO) koos tehisintellekti tagasisidega, kasutab Zephyr-7B Mistral-7B tugevat alust, et seada 7B parameetritega vestlusmudelitele uus etalon, mis näitab väiksemate avatud lähtekoodiga mudelite võimet kasutajat mõista ja neile reageerida. kavatsust tõhusalt.

See uuring ei ole aga piiranguteta. Toetumine GPT-4-le kui võrdlusaluste hindajale toob kaasa kallutatuse sellest eraldatud mudelite suhtes, mis võib eelistada täpseid vastuseid. Lisaks jääb selle meetodi skaleeritavus suurematele mudelitele, nagu LLAMA2-70B, ja selle mõju jõudluse kasvule edasiste uuringute valdkonda. Need piirangud rõhutavad vajadust pideva innovatsiooni ja erapooletute hindamismeetodite väljatöötamise järele tehisintellekti kogukonnas.

Vaadates uuringust kaugemale, on ilmne, et väiksemate mudelite potentsiaal toimida suuremate analoogide tasemel võib tehisintellekti demokratiseerida, võimaldades erinevate rakenduste jaoks juurdepääsetavamat ja tõhusamat kasutamist. Zephyr-7B edu julgustab avatud lähtekoodiga mudelite edasist uurimist, mis võib kiirendada tehisintellekti arengut, soodustades ühist uurimis- ja arendustegevust.

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.