Tekoäly

Zephyr-7B: Johdanto suoraan tislaamiseen kielen mallien tasapainoon

Julkaistu 29. marraskuuta 2023

Päivitetty 22. toukokuuta 2026

Tekijä

Kunal Kejriwal

Pienempien, avoimien suurten kielen mallien kyky ja suorituskyky ovat edenneet merkittävästi viime vuosina, ja olemme todistaneet edistymistä varhaisista GPT-2-malleista kompaktimpiin, tarkempiin ja tehokkaampiin LLM-kehyksiin, jotka hyödyntävät huomattavasti suurempaa määrää symboleja kuin “laskennallisen optimaalinen” määrä symboleja, jonka Chinchilla skaalautumisen lait suosittavat. Lisäksi kehittäjät ovat osoittaneet, että nämä pienemmät LLM-kehykset voidaan kouluttaa edelleen omistajamallipohjaisen dSFT tai tislatun valvotun hienosäätö-menetelmän avulla, joka käyttää tehokkaan opettajamallin tulostetta valvottuna datana opetusmallille pyrkien parantamaan tarkkuutta.

Tässä artikkelissa puhumme Zephyr-7B-kehyksestä, joka on 7 miljardin parametrin chat-benchmark, joka ei vaadi ihmisen annotaatioita. Kehyksen pääasiallinen tavoite on mahdollistaa kehittäjille pienempien suurten kielen mallien tuottaminen, jotka ovat lähempänä käyttäjän aikomusta kuin koskaan aiemmin. Zephyr-7B-kehyksessä tutkitaan nykyisten lähestymistapojen soveltamista suuremmille LLM-kehyksille, kuten dSFT, sekä tutkitaan muita lähestymistapoja, joilla voidaan oppia chat-malli, jolla on parempi tasapaino käyttäjän aikomuksen kanssa. Puhumme Zephyr-kehyksestä, sen arkkitehtuurista, toiminnasta ja tuloksista. Aloita.

Zephyr-7B: Johdanto suoraan tislaamiseen kielen mallien tasapainoon

Kuten mainittiin aiemmin, kielen mallit ovat edenneet nopeasti viime vuosina, GPT-2-kehyksistä nykyisiin GPT-4- ja MiniGPT-5-kielen malliin, jotka vaikka ovat hyvin symbolipitoisia, ovat nyt tarkemmpia ja tehokkaampia. Yksi suurten kielen mallien kehityksen merkittävimmistä piirteistä on, että ne sisältävät huomattavasti suuremman määrän symboleja kuin aiemmin laskennallisesti optimaalinen määrä symboleja Chinchilla skaalautumisen laissa. Lisäksi kielen mallien kehittäjät ja tutkijat ovat oppineet, että nämä pienemmät kielen mallit voidaan kouluttaa edelleen omistajamallipohjaisen dSFT tai tislatun valvotun hienosäätö-menetelmän avulla, joka käyttää tehokkaan opettajamallin tulostetta valvottuna datana opetusmallille pyrkien parantamaan tarkkuutta.

Aikomuksen tasapainotus on aina ollut suuri haaste kehittäjille, ja viimeaikaiset työt ovat keskittyneet AlpacaEval- ja MT-Bench-benchmarkien kehittämiseen, jotka on suunniteltu kohdistamaan tasapainotuksen ongelmaan. Zephyr-kehyksen kehittämisen motivaatio johtuu ongelmasta, jossa käytetään tislausta pienemmän avoimen LLM-kehyksen tasapainottamiseen, jossa ensimmäinen askel on käyttää AIF tai tekoälypalaute saadakseen suosituksia opettajamallista, ja sitten soveltaa tislatun suosituksen optimointia suoraan pääasiallisena oppimistavoitteena, jota kutsutaan dDPO tai Denoising Diffusion Policy Optimization-menetelmäksi. dDPO-menetelmän pääasiallinen korostus on, että toisin kuin sen edeltäjät, kuten PPO tai Proximal Preference Optimization, se ei vaadi ihmisen näytteitä tai annotaatioita, ja se myös vähentää aikaa, joka tarvitaan kielen mallin kouluttamiseen. Lisäksi se myös mahdollistaa kehittäjille maksimoida lopullisen näytteen palkintoja huomioimalla tarkasti denoising-askelten järjestystä alusta loppuun, toisin sanoen koko prosessin ajan.

Kehittäjät ovat kehittäneet Zephyr-7B-kehyksen tarkastamaan tämän lähestymistavan, ja joissain tapauksissa se on tasapainotettu versio Mistral-7B-kehyksestä. Kehys käyttää ensin dSFT- tai tislatun valvotun hienosäätömenetelmää UltraChat-datasetin perusteella, ja soveltaa dDPO- tai Denoising Diffusion Policy Optimization -menetelmää palautetietojen perusteella. Kokeet osoittavat, että Zephyr-7B-kehyksellä, jossa on 7 miljardia parametreja, saavutetaan tulokset, jotka ovat vertailukelpoisia ihmispalautteen kanssa tasapainotetuilla chat-malleilla, joilla on yli 70 miljardia parametreja. Lisäksi kokeet osoittavat, että tulokset voidaan parantaa sekä benchmarkien osalta, jotka ottaa huomioon keskustelukyky, että akateemisten benchmarkien osalta, ja suosituksen oppiminen on kriittinen saavuttaa halutut tulokset.

Yllä oleva kuva osoittaa eri kielen mallien suorituskyvyn MT-bench-benchmarkissa. Zephyr-7B-kehyksellä, joka on koulutettu dDPO-menetelmällä, asetetaan vertailuun omistajamallit ja avoimet, suuremmat kielen mallit, kuten GPT-3.5-turbo, Llama-2-70B ja muut, jotka on koulutettu lisäksi vahvistusoppimisella ja sisältävät suuren määrän ihmispalautetta. Kuten voidaan selvästi nähdä, Zephyr-7B-kehyksen suorituskyky on vertailukelpoinen useimpien näiden mallien kanssa, ja se myös ylittää useita malleja eri aloilla.

Zephyr-7B: Menetelmä, toiminta ja arkkitehtuuri

Zephyr-7B-kehyksen pääasiallinen tavoite on auttaa avoimen suuren kielen mallin tasapainottamisessa käyttäjän aikomuksen kanssa, ja koko kehyksen ajan Zephyr-7B-kehyksellä oletetaan olevan pääsy suureen opettajamalliin, jota käytetään kysymyksen generoinnissa. Zephyr-7B-kehyksessä noudatetaan lähestymistapaa, joka on samanlainen kuin InstructGPT-kehyksessä, ja tavoitteena on generoida tehokas ja tarkka opetusmalli.

Seuraava kuva osoittaa lyhyesti Zephyr-7B-kehyksen toiminnan kolme pääasiallista askelta.

dSFT suuren mittakaavan datasetin rakentamiseksi itseohjauksella.
AIF-kokoelma keskustelumallien joukosta seuraavaa suosituksen binarointia ja GPT-4-pistemääräystä.
dPO dSFT-mallin käyttäen palautetietoa.

dSFT tai tislatun valvottu hienosäätö

Kehys alkaa raakakielen mallista, joka tarvitsee koulutusta vastaamaan käyttäjän kysymyksiin. Perinteisesti nämä kielen mallit koulutetaan SFT- tai valvotun hienosäätömenetelmällä korkealaatuisilla ohjeilla ja niiden vastaavilla vastauksilla. Koska Zephyr-7B-kehyksellä on pääsy opettajamalliin, kehyksellä voidaan generoida ohjeita ja vastauksia, ja kouluttaa malli suoraan näiden ohjeiden ja vastausten perusteella, ja tätä lähestymistapaa kutsutaan dSFT- tai tislatun SFT-menetelmäksi. Seuraava kuva osoittaa tislaamisen, jota SFT suorittaa, jossa x edustaa joukkoa siemenkysymyksiä, jotka on rakennettu edustamaan monia aihealueita, y edustaa näytteen vastausta, jota parannetaan uudella näytteen ohjeella x1, ja C edustaa loppupistettä lopullisessa datasetissä.

Tehtäväpalaute suosituksien kautta

Ihmispalaute voidaan antaa suurten kielen malleille, koska ne voivat tarjota tarvittavat lisämerkit, ja nämä ihmispalautteet annetaan perinteisesti suosituksina vastausten laadusta, jotka kielen mallit generoivat. Zephyr-kehyksessä käytetään kuitenkin tehtäväpalautea opettajamallilta muiden mallien generoimista tuloksista tislaamistarkoituksiin. Lähestymistapa, jota Zephyr-kehyksessä noudatetaan, on vaikuttunut UltraFeedback-kehyksestä, joka käyttää opettajamallia antamaan suosituksia mallin tuloksista.

Samoin kuin SFT- tai valvotun hienosäätömenetelmä, se alkaa joukosta kysymyksiä, joissa x edustaa jokaisen yksittäisen kysymyksen, joka sitten syötetään joukolle malleja, kuten Llama, Falcon, Claude ja muut, jotka generoivat kunkin oman vastauksensa. Nämä vastaukset syötetään sitten opettajamallille, kuten GPT-3 tai GPT-4, ja malli antaa pisteitä syötetyille vastauksille. Kerättyään pisteet malli tallentaa vastauksen, jolla on korkein piste.

dDPO tai tislatun suora suosituksen optimointi

dDPO on Zephyr-kehyksen viimeinen askel, ja sen pääasiallinen tavoite on parantaa dSFT-opettajamallia maksimoiden suositetun vastauksen todennäköisyyttä suosituksessa, joka määräytyy palkkiofunktiolla käyttäen opetuskielen mallia. Edellinen askel, jossa käytettiin tehtäväpalautea, keskittyi lähinnä vahvistusoppimismenetelmiin, kuten PPO tai Proximal Policy Optimization, maksimaaliseen optimointiin palkkiota kohtaan. Tässä vaiheessa palkkio koulutetaan ensin ja sitten näytetään nykyisestä politiikasta laskemaan päivitykset, ja siten maksimoimaan optimointi. DPO tai suora suosituksen optimointi noudattaa samanlaista lähestymistapaa optimoida suosituksia suoraan käyttäen staattista dataa. Tavoite, johon palkkiofunktiota liitetään suosituksessa, voidaan kirjoittaa

Zephyr-7B: Kokeet, benchmarkit ja tulokset

Zephyr-kehyksessä suoritetaan hienosäätökokeet nykyisimmän Mistral-7B-kehyksen perusteella, joka tarjoaa vertailukelpoisen suorituskyvyn suurempien kielen mallien kanssa monilla luonnollisen kielen prosessoinnin tehtävillä.

Datasetit

Zephyr-kehyksessä käytetään kahta dialogidatasettiä, jotka on tislatu omistajamallien ja avoimien mallien sekoituksesta, jotka ovat aiemmin osoittaneet olevan tehokkaita chat-mallien tuottamisessa.

UltraChat

UltraChat on itseparannusdatasetti, joka sisältää noin 1,5 miljoonaa monivaiheista dialogia 30 aihealueella ja 20 tekstimateriaalia, jotka on generoitu GPT-3.5-Turbo-kehyksellä. Ratkaisemaan UltraChat-datasetin väärän capitalisoinnin ongelmaa, kehyksessä sovelletaan truecasing-heuristiikkaa poistamaan kieliopilliset virheet.

UltraFeedback

UltraFeedback on kysymysdatasetti, joka sisältää yli 64 000 kysymystä, joista jokaisella on neljä yksittäistä kielen mallin vastausta. Zephyr-kehyksessä käytetään UltraFeedback-datasetin saadusta korkeimman keskiarvon pisteistä rakentamaan binäärisiä suosituksia, ja yksi kolmesta jäljellä olevasta kielen mallin vastauksesta hylätään satunnaisesti.

Arviointi

Zephyr-kehyksen suorituskyvyn arviointiin on valittu kaksi chat-benchmarkia, yksi yksivaiheinen ja yksi monivaiheinen, pyrkien arvioimaan mallin kykyä seurata käyttäjän ohjeita ja vastata niiden mukaan.

MT-Bench

MT-Bench-arviointibenchmarkissa on 160 kysymystä, jotka on jaettu kahdeksaan yksilölliseen tietämysaluetta, ja MT-Bench-benchmarkissa malli vastaa alkuperäiseen kysymykseen ja antaa vastauksen seuraavaan kysymykseen.

AlpacaEval

AlpacaEval on yksivaiheinen benchmark, jossa malli generoi käyttäjän vastauksia yli 800 kysymykseen eri aihealueilla, ja pääasiallinen tavoite on hyödyllisyys.

Lisäksi Zephyr-7B-kehyksessä arvioidaan avoimien kielen mallien johtoportaan moniluokkaisissa luokittelutehtävissä, ARC, HellaSwag, MMLU ja muissa. Lisäksi riippumatta siitä, mitä benchmarkia Zephyr-7B-kehyksessä arvioidaan, se verrataan useisiin omistaja- ja avoimiin malleihin, ja niiden tasapainotusmenetelmät ovat ainoat erottavat tekijät.

Tulokset

Tutustumme nyt Zephyr-7B-kehyksen suorituskykyyn ja sen vertailuun nykyisiin kielen malleihin.

dDPO-lähestymistavan toteutus parantaa chat-kykyjä

Seuraava taulukko vertaa Zephyr-7B-kehyksen suorituskykyä nykyisiin kielen malleihin AlpacaEval- ja MT-Bench-benchmarkissa.

Kuten voidaan selvästi nähdä, kun verrataan avoimiin 7 miljardin parametrin malleihin, Zephyr-7B-kehyksellä on merkittävästi parempi suorituskyky kuin dSFT-malleilla molemmissa benchmarkissa, ja se myös asettaa uudet ennätykset. Lisäksi Zephyr-7B-kehyksellä on myös parempi suorituskyky kuin XWIN-LM-7B-mallilla, joka on yksi harvoista malleista, jotka on koulutettu dPPO- tai tislatun PPO-lähestymistavalla. Lisäksi Zephyr-7B-kehyksen suorituskyky on vertailukelpoinen tuloksiin, jotka saavutetaan suuremmilla kielen malleilla, kuten Llama2-Chat, jolla on yli 70 miljardia parametreja.

dDPO parantaa akateemisen tehtävän suorituskykyä

Seuraava kuva vertaa Zephyr-7B-kehyksen suorituskykyä laajaan joukkoon avoimia ja omistajamalleja.

Kuten voidaan nähdä, Zephyr-7B-kehyksellä on merkittävästi parempi suorituskyky kuin 7 miljardin parametrin kielen malleilla, ja ero Zephyr-7B-kehyksen suorituskyvyn ja parhaiden dSFT-mallien suorituskyvyn välillä on myös merkittävä. Kun parametriensa määrä kasvaa, Zephyr-7B-kehyksellä on hieman heikompi suorituskyky, mutta se saavuttaa saman suorituskyvyn kuin 40 miljardin parametrin kehykset.

Suosituksen optimointi

Seuraavassa kuvassa arvioidaan, miten eri vaiheet tasapainotusprosessissa vaikuttavat suorituskykyyn. Kuten voidaan nähdä, dDPO-lähestymistapa yhdistettynä dSFT:hen parantaa merkittävästi suorituskykyä sekä MT-Bench- että AlpacaEval-dataseteissa.

Lopuksi seuraavassa kuvassa voidaan nähdä testaus- ja koulutustarkkuudet DPO-toteutuksen aikana. Kuten voidaan nähdä, DPO-lähestymistapa ei vaikuta mallin suorituskykyyn alirakenteellisissa tehtävissä.

Johtopäätös

Tässä artikkelissa olemme puhuneet Zephyr-7B-kehyksestä, joka perustuu nykyisimpään Mistral-7B-kehykseen, ja joka pyrkii ratkaisemaan suurten kielen mallien tasapainotuksen haasteen. Zephyr-7B-kehyksen pääasiallinen tavoite on mahdollistaa kehittäjille pienempien suurten kielen mallien tuottaminen, jotka ovat lähempänä käyttäjän aikomusta kuin koskaan aiemmin. Zephyr-7B-kehyksessä tutkitaan nykyisten lähestymistapojen soveltamista suuremmille LLM-kehyksille, kuten dSFT, sekä tutkitaan muita lähestymistapoja, joilla voidaan oppia chat-malli, jolla on parempi tasapaino käyttäjän aikomuksen kanssa.

Vaikka tulokset ovat lupaavia, Zephyr-7B-kehyksellä on edelleen rajoituksia, ja työtä on vielä tehtävä. Yksi ilmeinen rajoitus on GPT-4-kehyksen käyttäminen MT-Bench- ja AlpacaEval-benchmarkien arvioimiseen, joka on usein olleen vahvistettu malleja, joita se itse tislaa. Zephyr-7B-kehyksellä on kuitenkin tavoitteena luoda reitti, jota voidaan seurata tutkimalla pienempien avoimien mallien kykyä tasapainottaa käyttäjän aikomus ja vuorovaikutus.

Kunal Kejriwal

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.

Unite.AI

Zephyr-7B: Johdanto suoraan tislaamiseen kielen mallien tasapainoon

Zephyr-7B: Johdanto suoraan tislaamiseen kielen mallien tasapainoon

Zephyr-7B: Menetelmä, toiminta ja arkkitehtuuri

dSFT tai tislatun valvottu hienosäätö

Tehtäväpalaute suosituksien kautta

dDPO tai tislatun suora suosituksen optimointi

Zephyr-7B: Kokeet, benchmarkit ja tulokset

Datasetit

UltraChat

UltraFeedback

Arviointi

MT-Bench

AlpacaEval

Tulokset

dDPO-lähestymistavan toteutus parantaa chat-kykyjä

dDPO parantaa akateemisen tehtävän suorituskykyä

Suosituksen optimointi

Johtopäätös

Löydä lisää