Artificiell intelligens

Zephyr: Direkt destillation av LLM-justering

Published November 29, 2023

Updated April 28, 2026

Kunal Kejriwal

Förmågan och prestandan hos mindre, öppna stora språkmodeller har förbättrats avsevärt under de senaste åren, och vi har sett framstegen från de tidiga GPT-2-modellerna till kompakta, precisa och effektiva LLM-ramverk som använder en avsevärt större mängd token än den “beräkningsoptimala” mängden token som rekommenderas av Chinchilla-skalegenskaper. Dessutom har utvecklare visat att dessa mindre LLM-ramverk kan utbildas ytterligare med hjälp av ett proprietärt modellbaserat dSFT eller Destillerad Tillsynsfinjustering-tillvägagångssätt, som använder utdata från en effektiv lärarmodell som övervakad data för elevmodellen i ett försök att förbättra noggrannheten.

I den här artikeln kommer vi att prata om Zephyr-7B-ramverket, ett state-of-the-art-chatt-benchmark för 7B-parametrar som inte kräver mänskliga annoteringar. Ramverkets primära mål är att möjliggöra för utvecklare att producera mindre stora språkmodeller som är justerade till användarens avsikt närmare än någonsin tidigare. Zephyr-7B-ramverket undersöker inte bara tillämpningen av nuvarande tillvägagångssätt för större LLM-ramverk som dSFT, utan utforskar också möjligheten att använda andra tillvägagångssätt för att lära en chattmodell med bättre justering med användarens avsikt. Vi kommer att dyka djupare in i Zephyr-ramverket och utforska dess arkitektur, funktion och resultat. Så låt oss komma igång.

Zephyr-7B : En introduktion till direkt destillation av justering i språkmodeller

Som nämnts tidigare har språkmodellerna utvecklats snabbt under de senaste åren, från de tidigare GPT-2-ramverken till nuvarande GPT-4 och MiniGPT-5 LLM-ramverk som, trots att de är mycket token-utmattande, nu är mer precisa och effektiva. En viktig aspekt av dessa avancerade LLM-ramverk är att de inkorporerar en avsevärt större mängd token än den tidigare ansedda att vara beräkningsoptimal under Chinchilla-skalegenskaper. Dessutom har utvecklare och forskare som arbetar med LLM-ramverk lärt sig att dessa mindre LLM-ramverk kan utbildas ytterligare med hjälp av ett proprietärt modellbaserat dSFT eller Destillerad Tillsynsfinjusteringstillvägagångssätt, som använder utdata från en effektiv lärarmodell som övervakad data för elevmodellen i ett försök att förbättra noggrannheten. Destilleringstrategin har visat sig vara ett mycket effektivt och användbart verktyg för att maximera potentialen och förmågan hos öppna modeller i ett brett utbud av uppgifter, även om den ännu inte kan replikera prestandan som uppnås av lärarmodellen. Dessutom har användare ofta rapporterat att dessa modeller ofta visar “avsiktsfeljustering”, vilket innebär att modellerna inte beter sig på ett sätt som är justerat till användarens krav, vilket leder till felaktiga utdata som inte ger rätt utdata eller svar på användarindata eller frågor.

Avsiktjustering har alltid varit en stor utmaning för utvecklare, och nyliga arbeten har fokuserat på utveckling av benchmark-tester som AlpacaEval och MT-Bench som utvecklats för att rikta sig mot feljusteringen. Motivationen för att utveckla Zephyr-ramverket kan tillskrivas problemet med att använda destillering för att justera ett litet öppet LLM-ramverk helt, där den primära steget är att använda AIF eller Artificiell Intelligens-återkoppling för att erhålla preferensdata från en ensemble av lärarmodellen, och sedan tillämpa destillerad preferensoptimering direkt som det primära lärandemålet, ett tillvägagångssätt som kallas dDPO eller Destillerad Direkt Preferensoptimering. Det primära draget med dDPO-tillvägagångssättet är att, till skillnad från dess föregångare som PPO eller Proximal Preferensoptimering, det inte kräver mänsklig sampling eller annotering, och också minskar den tid det tar att utbilda en språkmodell. Dessutom tillåter det utvecklare att maximera belöningarna för den slutliga provningen genom att fokusera på sekvensen av de avlägsnande stegen från början till slut, med andra ord, under hela dess längd.

Utvecklare har utvecklat Zephyr-7B-ramverket för att validera detta tillvägagångssätt, och på något sätt är det en justerad version av state-of-the-art-Mistral-7B-ramverket. Ramverket använder först dSFT eller Destillerad Tillsynsfinjustering baserat på UltraChat-databasen, och tillämpar dDPO eller Destillerad Direkt Preferensoptimeringstillvägagångssättet på återkopplingsdata. Experiment visar att Zephyr-7B-ramverket med 7 miljarder parametrar levererar resultat som är jämförbara med dem som levereras av mänskligt återkopplade chattmodeller med över 70 miljarder parametrar. Dessutom visar experiment att resultaten kan förbättras både i termer av benchmark-tester som tar konversationsförmåga i beaktande, samt standardakademiska benchmark-tester, och att användningen av preferenslärande är avgörande för att uppnå de önskade resultaten.

Figuren ovan visar prestandan hos olika språkmodeller på MT-Bench-benchmarken. Zephyr-7B-ramverket som tränats med dDPO-tillvägagångssättet jämförs med proprietära och öppna, större språkmodeller som GPT-3.5 Turbo, Llama-2-70B och fler som tränats med ytterligare förstärkt lärande och också inkluderat en stor mängd mänsklig återkoppling. Som det tydligt kan ses, trots den enorma skillnaden i antalet parametrar som dessa ramverk använder, levererar Zephyr-7B-ramverket jämförbara resultat mot de flesta av dem och presterar bättre än flera ramverk i olika domäner.

Zephyr-7B : Metod, funktion och arkitektur

Det primära målet med Zephyr-7B-ramverket är att hjälpa en öppen källkod stor språkmodell att justeras så nära som möjligt till användarens avsikt, och under hela dess längd antar Zephyr-7B-ramverket tillgång till en stor lärarmodell som frågas med hjälp av promptgenerering. Zephyr-7B följer ett tillvägagångssätt som liknar det som används i InstructGPT-ramverket, och syftar till att generera en effektiv och precis elevmodell.

Följande figur visar kortfattat de tre primära stegen som är involverade i Zephyr-7B-ramverkets funktion.

dSFT för stor skala dataset-konstruktion med hjälp av en självinstruerande stil.
AIF-insamling med hjälp av en ensemble av kompletterande chattmodeller följt av preferensbinarisering och poängsättning av GPT-4.
dPO på dSFT-modellen med hjälp av återkopplingsdata.

dSFT eller Destillerad Tillsynsfinjustering

Ramverket börjar med en rå stor språkmodell som först behöver tränas för att svara på användarprompt. Traditionellt sett tränas dessa LLM-ramverk för att svara på användarprompt med hjälp av SFT eller Tillsynsfinjustering på en dataset som består av högkvalitativa instruktioner och deras motsvarande svar. Eftersom Zephyr-7B-ramverket har tillgång till en lärarmodell, kan ramverket generera instruktioner och svar och träna modellen direkt på dessa instruktioner och svar, och detta tillvägagångssätt kallas dSFT eller destillerad SFT. Följande figur visar destilleringen som utförs av SFT där x representerar en uppsättning seed-prompt konstruerade med det primära syftet att representera en mångfaldig uppsättning ämnesdomäner, y representerar sampelsvaret som raffineras med hjälp av en ny sampelinstruktion representerad av x1 och C representerar slutpunkten i den slutliga dataseten.

AI-återkoppling genom preferenser

Mänsklig återkoppling används för att tilldela stora språkmodeller eftersom de kan ge de nödvändiga ytterligare signalerna, och dessa mänskliga återkopplingar ges traditionellt genom preferenser på kvaliteten på svaren som genereras av LLM-ramverken. Men Zephyr-ramverket använder AI-återkoppling från lärarmodellen på andra modellers genererade utdata i stället för mänsklig återkoppling för destilleringssyften. Tillvägagångssättet som följs av Zephyr-ramverket påverkas av det som används av UltraFeedback-ramverket som använder lärarmodellen för att ge preferenser på modellens utdata.

Liknande SFT eller Tillsynsfinjusteringstillvägagångssättet, börjar det med en uppsättning prompt, där x representerar varje enskild prompt som sedan matas in i en samling av fyra modeller som Llama, Falcon, Claude och fler, var och en som genererar ett svar på sitt eget sätt. Dessa svar matas sedan in som indata till lärarmodellen som GPT-3 eller GPT-4, och modellen ger ut en poäng för indata-svaret. Efter att ha samlat in utdatapoen, sparar modellen svaret med den högsta poängen.

dDPO eller Destillerad Direkt Preferensoptimering

dDPO är det sista steget i Zephyr-ramverket, och dess primära mål är att raffinera dSFT-lärarmodellen genom att maximera sannolikheten för att rangordna det föredragna svaret i en preferensmodell som bestäms av en belöningsfunktion med hjälp av elevspråkmodellen. Det föregående steget som involverade användningen av AI-återkoppling fokuserade primärt på att använda förstärkt lärandemetoder som PPO eller Proximal Policyoptimering för maximal optimering med avseende på den genererade belöningen. I detta steg tränas belöningen först och sedan sampas från den aktuella policyn för att beräkna uppdateringarna, och därmed maximera optimeringen. DPO eller Direkt Preferensoptimering följer ett liknande tillvägagångssätt för att optimera preferensmodellen direkt med hjälp av den statiska data. Målet efter att ha anslutit belöningsfunktionen till preferensmodellen kan skrivas som

Zephyr-7B : Experiment, benchmark-tester och resultat

Zephyr-ramverket genomför sin finjusteringsexperiment på det nuvarande state-of-the-art-Mistral-7B-ramverket som levererar en prestanda som är jämförbar med mycket större språkmodeller på ett brett utbud av naturliga språkbehandlingsuppgifter eller NLP-uppgifter.

Dataset

Zephyr-ramverket använder två dialogdataset som har destillerats från en blandning av proprietära och öppna modeller, som tidigare har visat sig vara effektiva för att producera effektiva chattmodeller.

UltraChat

UltraChat är en självraffineringsdataset som består av nästan 1,5 miljoner multi-turn dialoger spridda över 30 ämnen och 20 textmaterial genererade av GPT-3.5-Turbo-ramverket. För att hantera det felaktiga kapitaliseringsproblemet som UltraChat-datasetet står inför, tillämpar ramverket ett truecasing-heuristiskt tillvägagångssätt för att bli av med de grammatiska felen.

UltraFeedback

UltraFeedback är en prompt-dataset med över 64 000 prompt, med var och en av dessa prompt som har fyra enskilda LLM-svar. Zephyr-ramverket använder den högsta medelvärdet som erhållits från UltraFeedback-datasetet för att konstruera binära preferenser, och ett av de återstående tre LLM-svaren avvisas som slumpmässigt.

Utvärdering

För att utvärdera prestandan hos Zephyr-ramverket, har utvecklare valt två chatt-benchmark-tester, en single-turn och en multi-turn, i ett försök att utvärdera modellens förmåga att följa användarinstruktioner och svara därefter.

MT-Bench

MT-Bench-utvärderingsbenchmarken består av 160 frågor spridda över 8 unika kunskapsområden, och under MT-Bench-benchmarken måste modellen svara på en initial fråga och ge ett svar på uppföljningsfrågan.

AlpacaEval

AlpacaEval är en single-turn-benchmark under vilken modellen eller ramverket genererar användarsvar till över 800 frågor spridda över olika ämnen med det primära fokuset på användbarhet.

Utöver dessa två primära benchmark-tester utvärderas Zephyr-7B-ramverket också på Open LLM Leaderboard för multiklassklassificeringsuppgifter, ARC, HellaSwag, MMLU och fler. Dessutom, oavsett vilken benchmark Zephyr-7B-ramverket utvärderas på, jämförs det mot ett urval av proprietära och öppna modeller, med deras justeringsförfaranden som den enda differentierande faktorn.

Resultat

Låt oss nu se hur Zephyr-7B-ramverket presterar och jämför med nuvarande state-of-the-art-språkmodeller.

Implementeringen av dDPO-tillvägagångssättet förbättrar chattförmågor

Följande tabell jämför prestandan hos Zephyr-7B-ramverket mot state-of-the-art-språkmodeller på AlpacaEval- och MT-Bench-benchmark-testerna.

Som det tydligt kan ses, när det jämförs med öppna 7B-modeller, presterar Zephyr-7B-ramverket inte bara avsevärt bättre än dSFT-modeller över de två benchmark-testerna, utan sätter också nya state-of-the-art-standarder. Dessutom presterar Zephyr-7B-ramverket också bättre än XWIN-LM-7B-ramverket, som är ett av de få modellerna som tränats med dPPO eller destillerad PPO-tillvägagångssättet. Dessutom är prestandan som Zephyr-7B-ramverket levererar jämförbar med resultaten som levereras av mycket större språkmodeller som Llama2-Chat med över 70 miljarder parametrar.

dDPO förbättrar akademisk uppgiftsprestanda

Följande figur jämför prestandan hos Zephyr-7B-ramverket mot ett brett urval av öppna och proprietära LLM-ramverk.

Som det kan ses, presterar Zephyr-7B-ramverket avsevärt bättre än LLM-ramverk med 7 miljarder parametrar, och gapet mellan dess prestanda och den som levereras av de bästa dSFT-modellerna är också märkbart. När antalet parametrar ökar, presterar Zephyr-7B-ramverket sämre, men matchar prestandan som levereras av ramverk med 40 miljarder parametrar.

Preferensoptimering

I följande figur utvärderar vi hur de olika stegen i justeringsprocessen påverkar prestandan. Som det kan observeras, förbättrar dDPO-tillvägagångssättet, när det kombineras med dSFT, avsevärt prestandan på både MT-Bench- och AlpacaEval-dataseten.

Slutligen, i följande figur kan vi se test- och träningsnoggrannhet under DPO-implementeringen. Som det kan ses, påverkar DPO-tillvägagångssättet inte prestandan hos modellen på nedströmsuppgifter.

Slutsats

I den här artikeln har vi talat om Zephyr-7B-ramverket baserat på det nuvarande state-of-the-art-Mistral-7B-ramverket som syftar till att lösa den nuvarande utmaningen med justeringsdestillering från en stor språkmodell till en mycket mindre förtränad ram. Det primära målet med ramverket är att möjliggöra för utvecklare att producera mindre stora språkmodeller som är justerade till användarens avsikt närmare än någonsin tidigare. Zephyr-7B-ramverket undersöker inte bara tillämpningen av nuvarande tillvägagångssätt för större LLM-ramverk som dSFT, utan utforskar också möjligheten att använda andra tillvägagångssätt för att lära en chattmodell med bättre justering med användarens avsikt.

Men trots de lovande resultaten, är Zephyr-7B-ramverket inte perfekt, och viss arbete behöver fortfarande göras. En av de uppenbara begränsningarna är att använda GPT-4-ramverket för att utvärdera MT-Bench- och AlpacaEval-benchmark-testerna, som ofta har varit fördomsfulla mot de modeller som det destillerar själv. Men Zephyr-7B-ramverket hoppas på att bana väg för att utforska förmågan hos mindre öppna modeller som kan justeras till användarens avsikt och interaktioner.

Unite.AI