Kunstmatige intelligentie

Zephyr: Directe Distillatie van LLM-Alignement

Gepubliceerd op 29 november 2023

Bijgewerkt op 22 mei 2026

Door

Kunal Kejriwal

De mogelijkheden en prestaties van kleinere, open large language modellen zijn de afgelopen jaren aanzienlijk verbeterd, en we hebben de vooruitgang gezien van de vroege GPT-2-modellen tot compactere, nauwkeurigere en effectievere LLM-kaders die gebruikmaken van een aanzienlijk grotere hoeveelheid tokens dan de “compute-optimal” hoeveelheid tokens die wordt aanbevolen door de Chinchilla-schaalwetten. Bovendien hebben ontwikkelaars aangetoond dat deze kleinere LLM-kaders verder getraind kunnen worden met behulp van een propriëtaire modellen-gebaseerde dSFT of Distilled Supervised Fine-Tuning-aanpak, die de uitvoer van een effectief teacher-model gebruikt als begeleidende gegevens voor het studentenmodel in een poging de nauwkeurigheid te verbeteren.

In dit artikel zullen we het Zephyr-7B-kader bespreken, een state-of-the-art chat-benchmark voor 7B parametermodellen die geen menselijke annotaties vereist. Het primaire doel van het kader is om ontwikkelaars in staat te stellen kleinere grote taalmodellen te produceren die zijn afgestemd op de gebruikersintentie dichter dan ooit tevoren. Het Zephyr-7B-kader onderzoekt niet alleen de toepassing van huidige benaderingen voor grotere LLM-kaders zoals dSFT, maar onderzoekt ook de mogelijkheid om andere benaderingen te gebruiken om een chat-model te leren met betere afstemming op de gebruikersintentie. We zullen een diepere duik nemen in het Zephyr-kader en zijn architectuur, werking en resultaten onderzoeken. Laten we beginnen.

Zephyr-7B: Een Inleiding tot Directe Distillatie van Alignement in Taalmodellen

Zoals eerder vermeld, zijn taalmodellen de afgelopen jaren snel vooruitgegaan, van de vroege GPT-2-kaders tot de huidige GPT-4- en MiniGPT-5-LLM-kaders die, hoewel ze zeer token-uitputtend zijn, nu nauwkeuriger en efficiënter zijn. Een belangrijke highlight van deze geavanceerde LLM-kaders is dat ze een aanzienlijk grotere hoeveelheid tokens incorporeren dan de hoeveelheid tokens die eerder als computationeel optimaal werden beschouwd onder de Chinchilla-schaalwetten. Bovendien hebben ontwikkelaars en onderzoekers die werken aan LLM-kaders ontdekt dat deze kleinere LLM-kaders verder getraind kunnen worden met behulp van een propriëtaire modellen-gebaseerde dSFT-aanpak, die de uitvoer van een effectief teacher-model gebruikt als begeleidende gegevens voor het studentenmodel in een poging de nauwkeurigheid te verbeteren. De destillatie-strategie heeft zichzelf bewezen als een zeer effectief en nuttig instrument om het potentieel en de mogelijkheden van open modellen op een breed scala aan taken te maximaliseren, hoewel het nog steeds niet de prestaties kan repliceren die worden behaald door het teacher-model. Bovendien hebben gebruikers vaak gemeld dat deze modellen vaak “intentie-misalignement” vertonen, wat betekent dat de modellen niet gedragen zoals vereist door de eindgebruikers, wat leidt tot onjuiste uitvoer die niet de juiste uitvoer of antwoorden biedt op de gebruikersinvoer of vragen.

Intentie-afstemming is altijd een grote uitdaging geweest voor ontwikkelaars, met recente werken die zich richten op de ontwikkeling van benchmarks zoals AlpacaEval en MT-Bench die zijn ontwikkeld om de misalignement aan te pakken. De motivatie voor de ontwikkeling van het Zephyr-kader kan worden toegeschreven aan het probleem van het gebruik van destillatie om een klein open LLM-kader volledig af te stemmen, waarbij de primaire stap bestaat uit het gebruik van AIF of Artificial Intelligence Feedback om voorkeursgegevens te verkrijgen van een ensemble van het teacher-model, en vervolgens het toepassen van gedestilleerde voorkeursoptimalisatie rechtstreeks als het primaire leerdoel, een aanpak die wordt aangeduid als dDPO of Denoising Diffusion Policy Optimization. Het belangrijkste kenmerk van de dDPO-aanpak is dat het, in tegenstelling tot zijn voorgangers zoals PPO of Proximal Preference Optimization, geen menselijke steekproeven of annotaties vereist en ook de tijd die nodig is om een taalmodel te trainen vermindert. Bovendien staat het ontwikkelaars ook toe om de beloningen van het eindelijke monster te maximaliseren door nauwlettend toe te zien op de volgorde van de denoising-stappen van begin tot eind, met andere woorden, gedurende de gehele duur.

Ontwikkelaars hebben het Zephyr-7B-kader ontwikkeld om deze aanpak te valideren, en op sommige manieren is het een afgestemde versie van het state-of-the-art Mistral-7B-kader. Het kader gebruikt eerst dSFT of Distilled Supervised Fine-Tuning op basis van de UltraChat-dataset, en past vervolgens de dDPO of Denoising Diffusion Policy Optimization-aanpak toe op de feedbackgegevens. Experimenten geven aan dat het Zephyr-7B-kader met 7 miljard parameters resultaten levert die vergelijkbaar zijn met die van menselijke feedback-gealigneerde chat-modellen met meer dan 70 miljard parameters. Bovendien geven experimenten ook aan dat de resultaten zowel op benchmarks die conversatiecapaciteiten meenemen als op standaardacademische benchmarks kunnen worden verbeterd, en dat het gebruik van voorkeursleren cruciaal is om de gewenste resultaten te bereiken.

De bovenstaande figuur toont de prestaties van verschillende taalmodellen op de MT-bench-benchmark. Het Zephyr-7B-kader dat is getraind met de dDPO-aanpak wordt vergeleken met propriëtaire en open toegangsmodellen zoals GPT-3.5 Turbo, Llama-2-70B en meer die zijn getraind met extra versterking van het leren en ook een enorme hoeveelheid menselijke feedback bevatten. Zoals duidelijk te zien is, levert het Zephyr-7B-kader ondanks het grote verschil in het aantal parameters dat deze kaders gebruiken vergelijkbare resultaten tegen de meeste van hen en overtreft het verschillende kaders in verschillende domeinen.

Zephyr-7B: Methode, Werking en Architectuur

Het primaire doel van het Zephyr-7B-kader is om een open-source grote taalmodel zo dicht mogelijk bij de gebruikersintentie af te stemmen, en gedurende de gehele duur van het Zephyr-7B-kader wordt ervan uitgegaan dat toegang bestaat tot een groot teacher-model dat wordt bevraagd met promptgeneratie. Het Zephyr-7B-kader volgt een aanpak die vergelijkbaar is met die van het InstructGPT-kader en heeft als doel een effectief en nauwkeurig studentenmodel te genereren.

De volgende figuur toont de drie primaire stappen die zijn betrokken bij de werking van het Zephyr-7B-kader.

dSFT voor grote schaal datasetconstructie met behulp van een self-instructiestijl.
AIF-verzameling met behulp van een ensemble van voltooide chat-modellen gevolgd door voorkeursbinarisatie en scoring door GPT-4.
dPO van het dSFT-model door gebruik te maken van de feedbackgegevens.

dSFT of Distilled Supervised Fine-Tuning

Het kader begint met een ruw groot taalmodel dat eerst getraind moet worden om te reageren op gebruikersprompts. Traditioneel wordt het trainen van deze LLM-kaders om te reageren op gebruikersprompts gedaan met behulp van SFT of Supervised Fine Tuning op een dataset die bestaat uit hoge kwaliteit instructies en hun overeenkomstige antwoorden. Aangezien het Zephyr-7B-kader toegang heeft tot een teacher-taalmodel, kan het kader instructies en antwoorden genereren en het model rechtstreeks trainen op deze instructies en antwoorden, en deze aanpak wordt aangeduid als dSFT of gedestilleerde SFT. De volgende figuur toont de destillatie die wordt uitgevoerd door SFT, waarbij x een set seed-prompts vertegenwoordigt die zijn geconstrueerd met als primaire doel een diverse set van topische domeinen te vertegenwoordigen, y het sample-antwoord vertegenwoordigt dat wordt geraffineerd met behulp van een nieuwe sample-instructie vertegenwoordigd door x1 en C het eindpunt in de finale dataset vertegenwoordigt.

AI Feedback door Voorkeuren

Menselijke feedback wordt gebruikt om grote taalmodellen toe te wijzen, omdat ze de vereiste extra signalen kunnen bieden, en deze menselijke feedback wordt traditioneel verstrekt door voorkeuren voor de kwaliteit van de door de LLM-kaders gegenereerde antwoorden. Het Zephyr-kader gebruikt echter AI Feedback van het teacher-model op de uitvoer van andere modellen in plaats van menselijke feedback voor destillatiedoeleinden. De aanpak die wordt gevolgd door het Zephyr-kader is beïnvloed door die van het UltraFeedback-kader dat het teacher-model gebruikt om voorkeuren te geven voor de uitvoer van het model.

Soortgelijk aan de SFT of Supervised Fine Tuning-aanpak, begint het met een set prompts, waarbij x elk individueel prompt vertegenwoordigt dat vervolgens wordt gevoerd aan een collectie van vier modellen zoals Llama, Falcon, Claude en meer, elk met hun eigen antwoord. Deze antwoorden worden vervolgens als invoer gebruikt voor het teacher-model zoals GPT-3 of GPT-4, en het model produceert een score voor het invoerantwoord. Na het verzamelen van de uitvoerscores, slaat het model het antwoord met de hoogste score op.

dDPO of Distilled Direct Preference Optimization

dDPO is de laatste stap van het Zephyr-kader, en het primaire doel is om het dSFT-teacher-model te verfijnen door de kans te maximaliseren om het voorkeursantwoord te rangschikken in een voorkeursmodel dat wordt bepaald door een beloningsfunctie door gebruik te maken van het studententaalmodel. De vorige stap die gebruikmaakt van AI Feedback richtte zich voornamelijk op het gebruik van versterking van het lerenmethoden zoals PPO of Proximal Policy Optimization voor maximale optimalisatie met betrekking tot de gegenereerde beloning. In deze stap wordt de beloning eerst getraind en vervolgens bemonsterd uit het huidige beleid om de updates te berekenen en zo de optimalisatie te maximaliseren. DPO of Direct Preference Optimization volgt een soortgelijke aanpak om het voorkeursmodel rechtstreeks te optimaliseren met behulp van statische gegevens. Het doel na het invoegen van de beloningsfunctie in het voorkeursmodel kan worden geschreven als

Zephyr-7B: Experimenten, Benchmarks en Resultaten

Het Zephyr-kader voert zijn fine-tuning-experimenten uit op het huidige state-of-the-art Mistral-7B-kader dat vergelijkbare prestaties levert met veel grotere taalmodellen op een breed scala aan natuurlijke taalverwerkingstaken.

Datasets

Het Zephyr-kader maakt gebruik van twee dialoogdatasets die zijn gedestilleerd uit een mengsel van propriëtaire en open modellen, die eerder zijn bewezen effectief te zijn in het produceren van effectieve chat-modellen.

UltraChat

UltraChat is een self-refinement-dataset die bestaat uit ongeveer 1,5 miljoen multi-turn dialogen verspreid over 30 onderwerpen en 20 tekstmaterialen gegenereerd door het GPT-3.5-Turbo-kader. Om het probleem van onjuiste hoofdlettergebruik in de UltraChat-dataset aan te pakken, past het kader een truecasing-heuristiek toe om de grammaticale fouten te verwijderen.

UltraFeedback

UltraFeedback is een prompt-dataset met meer dan 64.000 prompts, waarvan elk vier individuele LLM-antwoorden heeft. Het Zephyr-kader gebruikt de hoogste gemiddelde score die is verkregen uit de UltraFeedback-dataset om binaire voorkeuren te construeren en één van de overige drie LLM-antwoorden wordt willekeurig afgewezen.

Evaluatie

Om de prestaties van het Zephyr-kader te evalueren, hebben ontwikkelaars gekozen voor twee chat-benchmarks, één single-turn en één multi-turn, in een poging om de mogelijkheid van het model te evalueren om gebruikersinstructies te volgen en dienovereenkomstig te reageren.

MT-Bench

De MT-Bench-evaluatiebenchmark bestaat uit 160 vragen verspreid over 8 unieke kennisgebieden, en onder de MT-Bench-benchmark moet het model een initiële vraag beantwoorden en een antwoord geven op de follow-up vraag.

AlpacaEval

AlpacaEval is een single-turn benchmark onder welke het model of het kader gebruikersantwoorden genereert voor meer dan 800 vragen verspreid over verschillende onderwerpen met als primaire focus de behulpzaamheid.

Naast deze twee primaire benchmarks wordt het Zephyr-7B-kader ook geëvalueerd op Open LLM Leaderboard voor multiclassificatie taken, ARC, HellaSwag, MMLU en meer. Bovendien, ongeacht welke benchmark het Zephyr-7B-kader wordt geëvalueerd, wordt het vergeleken met een reeks propriëtaire en open modellen, met hun aligneerprocedures als enige differentiërende factor.

Resultaten

Laten we nu eens kijken hoe het Zephyr-7B-kader presteert en zich verhoudt tot de huidige state-of-the-art taalmodellen.

Implementatie van dDPO-aanpak verhoogt Chat-mogelijkheden

De volgende tabel vergelijkt de prestaties van het Zephyr-7B-kader met state-of-the-art taalmodellen op de AlpacaEval- en MT-Bench-benchmarks.

Zoals duidelijk te zien is, presteert het Zephyr-7B-kader niet alleen aanzienlijk beter dan dSFT-modellen op de twee benchmarks, maar stelt het ook nieuwe state-of-the-art standaarden vast. Bovendien presteert het Zephyr-7B-kader ook beter dan het XWIN-LM-7B-kader, dat één van de zeldzame modellen is getraind op de dPPO of gedestilleerde PPO-aanpak. Bovendien zijn de prestaties die worden geleverd door het Zephyr-7B-kader vergelijkbaar met de resultaten die worden geleverd door veel grotere taalmodellen zoals Llama2-Chat met meer dan 70 miljard parameters.

dDPO verhoogt Academische Taakprestaties

De volgende figuur vergelijkt de prestaties van het Zephyr-7B-kader met een breed scala aan open-source en propriëtaire LLM-kaders.

Zoals te zien is, presteert het Zephyr-7B-kader aanzienlijk beter dan LLM-kaders met 7 miljard parameters, en het verschil tussen zijn prestaties en die van de beste presterende dSFT-modellen is ook opvallend. Naarmate het aantal parameters toeneemt, valt het Zephyr-7B-kader enigszins achter, hoewel het de prestaties van kaders met 40 miljard parameters bereikt.

VoorkeursOptimalisatie

In de volgende figuur evalueren we hoe de verschillende stappen die worden gevolgd in het aligneerproces de prestaties beïnvloeden. Zoals te zien is, verhoogt de dDPO-aanpak, in combinatie met dSFT, de prestaties aanzienlijk op zowel de MT-Bench- als de AlpacaEval-datasets.

Ten slotte, in de volgende figuur kunnen we de test- en trainingsnauwkeurigheid zien tijdens de DPO-implementatie. Zoals te zien is, heeft de DPO-aanpak geen invloed op de prestaties van het model op downstream taken.

Conclusie

In dit artikel hebben we het Zephyr-7B-kader besproken, dat is gebaseerd op het huidige state-of-the-art Mistral-7B-kader en dat als doel heeft om de huidige uitdaging van aligneerdestillatie van een groot taalmodel naar een veel kleinere vooraf getrainde structuur op te lossen. Het primaire doel van het kader is om ontwikkelaars in staat te stellen kleinere grote taalmodellen te produceren die dichter bij de gebruikersintentie zijn afgestemd dan ooit tevoren. Het Zephyr-7B-kader onderzoekt niet alleen de toepassing van huidige benaderingen voor grotere LLM-kaders zoals dSFT, maar onderzoekt ook de mogelijkheid om andere benaderingen te gebruiken om een chat-model te leren met betere afstemming op de gebruikersintentie.

Het Zephyr-7B-kader is echter niet perfect, en er moet nog enige werk worden gedaan. Één van de meest voor de hand liggende beperkingen is het gebruik van het GPT-4-kader om MT-Bench- en AlpacaEval-benchmarks te evalueren, die vaak zijn bevooroordeeld naar de modellen die ze destilleren. Het Zephyr-7B-kader hoopt echter een weg te banen voor het onderzoeken van de mogelijkheden van kleinere open modellen die in staat zijn om zich af te stemmen op de gebruikersintentie en interacties.