Kunstig intelligens

Zephyr: Direkte destillasjon av LLM Alignment

Publisert November 29, 2023

Kunal Kejriwal

Evnen og ytelsen til mindre, åpne store språkmodeller har utviklet seg betydelig de siste årene, og vi har sett fremgangen fra tidlige GPT-2-modeller til mer kompakte, nøyaktige og effektive LLM-rammeverk som bruker en betydelig større mengde tokens at "beregningsoptimal” mengde tokens anbefalt av Chinchilla-skaleringslovene. Videre har utviklere vist at disse mindre LLM-rammeverkene kan trenes videre ved å bruke en proprietær modellbasert dSFT eller destillert overvåket finjustering tilnærming, som bruker utdata fra en effektiv lærermodell som veiledet data for elevmodellen i et forsøk på å øke nøyaktigheten.

I denne artikkelen skal vi snakke om Zephyr-7B-rammeverket, en toppmoderne chat-benchmark for 7B-parametermodeller som ikke krever menneskelige kommentarer. Hovedmålet med rammeverket er å gjøre det mulig for utviklere å produsere mindre store språkmodeller som er tilpasset brukerens hensikt nærmere enn noen gang før. Zephyr-7B-rammeverket undersøker ikke bare bruken av nåværende tilnærminger for større LLM-rammeverk som dSFT, men utforsker også muligheten for å bruke andre tilnærminger for å lære en chat-modell med bedre overensstemmelse med brukerens hensikt. Vi vil ta et dypere dykk inn i Zephyr-rammeverket, og utforske dets arkitektur, virkemåte og resultater. Så la oss komme i gang.

Zephyr-7B: En introduksjon til direkte destillasjon av justering i språkmodeller

Som nevnt tidligere har språkmodeller utviklet seg raskt de siste årene, fra de tidligere GPT-2-rammeverkene til nåværende GPT-4 og miniGPT-5 LLM-rammeverk som selv om de er svært token-uttømmende, nå er mer nøyaktige og mye mer effektive. Et stort høydepunkt ved disse avanserte LLM-rammeverkene er at de inneholder en betydelig høyere mengde tokens enn antallet tokens som tidligere ble ansett for å være beregningsmessig optimale under Chinchilla-skaleringslover. Videre har utviklere og forskere som jobber med LLM-rammeverk lært at disse mindre LLM-rammeverkene kan trenes videre ved hjelp av en proprietære modeller basert dSFT eller Distillered Supervised Fine-Tuning-tilnærming, som bruker utdata fra en effektiv lærermodell som overvåket data for elevmodellen i et forsøk på å øke nøyaktigheten. Destillasjonsstrategien har vist seg å være et svært effektivt og nyttig verktøy for å maksimere potensialet og evnene til åpne modeller på et bredt spekter av oppgaver, selv om den ennå ikke kan gjenskape ytelsen oppnådd av lærermodellen. I tillegg har brukere ofte rapportert at disse modellene ofte vises "hensiktsfeil", som betyr at modellene ikke oppfører seg på en måte som stemmer overens med kravene til sluttbrukerne, noe som fører til feil utdata som ikke gir riktig utgang eller svar på brukerinndata eller forespørsler.

Intensjonsjustering har alltid vært en stor utfordring for utviklere med nyere arbeider med fokus på utvikling av benchmarks som AlpacaEval og MT-benk utviklet for å målrette feiljusteringen. Motivasjonen for å utvikle Zephyr-rammeverket kan krediteres problemet med å bruke destillasjon for å justere et lite åpent LLM-rammeverk helt der det primære trinnet er å bruke en AIF eller Artificial Intelligence Feedback å hente preferansedata fra et ensemble av lærermodellen, og deretter bruke destillert preferanseoptimalisering direkte som det primære læringsmålet, en tilnærming som refereres til som dDPO eller Denoising Diffusion Policy Optimization. Hovedhøydepunktet i dDPO-tilnærmingen er at i motsetning til forgjengerne liker PPO eller proksimal preferanseoptimalisering, det krever ikke menneskelig prøvetaking eller merknader, og reduserer også tiden det tar å trene en språkmodell. Videre lar det utviklere maksimere belønningene til den endelige prøven ved å følge nøye med på rekkefølgen av denoising-trinnene helt fra begynnelsen til slutten, med andre ord gjennom hele dens helhet.

Utviklere har utviklet Zephyr-7B-rammeverket for å validere denne tilnærmingen, og på noen måter er det en justert versjon av det nyeste Mistral-7B rammeverk. Rammeverket bruker først dSFT eller Distillered Supervised Fine-Tuning basert på UltraChat-datasettet, og bruker dDPO eller Denoising kringkasting Tilnærming til policyoptimalisering av tilbakemeldingsdata. Eksperimenter indikerer at Zephyr-7B-rammeverket med 7 milliarder parametere leverer resultater som er sammenlignbare med det som leveres av chat-modeller som er tilpasset menneskelige tilbakemeldinger med over 70 milliarder parametere. Videre indikerer eksperimenter også at resultater kan forbedres både når det gjelder benchmarks som tar hensyn til samtaleevner, samt standard akademiske benchmarks, og bruk av preferanselæring er avgjørende for å oppnå ønskede resultater.

Figuren ovenfor viser ytelsen til ulike språkmodeller på MT-bench-benchmark. Zephyr-7B-rammeverket som er trent ved hjelp av dDPO-tilnærmingen, er satt opp mot proprietære så vel som åpen tilgang, større språkmodeller som GPT-3.5 turbo, Llama-2-70B og mer som ble trent ved hjelp av ekstra forsterkende læring, og inkluderte også en enorm mengde menneskelig tilbakemelding. Som det tydelig kan sees at til tross for den store forskjellen i antall parametere som disse rammeverkene bruker, leverer Zephyr-7B-rammeverket sammenlignbare resultater mot de fleste av dem, og utkonkurrerer flere rammeverk på forskjellige domener.

Zephyr-7B: Metode, arbeid og arkitektur

Det primære målet med Zephyr-7B-rammeverket er å hjelpe en åpen kildekode stor språkmodell justere så nært som mulig til brukerintensjonen, og gjennom hele sin helhet antar Zephyr-7B-rammeverket tilgang til en stor lærermodell som spørres ved hjelp av prompt generering. Zephyr-7B følger en tilnærming som ligner på den som brukes i InstructGPT-rammeverket, og har som mål å generere en effektiv og nøyaktig studentmodell.

Følgende figur viser kort de tre primære trinnene som er involvert i arbeidet med Zephyr-7B-rammeverket.

dSFT for storskala datasettkonstruksjon ved bruk av en selvinstruksjonsstil.
AIF-samling ved hjelp av et ensemble av fullførte chattemodeller etterfulgt av preferansebinarisering og scoring etter GPT-4.
dPO for dSFT-modellen ved å bruke tilbakemeldingsdataene.

dSFT eller destillert overvåket finjustering

Rammeverket starter med en rå Large Language Model som først må trenes opp til å svare på brukerforespørsler. Tradisjonelt trener disse LLM-rammeverkene til å svare på brukerforespørsler ved å bruke SFT eller Supervised Fine Tuning på et datasett som består av instruksjoner av høy kvalitet, og deres tilsvarende svar. Siden Zephyr-7B-rammeverket har tilgang til en lærerspråkmodell, kan rammeverket generere instruksjoner og svar, og trene modellen direkte på disse instruksjonene og svarene, og denne tilnærmingen er kjent som dSFT eller destillert SFT. Følgende figur viser destillasjonen utført av SFT der x representerer et sett med frømeldinger konstruert med det primære formålet å representere et mangfoldig sett med aktuelle domener, y representerer prøveresponsen, som er raffinert ved hjelp av en ny prøveinstruksjon representert av x1 og C representerer endepunktet i det endelige datasettet.

AI-tilbakemelding gjennom preferanser

Menneskelig tilbakemelding brukes til å tilordne store språkmodeller da de kan gi de nødvendige tilleggssignalene, og disse menneskelige tilbakemeldingene er tradisjonelt gitt gjennom preferanser for kvaliteten på svarene generert av LLM-rammeverket. Zephyr-rammeverket bruker imidlertid AI-tilbakemelding fra lærermodellen på andre modellers genererte utdata i stedet for menneskelig tilbakemelding for destillasjonsformål. Tilnærmingen som følges av Zephyr-rammeverket er påvirket av den som brukes av UltraFeedback-rammeverket som bruker lærermodellen til å gi preferanser på utdataene til modellen.

I likhet med SFT- eller Supervised Fine Tuning-tilnærmingen starter den med et sett med meldinger, der x representerer hver enkelt melding som deretter mates til en samling av fire modeller som Llama, Falcon, Claude og flere, som hver genererer et svar av sine egne. Disse svarene blir deretter matet som et input til lærermodellen som GPT-3 eller GPT-4, og modellen gir en poengsum for input-responsen. Etter å ha samlet inn resultatene, lagrer modellen svaret med høyest poengsum.

dDPO eller destillert direkte preferanseoptimalisering

dDPO er det siste trinnet i Zephyr-rammeverket, og dets primære mål er å avgrense dSFT-lærermodellen ved å maksimere sannsynligheten for å rangere den foretrukne responsen i en preferansemodell som bestemmes av en belønningsfunksjon ved å bruke elevspråkmodellen. Det forrige trinnet som involverte bruk av AI-tilbakemeldinger fokuserte først og fremst på bruk av forsterkningslæringsmetoder som PPO eller Proximal Policy Optimization for maksimal optimalisering med hensyn til belønningen som genereres. I dette trinnet blir belønningen først trent, og deretter samplet fra gjeldende policy for å beregne oppdateringene, og dermed maksimere optimaliseringen. DPO eller Direct Preference Optimization følger en lignende tilnærming for å optimalisere preferansemodellen direkte ved å bruke statiske data. Målet etter å ha plugget belønningsfunksjonen inn i preferansemodellen kan skrives som

Zephyr-7B: Eksperimenter, benchmarks og resultater

Zephyr-rammeverket utfører sine finjusteringseksperimenter på det nåværende moderne Mistral-7B-rammeverket som leverer sammenlignbar ytelse med mye større språkmodeller på et bredt spekter av naturlig språkbehandling eller NLP-oppgaver.

datasett

Zephyr-rammeverket bruker to dialogdatasett som er destillert fra en blanding av proprietære og åpne modeller, som tidligere har vist seg å være effektive i å produsere effektive chat-modeller.

UltraChat

UltraChat er et selvforbedringsdatasett som består av nesten 1.5 millioner flersvingsdialoger fordelt på 30 emner, og 20 tekstmaterialer generert av GPT-3.5-Turbo-rammeverket. For å takle problemet med feil bruk av store bokstaver som UltraChat-datasettet står overfor, bruker rammeverket en heuristisk tilnærming med truecasing for å bli kvitt de grammatiske feilene.

UltraFeedback

UltraFeedback er et spørredatasett med over 64 XNUMX forespørsler, der hver av disse ledetekstene har fire individuelle LLM-svar. Zephyr-rammeverket bruker den høyeste gjennomsnittlige poengsummen oppnådd fra UltraFeedback-datasettet for å konstruere binære preferanser, og en av de resterende tre LLM-svarene blir avvist som tilfeldig.

Evaluering

For å evaluere ytelsen til Zephyr-rammeverket har utviklere valgt to chat-benchmarks, en single-turn og en multi-turn, i et forsøk på å evaluere modellens evne til å følge brukerinstruksjoner og svare deretter.

MT-benk

MT-Bench-evalueringsbenchmark består av 160 spørsmål fordelt på 8 unike kunnskapsområder, og under MT-Bench-benchmark skal modellen svare på et innledende spørsmål, og gi svar på oppfølgingsspørsmålet.

AlpakkaEval

AlpacaEval er et benchmark med én sving der modellen eller rammeverket genererer brukersvar på over 800 spørsmål fordelt på ulike emner med hovedfokus på hjelpsomhet.

I tillegg til disse to primære referansene, blir Zephyr-7B-rammeverket også evaluert på Open LLM Leaderboard for klassifiseringsoppgaver i flere klasse, ARC, HellaSwag, MMLU og mer. Videre, uavhengig av hvilken benchmark Zephyr-7B-rammeverket er evaluert på, sammenlignes det med en rekke proprietære og åpne modeller, med deres justeringsprosedyrer som den eneste differensierende faktoren.

Resultater

La oss nå se på hvordan Zephyr-7B-rammeverket presterer, og sammenligner med dagens toppmoderne språkmodeller.

Implementering av dDPO-tilnærmingen øker chattemulighetene

Tabellen nedenfor sammenligner ytelsen til Zephyr-7B-rammeverket med toppmoderne språkmodeller på AlpacaEval- og MT-bench-benchmarks.

Som det tydelig kan sees, sett mot åpne 7B-modeller, overgår Zephyr-7B-rammeverket ikke bare dSFT-modeller betydelig på tvers av de to standardene, men setter også nye toppmoderne standarder. Videre klarer Zephyr-7B-rammeverket også å overgå XWIN-LM-7B-rammeverket, som er en av de sjeldne modellene som er trent på dPPO- eller destillert PPO-tilnærmingen. Videre er ytelsen levert av Zephyr-7B-rammeverket sammenlignbar med resultatene levert av mye større språkmodeller som Llama2-Chat med over 70B parametere.

dDPO øker akademisk oppgaveytelse

Følgende figur sammenligner ytelsen til Zephyr-7B-rammeverket med et bredt spekter av åpen kildekode og proprietære LLM-rammeverk.

Som det kan sees, overgår Zephyr-7B-rammeverket betydelig LLM-rammeverk med 7B-parametere, og gapet mellom ytelsen og den som leveres av de best presterende dSFT-modellene er også merkbar. Ettersom antallet parametere øker, kommer Zephyr-7B-rammeverket til kort, selv om det matcher ytelsen levert av rammeverk med 40 milliarder parametere.

Preferanseoptimalisering

I den følgende figuren evaluerer vi hvordan de forskjellige trinnene som følges i innrettingsprosessen påvirker ytelsen. Som det kan observeres, øker dDPO-tilnærmingen når den kombineres med dSFT ytelsen på både MT-Bench- og AlpacaEval-datasettene betydelig.

Til slutt, i den følgende figuren kan vi se test- og opplæringsnøyaktighetene under implementeringen av DPO. Som det kan sees, påvirker ikke DPO-tilnærmingen ytelsen til modellen på nedstrømsoppgaver.

Konklusjon

I denne artikkelen har vi snakket om Zephyr-7B-rammeverket basert på det nåværende moderne Mistral-7B-rammeverket som tar sikte på å løse den nåværende utfordringen med alignment-destillasjon fra en stor språkmodell til et mye mindre forhåndstrent rammeverk. Hovedmålet med rammeverket er å gjøre det mulig for utviklere å produsere mindre store språkmodeller som er tilpasset brukerens hensikt nærmere enn noen gang før. Zephyr-7B-rammeverket undersøker ikke bare bruken av gjeldende tilnærminger for større LLM-rammeverk som dSFT, men utforsker også muligheten for å bruke andre tilnærminger for å lære en chat-modell med bedre tilpasning til brukerens hensikt.

Til tross for de lovende resultatene, er Zephyr-7B-rammeverket imidlertid ikke perfekt, og noe arbeid må fortsatt gjøres. En av de åpenbare begrensningene er å bruke GPT-4-rammeverket for å evaluere MT-Bench og AlpacaEval benchmarks, som ofte har vært partisk mot modellene den destillerer selv. Zephyr-7B-rammeverket håper imidlertid å finne en måte å utforske mulighetene til mindre åpne modeller som er i stand til å tilpasse seg brukerens intensjoner og interaksjoner.

Relaterte temaer:

Neste

Stabil videodiffusjon: latente videodiffusjonsmodeller til store datasett

Ikke gå glipp av

Amazon kunngjør «Amazon Q», selskapets generative AI-assistent