Umělá inteligence

Zephyr: Přímá destilace zarovnání v modelech jazyka

Publikováno 29. listopadu 2023

Aktualizováno 22. května 2026

Kunal Kejriwal

Schopnosti a výkon menších, otevřených velkých jazykových modelů se v posledních letech výrazně zlepšily, a jsme svědky pokroku od raných modelů GPT-2 až po kompaktnější, přesnější a účinnější rámce LLM, které využívají podstatně větší množství tokenů než „počet tokenů optimalizovaných pro výpočet“ doporučený Chinchilla scaling laws. Kromě toho vývojáři prokázali, že tyto menší rámce LLM lze dále trénovat pomocí proprietárního modelu dSFT nebo Destilované supervizované jemné úpravy, který využívá výstup z efektivní učicího modelu jako supervizovaná data pro studentův model, aby se zvýšila přesnost.

V tomto článku budeme mluvit o rámci Zephyr-7B, který je špičkovým čatovým benchmarkem pro modely s 7B parametry, který nevyžaduje lidské anotace. Hlavním cílem rámce je umožnit vývojářům vytvářet menší velké jazykové modely, které jsou zarovnány s uživatelským záměrem blíže než kdykoli předtím. Rámec Zephyr-7B nejen zkoumá aplikaci současných přístupů pro větší rámce LLM, jako je dSFT, ale také zkoumá možnost použití jiných přístupů k naučení chatovacího modelu s lepší zarovnání s uživatelským záměrem. Budeme se blíže zabývat rámcem Zephyr a prozkoumáme jeho architekturu, fungování a výsledky. Takže pojďme začít.

Zephyr-7B: Úvod do přímé destilace zarovnání v modelech jazyka

Jak bylo zmíněno dříve, jazykové modely se v posledních letech výrazně zlepšily, od raných rámců GPT-2 až po současné rámce GPT-4 a MiniGPT-5, které jsou sice vyčerpávající z hlediska tokenů, ale jsou nyní přesnější a mnohem účinnější. Hlavním rysem těchto pokročilých rámců LLM je, že zahrnují podstatně větší množství tokenů než počet tokenů, který byl dříve považován za výpočetně optimální podle Chinchilla scaling laws. Kromě toho vývojáři a výzkumníci pracující na rámcích LLM se naučili, že tyto menší rámce LLM lze dále trénovat pomocí proprietárního modelu dSFT nebo Destilované supervizované jemné úpravy, který využívá výstup z efektivní učicího modelu jako supervizovaná data pro studentův model, aby se zvýšila přesnost. Strategie destilace se prokázala jako vysoce efektivní a užitečný nástroj pro maximalizaci potenciálu a schopností otevřených modelů v širokém spektru úkolů, i když dosud nedokáže replikovat výkon učicího modelu. Kromě toho uživatelé často uvádějí, že tyto modely často zobrazují „zarovnání záměru“, což znamená, že modely se nechovají způsobem, který je zarovnán s požadavky koncových uživatelů, což vede k nesprávným výstupům, které neposkytují správné výstupy nebo odpovědi na uživatelské vstupy nebo dotazy.

Zarovnání záměru bylo vždy velkou výzvou pro vývojáře, přičemž nedávné práce se zaměřily na vývoj benchmarků, jako je AlpacaEval a MT-Bench, které byly vyvinuty pro cílení na nesoulad. Motivace pro vývoj rámce Zephyr lze připsat problému používání destilace pro zarovnání malého otevřeného rámce LLM, kde primárním krokem je využití AIF nebo Umělé inteligence zpětné vazby k získání preferenčních dat z ensemblu učicího modelu a poté aplikování destilované preferenční optimalizace přímo jako primárního učení cíle, což je přístup nazývaný dDPO nebo Destilovaná přímá preferenční optimalizace. Hlavním rysem přístupu dDPO je, že na rozdíl od svých předchůdců, jako je PPO nebo Proximální preferenční optimalizace, nevyžaduje lidské vzorkování nebo anotace a také snižuje čas potřebný pro trénování jazykového modelu. Kromě toho také umožňuje vývojářům maximalizovat odměny konečného vzorku, tím, že se zaměřují na sekvenci odšumění kroků od začátku do konce, tj. po celou dobu.

Vývojáři vyvinuli rámec Zephyr-7B, aby ověřili tento přístup, a v některých ohledech je to zarovnaná verze špičkového Mistral-7B rámce. Rámec nejprve využívá dSFT nebo Destilovanou supervizovanou jemnou úpravu založenou na datové sadě UltraChat a poté aplikuje přístup dDPO nebo Destilovanou přímou preferenční optimalizaci na zpětnou vazbu dat. Experimenty ukazují, že rámec Zephyr-7B s 7 miliardami parametrů poskytuje výsledky srovnatelné s výsledky dodávanými lidsky zarovnanými chatovacími modely s více než 70 miliardami parametrů. Kromě toho experimenty také ukazují, že výsledky lze zlepšit jak z hlediska benchmarků, které zohledňují konverzační schopnosti, tak z hlediska standardních akademických benchmarků, a že použití preferenčního učení je kritické pro dosažení požadovaných výsledků.

Následující obrázek demonstruje výkon různých jazykových modelů na benchmarku MT-bench. Rámec Zephyr-7B, který je trénován pomocí přístupu dDPO, je porovnán s proprietárními i otevřenými většími jazykovými modely, jako je GPT-3.5 turbo, Llama-2-70B a další, které byly trénovány pomocí dalšího učení s posílením a také zahrnovaly大量 lidské zpětné vazby. Jak je zřejmé, rámec Zephyr-7B poskytuje srovnatelné výsledky s většinou z nich a překonává několik rámců v různých doménách.

Zephyr-7B: Metoda, fungování a architektura

Hlavním cílem rámce Zephyr-7B je pomoci otevřenému velkému jazykovému modelu zarovnat se co nejblíže s uživatelským záměrem a po celou dobu existence. Rámec Zephyr-7B předpokládá přístup podobný tomu, který je použit v rámci InstructGPT, a cílem je vygenerovat efektivní a přesný studentův model.

Následující obrázek stručně demonstruje tři primární kroky zapojené do fungování rámce Zephyr-7B.

dSFT pro velkoobjemovou konstrukci datové sady pomocí samo-instrukční metody.
AIF sběr pomocí ensemblu dokončovacích chatovacích modelů následovaný preferenční binarizací a skórováním pomocí GPT-4.
dPO modelu dSFT pomocí zpětné vazby dat.

dSFT nebo Destilovaná supervizovaná jemná úprava

Rámec začíná s hrubým velkým jazykovým modelem, který nejprve potřebuje být trénován, aby reagoval na uživatelské podněty. Tradičně se tyto modely LLM trénují pomocí SFT nebo Supervizované jemné úpravy na datové sadě s vysokou kvalitou instrukcí a jejich odpovídajících odpovědí. Jelikož rámec Zephyr-7B má přístup k učicímu modelu, může rámec vygenerovat instrukce a odpovědi a trénovat model přímo na těchto instrukcích a odpovědích, a tento přístup je znám jako dSFT nebo Destilovaná SFT. Následující obrázek demonstruje destilaci provedenou SFT, kde x reprezentuje sadu počátečních podnětů konstruovaných s primárním účelem reprezentovat různorodou sadu topických domén, y reprezentuje vzorovou odpověď, která je rafinována pomocí nové vzorové instrukce reprezentované x1 a C reprezentuje koncový bod ve finální datové sadě.

AI zpětná vazba prostřednictvím preferencí

Lidská zpětná vazba se používá k přiřazování velkých jazykových modelů, protože mohou poskytnout požadované dodatečné signály, a tyto lidské zpětné vazby se tradičně poskytují prostřednictvím preferencí na kvalitu odpovědí generovaných modely LLM. Nicméně, rámec Zephyr využívá AI zpětnou vazbu z učicího modelu na výstupy jiných modelů místo lidské zpětné vazby pro účely destilace. Přístup použitý rámcem Zephyr je ovlivněn tím, který je použit v rámci UltraFeedback, který využívá učicí model k poskytování preferencí na výstupy modelu.

Podobně jako přístup SFT nebo Supervizované jemné úpravy, začíná s sadou podnětů, kde x reprezentuje každý jednotlivý podnět, který je poté zaveden do kolekce čtyř modelů, jako je Llama, Falcon, Claude a další, z nichž každý generuje svou vlastní odpověď. Tyto odpovědi jsou poté zavedeny jako vstup do učicího modelu, jako je GPT-3 nebo GPT-4, a model vyprodukuje skóre pro vstupní odpověď. Po shromáždění výstupních skórů model uloží odpověď s nejvyšším skóre.

dDPO nebo Destilovaná přímá preferenční optimalizace

dDPO je konečným krokem rámce Zephyr, a jeho primárním cílem je rafinovat model dSFT učicího modelu tak, aby maximalizoval pravděpodobnost zarovnání preferované odpovědi v preferenčním modelu, který je určen odměňujícím funkcí, tím, že využívá studentův jazykový model. Předchozí krok zahrnující použití AI zpětné vazby se zaměřil primárně na použití metod učení s posílením, jako je PPO nebo Proximální preferenční optimalizace, pro maximální optimalizaci s ohledem na odměnu generovanou. V tomto kroku je odměna nejprve trénována a poté vzorkována z aktuální politiky pro výpočet aktualizací, a tím maximalizuje optimalizaci. DPO nebo Přímá preferenční optimalizace sleduje podobný přístup k optimalizaci preferenčního modelu přímo pomocí statických dat. Cíl po vložení odměňující funkce do preferenčního modelu lze napsat

Zephyr-7B: Experimenty, benchmarky a výsledky

Rámec Zephyr provádí své experimenty s jemnou úpravou na současném špičkovém rámci Mistral-7B, který poskytuje srovnatelný výkon s mnohem většími jazykovými modely v širokém spektru úkolů zpracování přirozeného jazyka nebo NLP.

Datové sady

Rámec Zephyr využívá dvě datové sady dialogů, které byly destilovány z mixu proprietárních a otevřených modelů, které se v minulosti prokázaly jako efektivní pro produkci efektivní chatovací modely.

UltraChat

UltraChat je samo-úpravná datová sada, která se skládá z téměř 1,5 milionu multi-obrátkových dialogů rozložených na 30 témat a 20 textových materiálů generovaných rámcem GPT-3.5-Turbo. Pro řešení problému nesprávného velkého písmena v datové sadě UltraChat se rámec aplikuje truecasing heuristiky, aby se zbavil gramatických chyb.

UltraFeedback

UltraFeedback je datová sada podnětů s více než 64 000 podněty, z nichž každý má čtyři jednotlivé odpovědi LLM. Rámec Zephyr využívá nejvyšší střední skóre získané z datové sady UltraFeedback k konstrukci binárních preferencí a jedné z zbývajících tří odpovědí LLM je odmítnuta jako náhodná.

Hodnocení

Pro hodnocení výkonu rámce Zephyr se vývojáři rozhodli pro dva chatovací benchmarky, jeden jednoduchý a jeden multi-obrátkový, v pokusu o hodnocení schopnosti modelu následovat uživatelské instrukce a reagovat odpovídajícím způsobem.

MT-Bench

Benchmark MT-Bench se skládá z 160 otázek rozložených na 8 unikátních znalostních oblastí, a v rámci benchmarku MT-Bench musí model odpovědět na počáteční otázku a poskytnout odpověď na následnou otázku.

AlpacaEval

AlpacaEval je jednoduchý benchmark, pod kterým model nebo rámec generuje uživatelské odpovědi na více než 800 otázek rozložených na různé téma s primárním zaměřením na užitečnost.

Kromě těchto dvou primárních benchmarků je rámec Zephyr-7B také hodnocen na Open LLM Leaderboard pro multiclass klasifikační úkoly, ARC, HellaSwag, MMLU a další. Kromě toho, bez ohledu na to, jaký benchmark je rámec Zephyr-7B hodnocen, je porovnán s řadou proprietárních a otevřených modelů, s jejich zarovnávacími postupy jako jediným rozlišujícím faktorem.

Výsledky

Teď se podívejme, jak rámec Zephyr-7B funguje a porovnává se současnými špičkovými jazykovými modely.

Implementace přístupu dDPO zvyšuje chatovací schopnosti

Následující tabulka porovnává výkon rámce Zephyr-7B proti špičkovým jazykovým modelům na benchmarcích AlpacaEval a MT-Bench.

Jak je zřejmé, když je porovnán s otevřenými modely 7B, rámec Zephyr-7B nejen výrazně překonává modely dSFT napříč dvěma benchmaruky, ale také stanoví nové špičkové standardy. Kromě toho rámec Zephyr-7B také překonává rámec XWIN-LM-7B, který je jedním z mála modelů trénovaných pomocí přístupu dPPO nebo Destilované PPO. Kromě toho výkon dodávaný rámcem Zephyr-7B je srovnatelný s výsledky dodávanými mnohem většími jazykovými modely, jako je Llama2-Chat s více než 70 miliardami parametrů.

dDPO zvyšuje akademické úkoly

Následující obrázek porovnává výkon rámce Zephyr-7B proti širokému spektru otevřených a proprietárních rámců LLM.

Jak je zřejmé, rámec Zephyr-7B výrazně překonává modely LLM s 7 miliardami parametrů a mezera mezi jeho výkonem a tím, který je dodáván nejlepšími modely dSFT, je také znatelná. Jakmile se počet parametrů zvyšuje, rámec Zephyr-7B sice pokulhává, ale odpovídá výkonu dodávanému rámci s 40 miliardami parametrů.

Preferenční optimalizace

V následujícím obrázku vyhodnocujeme, jak různé kroky zapojené do zarovnání procesu ovlivňují výkon. Jak je zřejmé, přístup dDPO, když je kombinován s dSFT, výrazně zvyšuje výkon na obou datech MT-Bench a AlpacaEval.

Nakonec, v následujícím obrázku můžeme vidět testovací a trénovací přesnost během implementace DPO. Jak je zřejmé, přístup DPO neovlivňuje výkon modelu na downstream úkolech.

Závěr

V tomto článku jsme mluvili o rámci Zephyr-7B založeném na současném špičkovém rámci Mistral-7B, který cílem je vyřešit současnou výzvu zarovnání destilace z velkého jazykového modelu do mnohem menšího předtrénovaného rámce. Hlavním cílem rámce je umožnit vývojářům vytvářet menší velké jazykové modely, které jsou zarovnány s uživatelským záměrem blíže než kdykoli předtím. Rámec Zephyr-7B nejen zkoumá aplikaci současných přístupů pro větší rámce LLM, jako je dSFT, ale také zkoumá možnost použití jiných přístupů k naučení chatovacího modelu s lepší zarovnání s uživatelským záměrem.

Nicméně, navzdory slibným výsledkům, rámec Zephyr-7B není dokonalý a stále je třeba udělat一些 práce. Jednou z zjevných limitací je použití rámce GPT-4 pro hodnocení benchmarků MT-Bench a AlpacaEval, které bylo často zkresleno směrem k modelům, které destiluje sám. Nicméně, rámec Zephyr-7B doufá, že bude moci prozkoumat možnosti menších otevřených modelů, které jsou schopny zarovnat se s uživatelským záměrem a interakcemi.