Connect with us

Zephyr-7B : HuggingFace’s Hyper-Optimized LLM Built on Top of Mistral 7B

Umělá inteligence

Zephyr-7B : HuggingFace’s Hyper-Optimized LLM Built on Top of Mistral 7B

mm
Zypher 7B

Úvod

Evolve otevřených velkých jazykových modelů (LLM) měla významný dopad na komunitu výzkumu umělé inteligence, zejména při vývoji chatbotů a podobných aplikací. Po vydání modelů, jako je LLaMA, došlo k vzrůstu výzkumu v oblasti efektivní jemné úpravy, rozšířené zpracování podnětů, generace s podporou vyhledávání (RAG) a kvantizace.

Model LLaMA, například, označuje novou éru v jemné úpravě a kontextualizaci podnětů, vytvářející cestu pro následující modely, jako je MosaicML’s MPT, Together AI’s RedPajama-INCITE, TII’s Falcon a Meta’s Llama 2. Každý z těchto modelů přispívá jedinečnými schopnostmi, zlepšujícími celkovou funkčnost a rozsah LLM.

Mistral AI, startup z Paříže založený bývalými zaměstnanci Google DeepMind a Meta, získal jméno díky své první nabídce: Mistral 7B.

Mistral 7B vyniká svou efektivitou, poskytující podobné nebo vylepšené schopnosti ve srovnání s jeho protějšky, jako je Llama 2, ale s nižšími výpočetními nároky.

Zvláště upravený pro instruktivní úkoly, Mistral 7B Instruct vyniká na platformách, jako je Hugging Face, kde překonává ostatní modely stejné velikosti a soutěží úzce s těmi, které mají téměř dvojnásobek parametrů.

Na základě toho Hugging Face představil Zephyr 7B Alpha, demonstrující, že jemně upravený Mistral 7B může skutečně překonat schopnosti mnohem větších chatových modelů a v některých úkolech dokonce soupeřit s GPT-4. “Alpha” byl pouze začátek, protože Zephyr 7B Beta následoval brzy.

Tento článek bude prozkoumávat, jak Zephyr 7B využívá sílu větších modelů ke zlepšení své schopnosti reagovat a sladit se s lidskými instrukcemi, proces umožněný technikou destilace znalostí. Tato metoda zahrnuje školení menších modelů na komplexních vzorcích naučených většími modely, snižující požadavky na školení bez obětuje schopnosti jazykového modelování. Prozkoumáme specifika přístupu Hugging Face k destilaci znalostí.

Destilace znalostí

Klíčová inovace ve vývoji modelů, jako je Zephyr-7B, je destilovaná dohlížená jemná úprava (dSFT). Tato metoda zahrnuje použití výstupu z většího, schopnějšího “učitele” modelu pro školení menších “žáků” modelů, zlepšující jejich přesnost. Zatímco destilace zlepšuje otevřené modely v různých úkolech, mezera ve výkonu ve srovnání s učitelskými modely stále existuje.

Destilace znalostí je metoda strojového učení, kde kompaktní model, označovaný jako “žák“, je vyučován k replikaci výkonu většího, složitějšího “učitele” modelu. Tato technika umožňuje žáku provádět úkoly, které byly dříve mimo jeho kapacitu, přenosem složitých vzorců naučených učitelem.

Destilace znalostí | Učitel-žák model

Destilace znalostí | Učitel-žák model

Žák model se učí na výstupních pravděpodobnostech nebo funkcích generovaných učitelem modelem, zaměřujících se na shodu s těmito výstupy spíše než na konečná předpověď. To umožňuje žáku naučit se nuancované rozhodovací procesy učitele, často vedoucí k lepšímu výkonu než při školení pouze s ground truth daty.

Historicky byla destilace znalostí využita v modelech, jako je Hintonův původní destilační síť, a nedávno v NLP s modely, jako je DistilBERT, který destiloval model BERT do menšího, rychlejšího modelu, který zachovává většinu původních jazykových schopností porozumění. Další příklad je TinyBERT, který jde dále v optimalizaci velikosti a rychlosti pro mobilní nebo hraniční zařízení.

V případě Zephyr-7B se destilace znalostí používá k vdechnutí menších 7B parametrů modelu s schopnostmi jeho větších protějšků. Tímto způsobem Zephyr-7B dosahuje rovnováhy mezi výkonem a efektivitou, činí jej vhodným pro prostředí, kde jsou výpočetní zdroje omezené, bez oběti kvality interakce a porozumění.

Při vývoji Zephyr-7B výzkumníci řešili výzvu sladění malého otevřeného LLM zcela prostřednictvím destilace. Představili přístup nazvaný destilovaná přímá optimalizace preference (dDPO), který využívá AI zpětnou vazbu z ensemblu učitelských modelů jako preferenčních dat. Tato metoda, vyžadující žádnou lidskou anotaci, významně snižuje čas a zdroje potřebné pro školení modelu.

Konstrukce ZEPHYR-7B

Pro ověření dDPO výzkumníci konstruovali ZEPHYR-7B, sladěnou verzi modelu Mistral-7B. Proces zahrnoval tři kroky:

  1. dSFT pomocí sady UltraChat: Destilovaná dohlížená jemná úprava (dSFT) je pokročilá metoda pro školení velkých jazykových modelů (LLM) využívající výstup větších, schopnějších “učitel” modelů. Začíná se syrovým LLM, které je školené reagovat na uživatelské podněty. Na rozdíl od tradiční dohlížené jemné úpravy (SFT), která používá pevnou sadu dat, dSFT využívá dynamický přístup, kde model sám generuje instrukce a odpovědi. Tato metoda, nazývaná self-instruct, zahrnuje použití učitelského modelu pro odpovědi a jemnou úpravu instrukcí na základě odpovědí. Proces začíná sadou počátečních podnětů (x₀₁, x₀₂, …, x₀_J) reprezentujících rozmanité téma. Každý podnět je iterativně rafinován: pro daný podnět x₀ je generována odpověď y₀ učitelským modelem a poté je vybrána nová instrukce x₁ na základě x₀ a y₀. Konečná sada dat C = {(x₁, y₁), …, (x_J, y_J)} se používá pro jemnou úpravu modelu.
  2. Integrace AI zpětné vazby z UltraFeedback: Tyto údaje byly zásadní pro rafinaci odpovědí modelu. V tomto kroku model generuje odpovědi na různé podněty (jako popis, jak vyrobit čokoládové brownie), které jsou poté ohodnoceny pokročilejším modelem, jako je GPT-4. Nejvyšší skóre odpověď (yw) a náhodně vybraná nižší skóre odpověď (yl) tvoří sadu zpětné vazby D.
  3. Aplikace dDPO: Poslední fáze, destilovaná přímá optimalizace preference (dDPO), zahrnuje rafinaci dSFT modelu maximizací pravděpodobnosti hodnocení preferovaných odpovědí výše. To je dosaženo pomocí odměňovací funkce rθ(x, y) v preferenčním modelu, který je založen na optimální politice LLM π* a původní politice πdSFT. Cílem optimalizace je πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), který zjednodušuje proces školení začínajícího s dSFT verzí modelu a iterujícího přes každou trojici AIF.
Metoda používaná v Zephyr-7B odráží procesy využívané v InstructGPT.

Metoda používaná v Zephyr-7B odráží procesy využívané v InstructGPT.

Značně, Zephyr-7B dosahuje výkonu srovnatelného s mnohem většími 70B-parametrickými modely sladěnými s lidskou zpětnou vazbou. Vyniká v akademických benchmarcích a konverzačních schopnostech, zdůrazňujících účinnost preference učení ve vývoji modelu. Pro další prozkoumání jsou modely, kód a instrukce k dispozici na Hugging Face’s GitHub Repository.

Řešení výzvy sladění záměru

Značná starost s LLM byla jejich sladění se záměrem člověka. Předchozí modely často selhávaly při generování odpovědí, které odpovídaly preferencím uživatelů, vedoucí k nepřesným nebo irelevantním odpovědím. Nicméně, nedávné benchmaky, jako MT-Bench a AlpacaEval, poskytly nástroje pro kvantifikaci a zlepšení tohoto aspektu, zdůrazňující lepší výkon proprietárních modelů školených s lidskou zpětnou vazbou oproti těm, které byly školeny pouze prostřednictvím destilace.

Metody hodnocení

Hodnocení Zephyr 7B zahrnovalo přísné testování napříč benchmaky, které hodnotí konverzační schopnosti modelu v jednoduchých a víceuživatelských kontextech:

  • MT-Bench: Tento víceuživatelský benchmark vyžaduje, aby model řešil 160 otázek pokrývajících osm domén. Každá odpověď je ohodnocena GPT-4, s konečným skóre modelu odrážejícím průměr přes dvě kola otázek.
  • AlpacaEval: V tomto jednoduchém benchmarku je model prezentován 805 otázkami napříč různými tématy. Zde se zaměřuje na užitečnost modelu, s GPT-4 ohodnocujícím odpovědi pro určení srovnávacího skóre.

Navíc byl Zephyr 7B testován na Open LLM Leaderboard, který, ačkoli není přímým hodnocením konverzačních schopností, nabízí pohledy do schopností modelu v oblasti uvažování a pravdivosti po jemné úpravě.

Zephyr 7B byl srovnán s různými otevřenými a proprietárními modely, včetně těch s rozdílnými velikostmi a metodami sladění. Založil nové benchmaky pro 7B modely na MT-Bench a AlpacaEval a ukázal konkurenceschopný výkon proti větším modelům, potvrzující účinnost přímé preference optimalizace (dDPO) ve školení.

Fáze školení SFT a DPO byly pečlivě nakonfigurovány, pokrývající několik epoch a jemné úpravy rychlosti učení a velikosti dávek pro optimální výkon. Konečný Zephyr model se ukázal nejen odolný proti přeučení, ale také vylepšený v řešení praktických úkolů a akademických benchmaku.

Datasets a výsledky

Datasets využité

V rámci vývoje Zephyr-7B byly použity dvě klíčové sady dat pro školení a rafinaci modelu, každá řešící různé aspekty generování dialogu:

UltraChat Dataset

  • Zdroj: Vyvinut z dialogů generovaných GPT-3.5-TURBO.
  • Obsah: Obsahuje 1,47 milionu víceuživatelských dialogů napříč 30 tématy a 20 typy textového materiálu.
  • Rafinace: Sada dat prošla heuristickou opravou pravopisu, aby se opravily gramatické problémy, a byly aplikovány filtry pro zvýšení užitečnosti odpovědí a odstranění neužitečných úvodních frází.

UltraFeedback Dataset

  • Zdroj: Skládá se z podnětů hodnocených GPT-4, které ohodnotily odpovědi na základě následování instrukcí, upřímnosti a užitečnosti.
  • Obsah: Zahrnuje 64 000 podnětů s čtyřmi odpověďmi každý, ohodnocenými GPT-4.
  • Binární preference: Generovány výběrem odpovědi s nejvyšším průměrným skóre jako “vybrané” a náhodně vybranou z ostatních jako “odmítnuté” pro zvýšení rozmanitosti a výzvu procesu přímé preference (DPO).

Obě sady dat jsou zásadní pro školení Zephyr-7B, aby porozuměl a generoval lidsky podobný dialog, který je orientován na instrukce, upřímný a užitečný. Tyto sady dat jsou k dispozici na Hugging Face Hub, které můžete přístup zde.

Výkon a výsledky

Níže uvedený graf ilustruje výkon Zephyr 7B napříč různými kategoriemi úkolů proti jiným modelům, jako jsou GPT-3.5-turbo, Claude 1, GPT-4 a Llama-2-70b-chat. Kategorie mohou zahrnovat psaní, humanitní vědy, roleplay, uvažování, STEM, extrakci, kódování a matematiku.

Z grafu lze vyvodit, ve kterých oblastech Zephyr 7B vyniká a ve kterých oblastech může potřebovat další zlepšení. Například, pokud Zephyrův graf sahá dále na ose psaní ve srovnání s ostatními, naznačuje to, že Zephyr je zvláště silný v generování psaného obsahu. Naopak, pokud je graf blíže ke středu na ose matematiky, může to naznačovat relativní slabost v řešení matematických problémů.

Radarový graf pomáhá identifikovat silné a slabé stránky Zephyr 7B, poskytující vizuální reprezentaci, kde stojí ve srovnání s většími modely, jako je GPT-4, a specializovanými modely, jako je Llama-2-70b-chat.

 

Graf výkonu modelu

Graf výkonu modelu

Srovnání různých jazykových modelů na dvou benchmarcích: MT-Bench a AlpacaEval. Modely jsou hodnoceny na základě jejich velikosti, metody sladění (jako dSFT pro destilovanou dohlíženou jemnou úpravu nebo dDPO pro destilovanou přímou preferenční optimalizaci) a skóre výkonu. Zephyr vyniká s vysokými skóre v obou benchmarcích, ukazujících jeho účinnost v generování sladěných odpovědí.

MT-Bench a AlpacaEval

MT-Bench a AlpacaEval

Závěr

V závěru, vývoj Zephyr-7B demonstruje, že sladění a destilace konverzačních schopností z velkého jazykového modelu (LLM) na menší model lze dosáhnout bez závislosti na metodách založených na vzorkování. Používáním přímé preference optimalizace (DPO) s AI zpětnou vazbou, Zephyr-7B využívá silný základ Mistral-7B, aby stanovil nový benchmark pro 7B parametr chat modely, demonstrující schopnost menších, otevřených modelů porozumět a reagovat na uživatelské záměry účinně.

Nicméně, tato studie není bez omezení. Závislost na GPT-4 jako hodnotiteli pro benchmaky zavádí bias směrem k modelům, které jsou destilovány z něj, potenciálně favorizujících přesné odpovědi. Navíc, škálovatelnost této metody na větší modely, jako je LLAMA2-70B, a její dopad na zisky výkonu zůstávají oblastmi pro další výzkum. Tato omezení zdůrazňují potřebu kontinuální inovace a vývoje nezávislých metod hodnocení v komunitě AI.

Pohledem za studii, je zřejmé, že potenciál menších modelů pro výkon na úrovni větších protějšků může demokratizovat AI, umožňující více přístupný a efektivní použití v různých aplikacích. Úspěch Zephyr-7B podporuje další prozkoumání otevřených modelů, které mohou urychlit pokroky v AI podporou spolupráce ve výzkumu a vývoji.

Já jsem strávil posledních pět let ponořen do fascinujícího světa Machine Learning a Deep Learning. Moje vášeň a odbornost mě vedly k tomu, abych přispěl k více než 50 různým softwarovým inženýrským projektům, se zvláštním zaměřením na AI/ML. Moje pokračující zvědavost mě také táhne směrem k Natural Language Processing, oblasti, kterou jsem ochoten dále prozkoumat.