Umělá inteligence

Zephyr-7B: Hyper-optimalizovaný LLM HuggingFace postavený na Mistral 7B

aktualizováno on Listopadu 23, 2023

Úvod

Vývoj otevřených velkých jazykových modelů (LLM) významně ovlivnil výzkumnou komunitu AI, zejména při vývoji chatbotů a podobných aplikací. Po vydání modelů, jako je LLaMA, došlo k prudkému nárůstu výzkumu v oblasti efektivního jemného ladění, rozšířeného ovládání promptů, rozšířeného generování vyhledávání (RAG) a kvantizace.

Model LLaMA například znamenal novou éru v jemném ladění a rychlém kontextualizaci, čímž připravil cestu pro následující modely, jako je MPT MosaicML, RedPajama-INCITE od Together AI, Falcon od TII a Llama 2 od Meta. Každý z těchto modelů přispívá jedinečnými schopnostmi. , což zvyšuje celkovou funkčnost a rozsah LLM.

Mistral AI, startup z Paříže a založený bývalými zaměstnanci Google DeepMind a Meta, si udělal jméno svou první nabídkou: Mistral 7B.

Přednost Mistral 7B spočívá v jeho efektivitě, která poskytuje podobné nebo vylepšené schopnosti ve srovnání s obdobnými verzemi, jako je Llama 2, ale s menšími nároky na výpočetní techniku.

Mistral 7B Instruct, speciálně vyladěný pro výukové úkoly, září na platformách jako Hugging Face, kde překonává ostatní modely stejné velikosti a těsně konkuruje těm, které mají téměř dvojnásobné parametry.

Na základě toho představil Hugging Face Zephyr 7B Alpha, která ukazuje, že vyladěný Mistral 7B skutečně může překonat schopnosti výrazně větších modelů chatu a v některých úkolech dokonce i soupeřit s GPT-4. „Alfa“ byl jen začátek Zephyr 7B Beta ho za chvíli následovala.

Tento článek prozkoumá, jak Zephyr 7B využívá sílu větších modelů k vylepšení své schopnosti reagovat a sladit se s lidskými instrukcemi, což je proces umožněný technikou destilace znalostí. Tato metoda zahrnuje trénování menších modelů na komplexních vzorech, které se naučily větší modely, čímž se snižují nároky na školení, aniž by byly obětovány schopnosti jazykového modelování. Ponoříme se do specifik přístupu Hugging Face k destilaci znalostí.

Destilace znalostí

Klíčová inovace při vývoji modelů, jako je Zephyr-7b je destilované supervidované jemné doladění (dSFT). Tato metoda zahrnuje použití výstupu z většího, schopnějšího „učitelského“ modelu k trénování menšího „studentského“ modelu, čímž se zvýší jeho přesnost. Zatímco destilace zlepšuje otevřené modely na různých úkolech, stále existuje mezera ve výkonu ve srovnání s modely učitelů.

Destilace znalostí je metoda ve strojovém učení, kde kompaktní model, označovaný jako „student“ se učí replikovat výkon většího, složitějšího „učitel" Modelka. Tato technika umožňuje studentovi provádět úkoly, které byly dříve nad jeho kapacity, a to přenosem složitých vzorců, které se naučil učitel.

Destilace znalostí | Model učitel-student

Studentský model trénuje na výstupních pravděpodobnostech nebo vlastnostech generovaných modelem učitele a zaměřuje se spíše na shodu s těmito výstupy než pouze na konečné předpovědi. To umožňuje studentovi naučit se jemné rozhodovací procesy učitele, což často vede k lepšímu výkonu oproti tréninku pouze s údaji o základní pravdě.

Historicky byla destilace znalostí využívána v modelech, jako jsou původní Hintonovy destilační sítě, a nedávno v NLP s modely, jako je DistilBERT, který destiloval model BERT do menší, rychlejší verze, která si zachovává většinu schopností původního porozumění jazyku. Dalším příkladem je TinyBERT, který jde dále v optimalizaci velikosti a rychlosti pro mobilní nebo okrajová zařízení.

V případě Zephyr-7B se znalostní destilace používá k naplnění menšího modelu s parametry 7B schopnostmi jeho větších protějšků. Tím Zephyr-7B dosahuje rovnováhy mezi výkonem a efektivitou, díky čemuž je vhodný pro prostředí, kde jsou omezené výpočetní zdroje, aniž by byla obětována kvalita interakce a porozumění.

Při vývoji Zephyr-7B se výzkumníci vypořádali s výzvou sladění malého otevřeného LLM výhradně destilací. Zavedli přístup nazvaný destilovaná přímá optimalizace preferencí (dDPO), který jako data preferencí využívá zpětnou vazbu AI ze souboru modelů učitelů. Tato metoda, která nevyžaduje žádnou lidskou anotaci, výrazně snižuje čas a zdroje potřebné pro trénování modelu.

Konstrukce ZEPHYR-7B

Pro ověření dDPO výzkumníci zkonstruovali ZEPHYR-7B, zarovnanou verzi Model Mistral-7B. Proces zahrnoval tři kroky:

dSFT pomocí datové sady UltraChat:Distilled Supervised Fine-Tuning (dSFT) je pokročilá metoda pro trénování velkých jazykových modelů (LLM) využitím výstupů větších, schopnějších „učitelských“ modelů. Začíná to nezpracovaným LLM, který je trénován tak, aby reagoval na výzvy uživatelů. Na rozdíl od tradičního supervizovaného jemného ladění (SFT), které používá pevnou datovou sadu, dSFT využívá dynamický přístup, kdy model sám generuje instrukce a odpovědi. Tato metoda, známá jako sebeučení, zahrnuje použití učitelského modelu k zodpovězení a upřesňování pokynů na základě odpovědí. Proces začíná sadou počátečních výzev (x₀₁, x₀₂, …, x₀_J) představujících různá témata. Každá výzva je iterativně zpřesňována: pro danou výzvu x₀ je modelem učitele vygenerována odpověď y₀ a poté je na základě x₀ a y₀ vzorkována nová instrukce x₁. Finální datová sada C = {(x₁, y₁), …, (x_J, y_J)} se používá k doladění modelu.
Začlenění dat zpětné vazby AI z UltraFeedback:Tato data byla zásadní pro upřesnění odpovědí modelu. V tomto kroku model generuje odpovědi na různé výzvy (např. popisující, jak vyrobit čokoládové sušenky), které jsou poté hodnoceny pokročilejším modelem, jako je GPT-4. Odpověď s nejvyšším skóre (yw) a náhodně vybraná odpověď s nižším skóre (yl) tvoří zpětnovazební datovou sadu D.
Aplikace dDPO:Poslední fáze, Distilled Direct Preference Optimization (dDPO), zahrnuje upřesnění modelu dSFT maximalizací pravděpodobnosti vyššího hodnocení preferovaných odpovědí. Toho je dosaženo použitím funkce odměny rθ(x, y) v preferenčním modelu, který je založen na optimální politice LLM π* a původní politice πdSFT. Optimalizační cíl je formulován jako πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), což zjednodušuje tréninkový proces tím, že začíná s verzí modelu dSFT a prochází každou trojicí AIF.

Metoda použitá v Zephyr-7B odráží procesy používané v InstructGPT.

Je pozoruhodné, že Zephyr-7B dosahuje výkonu srovnatelného s mnohem většími modely s parametry 70B v souladu s lidskou zpětnou vazbou. Vyniká jak v akademických měřítcích, tak v konverzačních schopnostech, což zdůrazňuje efektivitu preferenčního učení při vývoji modelu. Pro další prozkoumání jsou modely, kód a pokyny k dispozici na adrese Repozitář GitHub Hugging Face.

Řešení problému se sladěním záměrů

Pozoruhodným problémem u LLM bylo jejich sladění s lidskými záměry. Předchozí modely často nedokázaly vytvořit odpovědi, které by odpovídaly preferencím uživatelů, což vedlo k nepřesným nebo irelevantním odpovědím. Nedávné benchmarky jako MT-Bench a AlpacaEval však poskytly nástroje pro kvantifikaci a zlepšení tohoto aspektu, přičemž zdůrazňují vynikající výkon proprietárních modelů trénovaných s lidskou zpětnou vazbou oproti těm trénovaným výhradně destilací.

Metody hodnocení

Hodnocení Zephyr 7B zahrnovalo přísné testování napříč benchmarky, které posuzují konverzační schopnosti modelu v kontextu jednoho i více otočení:

MT-Bench: Tento víceotáčkový benchmark vyžaduje model pro řešení 160 otázek zahrnujících osm domén. Každá odpověď je hodnocena GPT-4, přičemž konečné skóre modelu odráží průměr ze dvou kol otázek.
AlpacaEval: V tomto jednokolovém benchmarku je model prezentován s 805 otázkami z různých předmětů. Důraz je zde kladen na užitečnost modelu, přičemž GPT-4 hodnotí odpovědi, aby určil srovnatelnou míru výher.

Zephyr 7B byl navíc testován na žebříčku Open LLM Leaderboard, který sice není přímým hodnocením konverzačních dovedností, ale nabízí pohled na uvažování a pravdivost modelu po doladění.

Zephyr 7B byl porovnáván s řadou otevřených a proprietárních modelů, včetně modelů s různými velikostmi a metodami zarovnání. Stanovila nová měřítka pro modely 7B na MT-Bench a AlpacaEval a prokázala konkurenceschopný výkon proti větším modelům, čímž ověřila efektivitu optimalizace přímých preferencí (dDPO) v tréninku.

Tréninkové fáze SFT a DPO byly pečlivě nakonfigurovány, pokrývaly několik epoch a dolaďovaly rychlost učení a velikosti dávek pro optimální výkon. Konečný model Zephyr se ukázal nejen odolný vůči nadměrnému vybavení, ale také vylepšený při řešení praktických úkolů a akademických měřítek.

Datové sady a výsledky

Použité datové sady

Při vývoji Zephyr-7B byly k trénování a vylepšování modelu použity dva klíčové datové soubory, z nichž každý řeší různé aspekty generování dialogu:

Dataset UltraChat

Zdroj: Vyvinuto z dialogů generovaných GPT-3.5-TURBO.
Obsah: Obsahuje 1.47 milionu víceotáčkových dialogů napříč 30 tématy a 20 typy textového materiálu.
Zdokonalení: Soubor dat prošel heuristikou truecasing, aby se opravily gramatické problémy, a byly použity filtry, aby se zvýšila užitečnost odpovědí a odstranily se neužitečné fráze v úvodu.

Dataset UltraFeedback

Zdroj: Obsahuje výzvy hodnocené GPT-4, které hodnotily odpovědi na základě dodržování pokynů, poctivosti a vstřícnosti.
Obsah: Obsahuje 64,000 4 výzev, každá se čtyřmi odpověďmi, hodnocené GPT-XNUMX.
Binární preference: Generuje se výběrem odpovědi s nejvyšším průměrným skóre jako „vybrané“ a náhodné ze zbývajících jako „odmítnuté“, aby se zvýšila rozmanitost a zpochybnil proces přímé optimalizace preferencí (DPO).

Obě datové sady jsou zásadní pro výcvik Zephyr-7B, aby porozuměl a vytvořil lidský dialog, který následuje instrukce, je upřímný a užitečný. Tyto datové sady byly zpřístupněny na Hugging Face Hub, ke kterému máte přístup zde.

Výkon a výsledky

Níže uvedený graf ukazuje výkon Zephyr 7B v různých kategoriích úkolů oproti jiným modelům, jako jsou GPT-3.5-turbo, Claude 1, GPT-4 a Llama-2-70b-chat. Kategorie mohou zahrnovat Psaní, Humanitní vědy, Roleplay, Uvažování, STEM, Extrakce, Kódování a Matematika.

Z grafu můžeme odvodit, ve kterých doménách Zephyr 7B exceluje a které domény by mohly potřebovat další vylepšení. Pokud se například Zephyrova linie táhne dále na ose Psaní ve srovnání s ostatními, naznačuje to, že Zephyr je obzvláště silný v generování psaného obsahu. Naopak, pokud je čára blíže středu na matematické ose, může to znamenat relativní slabost v řešení matematických problémů.

Radarový graf pomáhá při identifikaci silných a slabých stránek Zephyr 7B a poskytuje vizuální reprezentaci toho, kde stojí proti větším modelům, jako je GPT-4 a specializovaným modelům, jako je Llama-2-70b-chat.

Výkonnostní radarový model modelu

Porovnání různých jazykových modelů na dvou benchmarcích: MT-Bench a AlpacaEval. Modely jsou hodnoceny na základě jejich velikosti, metody zarovnání (jako je dSFT pro destilované kontrolované jemné doladění nebo dDPO pro destilovanou přímou preferenční optimalizaci) a skóre výkonu. Zephyr vyniká vysokým skóre v obou benchmarcích, což naznačuje jeho účinnost při generování sladěných odpovědí.

MT-Bench a AlpacaEval

Proč investovat do čističky vzduchu?

Závěrem, vývoj Zephyr-7B ukazuje, že sladění a destilace konverzačních schopností z velkého jazykového modelu (LLM) na menší model lze dosáhnout bez spoléhání se na metody založené na vzorkování. Využitím přímé optimalizace preferencí (DPO) se zpětnou vazbou AI využívá Zephyr-7B silný základ Mistral-7B k nastavení nového měřítka pro modely chatu s parametry 7B a ukazuje schopnost menších modelů s otevřeným zdrojovým kódem porozumět uživatelům a reagovat na ně. záměr efektivně.

Tato studie však není bez omezení. Spoléhání se na GPT-4 jako na hodnotitele pro benchmarky zavádí zaujatost vůči modelům, které jsou z něj odvozeny, a potenciálně upřednostňují přesné odpovědi. Oblastí pro další výzkum navíc zůstává škálovatelnost této metody na větší modely, jako je LLAMA2-70B, a její dopad na zvýšení výkonu. Tato omezení zdůrazňují potřebu neustálých inovací a rozvoje nezaujatých metod hodnocení v komunitě AI.

Když se podíváme za rámec studie, je zřejmé, že potenciál menších modelů fungovat na úrovni větších protějšků může demokratizovat AI, což umožňuje přístupnější a efektivnější využití v různých aplikacích. Úspěch Zephyr-7B podporuje další zkoumání modelů s otevřeným zdrojovým kódem, které mohou urychlit pokrok v AI podporou společného výzkumu a vývoje.

Související témata:GPT LLM Mistral 7B zephyr Zephyr-7b

Nahoru Další

Fyzická omezení pohánějí vývoj AI podobné mozku

Nenechte si ujít

7 způsobů, jak call centra využívají umělou inteligenci k uvolnění času pro své agenty a zákazníky

Aayush Mittal

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.