Sztuczna inteligencja

Zephyr-7B: HuggingFace’s Hyper-Optimized LLM Built on Top of Mistral 7B

Published November 23, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Wstęp

Ewolucja otwartych dużych modeli językowych (LLM) znacznie wpłynęła na społeczność badawczą AI, szczególnie w tworzeniu chatbotów i podobnych aplikacji. Po wydaniu modeli takich jak LLaMA, nastąpił wzrost badań nad wydajnym dostrajaniem, rozszerzonym przetwarzaniem promtu, generacją wspomaganej przez odzyskiwanie (RAG) i kwantyzacją.

Model LLaMA, na przykład, zapoczątkował nową erę w dostrajaniu i kontekstualizacji promtu, otwierając drogę dla następnych modeli, takich jak MPT od MosaicML, RedPajama-INCITE od Together AI, Falcon od TII i Llama 2 od Meta. Każdy z tych modeli wnosi unikalne możliwości, rozszerzając ogólną funkcjonalność i zakres LLM.

Mistral AI, startup z Paryża założony przez byłych pracowników Google DeepMind i Meta, zrobił sobie nazwę dzięki swojej pierwszej ofercie: Mistral 7B.

Mistral 7B wyróżnia się wydajnością, dostarczając podobne lub lepsze możliwości w porównaniu z rówieśnikami, takimi jak Llama 2, ale z mniejszym zapotrzebowaniem obliczeniowym.

Szczególnie dostosowany do zadań instruktażowych, Mistral 7B Instruct wyróżnia się na platformach takich jak Hugging Face, gdzie przewyższa inne modele o tej samej wielkości i rywalizuje z tymi, które mają prawie dwa razy więcej parametrów.

W oparciu o to, Hugging Face wprowadził Zephyr 7B Alpha, pokazując, że dostrajany Mistral 7B może rzeczywiście przewyższyć możliwości znacznie większych modeli chat i, w niektórych zadaniach, nawet rywalizować z GPT-4. “Alpha” był tylko początkiem, gdyż Zephyr 7B Beta nastąpił krótko po nim.

Ten artykuł będzie badał, jak Zephyr 7B wykorzystuje moc większych modeli, aby udoskonalić swoją zdolność do odpowiedzi i wyrównania z ludzkimi instrukcjami, proces możliwy dzięki technice destylacji wiedzy. Ta metoda polega na szkoleniu mniejszych modeli na złożonych wzorach nauczonych przez większe, redukując wymagania szkoleniowe bez poświęcania możliwości modelowania języka. Będziemy się zagłębiać w szczegóły podejścia Hugging Face do destylacji wiedzy.

Destylacja wiedzy

Kluczowa innowacja w tworzeniu modeli takich jak Zephyr-7B jest destylowana nadzorowana regulacja (dSFT). Ta metoda polega na wykorzystaniu danych wyjściowych z większego, bardziej zdolnego “nauczyciela” modelu do szkolenia mniejszego “ucznia” modelu, zwiększając jego dokładność. Chociaż destylacja poprawia otwarte modele w różnych zadaniach, nadal istnieje luka w wydajności w porównaniu z modelami nauczycieli.

Destylacja wiedzy jest metodą w uczeniu maszynowym, w której kompaktowy model, określany jako “uczeń”, jest nauczany do replikowania wydajności większego, bardziej złożonego “nauczyciela” modelu. Ta technika umożliwia uczniowi wykonywanie zadań, które wcześniej były poza jego możliwościami, przenosząc złożone wzory nauczone przez nauczyciela.

Destylacja wiedzy | Model nauczyciel-uczeń

Model ucznia trenuje się na danych wyjściowych lub cechach wygenerowanych przez model nauczyciela, koncentrując się na dopasowaniu tych danych wyjściowych, a nie tylko ostatecznych predykcji. To pozwala uczniowi nauczyć się subtelnych procesów decyzyjnych nauczyciela, często wynikających w poprawionej wydajności nad treningiem z wykorzystaniem tylko danych podstawowych.

Historycznie destylacja wiedzy była wykorzystywana w modelach takich jak oryginalne sieci destylacji Hintona, a ostatnio w NLP z modelami takimi jak DistilBERT, który destyluje model BERT w mniejszą, szybszą wersję, która zachowuje większość oryginalnych możliwości zrozumienia języka. Innym przykładem jest TinyBERT, który idzie dalej w optymalizacji rozmiaru i szybkości dla urządzeń mobilnych lub krawędzi.

W przypadku Zephyr-7B destylacja wiedzy jest wykorzystywana do nadania mniejszemu modelowi 7B parametrów możliwości większych odpowiedników. Dzięki temu Zephyr-7B osiąga balans pomiędzy wydajnością a efektywnością, czyniąc go odpowiednim dla środowisk, w których zasoby obliczeniowe są ograniczone, bez poświęcania jakości interakcji i zrozumienia.

Podczas tworzenia Zephyr-7B, badacze zajęli się wyzwaniem wyrównania małego otwartego LLM całkowicie przez destylację. Wprowadzili podejście związane z destylowaną bezpośrednią optymalizacją preferencji (dDPO), które wykorzystuje AI Feedback z ensemble modeli nauczycieli jako dane preferencji. Ta metoda, nie wymagająca adnotacji ludzkich, znacznie redukuje czas i zasoby potrzebne do szkolenia modelu.

Budowanie ZEPHYR-7B

Aby zwalidować dDPO, badacze zbudowali ZEPHYR-7B, wersję wyrównaną modelu Mistral-7B. Proces obejmował trzy etapy:

dSFT z wykorzystaniem zestawu danych UltraChat: Destylowana nadzorowana regulacja (dSFT) jest zaawansowaną metodą szkolenia dużych modeli językowych (LLM) z wykorzystaniem danych wyjściowych z większych, bardziej zdolnych “nauczycieli” modeli. Rozpoczyna się od surowego LLM, które jest trenowane do odpowiedzi na prompty użytkownika. W przeciwieństwie do tradycyjnej nadzorowanej regulacji (SFT), która wykorzystuje zestaw danych stałych, dSFT zatrudnia dynamiczne podejście, w którym sam model generuje instrukcje i odpowiedzi. Ta metoda, znana jako self-instruct, obejmuje wykorzystanie modelu nauczyciela do odpowiedzi i ulepszania instrukcji na podstawie odpowiedzi. Proces rozpoczyna się od zestawu seed promptów (x₀₁, x₀₂, …, x₀_J) reprezentujących różnorodne tematy. Każdy prompt jest ulepszany iteracyjnie: dla danego promtu x₀, odpowiedź y₀ jest generowana przez model nauczyciela, a następnie nowa instrukcja x₁ jest pobierana na podstawie x₀ i y₀. Ostateczny zestaw danych C = {(x₁, y₁), …, (x_J, y_J)} jest wykorzystywany do dostrajania modelu.
Włączenie danych AI feedback z UltraFeedback: Dane te były kluczowe dla ulepszania odpowiedzi modelu. W tym kroku model generuje odpowiedzi na różne prompty (takie jak opis, jak zrobić ciastka czekoladowe), które są następnie oceniane przez bardziej zaawansowany model, taki jak GPT-4. Najlepiej oceniana odpowiedź (yw) i losowo wybrana odpowiedź o niższej ocenie (yl) tworzą zestaw danych sprzężenia zwrotnego D.
Stosowanie dDPO: Ostatni etap, Destylowana Bezpośrednia Optymalizacja Preferencji (dDPO), obejmuje ulepszanie modelu dSFT poprzez maksymalizację prawdopodobieństwa wyższego rankingu preferowanych odpowiedzi. To jest osiągane za pomocą funkcji nagrody rθ(x, y) w modelu preferencji, który opiera się na optymalnej polityce LLM π* i oryginalnej polityce πdSFT. Cel optymalizacji jest sformułowany jako πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), co upraszcza proces szkolenia, zaczynając od wersji dSFT modelu i iterując przez każde triple AIF.

Metoda użyta w Zephyr-7B odbija procesy wykorzystywane w InstructGPT.

Zaskakująco, Zephyr-7B osiąga wyniki porównywalne z dużo większymi modelami 70B-parametrowymi wyrównanymi z ludzkim sprzężeniem zwrotnym. Wyróżnia się zarówno w akademickich benchmarkach, jak i zdolnościach konwersacyjnych, podkreślając skuteczność uczenia preferencji w rozwoju modelu. Do dalszego eksplorowania, modele, kod i instrukcje są dostępne w repozytorium Hugging Face na GitHub.

Podejście do wyzwania wyrównania intencji

Godny uwagi problem z LLM dotyczył ich wyrównania z ludzką intencją. Poprzednie modele często nie produkowały odpowiedzi, które odpowiadały preferencjom użytkowników, prowadząc do nieprecyzyjnych lub nieistotnych odpowiedzi. Jednak ostatnie benchmarki, takie jak MT-Bench i AlpacaEval, dostarczyły narzędzi do ilościowego i poprawy tego aspektu, podkreślając lepszą wydajność modeli własnościowych szkolonych z ludzkim sprzężeniem zwrotnym nad tymi szkoleniami wyłącznie za pomocą destylacji.

Metody oceny

Ocena Zephyr 7B obejmowała rygorystyczne testowanie na benchmarkach, które oceniają zdolności konwersacyjne modelu w kontekstach jednowęzłowych i wielowęzłowych:

MT-Bench: Ten benchmark wielowęzłowy wymaga od modelu, aby odpowiedział na 160 pytań z ośmiu dziedzin. Każda odpowiedź jest oceniana przez GPT-4, a ostateczny wynik modelu odzwierciedla średnią z dwóch rund pytań.
AlpacaEval: W tym benchmarku jednowęzłowym model jest przedstawiany z 805 pytaniami z różnych przedmiotów. Tutaj koncentruje się na użyteczności modelu, a GPT-4 ocenia odpowiedzi, aby określić porównywalny współczynnik wygranych.

Dodatkowo, Zephyr 7B został przetestowany na Open LLM Leaderboard, który, chociaż nie jest bezpośrednią oceną umiejętności konwersacyjnych, oferuje wgląd w rozumowanie i prawdziwość modelu po dostrajaniu.

Zephyr 7B został porównany z różnymi otwartymi i własnościowymi modelami, w tym z różnymi rozmiarami i metodami wyrównania. Ustanowił nowe benchmarki dla modeli 7B na MT-Bench i AlpacaEval, pokazując konkurencyjną wydajność w porównaniu z większymi modelami, walidując skuteczność bezpośredniej optymalizacji preferencji (dDPO) w szkoleniu.

Fazy szkolenia SFT i DPO były starannie skonfigurowane, obejmując wiele epok i dostrajanie tempa uczenia i rozmiaru partii dla optymalnej wydajności. Ostateczny model Zephyr nie tylko okazał się odporny na przeuczenie, ale również został udoskonalony w radzeniu sobie z praktycznymi zadaniach i akademickimi benchmarkami.

Dane i wyniki

Zestawy danych

Podczas rozwoju Zephyr-7B, wykorzystano dwa kluczowe zestawy danych do szkolenia i ulepszania modelu, każdy adresujący różne aspekty generacji dialogu:

Zestaw danych UltraChat

Źródło: Rozwinięty z dialogów wygenerowanych przez GPT-3.5-TURBO.
Zawartość: Zawiera 1,47 miliona dialogów wielowęzłowych z 30 tematów i 20 rodzajów materiałów tekstowych.
Ulepszenie: Zestaw danych przeszedł heurystykę truecasing, aby poprawić problemy gramatyczne, a filtry zostały zastosowane, aby zwiększyć użyteczność odpowiedzi i wyeliminować nieużyteczne frazy wstępne.

Zestaw danych UltraFeedback

Źródło: Składa się z promtów ocenianych przez GPT-4, które oceniły odpowiedzi na podstawie instrukcji, uczciwości i użyteczności.
Zawartość: Zawiera 64 000 promtów z czterema odpowiedziami każdy, ocenianymi przez GPT-4.
Preferencje binarne: Wygenerowane przez wybranie odpowiedzi z najwyższym średnim wynikiem jako “wybrane” i losowo wybranej odpowiedzi z pozostałych jako “odrzuconej”, aby zwiększyć różnorodność i wyzwanie procesu DPO.

Oba zestawy danych są kluczowe dla szkolenia Zephyr-7B, aby zrozumieć i wygenerować dialogi ludzkie, które są zgodne z instrukcjami, uczciwe i użyteczne. Zestawy te zostały udostępnione na Hugging Face Hub, do którego można uzyskać dostęp tutaj.

Wydajność i wyniki

Poniższy wykres ilustruje wydajność Zephyr 7B w różnych kategoriach zadań w porównaniu z innymi modelami, takimi jak GPT-3.5-turbo, Claude 1, GPT-4 i Llama-2-70b-chat. Kategorie mogą obejmować pisanie, humanistykę, roleplay, rozumowanie, STEM, ekstrakcję, kodowanie i matematykę.

Z wykresu można wnioskować, w których dziedzinach Zephyr 7B wyróżnia się i które dziedziny mogą wymagać dalszego ulepszenia. Na przykład, jeśli linia Zephyr jest bardziej wysunięta na osi pisanie w porównaniu z innymi, sugeruje to, że Zephyr jest szczególnie silny w generowaniu treści pisanych. Odwrotnie, jeśli linia jest bliżej środka na osi matematyki, może to wskazywać na względną słabość w rozwiązywaniu problemów matematycznych.

Wykres radarowy pomaga w identyfikacji sił i słabości Zephyr 7B, dostarczając wizualną reprezentację, gdzie stoi on w porównaniu z większymi modelami, takimi jak GPT-4, i specjalistycznymi modelami, takimi jak Llama-2-70b-chat.

Wykres wydajności modelu

Porównanie różnych modeli językowych na dwóch benchmarkach: MT-Bench i AlpacaEval. Modele są oceniane na podstawie ich rozmiaru, metody wyrównania (takiej jak dSFT dla destylowanej nadzorowanej regulacji lub dDPO dla destylowanej bezpośredniej optymalizacji preferencji) i wyników. Zephyr wyróżnia się wysokimi wynikami w obu benchmarkach, wskazując na jego skuteczność w generowaniu odpowiedzi wyrównanych.

MT-Bench i AlpacaEval

Podsumowanie

W podsumowaniu, rozwój Zephyr-7B pokazuje, że wyrównanie i destylacja zdolności konwersacyjnych z dużego modelu językowego (LLM) na mniejszy model może być osiągnięte bez polegania na metodach opartych na próbkowaniu. Wykorzystując bezpośrednią optymalizację preferencji (DPO) z AI Feedback, Zephyr-7B wykorzystuje silną podstawę Mistral-7B, aby ustalić nowy benchmark dla modeli chat 7B, pokazując możliwość mniejszych, otwartych modeli do zrozumienia i odpowiedzi na intencje użytkownika w sposób skuteczny.

Jednakże, to badanie nie jest pozbawione ograniczeń. Zależność od GPT-4 jako oceniającego w benchmarkach wprowadza bias ku modelom, które są destylowane z niego, potencjalnie faworyzując precyzyjne odpowiedzi. Dodatkowo, skalowalność tej metody do większych modeli, takich jak LLAMA2-70B, i jej wpływ na zyski wydajności pozostają obszarami wymagającymi dalszych badań. Te ograniczenia podkreślają potrzebę ciągłej innowacji i rozwoju niezależnych metod oceny w społeczności AI.

Patrząc poza badanie, jest oczywiste, że potencjał mniejszych modeli do osiągania poziomu większych odpowiedników może demokratyzować AI, umożliwiając bardziej dostępne i efektywne zastosowanie w różnych aplikacjach. Sukces Zephyr-7B zachęca do dalszej eksploracji otwartych modeli, które mogą przyspieszyć postępy w AI, promując współpracę w badaniach i rozwoju.

Related Topics:GPT LLM Mistral 7B zephyr Zephyr-7B

Aayush Mittal

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.