Sztuczna inteligencja

Zephyr: Bezpośrednia destylacja wyrównania modeli językowych

Opublikowano 29 listopada 2023

Zaktualizowano 22 maja 2026

Przez

Kunal Kejriwal

Możliwości i wydajność mniejszych, otwartych modeli językowych znacznie poprawiły się w ostatnich latach, a świadkami byliśmy postępu od wczesnych modeli GPT-2 do bardziej kompaktowych, dokładnych i skutecznych ram modeli językowych, które wykorzystują znacznie większą ilość tokenów niż „optymalna liczba tokenów” zalecana przez prawa skali Chinchilli. Ponadto, deweloperzy udowodnili, że te mniejsze ramy modeli językowych mogą być dalej szkolone przy użyciu podejścia opartego na modelach własnościowych, czyli dSFT lub Destylowanego Nadzorowanego Doskonalenia, które wykorzystuje dane wyjściowe skutecznego modelu nauczyciela jako dane nadzorowane dla modelu ucznia w celu poprawy dokładności.

W tym artykule będziemy rozmawiać o ramie Zephyr-7B, która jest najnowocześniejszym benchmarkiem czatu dla modeli 7B parametrów, który nie wymaga adnotacji ludzkich. Głównym celem ramy jest umożliwienie deweloperom tworzenia mniejszych modeli językowych, które są wyrównane z intencjami użytkownika bliżej niż kiedykolwiek wcześniej. Rama Zephyr-7B nie tylko bada zastosowanie bieżących podejść dla większych modeli językowych, takich jak dSFT, ale także eksploruje możliwość wykorzystania innych podejść do nauki modelu czatu z lepszym wyrównaniem z intencjami użytkownika. Będziemy zagłębiać się w ramę Zephyr, a także będziemy badać jej architekturę, działanie i wyniki. Zatem, zacznijmy.

Zephyr-7B: Wprowadzenie do bezpośredniej destylacji wyrównania w modelach językowych

Jak wcześniej wspomniano, modele językowe znacznie poprawiły się w ostatnich latach, od wczesnych ram GPT-2 do obecnych ram GPT-4 i MiniGPT-5, które chociaż są bardzo wyczerpujące pod względem tokenów, są teraz bardziej dokładne i wydajne. Głównym punktem tych zaawansowanych ram modeli językowych jest to, że wykorzystują znacznie większą ilość tokenów niż liczba tokenów, która wcześniej była uważana za optymalną pod względem obliczeniowym zgodnie z prawami skali Chinchilli. Ponadto, deweloperzy i badacze pracujący nad ramami modeli językowych odkryli, że te mniejsze ramy modeli językowych mogą być dalej szkolone przy użyciu podejścia opartego na modelach własnościowych, czyli dSFT lub Destylowanego Nadzorowanego Doskonalenia, które wykorzystuje dane wyjściowe skutecznego modelu nauczyciela jako dane nadzorowane dla modelu ucznia w celu poprawy dokładności. Strategia destylacji okazała się bardzo skutecznym i przydatnym narzędziem do maksymalizacji potencjału i zdolności otwartych modeli w szerokim zakresie zadań, chociaż nie może jeszcze powielić wyników osiąganych przez model nauczyciela. Dodatkowo, użytkownicy często zgłaszali, że te modele często wykazują „niewyrównanie intencji”, co oznacza, że modele nie zachowują się w sposób zgodny z wymaganiami użytkowników końcowych, prowadząc do niepoprawnych danych wyjściowych, które nie dostarczają odpowiednich odpowiedzi na dane wejściowe lub zapytania użytkowników.

Wyrównanie intencji zawsze było dużym wyzwaniem dla deweloperów, a ostatnie prace koncentrowały się na tworzeniu benchmarków, takich jak AlpacaEval i MT-Bench, opracowanych w celu rozwiązania problemu niewyrównania. Motywacją do opracowania ramy Zephyr była konieczność wykorzystania destylacji do wyrównania małego, otwartego modelu językowego, gdzie głównym krokiem jest wykorzystanie sztucznej inteligencji sprzężenia zwrotnego w celu uzyskania danych preferencyjnych od zespołu modelu nauczyciela, a następnie zastosowanie destylowanego optymalizacji preferencji bezpośrednio jako główny cel uczenia, co określa się jako dDPO lub Destylowaną Bezpośrednią Optymalizację Preferencji. Główną cechą podejścia dDPO jest to, że w przeciwieństwie do swoich poprzedników, takich jak PPO lub Proksymalna Optymalizacja Preferencji, nie wymaga próbek ludzkich ani adnotacji, a także zmniejsza czas potrzebny do szkolenia modelu językowego. Ponadto, umożliwia deweloperom maksymalizację nagród końcowych próbki, zwracając uwagę na sekwencję kroków od początku do końca, czyli przez całą swoją długość.

Deweloperzy opracowali ramę Zephyr-7B w celu walidacji tego podejścia, a w pewnym sensie jest to wersja wyrównana z najnowocześniejszą ramą Mistral-7B. Rama ta najpierw wykorzystuje dSFT lub Destylowane Nadzorowane Doskonalenie na podstawie zestawu danych UltraChat, a następnie stosuje podejście dDPO lub Destylowaną Bezpośrednią Optymalizację Preferencji na danych sprzężenia zwrotnego. Eksperymenty wskazują, że rama Zephyr-7B z 7 miliardami parametrów dostarcza wyniki porównywalne z tymi, które są dostarczane przez modele czatu wyrównane z ludzkim sprzężeniem zwrotnym o ponad 70 miliardach parametrów. Ponadto, eksperymenty wskazują, że wyniki mogą być poprawione zarówno w odniesieniu do benchmarków, które uwzględniają możliwości konwersacyjne, jak i standardowych benchmarków akademickich, a wykorzystanie uczenia preferencji jest kluczowe do osiągnięcia pożądanych wyników.

Powyższy rysunek pokazuje wyniki różnych modeli językowych na benchmarku MT-bench. Rama Zephyr-7B, która jest szkolona przy użyciu podejścia dDPO, jest porównywana z modelami własnościowymi i otwartymi, większymi modelami językowymi, takimi jak GPT-3.5 Turbo, Llama-2-70B i więcej, które były szkolone przy użyciu dodatkowego uczenia wzmocnionego i również zawierały dużą ilość ludzkich danych sprzężenia zwrotnego. Jak można wyraźnie zobaczyć, pomimo ogromnej różnicy w liczbie parametrów, które te ramy wykorzystują, rama Zephyr-7B dostarcza wyniki porównywalne z większością z nich i przewyższa wiele ram w różnych dziedzinach.

Zephyr-7B: Metoda, Działanie i Architektura

Głównym celem ramy Zephyr-7B jest pomoc w wyrównaniu otwartego modelu językowego z intencjami użytkownika jak najbliżej, a w całym swoim zakresie rama Zephyr-7B zakłada dostęp do dużego modelu nauczyciela, który jest zapytywany przy użyciu generacji promtu. Rama Zephyr-7B stosuje podejście podobne do tego, które jest stosowane w ramie InstructGPT, a jej celem jest wygenerowanie skutecznego i dokładnego modelu ucznia.

Poniższy rysunek krótko pokazuje trzy główne kroki zaangażowane w działanie ramy Zephyr-7B.

dSFT dla budowy dużego zestawu danych przy użyciu stylu samoinstrukcji.
Zebranie danych sprzężenia zwrotnego sztucznej inteligencji przy użyciu zespołu modeli czatu, a następnie binarne preferencje i ocena przy użyciu GPT-4.
dPO modelu dSFT przy użyciu danych sprzężenia zwrotnego.

dSFT lub Destylowane Nadzorowane Doskonalenie

Rama rozpoczyna się od surowego dużego modelu językowego, który najpierw musi być szkolony do reagowania na prompty użytkownika. Tradycyjnie, szkolenie tych modeli językowych do reagowania na prompty użytkownika odbywa się przy użyciu SFT lub Nadzorowanego Doskonalenia na zestawie danych składającym się z wysokiej jakości instrukcji i ich odpowiednich odpowiedzi. Ponieważ rama Zephyr-7B ma dostęp do modelu nauczyciela, rama może generować instrukcje i odpowiedzi, a następnie szkolić model bezpośrednio na tych instrukcjach i odpowiedziach, a to podejście jest znane jako dSFT lub destylowane SFT. Poniższy rysunek pokazuje destylację przeprowadzoną przez SFT, gdzie x reprezentuje zestaw promtu wykorzystywany do reprezentowania różnorodnych dziedzin, y reprezentuje odpowiedź próbki, która jest rafinowana przy użyciu nowej instrukcji reprezentowanej przez x1, a C reprezentuje punkt końcowy w końcowym zestawie danych.

Sztuczna Inteligencja Sprzężenia Zwrotnego za pomocą Preferencji

Dane sprzężenia zwrotnego są wykorzystywane do przypisania dużych modeli językowych, ponieważ mogą dostarczyć wymagane dodatkowe sygnały, a te dane sprzężenia zwrotnego są tradycyjnie dostarczane za pomocą preferencji dotyczących jakości odpowiedzi generowanych przez modele językowe. Jednak rama Zephyr wykorzystuje dane sprzężenia zwrotnego sztucznej inteligencji z modelu nauczyciela na dane wyjściowe innych modeli zamiast ludzkich danych sprzężenia zwrotnego do celów destylacji. Podejście stosowane przez ramę Zephyr jest inspirowane podejściem stosowanym przez ramę UltraFeedback, która wykorzystuje model nauczyciela do dostarczania preferencji dotyczących danych wyjściowych modelu.

Podobnie jak podejście SFT lub Nadzorowanego Doskonalenia, rozpoczyna się od zestawu promtów, gdzie x reprezentuje każdy promt, który jest następnie wprowadzany do kolekcji czterech modeli, takich jak Llama, Falcon, Claude i więcej, z których każdy generuje odpowiedź. Następnie odpowiedzi są wprowadzane jako dane wejściowe do modelu nauczyciela, takiego jak GPT-3 lub GPT-4, a model generuje ocenę dla odpowiedzi wejściowej. Po zebraniu ocen, model zapisuje odpowiedź z najwyższą oceną.

dDPO lub Destylowana Bezpośrednia Optymalizacja Preferencji

dDPO jest ostatnim krokiem ramy Zephyr, a jego głównym celem jest udoskonalenie modelu dSFT poprzez maksymalizację prawdopodobieństwa rangowania preferowanej odpowiedzi w modelu preferencji, który jest określony przez funkcję nagrody przy użyciu modelu językowego ucznia. Poprzedni krok dotyczący wykorzystania danych sprzężenia zwrotnego sztucznej inteligencji koncentrował się głównie na wykorzystaniu metod uczenia wzmocnionego, takich jak PPO lub Proksymalna Optymalizacja Preferencji, do maksymalizacji nagrody. W tym kroku, nagroda jest najpierw szkolona, a następnie próbkowana z bieżącej polityki w celu obliczenia aktualizacji, a tym samym maksymalizacji optymalizacji. DPO lub Bezpośrednia Optymalizacja Preferencji stosuje podobne podejście do optymalizacji modelu preferencji bezpośrednio przy użyciu danych statycznych. Cel po podłączeniu funkcji nagrody do modelu preferencji może być napisany jako

Zephyr-7B: Eksperymenty, Benchmarki i Wyniki

Rama Zephyr prowadzi eksperymenty doskonalenia na bieżącej ramie Mistral-7B, która dostarcza wyniki porównywalne z większymi modelami językowymi w szerokim zakresie zadań przetwarzania języka naturalnego.

Zestawy Danych

Rama Zephyr wykorzystuje dwa zestawy danych dialogowych, które zostały destylowane z mieszaniny modeli własnościowych i otwartych, które wcześniej okazały się skuteczne w produkcji skutecznych modeli czatu.

UltraChat

UltraChat to zestaw danych samodoskonalenia, który składa się z około 1,5 miliona dialogów wieloobrotowych, rozłożonych na 30 tematów i 20 materiałów tekstowych wygenerowanych przez ramę GPT-3.5-Turbo. Aby rozwiązać problem niepoprawnej wielkiej litery w zestawie danych UltraChat, rama stosuje podejście heurystyczne, aby pozbyć się błędów gramatycznych.

UltraFeedback

UltraFeedback to zestaw danych promtów, który zawiera ponad 64 tysiące promtów, z których każdy ma cztery indywidualne odpowiedzi modeli językowych. Rama Zephyr wykorzystuje najwyższą średnią ocenę uzyskaną z zestawu danych UltraFeedback do konstrukcji binarnych preferencji, a jedna z pozostałych trzech odpowiedzi modeli językowych jest odrzucana jako losowa.

Ocena

Aby ocenić wyniki ramy Zephyr, deweloperzy wybrali dwa benchmarki czatu, jeden jednowrotowy i jeden wielowrotowy, w celu oceny zdolności modelu do śledzenia instrukcji użytkownika i reagowania odpowiednio.

MT-Bench

Benchmark MT-Bench składa się z 160 pytań, rozłożonych na 8 unikalnych obszarów wiedzy, a w ramach benchmarku MT-Bench model musi odpowiedzieć na pytanie początkowe i dostarczyć odpowiedź na pytanie następnika.

AlpacaEval

AlpacaEval to benchmark jednowrotowy, w ramach którego model generuje odpowiedzi użytkowników na ponad 800 pytań, rozłożonych na różne tematy, z głównym naciskiem na użyteczność.

Ponadto, rama Zephyr-7B jest oceniana na liście liderów Open LLM dla zadań klasyfikacji wieloklasowej, ARC, HellaSwag, MMLU i więcej. Niezależnie od tego, jaki benchmark jest stosowany, rama Zephyr-7B jest porównywana z różnymi modelami własnościowymi i otwartymi, z których różnice w procedurach wyrównania są jedynym czynnikiem różnicującym.

Wyniki

Zobaczmy, jak rama Zephyr-7B radzi sobie i jak porównuje się z bieżącymi modelami językowymi.

Wdrożenie podejścia dDPO poprawia możliwości czatu

Poniższa tabela porównuje wyniki ramy Zephyr-7B z wynikami bieżących modeli językowych na benchmarkach AlpacaEval i MT-Bench.

Jak można wyraźnie zobaczyć, kiedy porównywana jest z otwartymi modelami 7B, rama Zephyr-7B nie tylko znacznie przewyższa modele dSFT w obu benchmarkach, ale także ustanawia nowe standardy najnowocześniejszych modeli. Ponadto, rama Zephyr-7B również przewyższa ramę XWIN-LM-7B, która jest jednym z nielicznych modeli szkolonych przy użyciu podejścia dPPO. Ponadto, wyniki dostarczane przez ramę Zephyr-7B są porównywalne z wynikami dostarczanymi przez większe modele językowe, takie jak Llama2-Chat z ponad 70 miliardami parametrów.

dDPO poprawia wyniki zadań akademickich

Poniższy rysunek porównuje wyniki ramy Zephyr-7B z wynikami szerokiej gamy modeli językowych otwartych i własnościowych.

Jak można zobaczyć, rama Zephyr-7B znacznie przewyższa modele językowe z 7 miliardami parametrów, a różnica między jej wynikami a wynikami najlepszych modeli dSFT jest również zauważalna. Im więcej parametrów, tym rama Zephyr-7B jest gorsza, chociaż jej wyniki są porównywalne z wynikami modeli z 40 miliardami parametrów.

Optymalizacja Preferencji

W poniższym rysunku oceniamy, jak różne kroki w procesie wyrównania wpływają na wyniki. Jak można zobaczyć, podejście dDPO w połączeniu z dSFT znacznie poprawia wyniki na obu zestawach danych MT-Bench i AlpacaEval.

Wreszcie, w poniższym rysunku możemy zobaczyć dokładność testową i szkoleniową podczas wdrożenia DPO. Jak można zobaczyć, podejście DPO nie wpływa na wyniki modelu w zadaniach downstream.

Podsumowanie

W tym artykule omówiliśmy ramę Zephyr-7B opartą na bieżącej ramie Mistral-7B, której celem jest rozwiązanie problemu destylacji wyrównania z dużego modelu językowego do mniejszego, wstępnie wytrenowanego modelu. Głównym celem ramy jest umożliwienie deweloperom tworzenia mniejszych modeli językowych, które są wyrównane z intencjami użytkownika bliżej niż kiedykolwiek wcześniej. Rama Zephyr-7B nie tylko bada zastosowanie bieżących podejść dla większych modeli językowych, takich jak dSFT, ale także eksploruje możliwość wykorzystania innych podejść do nauki modelu czatu z lepszym wyrównaniem z intencjami użytkownika.

Jednak pomimo obiecujących wyników, rama Zephyr-7B nie jest doskonała, a nadal wiele pracy pozostaje do wykonania. Jedną z oczywistych ograniczeń jest wykorzystanie ramy GPT-4 do oceny benchmarków MT-Bench i AlpacaEval, które często są związane z modelami, które same destylują. Rama Zephyr-7B jednak ma nadzieję wytyczyć drogę do eksploracji możliwości mniejszych, otwartych modeli, które są w stanie wyrównać się z intencjami użytkownika i interakcjami.