Artificial Intelligence

Zephyr-7B: Hiperoptymalizowany LLM firmy HuggingFace zbudowany na bazie Mistral 7B

Opublikowany November 23, 2023

Aayush Mittal Mittala

Wprowadzenie

Rozwój otwartych modeli dużego języka (LLM) znacząco wpłynął na środowisko badawcze zajmujące się sztuczną inteligencją, szczególnie w zakresie tworzenia chatbotów i podobnych aplikacji. Po pojawieniu się modeli takich jak LLaMA, nastąpił gwałtowny wzrost badań nad efektywnym dostrajaniem, rozszerzoną obsługą szybkich zapytań, generacją rozszerzoną z wyszukiwaniem (RAG) oraz kwantyzacją.

Na przykład model LLaMA zapoczątkował nową erę w dostrajaniu i szybkiej kontekstualizacji, torując drogę kolejnym modelom, takim jak MPT MosaicML, RedPajama-INCITE firmy Together AI, Falcon TII i Llama 2 Meta. Każdy z tych modeli wnosi unikalne możliwości , zwiększając ogólną funkcjonalność i zakres LLM.

Mistral AI, startup z Paryża, założony przez byłych pracowników Google DeepMind i Meta, zyskał sławę dzięki swojej pierwszej ofercie: Mistral 7B.

Przewagą Mistrala 7B jest jego wydajność – oferuje podobne lub większe możliwości w porównaniu do podobnych satelitów, np. Llama 2, ale przy mniejszym zapotrzebowaniu na moc obliczeniową.

Specjalnie dostrojony do zadań instruktażowych, Mistral 7B Instruct błyszczy na platformach takich jak Hugging Face, gdzie przewyższa inne modele tej samej wielkości i ściśle konkuruje z tymi, które mają prawie dwukrotnie większe parametry.

Opierając się na tym, wprowadzono Hugging Face Zefir 7B Alfa, pokazując, że dostrojony Mistral 7B rzeczywiście może przewyższyć możliwości znacznie większych modeli czatowych, a w niektórych zadaniach nawet konkurować z GPT-4. „Alfa” była dopiero początkiem, ponieważ Zefir 7B Niedługo potem pojawiła się Beta.

W tym artykule przyjrzymy się, w jaki sposób Zephyr 7B wykorzystuje potencjał większych modeli, aby udoskonalić swoją zdolność reagowania i dopasowywania się do instrukcji przekazywanych przez człowieka – proces ten jest możliwy dzięki technice destylacji wiedzy. Metoda ta polega na trenowaniu mniejszych modeli na złożonych wzorcach przyswajanych przez większe modele, co zmniejsza wymagania szkoleniowe bez rezygnowania z możliwości modelowania języka. Przyjrzymy się bliżej szczegółom metody destylacji wiedzy Hugging Face.

Destylacja wiedzy

Kluczowa innowacja w opracowywaniu modeli takich jak Zefir-7B to destylowane dostrajanie nadzorowane (dSFT). Metoda ta polega na wykorzystaniu danych wyjściowych z większego i bardziej zaawansowanego modelu „nauczyciela” do wyszkolenia mniejszego modelu „ucznia”, zwiększając jego dokładność. Chociaż destylacja poprawia działanie modeli otwartych w różnych zadaniach, nadal istnieje luka w wydajności w porównaniu z modelami nauczyciela.

Destylacja wiedzy to metoda uczenia maszynowego, w której kompaktowy model, określany jako „Student”, uczy się naśladować wykonanie większego, bardziej złożonego „nauczyciel" Model. Technika ta umożliwia uczniowi wykonywanie zadań, które wcześniej przekraczały jego możliwości, poprzez przekazywanie skomplikowanych wzorców poznanych przez nauczyciela.

Destylacja wiedzy | Model nauczyciel-uczeń

Model ucznia trenuje na prawdopodobieństwach lub cechach wyjściowych generowanych przez model nauczyciela, koncentrując się na dopasowaniu tych wyników, a nie tylko na ostatecznych przewidywaniach. Pozwala to uczniowi poznać zróżnicowane procesy decyzyjne nauczyciela, co często skutkuje lepszymi wynikami w porównaniu ze szkoleniem wykorzystującym wyłącznie podstawowe dane.

Historycznie, destylacja wiedzy była wykorzystywana w modelach takich jak oryginalne sieci destylacyjne Hintona, a ostatnio w przetwarzaniu języka naturalnego (NLP) z modelami takimi jak DistilBERT, który destylował model BERT do mniejszej i szybszej wersji, zachowując większość możliwości rozumienia języka oryginału. Innym przykładem jest TinyBERT, który idzie o krok dalej w optymalizacji rozmiaru i szybkości dla urządzeń mobilnych lub brzegowych.

W przypadku Zephyr-7B destylacja wiedzy służy do nasycenia mniejszego modelu parametrów 7B możliwościami jego większych odpowiedników. W ten sposób Zephyr-7B osiąga równowagę pomiędzy wydajnością i wydajnością, dzięki czemu nadaje się do środowisk, w których zasoby obliczeniowe są ograniczone, bez utraty jakości interakcji i zrozumienia.

Opracowując Zephyr-7B, badacze podjęli wyzwanie polegające na ujednoliceniu małego otwartego LLM całkowicie poprzez destylację. Wprowadzili podejście zwane destylowaną bezpośrednią optymalizacją preferencji (dDPO), które wykorzystuje informacje zwrotne AI z zestawu modeli nauczycieli jako dane dotyczące preferencji. Metoda ta, niewymagająca adnotacji ze strony człowieka, znacznie skraca czas i zasoby potrzebne do uczenia modeli.

Konstruowanie ZEPHYR-7B

Aby zweryfikować dDPO, badacze skonstruowali ZEPHYR-7B, dostosowaną wersję Model Mistral-7B. Proces składał się z trzech etapów:

dSFT przy użyciu zestawu danych UltraChat:Distilled Supervised Fine-Tuning (dSFT) to zaawansowana metoda uczenia dużych modeli językowych (LLM) poprzez wykorzystanie wyników większych, bardziej wydajnych modeli „nauczyciela”. Zaczyna się od surowego LLM, który jest przeszkolony, aby odpowiadać na monity użytkownika. W przeciwieństwie do tradycyjnego nadzorowanego dostrajania (SFT), które wykorzystuje stały zbiór danych, dSFT wykorzystuje podejście dynamiczne, w którym sam model generuje instrukcje i odpowiedzi. Metoda ta, znana jako samokształcenie, polega na wykorzystaniu modelu nauczyciela do udzielania odpowiedzi i udoskonalania instrukcji w oparciu o odpowiedzi. Proces rozpoczyna się od zestawu podpowiedzi (x₀₁, x₀₂,…, x₀_J) reprezentujących różne tematy. Każdy monit jest udoskonalany iteracyjnie: dla danego podpowiedzi x₀ model nauczyciela generuje odpowiedź y₀, a następnie na podstawie x₀ i y₀ próbkowana jest nowa instrukcja x₁. Ostateczny zbiór danych C = {(x₁, y₁),…, (x_J, y_J)} służy do dostrojenia modelu.
Uwzględnianie danych zwrotnych AI z UltraFeedbackDane te były kluczowe dla udoskonalenia odpowiedzi modelu. Na tym etapie model generuje odpowiedzi na różne pytania (np. opisujące sposób przygotowania brownie czekoladowego), które są następnie klasyfikowane przez bardziej zaawansowany model, taki jak GPT-4. Odpowiedź o najwyższej punktacji (yw) i losowo wybrana odpowiedź o niższej punktacji (yl) tworzą zbiór danych sprzężenia zwrotnego D.
Stosowanie dDPO:Ostatnia faza, Destylowana bezpośrednia optymalizacja preferencji (dDPO), polega na udoskonaleniu modelu dSFT poprzez maksymalizację prawdopodobieństwa wyższego rankingu preferowanych odpowiedzi. Osiąga się to poprzez zastosowanie funkcji nagrody rθ(x, y) w modelu preferencji, który opiera się na optymalnej polityce LLM π* i pierwotnej polityce πdSFT. Cel optymalizacji formułuje się jako πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), co upraszcza proces uczenia, rozpoczynając od wersji modelu dSFT i iterując przez każdą trójkę AIF.

Metoda zastosowana w Zephyr-7B odzwierciedla procesy stosowane w InstructGPT.

Co ciekawe, Zephyr-7B osiąga wydajność porównywalną ze znacznie większymi modelami o parametrach 70B, dostosowanymi do opinii człowieka. Wyróżnia się zarówno pod względem wzorców akademickich, jak i możliwości konwersacyjnych, podkreślając skuteczność uczenia się preferencji w opracowywaniu modeli. W celu dalszej eksploracji modele, kod i instrukcje są dostępne pod adresem Repozytorium GitHub Hugging Face.

Sprostanie wyzwaniu dostosowania intencji

Godną uwagi obawą związaną z LLM jest ich zgodność z ludzkimi intencjami. Poprzednie modele często nie dawały odpowiedzi zgodnych z preferencjami użytkownika, co prowadziło do niedokładnych lub nieistotnych odpowiedzi. Jednak najnowsze testy porównawcze, takie jak MT-Bench i AlpacaEval, dostarczyły narzędzi do ilościowego określenia i ulepszenia tego aspektu, podkreślając wyższą wydajność zastrzeżonych modeli trenowanych na podstawie informacji zwrotnych od ludzi w porównaniu z modelami szkolonymi wyłącznie poprzez destylację.

Metody oceny

Ocena Zephyra 7B obejmowała rygorystyczne testy w testach porównawczych, które oceniają możliwości konwersacyjne modelu zarówno w kontekście jedno-, jak i wieloobrotowym:

Ławka MT: Ten wieloetapowy test porównawczy wymaga modelu odpowiadającego 160 pytaniom obejmującym osiem dziedzin. Każda odpowiedź jest oceniana w skali GPT-4, a ostateczny wynik modelu odzwierciedla średnią z dwóch rund pytań.
AlpakaEval: W tym jednoobrotowym teście porównawczym modelowi przedstawiono 805 pytań z różnych dziedzin. Koncentrujemy się tutaj na przydatności modelu, przy czym GPT-4 ocenia odpowiedzi w celu określenia porównawczego współczynnika wygranych.

Dodatkowo, model Zephyr 7B został przetestowany w ramach rankingu Open LLM, który, choć nie stanowi bezpośredniej oceny umiejętności konwersacyjnych, pozwala na ocenę racjonalności modelu i jego prawdomówności po dopracowaniu.

Zephyr 7B porównano z różnymi modelami otwartymi i autorskimi, w tym modelami o różnych rozmiarach i sposobach ustawienia. Ustanowiono nowe standardy dla modeli 7B w programach MT-Bench i AlpacaEval oraz wykazano konkurencyjne wyniki w porównaniu z większymi modelami, potwierdzając skuteczność bezpośredniej optymalizacji preferencji (dDPO) w szkoleniu.

Fazy szkoleniowe SFT i DPO zostały szczegółowo skonfigurowane, obejmując wiele epok i dostosowując tempo uczenia się oraz wielkość partii w celu uzyskania optymalnej wydajności. Ostateczny model Zephyra okazał się nie tylko odporny na nadmierne dopasowanie, ale także lepiej radził sobie z zadaniami praktycznymi i testami akademickimi.

Zbiory danych i wyniki

Wykorzystane zbiory danych

Podczas opracowywania Zephyr-7B wykorzystano dwa kluczowe zbiory danych do szkolenia i udoskonalenia modelu, z których każdy dotyczył różnych aspektów generowania dialogu:

Zbiór danych UltraChat

Źródło : Opracowano na podstawie dialogów wygenerowanych przez GPT-3.5-TURBO.
Spis treści: Zawiera 1.47 miliona wieloobrotowych dialogów na 30 tematów i 20 rodzajów materiałów tekstowych.
Udoskonalenie: Zbiór danych został poddany heurystyce truecasingu w celu skorygowania problemów gramatycznych i zastosowano filtry, aby zwiększyć przydatność odpowiedzi i wyeliminować nieprzydatne frazy poprzedzające.

Zbiór danych UltraFeedback

Źródło : Obejmuje podpowiedzi oceniane przez GPT-4, który ocenia odpowiedzi na podstawie stosowania się do instrukcji, uczciwości i przydatności.
Spis treści: Zawiera 64,000 4 podpowiedzi z czterema odpowiedziami na każde, sklasyfikowanych według GPT-XNUMX.
Preferencje binarne: Generowane poprzez wybranie odpowiedzi z najwyższym średnim wynikiem jako „wybranej” i losowej spośród pozostałych jako „odrzuconej” w celu zwiększenia różnorodności i zakwestionowania procesu optymalizacji preferencji bezpośrednich (DPO).

Obydwa zbiory danych mają kluczowe znaczenie w szkoleniu Zephyra-7B w zakresie rozumienia i generowania dialogu na poziomie ludzkim, który jest zgodny z instrukcjami, uczciwy i pomocny. Te zbiory danych zostały udostępnione w Hugging Face Hub, do którego można uzyskać dostęp w tym miejscu.

Wydajność i wyniki

Poniższy wykres ilustruje wydajność Zephyr 7B w różnych kategoriach zadań w porównaniu z innymi modelami, takimi jak GPT-3.5-turbo, Claude 1, GPT-4 i Llama-2-70b-chat. Kategorie mogą obejmować pisanie, nauki humanistyczne, odgrywanie ról, rozumowanie, STEM, ekstrakcję, kodowanie i matematykę.

Z wykresu możemy wywnioskować, w których domenach Zephyr 7B osiąga najlepsze wyniki, a które mogą wymagać dalszej poprawy. Na przykład, jeśli linia Zephyra rozciąga się dalej na osi Pisanie w porównaniu z innymi, sugeruje to, że Zephyr jest szczególnie silny w tworzeniu treści pisanych. I odwrotnie, jeśli linia znajduje się bliżej środka na osi Matematyka, może to wskazywać na względną słabość w rozwiązywaniu zadań matematycznych.

Wykres radarowy pomaga w identyfikacji mocnych i słabych stron Zephyra 7B, zapewniając wizualną reprezentację jego pozycji na tle większych modeli, takich jak GPT-4 i wyspecjalizowanych modeli, takich jak Llama-2-70b-chat.

Wykres radarowy wydajności modelu

Porównanie różnych modeli językowych w dwóch benchmarkach: MT-Bench i AlpacaEval. Modele są oceniane na podstawie ich rozmiaru, metody dopasowania (takiej jak dSFT w przypadku destylowanego nadzorowanego dostrajania lub dDPO w przypadku destylowanej optymalizacji bezpośrednich preferencji) i wyników wydajności. Zephyr wyróżnia się wysokimi wynikami w obu benchmarkach, co wskazuje na jego skuteczność w generowaniu zbieżnych odpowiedzi.

MT-Bench i AlpacaEval

Podsumowanie

Podsumowując, rozwój Zephyr-7B pokazuje, że wyrównanie i destylacja możliwości konwersacyjnych z dużego modelu językowego (LLM) na mniejszy model można osiągnąć bez polegania na metodach opartych na próbkowaniu. Wykorzystując bezpośrednią optymalizację preferencji (DPO) z informacją zwrotną AI, Zephyr-7B wykorzystuje mocne podstawy Mistral-7B, aby ustanowić nowy punkt odniesienia dla modeli czatu z parametrami 7B, pokazując zdolność mniejszych modeli o otwartym kodzie źródłowym do zrozumienia i reagowania na użytkownika zamiar skutecznie.

Jednak badanie to nie jest pozbawione ograniczeń. Poleganie na GPT-4 jako ewaluatorze testów porównawczych wprowadza uprzedzenia w stronę modeli, które na jego podstawie wydestylowano, potencjalnie faworyzując dokładne odpowiedzi. Ponadto skalowalność tej metody do większych modeli, takich jak LLAMA2-70B, i jej wpływ na wzrost wydajności pozostają obszarami dalszych badań. Ograniczenia te podkreślają potrzebę ciągłych innowacji i rozwoju bezstronnych metod oceny w społeczności AI.

Patrząc poza badanie, widać wyraźnie, że potencjał mniejszych modeli do działania na poziomie większych odpowiedników może demokratyzować sztuczną inteligencję, umożliwiając jej bardziej dostępne i wydajne wykorzystanie w różnych aplikacjach. Sukces Zephyr-7B zachęca do dalszej eksploracji modeli open source, co może przyspieszyć postęp w dziedzinie sztucznej inteligencji poprzez wspieranie współpracy badawczo-rozwojowej.

Powiązane tematy:GPT LLM Mistrala 7B zefir Zefir-7B

W przyszłym

Ograniczenia fizyczne napędzają ewolucję sztucznej inteligencji przypominającej mózg

Nie przegap

7 sposobów, w jakie call center wykorzystują sztuczną inteligencję, aby odblokować czas dla swoich agentów i klientów

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.