Artificial Intelligence

Modele wielkojęzyczne oparte na dekoderach: kompletny przewodnik

Zaktualizowano on 27 kwietnia 2024 r.

Modele wielkojęzyczne oparte na dekoderach: kompletny przewodnik

Duże modele językowe (LLM) zrewolucjonizowały dziedzinę przetwarzania języka naturalnego (NLP), wykazując niezwykłe możliwości w zakresie generowania tekstu podobnego do ludzkiego, odpowiadania na pytania i pomocy w szerokim zakresie zadań związanych z językiem. U podstaw tych potężnych modeli leży Architektura transformatora zawierająca wyłącznie dekoder, wariant oryginalnej architektury transformatora zaproponowany w przełomowym artykule „Uwaga to wszystko, czego potrzebujesz” autorstwa Vaswaniego i in.

W tym obszernym przewodniku zbadamy wewnętrzne działanie LLM opartych na dekoderze, zagłębiając się w podstawowe elementy składowe, innowacje architektoniczne i szczegóły implementacji, które wywindowały te modele na czoło badań i zastosowań NLP.

Architektura transformatora: odświeżenie

Zanim zagłębimy się w specyfikę LLM opartych na dekoderze, konieczne jest ponowne zapoznanie się z architekturą transformatora, podstawą, na której zbudowane są te modele. Transformator wprowadził nowatorskie podejście do modelowania sekwencji, opierając się wyłącznie na mechanizmach uwagi w celu wychwytywania zależności dalekiego zasięgu w danych, bez potrzeby stosowania warstw rekurencyjnych lub splotowych.

Architektura Transformatorów

Oryginalna architektura transformatora składa się z dwóch głównych elementów: kodera i dekodera. Koder przetwarza sekwencję wejściową i generuje kontekstualizowaną reprezentację, która jest następnie wykorzystywana przez dekoder w celu wytworzenia sekwencji wyjściowej. Architektura ta została początkowo zaprojektowana do zadań tłumaczenia maszynowego, w których koder przetwarza zdanie wejściowe w języku źródłowym, a dekoder generuje odpowiednie zdanie w języku docelowym.

Samouważność: klucz do sukcesu Transformera

W sercu transformator kryje się mechanizm samouwagi – potężna technika, która pozwala modelowi ważyć i agregować informacje z różnych pozycji w sekwencji wejściowej. W przeciwieństwie do tradycyjnych modeli sekwencji, które sekwencyjnie przetwarzają tokeny wejściowe, samouważność umożliwia modelowi przechwytywanie zależności pomiędzy dowolną parą tokenów, niezależnie od ich pozycji w sekwencji.

Uwaga na wiele zapytań

Operację samouważności można podzielić na trzy główne etapy:

Projekcje zapytań, kluczy i wartości: Sekwencja wejściowa jest rzutowana na trzy oddzielne reprezentacje: zapytania (Q), Klawisze (K) i wartości (V). Projekcje te uzyskuje się poprzez pomnożenie danych wejściowych przez poznane macierze wag.
Obliczanie wyniku uwagi: Dla każdej pozycji w sekwencji wejściowej oblicza się wyniki uwagi, biorąc iloczyn skalarny pomiędzy odpowiednim wektorem zapytania i wszystkimi wektorami kluczowymi. Wyniki te reprezentują znaczenie każdego stanowiska w stosunku do aktualnie przetwarzanego stanowiska.
Ważona suma wartości: Wyniki uwagi są normalizowane przy użyciu funkcji softmax, a uzyskane wagi uwagi są wykorzystywane do obliczenia sumy ważonej wektorów wartości, tworząc reprezentację wyjściową dla bieżącej pozycji.

Uwaga wielogłowa, odmiana mechanizmu samouważności, pozwala modelowi uchwycić różne typy relacji poprzez obliczenie wyników uwagi dla wielu „głowice” równolegle, każdy z własnym zestawem prognoz zapytań, kluczy i wartości.

Warianty i konfiguracje architektoniczne

Chociaż podstawowe zasady LLM opartych na dekoderze pozostają spójne, badacze zbadali różne warianty architektury i konfiguracje, aby poprawić wydajność, efektywność i możliwości uogólniania. W tej części przyjrzymy się różnym wyborom architektonicznym i ich konsekwencjom.

Typy architektury

LLM oparte na dekodowaniu można ogólnie podzielić na trzy główne typy: koder-dekoder, dekoder przyczynowy i dekoder przedrostków. Każdy typ architektury charakteryzuje się odrębnymi wzorcami uwagi.

Architektura kodera-dekodera

Oparta na podstawowym modelu Transformera architektura kodera i dekodera składa się z dwóch stosów: kodera i dekodera. Koder wykorzystuje ułożone wielogłowicowe warstwy samouwagi do kodowania sekwencji wejściowej i generowania ukrytych reprezentacji. Następnie dekoder dokonuje wzajemnej uwagi na tych reprezentacjach, aby wygenerować sekwencję docelową. Chociaż jest skuteczny w różnych zadaniach NLP, kilka LLM, takich jak Flan-T5, zastosuj tę architekturę.

Architektura dekodera przyczynowego

Architektura dekodera przyczynowego zawiera jednokierunkową maskę uwagi, dzięki czemu każdy token wejściowy może obsługiwać tylko przeszłe tokeny i siebie. Zarówno tokeny wejściowe, jak i wyjściowe są przetwarzane w tym samym dekoderze. Godne uwagi modele, takie jak GPT-1, GPT-2 i GPT-3 zbudowane są na tej architekturze, przy czym GPT-3 oferuje niezwykłe możliwości uczenia się w kontekście. Wiele LLM, w tym OPT, BLOOM i Gopher, powszechnie przyjęło dekodery przyczynowe.

Architektura dekodera prefiksów

Architektura dekodera prefiksowego, znana również jako dekoder nieprzyczynowy, modyfikuje mechanizm maskowania dekoderów przyczynowych, aby umożliwić dwukierunkową uwagę na tokenach prefiksów i jednokierunkową uwagę na wygenerowanych tokenach. Podobnie jak architektura kodera-dekodera, dekodery prefiksów mogą kodować sekwencję prefiksów dwukierunkowo i autoregresywnie przewidywać tokeny wyjściowe przy użyciu wspólnych parametrów. LLM oparte na dekoderach prefiksów obejmują GLM130B i U-PaLM.

Wszystkie trzy typy architektury można rozszerzyć za pomocą mieszanka ekspertów (MoE) technika skalowania, która rzadko aktywuje podzbiór wag sieci neuronowej dla każdego wejścia. Podejście to zastosowano w modelach takich jak Switch Transformer i GLaM, przy zwiększeniu liczby ekspertów lub całkowitego rozmiaru parametrów, co wykazało znaczną poprawę wydajności.

Transformator przeznaczony wyłącznie do dekodera: wykorzystanie natury autoregresyjnej

Chociaż oryginalna architektura transformatora została zaprojektowana do zadań sekwencyjnych, takich jak tłumaczenie maszynowe, wiele zadań NLP, takich jak modelowanie języka i generowanie tekstu, można ująć jako problemy autoregresyjne, w których model generuje jeden token na raz, uwarunkowany wcześniej wygenerowane tokeny.

Wprowadź transformator przeznaczony tylko do dekodera, uproszczony wariant architektury transformatora, który zachowuje tylko komponent dekodera. Architektura ta szczególnie dobrze nadaje się do zadań autoregresyjnych, ponieważ generuje tokeny wyjściowe jeden po drugim, wykorzystując wcześniej wygenerowane tokeny jako kontekst wejściowy.

Kluczowa różnica między transformatorem przeznaczonym tylko do dekodera a oryginalnym dekoderem transformatorowym polega na mechanizmie samouwagi. W przypadku ustawienia tylko dekodera operacja samouwagi jest modyfikowana, aby uniemożliwić modelowi zwracanie uwagi na przyszłe tokeny, co jest właściwością znaną jako przyczynowość. Osiąga się to poprzez technikę zwaną „zamaskowaną samouwagą”, w której wyniki uwagi odpowiadające przyszłym pozycjom są ustawiane na ujemną nieskończoność, skutecznie je maskując na etapie normalizacji softmax.

Komponenty architektoniczne LLM opartych na dekoderze

Chociaż podstawowe zasady samouwagi i zamaskowanej samouwagi pozostają takie same, nowoczesne LLM oparte na dekoderach wprowadziły kilka innowacji architektonicznych w celu poprawy wydajności, wydajności i możliwości uogólniania. Przyjrzyjmy się niektórym kluczowym komponentom i technikom stosowanym w najnowocześniejszych LLM.

Reprezentacja wejściowa

Przed przetworzeniem sekwencji wejściowej, LLM oparte na dekoderze wykorzystują techniki tokenizacji i osadzania w celu przekształcenia surowego tekstu w reprezentację numeryczną odpowiednią dla modelu.

osadzanie wektorów

tokenizacja: Proces tokenizacji przekształca tekst wejściowy w sekwencję tokenów, którymi mogą być słowa, słowa podrzędne lub nawet pojedyncze znaki, w zależności od zastosowanej strategii tokenizacji. Popularne techniki tokenizacji dla LLM obejmują kodowanie par bajtów (BPE), SentencePiece i WordPiece. Metody te mają na celu osiągnięcie równowagi między rozmiarem słownictwa a szczegółowością reprezentacji, umożliwiając modelowi skuteczną obsługę rzadkich lub poza słownictwem słów.

Osadzanie tokenów: Po tokenizacji każdy token jest odwzorowywany na gęstą reprezentację wektorową zwaną osadzaniem tokenu. Te osadzania są uczone podczas procesu uczenia i przechwytują relacje semantyczne i syntaktyczne między tokenami.

Osadzenie pozycyjne: Modele transformatorów przetwarzają jednocześnie całą sekwencję wejściową, bez nieodłącznego pojęcia pozycji znaczników występujących w modelach cyklicznych. Aby uwzględnić informacje o pozycji, do osadzonych żetonów dodawane są osadzania pozycyjne, umożliwiając modelowi rozróżnienie tokenów na podstawie ich pozycji w sekwencji. Wczesne modele LLM wykorzystywały osadzanie pozycyjne o stałym położeniu w oparciu o funkcje sinusoidalne, podczas gdy w nowszych modelach badano osadzanie pozycyjne możliwe do nauczenia lub alternatywne techniki kodowania pozycyjnego, takie jak osadzanie pozycyjne obrotowe.

Wielogłowicowe bloki uwagi

Podstawowymi elementami LLM opartymi na dekoderze są wielogłowe warstwy uwagi, które wykonują opisaną wcześniej operację maskowanej samouwagi. Warstwy te są układane wielokrotnie, przy czym każda warstwa odpowiada wynikom poprzedniej warstwy, co pozwala modelowi uchwycić coraz bardziej złożone zależności i reprezentacje.

Uwaga głowy: Każda wielogłowa warstwa uwagi składa się z wielu „głów uwagi”, z których każda ma własny zestaw projekcji zapytań, kluczy i wartości. Dzięki temu model może jednocześnie zajmować się różnymi aspektami danych wejściowych, wychwytując różnorodne relacje i wzorce.

Połączenia resztkowe i normalizacja warstw: Aby ułatwić uczenie głębokich sieci i złagodzić problem zanikającego gradientu, LLM oparte na dekoderze wykorzystują połączenia resztkowe i techniki normalizacji warstw. Pozostałe połączenia dodają dane wejściowe warstwy do jej danych wyjściowych, umożliwiając łatwiejszy przepływ gradientów podczas propagacji wstecznej. Normalizacja warstw pomaga ustabilizować aktywacje i gradienty, dodatkowo poprawiając stabilność i wydajność treningu.

Warstwy przekazujące dalej

Oprócz wielogłowicowych warstw uwagi, LLM oparte na dekoderze zawierają warstwy ze sprzężeniem zwrotnym, które stosują prostą sieć neuronową ze sprzężeniem zwrotnym do każdej pozycji w sekwencji. Warstwy te wprowadzają nieliniowość i umożliwiają modelowi naukę bardziej złożonych reprezentacji.

Funkcje aktywacji: Wybór funkcji aktywacji w warstwach wyprzedzających może znacząco wpłynąć na wydajność modelu. Podczas gdy wcześniejsze modele LLM opierały się na szeroko stosowanej aktywacji ReLU, w nowszych modelach zastosowano bardziej wyrafinowane funkcje aktywacji, takie jak jednostka liniowa błędu Gaussa (GELU) lub aktywacja SwiGLU, które wykazały lepszą wydajność.

Rzadka uwaga i wydajne transformatory

Chociaż mechanizm samouwagi jest potężny, charakteryzuje się kwadratową złożonością obliczeniową w odniesieniu do długości sekwencji, co czyni go kosztownym obliczeniowo w przypadku długich sekwencji. Aby sprostać temu wyzwaniu, zaproponowano kilka technik mających na celu zmniejszenie wymagań obliczeniowych i pamięciowych związanych z samouwagą, umożliwiając wydajne przetwarzanie dłuższych sekwencji.

Rzadka uwaga: Techniki rzadkiej uwagi, takie jak ta zastosowana w modelu GPT-3, selektywnie zajmują się podzbiorem pozycji w sekwencji wejściowej, zamiast obliczać wyniki uwagi dla wszystkich pozycji. Może to znacznie zmniejszyć złożoność obliczeniową przy zachowaniu rozsądnej wydajności.

Uwaga na przesuwane okno: Wprowadzona w modelu Mistral 7B, uwaga przesuwanego okna (SWA) to prosta, ale skuteczna technika, która ogranicza zakres uwagi każdego tokena do stałego rozmiaru okna. Podejście to wykorzystuje zdolność warstw transformatora do przesyłania informacji pomiędzy wieloma warstwami, skutecznie zwiększając zakres uwagi bez kwadratowej złożoności pełnej samouważności.

Pamięć podręczna bufora kroczącego: Aby jeszcze bardziej zmniejszyć wymagania dotyczące pamięci, szczególnie w przypadku długich sekwencji, model Mistral 7B wykorzystuje pamięć podręczną z ruchomym buforem. Technika ta przechowuje i ponownie wykorzystuje obliczone wektory klucza i wartości dla stałego rozmiaru okna, unikając zbędnych obliczeń i minimalizując zużycie pamięci.

Uwaga na zapytanie grupowe: Wprowadzona w modelu LLaMA 2, skupiona uwaga zapytań (GQA) jest odmianą mechanizmu uwagi złożonej z wielu zapytań, który dzieli głowy uwagi na grupy, przy czym każda grupa ma wspólną macierz kluczy i wartości. Podejście to zapewnia równowagę pomiędzy efektywnością uwagi składającej się z wielu zapytań a wydajnością standardowej samouważności, zapewniając lepszy czas wnioskowania przy jednoczesnym zachowaniu wysokiej jakości wyników.

Uwaga dotycząca zapytania grupowego

Rozmiar modelu i skalowanie

Jedną z charakterystycznych cech współczesnych LLM jest ich skala, z liczbą parametrów wahającą się od miliardów do setek miliardów. Zwiększanie rozmiaru modelu było kluczowym czynnikiem pozwalającym osiągnąć najnowocześniejszą wydajność, ponieważ większe modele mogą uchwycić bardziej złożone wzorce i relacje w danych.

Liczba parametrów: Liczba parametrów w LLM opartym na dekoderze jest określana przede wszystkim przez wymiar osadzania (d_model), liczbę głów uwagi (n_heads), liczbę warstw (n_layers) i rozmiar słownictwa (vocab_size). Na przykład model GPT-3 ma 175 miliardów parametrów, przy czym d_model = 12288, n_heads = 96, n_warstw = 96, vocab_size = 50257.

Równoległość modelu: Szkolenie i wdrażanie tak ogromnych modeli wymaga znacznych zasobów obliczeniowych i specjalistycznego sprzętu. Aby pokonać to wyzwanie, zastosowano techniki równoległości modelu, w których model jest dzielony na wiele procesorów graficznych lub TPU, przy czym każde urządzenie odpowiada za część obliczeń.

Mieszanka ekspertów: Innym podejściem do skalowania LLM jest architektura mieszanki ekspertów (MoE), która łączy wiele modeli eksperckich, z których każdy specjalizuje się w określonym podzbiorze danych lub zadaniu. Model Mixtral 8x7B jest przykładem modelu MoE, który wykorzystuje technologię Mistrala 7B jako model podstawowy, osiągając doskonałą wydajność przy zachowaniu wydajności obliczeniowej.

Wnioskowanie i generowanie tekstu

Jednym z głównych przypadków użycia LLM opartych na dekoderze jest generowanie tekstu, w którym model generuje spójny i naturalnie brzmiący tekst na podstawie danego podpowiedzi lub kontekstu.

Dekodowanie autoregresyjne: Podczas wnioskowania LLM oparte na dekoderze generują tekst w sposób autoregresyjny, przewidując jeden token na raz na podstawie wcześniej wygenerowanych tokenów i monitu wejściowego. Proces ten trwa do momentu spełnienia wcześniej określonego kryterium zatrzymania, takiego jak osiągnięcie maksymalnej długości sekwencji lub wygenerowanie tokenu końca sekwencji.

Strategie pobierania próbek: Aby wygenerować różnorodny i realistyczny tekst, można zastosować różne strategie próbkowania, takie jak próbkowanie top-k, próbkowanie top-p (znane również jako próbkowanie jądra) lub skalowanie temperatury. Techniki te kontrolują kompromis pomiędzy różnorodnością i spójnością wygenerowanego tekstu poprzez dostosowanie rozkładu prawdopodobieństwa w obrębie słownictwa.

Szybka inżynieria: Jakość i specyfika podpowiedzi wejściowej może znacząco wpłynąć na wygenerowany tekst. Szybka inżynieria, sztuka tworzenia skutecznych podpowiedzi, okazała się kluczowym aspektem wykorzystania LLM do różnych zadań, umożliwiając użytkownikom kierowanie procesem generowania modelu i osiąganie pożądanych wyników.

Dekodowanie typu „człowiek w pętli”.: Aby jeszcze bardziej poprawić jakość i spójność generowanego tekstu, można zastosować techniki takie jak Uczenie się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF) zostali zatrudnieni. W tym podejściu osoby oceniające przekazują informację zwrotną na temat tekstu wygenerowanego przez model, która jest następnie wykorzystywana do udoskonalenia modelu, skutecznego dostosowania go do preferencji człowieka i ulepszenia jego wyników.

Postępy i przyszłe kierunki

Dziedzina LLM opartych na dekoderach szybko się rozwija, a nowe badania i przełomy stale przesuwają granice możliwości tych modeli. Oto kilka znaczących osiągnięć i potencjalnych przyszłych kierunków:

Wydajne warianty transformatorów: Chociaż rzadka uwaga i uwaga przesuwanego okna poczyniły znaczne postępy w poprawie wydajności LLM opartych na dekoderze, badacze aktywnie badają alternatywne architektury transformatorów i mechanizmy uwagi w celu dalszego zmniejszenia wymagań obliczeniowych przy jednoczesnym utrzymaniu lub poprawie wydajności.

Multimodalne LLM: Rozszerzając możliwości LLM poza tekst, modele multimodalne mają na celu zintegrowanie wielu modalności, takich jak obrazy, dźwięk lub wideo, w jedną ujednoliconą strukturę. Otwiera to ekscytujące możliwości dla aplikacji, takich jak podpisy obrazów, wizualne odpowiadanie na pytania i generowanie treści multimedialnych.

Kontrolowana generacja: Umożliwienie szczegółowej kontroli nad wygenerowanym tekstem jest trudnym, ale ważnym kierunkiem dla LLM. Techniki takie jak kontrolowane generowanie tekstu i szybkie dostrajanie mają na celu zapewnienie użytkownikom bardziej szczegółowej kontroli nad różnymi atrybutami wygenerowanego tekstu, takimi jak styl, ton lub określone wymagania dotyczące treści.

Wnioski

Oparte na dekoderach LLM okazały się siłą transformacyjną w dziedzinie przetwarzania języka naturalnego, przesuwając granice tego, co jest możliwe w zakresie generowania i rozumienia języka. Od skromnych początków jako uproszczony wariant architektury transformatora, modele te przekształciły się w wysoce wyrafinowane i wydajne systemy, wykorzystujące najnowocześniejsze techniki i innowacje architektoniczne.

W miarę dalszego odkrywania i rozwijania LLM opartych na dekoderach możemy spodziewać się jeszcze bardziej niezwykłych osiągnięć w zadaniach związanych z językiem, a także integracji tych modeli z szeroką gamą zastosowań i domen. Jednakże niezwykle istotne jest uwzględnienie kwestii etycznych, wyzwań związanych z interpretacją i potencjalnych uprzedzeń, które mogą wyniknąć z powszechnego stosowania tych potężnych modeli.

Pozostając w czołówce badań, wspierając otwartą współpracę i utrzymując silne zaangażowanie w odpowiedzialny rozwój sztucznej inteligencji, możemy uwolnić pełny potencjał LLM opartych na dekoderach, zapewniając jednocześnie, że są one opracowywane i wykorzystywane w sposób bezpieczny, etyczny i korzystny dla społeczeństwo.

Powiązane tematy:BLOOM dekoder GPT-3 LLM Palma SZYBKA INŻYNIERIA samokontrola Transformatory

W przyszłym

Elektrownia kieszonkowa: przedstawiamy Phi-3 firmy Microsoft, model językowy, który zmieści się w Twoim telefonie

Nie przegap

Mini-Gemini: wydobywanie potencjału multimodalnych modeli języka wizyjnego

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.