Kontakt z nami

Artificial Intelligence

LoReFT: Dostrajanie reprezentacji modeli językowych

mm

Opublikowany

 on

LoReFT: Dostrajanie reprezentacji modeli językowych

Metody dostrajania efektywnego pod względem parametrów lub metody PeFT mają na celu dostosowanie dużych modeli językowych poprzez aktualizację niewielkiej liczby wag. Jednakże większość istniejących prac nad interpretacją wykazała, że ​​reprezentacje kodują informacje bogate w semantykę, co sugeruje, że edytowanie tych reprezentacji może być lepszą i potężniejszą alternatywą. Wstępnie wyszkolone duże modele są często dostrajane pod kątem wykorzystania w nowych domenach lub zadaniach, a podczas procesu dostrajania pojedynczy model podstawowy można dostosować do szerokiej gamy zadań, nawet przy niewielkiej ilości dostępnych danych w domenie do modelu. Jednak proces dostrajania całego modelu jest czasochłonny i kosztowny, szczególnie w przypadku modeli językowych o znacznie większej liczbie rozmiarów i parametrów. 

Metody dostrajania wydajnego pod względem parametrów lub metody PeFT proponują radzenie sobie z wysokimi kosztami związanymi z dostrajaniem całego modelu poprzez aktualizację tylko niewielkiej części dostępnych całkowitych wag, co pomaga w skróceniu czasu szkolenia i zużyciu pamięci. Co ważniejsze, metody dostrajania wydajnego pod względem parametrów lub metody PeFT wykazały podobną skuteczność w przypadku dostrajania w kilku praktycznych zastosowaniach. Adaptery, popularna rodzina wydajnych metod dostrajania parametrów lub metod PeFT, uczą się edycji, którą można dodać do dodatkowego zestawu wag działających wraz z zamrożonym modelem podstawowym, a najnowsze adaptery, takie jak LoRA, zmniejszają liczbę możliwych do wytrenowania parametrów w wyuczonych aktualizacje wag przy użyciu przybliżeń niskiego rzędu zamiast macierzy pełnej wagi podczas uczenia adapterów. 

Ponieważ poprzednie prace wykazały, że reprezentacje edycji mogą być lepszą alternatywą dla metod dostrajania efektywnego pod względem parametrów lub metod PeFT, w tym artykule będziemy mówić o metodach dostrajania reprezentacji lub metodach ReFT, które działają na zamrożonym modelu i uczą się specyficznego dla zadania interwencje na temat ukrytych reprezentacji. Celem tego artykułu jest szczegółowe omówienie frameworku ReFt lub Representation Fine-tuning, a także zbadanie mechanizmu, metodologii i architektury frameworku wraz z jego porównaniem z najnowocześniejszymi frameworkami. Więc zacznijmy. 

ReFT: Dostrajanie reprezentacji dla modeli językowych

Próbując zaadaptować wstępnie wytrenowane modele językowe do nowych dziedzin i zadań, obecne frameworki często dostrajają te wstępnie wytrenowane modele językowe, ponieważ dzięki wdrożonemu procesowi dostrajania pojedynczy model podstawowy można dostosować do różnych zadań nawet podczas pracy z niewielką ilością danych w domenie. Chociaż proces dostrajania rzeczywiście zwiększa ogólną wydajność, jest to proces kosztowny, zwłaszcza jeśli model języka ma znacznie dużą liczbę parametrów. Aby rozwiązać ten problem i zmniejszyć związane z nim koszty, PeFT lub Efektywność parametrów ramy dostrajające aktualizuj tylko niewielką część całkowitych wag, jest to proces, który nie tylko skraca czas szkolenia, ale także zmniejsza zużycie pamięci, umożliwiając frameworkom PeFT osiągnięcie podobnej wydajności w porównaniu z podejściami pełnego dostrajania w praktycznych scenariuszach. Adaptery, popularna rodzina PeFT, działają poprzez uczenie się edycji, którą można dodać do dodatkowego zestawu odważników wraz z podzbiorem odważników, które działają zgodnie z modelem podstawowym z zamrożonymi odważnikami. Najnowsze frameworki adapterów, takie jak LoRA i QLoRA wykazali, że możliwe jest uczenie adapterów o pełnej precyzji na modelach o zmniejszonej precyzji bez wpływu na wydajność. Adaptery są zwykle bardziej wydajne i skuteczne w porównaniu z innymi metodami, które wprowadzają nowe komponenty modelu. 

Najważniejszą cechą obecnego stanu wiedzy Struktury dostrajania wydajne pod względem parametrów polegają na tym, że zamiast modyfikować reprezentacje, modyfikują wagi. Jednakże struktury zajmujące się interpretowalnością wykazały, że reprezentacje kodują bogate informacje semantyczne, co sugeruje, że edytowanie reprezentacji może być lepszym i skuteczniejszym podejściem w porównaniu z aktualizacjami wag. To założenie, że edycja reprezentacji jest lepszym podejściem, stanowi podstawę ReFT lub struktury dostrajania reprezentacji, która uczy interwencji zamiast dostosowywania wag modelu, umożliwiając modelowi manipulowanie niewielką częścią wszystkich reprezentacji, próbując sterować zachowaniami modelu do rozwiązywania dalszych zadań podczas wnioskowania. Metody dostrajania ReFT lub reprezentacji są zastępczymi metodami dostrajania opartymi na wagach PeFT lub wydajnymi parametrami. Podejście ReFT czerpie inspirację z najnowszych modeli pracujących z dużą interpretacją modelu, która interweniuje w reprezentacje w celu znalezienia wiernych mechanizmów przyczynowych i steruje zachowaniem modelu podczas wnioskowania, dlatego można je postrzegać jako uogólnienie modeli edytujących reprezentację. Opierając się na tym samym, LoReFT lub podprzestrzeń niskiego rzędu ReFT jest mocnym i skutecznym przykładem ReFT i stanowi parametryzację ReFT, która interweniuje na ukrytych reprezentacjach w przestrzeni liniowej rozpiętej przez macierz projekcji niskiego rzędu i opiera się bezpośrednio na DAS lub struktura rozproszonego wyszukiwania wyrównania. 

Idąc dalej, w przeciwieństwie do pełnego dostrajania, platforma PeFT lub wydajne dostrajanie parametrów szkoli tylko niewielką część parametrów modelu i udaje mu się dostosować model do dalszych zadań. Ramy dostrajania efektywnego pod względem parametrów można podzielić na trzy główne kategorie:

  • Metody oparte na adapterach: Metody oparte na adapterach szkolą dodatkowe moduły, takie jak w pełni połączone warstwy, na wstępnie wytrenowanym modelu z zamrożonymi ciężarkami. Adaptery szeregowe wstawiają komponenty pomiędzy perceptronem wielowarstwowym lub warstwami uwagi MLP i LM lub dużymi modelami, podczas gdy adaptery równoległe dodają moduły obok istniejących komponentów. Ponieważ adaptery dodają nowe komponenty, których nie można łatwo złożyć w istniejące ciężary modelu, stanowią one dodatkowe obciążenie podczas wnioskowania. 
  • LoRA: LoRA wraz z jej najnowszymi wariantami przybliża wagi addytywne podczas treningu za pomocą macierzy niskiego rzędu i nie wymagają dodatkowych nakładów podczas wnioskowania, ponieważ aktualizacje wag można scalić z modelem i dlatego uważa się je za aktualne najsilniejsze struktury PeFT. 
  • Metody oparte na podpowiedziach: Metody oparte na podpowiedziach dodają tokeny programowe, które są losowo inicjowane na wejściu, i trenują ich osadzanie, jednocześnie utrzymując zamrożone wagi modelu językowego. Wydajność oferowana przez te metody często nie jest zadowalająca w porównaniu z innymi podejściami PeFT, a także wiążą się ze znacznymi kosztami ogólnymi wnioskowania. 

Zamiast aktualizować wagi, platforma ReFT uczy się interwencji w celu modyfikacji niewielkiej części całkowitych reprezentacji. Co więcej, ostatnie prace nad inżynierią reprezentacji i sterowaniem aktywacją wykazały, że dodanie stałych wektorów sterujących do strumienia resztkowego może ułatwić kontrolę nad wstępnie wytrenowanymi generacjami dużych modeli bez konieczności angażowania dużych zasobów strojenie. Inne platformy pokazały, że reprezentacje edycji z wyuczonymi operacjami skalowania i translacji mogą próbować dorównać wydajności oferowanej przez adaptery LoRA, ale nie ją przewyższyć, w szerokim zakresie zadań z mniejszą liczbą wyuczonych parametrów. Co więcej, sukces tych frameworków w szeregu zadań pokazał, że reprezentacje wprowadzone przez wstępnie wytrenowane modele językowe niosą ze sobą bogatą semantykę, chociaż wydajność tych modeli jest nieoptymalna, co powoduje, że PeFT nadal stanowią najnowocześniejsze podejście bez dodatkowego obciążenia wnioskowaniem. 

ReFT: Metodologia i architektura

Aby proces zachowywania stylu był prosty, framework ReFT przyjmuje jako model docelowy duży model oparty na transformatorze, który jest w stanie wygenerować kontekstualizowaną reprezentację sekwencji tokenów. Dla danej sekwencji z n liczbą tokenów wejściowych struktura ReFT najpierw osadza te tokeny wejściowe na liście reprezentacji, po czym m warstw oblicza listę ukrytych reprezentacji sukcesywnie jako funkcję poprzedniej listy ukrytych reprezentacji. Każda ukryta reprezentacja jest wektorem, a model językowy wykorzystuje ostateczne ukryte reprezentacje do tworzenia przewidywań. Struktura ReFT uwzględnia zarówno modele języka zamaskowanego, jak i modele języka autoregresyjnego. Obecnie, zgodnie z hipotezą reprezentacji liniowej, w sieciach neuronowych pojęcia są kodowane w liniowych podprzestrzeniach reprezentacji. Najnowsze modele wykazały, że to twierdzenie jest prawdziwe w modelach sieci neuronowych uczonych na języku naturalnym wraz z innymi dystrybucjami wejściowymi. 

Co więcej, w badaniach interpretowalności ramy zwykłej abstrakcji wykorzystują interwencje wymiany w celu przypadkowego ustalenia roli składników sieci neuronowej podczas wdrażania określonych zachowań. Logika stojąca za interwencją wymiany polega na tym, że jeśli ustalimy reprezentację na podstawie danych wejściowych ze scenariusza alternatywnego, a interwencja ta wpływa na wynik modelu w sposób spójny w taki sposób, w jaki twierdzenia formułowane w ramach ReFT na temat komponentu odpowiedzialnego za wytwarzanie tej reprezentacji, wówczas składnik odgrywa rolę przyczynową w zachowaniu. Chociaż istnieje kilka metod, interwencja rozproszonej wymiany jest idealnym podejściem do sprawdzenia, czy pojęcie jest zakodowane w liniowej podprzestrzeni reprezentacji, jak twierdzi hipoteza reprezentacji liniowej. Co więcej, metoda DAS była już wcześniej używana do znajdowania liniowej reprezentacji w modelach językowych atrybutów bytu, nastrojów, cech językowych i rozumowania matematycznego. Jednakże kilka eksperymentów wykazało, że metoda DAS jest wysoce ekspresyjna i posiada zdolność znajdowania przyczynowo skutecznych podprzestrzeni, nawet jeśli model języka transformatora został zainicjowany losowo, a zatem nie nauczył się jeszcze żadnych reprezentacji specyficznych dla zadania, co skutkuje debatuj, czy DAS jest wystarczająco skuteczny i odpowiedzialny w przypadku zadań związanych z interpretacją. 

Ekspresyjność oferowana przez DAS sugeruje, że podejście to może być idealnym narzędziem do kontrolowania zachowania modelu językowego wraz z jego pracą nad kontrolowanym generowaniem i odpowiedzialną edycją. Dlatego też, aby dostosować modele językowe do dalszych zadań, struktura ReFT wykorzystuje operację interwencji rozproszonej wymiany, aby stworzyć nową, efektywną metodę. Co więcej, metoda ReFT jest zbiorem interwencji, a ramy wymuszają, aby w przypadku dowolnych dwóch interwencji działających na tej samej warstwie pozycje interwencyjne musiały być rozłączne, a parametry wszystkich funkcji interwencyjnych pozostały niezależne. W rezultacie ReFT stanowi ogólną strukturę obejmującą interwencje dotyczące ukrytych reprezentacji podczas przekazywania modelu. 

ReFT: Eksperymenty i wyniki

Aby ocenić swoją wydajność w porównaniu z istniejącymi platformami PEFT, platforma ReFT przeprowadza eksperymenty w czterech różnych testach porównawczych przetwarzania języka naturalnego i obejmuje ponad 20 zbiorów danych, a głównym celem jest zapewnienie bogatego obrazu działania platformy LoReFT w różnych scenariuszach. Co więcej, gdy framework LoReFT jest wdrażany w prawdziwym życiu, programiści muszą zdecydować, ile interwencji należy się nauczyć, wraz z pozycjami wejściowymi i warstwami, na których można je zastosować. Aby wykonać zadanie, platforma ReFT dostraja cztery hiperparametry. 

  1. Liczba pozycji prefiksu, na których ma nastąpić interwencja. 
  2. Liczba pozycji przyrostka, na których ma nastąpić interwencja. 
  3. Na jakim zestawie warstw należy interweniować. 
  4. Czy powiązać parametry interwencji w różnych pozycjach w tej samej warstwie. 

W ten sposób struktura ReFT upraszcza przestrzeń wyszukiwania hiperparametrów i zapewnia jedynie stały dodatkowy koszt wnioskowania, który nie skaluje się wraz z długością podpowiedzi. 

Powyższa tabela porównuje dokładność struktur LLaMA-7B i LLaMA-13B z istniejącymi modelami PEFT w 8 zbiorach danych opartych na zdrowym rozsądku. Jak można zaobserwować, model LoReFT przewyższa istniejące podejścia PEFT z przyzwoitym marginesem, pomimo znacznie mniejszej liczby parametrów, przy czym średnia wydajność z trzech przebiegów jest raportowana z różnymi nasionami parametrów dla modelu LoReFT. Param(%) oblicza się, dzieląc liczbę parametrów, które można wytrenować, przez liczbę parametrów całkowitych dużego modelu podstawowego. 

Powyższa tabela podsumowuje porównanie dokładności struktur LLaMA-7B i LLaMA-13B z istniejącymi modelami PEFT w 4 różnych zestawach danych do wnioskowania arytmetycznego, przy czym struktura podaje średnią wydajność trzech przebiegów z różnymi losowymi nasionami. Jak można zaobserwować, pomimo znacznie mniejszej liczby parametrów (%), framework LoReFT znacznie przewyższa istniejące frameworki PEFT. 

Powyższa tabela podsumowuje porównanie dokładności struktur opartych na RoBERTa i RoBERTa-large z istniejącymi modelami PEFT w ramach testu porównawczego GLUE, przy czym struktura podaje średnią wydajność z pięciu przebiegów z różnymi losowymi nasionami. Jak można zaobserwować, pomimo znacznie mniejszej liczby parametrów (%), framework LoReFT znacznie przewyższa istniejące frameworki PEFT. 

Final Thoughts

W tym artykule mówiliśmy o LoReFT, potężnej alternatywie dla istniejących frameworków PEFT, która osiąga wysoką wydajność w testach porównawczych z czterech różnych domen, oferując jednocześnie do 50 razy większą wydajność oferowaną przez poprzednie, najnowocześniejsze modele PEFT. Wstępnie wyszkolone duże modele są często dostrajane pod kątem wykorzystania w nowych domenach lub zadaniach, a podczas procesu dostrajania pojedynczy model podstawowy można dostosować do szerokiej gamy zadań, nawet przy niewielkiej ilości dostępnych danych w domenie do modelu. Jednak proces dostrajania całego modelu jest czasochłonny i kosztowny, szczególnie w przypadku modeli językowych o znacznie większej liczbie rozmiarów i parametrów. Metody dostrajania wydajnego pod względem parametrów lub metody PeFT proponują radzenie sobie z wysokimi kosztami związanymi z dostrajaniem całego modelu poprzez aktualizację tylko niewielkiej części dostępnych całkowitych wag, co pomaga w skróceniu czasu szkolenia i zużyciu pamięci. Warto zauważyć, że LoReFT ustanawia najnowocześniejsze wyniki w zakresie zdrowego rozsądku, postępowania zgodnie z instrukcjami i rozumienia języka naturalnego w porównaniu z najsilniejszymi PEFT.

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.