Sztuczna inteligencja

MoRA: Aktualizacja o wysokiej randze dla PEFT

mm

Ze względu na swoją wytrzymałość i szerokie zastosowanie w porównaniu z innymi metodami, LoRA lub niska-rankowa adaptacja jest jedną z najpopularniejszych metod PEFT (Parameter-Efficient Fine-Tuning) dla dostrajania dużych modeli językowych. Ramy LoRA wykorzystują dwie macierze o niskiej randze do dekompozycji i przybliżenia zaktualizowanych wag w FFT (Full Fine Tuning), a ramy LoRA modyfikują te parametry uczące się odpowiednio, dostosowując rangę macierzy. Główną zaletą wdrożenia tego procesu jest to, że ułatwia ramom LoRA połączenie tych macierzy bez opóźnień inferencyjnych po dostrajaniu. Ponadto, chociaż ostatnie duże modele językowe dostarczają znaczące wyniki w zadaniach uczenia się w kontekście, niektóre sytuacje nadal wymagają dostrajania i mogą być ogólnie sklasyfikowane na trzy typy. Pierwszy typ to dostrajanie instrukcji, które ma na celu lepsze dopasowanie LLM do zadań końcowych i preferencji użytkowników bez zwiększania wiedzy i możliwości LLM, co ułatwia radzenie sobie z różnymi zadaniami i złożonymi instrukcjami. Drugi typ obejmuje zadania złożonego rozumowania, takie jak rozwiązywanie problemów matematycznych. Trzeci typ to ciągłe wstępne szkolenie, które ma na celu poprawę ogólnych możliwości domenowych dużych modeli językowych.

W tym artykule omówimy, czy aktualizacja o niskiej randze wpływa na wyniki ram LoRA, ponieważ zaobserwowano, że mechanizm aktualizacji o niskiej randze może utrudnić dużej modelowi językowemu naukę i zapamiętywanie nowej wiedzy. W związku z tym omówimy MoRA, nową metodę, która osiąga aktualizację o wysokiej randze, utrzymując przy tym taką samą liczbę parametrów uczących się, wykorzystując macierz kwadratową. Aby to osiągnąć, ramy MoRA redukują wymiar wejściowy i zwiększają wymiar wyjściowy dla macierzy kwadratowej, wprowadzając odpowiednie operatory bezparametryczne. Ponadto operatory te zapewniają, że waga może być scalona z powrotem do LLM, co sprawia, że ramy MoRA są wdrażalne jak LoRA.

Ten artykuł ma na celu omówienie ram MoRA w szczegółach, a my będziemy badać mechanizm, metodologię, architekturę ramy wraz z porównaniem z ramami stanu sztuki. Zatem zacznijmy.

MoRA: Aktualizacja o wysokiej randze dla PEFT

W miarę jak rozmiar i możliwości modeli językowych rosną, PEFT lub Parameter-Efficient Fine-Tuning staje się jedną z najpopularniejszych i najbardziej efektywnych metod adaptacji LLM do konkretnych zadań dolnych. W porównaniu z FFT, które aktualizuje wszystkie parametry, PEFT modyfikuje tylko ułamek wszystkich parametrów, ponieważ w niektórych zadaniach może osiągnąć podobne wyniki jak FFT, aktualizując mniej niż 1% wszystkich parametrów, co znacznie redukuje wymagania pamięciowe dla optymalizatora, ułatwiając przechowywanie i wdrażanie modeli. Ponadto wśród wszystkich istniejących metod PEFT, LoRA jest najpopularniejsza dzisiaj, szczególnie dla LLM. Jednym z głównych powodów, dla których metody LoRA dostarczają lepsze wyniki w porównaniu z metodami PEFT, takimi jak adaptery lub dostrajanie podpowiedzi, jest to, że LoRA wykorzystuje macierze o niskiej randze do aktualizacji parametrów, a ramy mają kontrolę nad scalaniem tych macierzy w parametry oryginalnego modelu, bez zwiększania wymagań obliczeniowych podczas inferencji. Chociaż istnieją liczne metody, które próbują poprawić LoRA dla dużych modeli językowych, większość z nich opiera się na GLUE, aby zwalidować ich skuteczność, albo wymagając niewielkiej liczby parametrów uczących się, albo osiągając lepsze wyniki.

Ponadto eksperymenty przeprowadzone na LoRA w szerokim zakresie zadań, w tym ciągłym wstępnym szkoleniu, rozumowaniu matematycznym i dostrajaniu instrukcji, wskazują, że chociaż ramy LoRA wykazują podobne wyniki w tych zadaniach i dostarczają wyniki porównywalne z metodami FFT w zadaniach dostrajania instrukcji, modele LoRA nie mogły powtórzyć wyników w zadaniach ciągłego wstępnego szkolenia i rozumowania matematycznego. Możliwym wyjaśnieniem tego braku wyników może być zależność LoRA od aktualizacji macierzy o niskiej randze, ponieważ macierz aktualizacji o niskiej randze może mieć trudności z oszacowaniem pełno-rankowych aktualizacji w FFT, szczególnie w zadaniach intensywnie korzystających z pamięci, które wymagają zapamiętywania wiedzy domenowej, takich jak ciągłe wstępne szkolenie. Ponieważ ranga macierzy aktualizacji o niskiej randze jest mniejsza niż pełna ranga, ogranicza ona zdolność do przechowywania nowej informacji za pomocą dostrajania. W oparciu o te obserwacje, MoRA próbuje zwiększyć rangę w macierzy aktualizacji o niskiej randze, utrzymując przy tym taką samą liczbę parametrów uczących się, wykorzystując macierz kwadratową. Poniższy rysunek porównuje ramy MoRA z LoRA pod tym samym liczbą parametrów uczących się.

W powyższym obrazie (a) reprezentuje LoRA, a (b) reprezentuje MoRA. W jest zamarzniętą wagą z modelu, M jest macierzą uczącą się w MoRA, A i B są macierzami o niskiej randze w LoRA, a r reprezentuje rangę w LoRA i MoRA. Jak można zauważyć, ramy MoRA wykazują większą pojemność niż modele LoRA z dużą rangą. Ponadto ramy MoRA rozwijają odpowiednie operatory bezparametryczne, aby zredukować wymiar wejściowy i zwiększyć wymiar wyjściowy dla macierzy uczącej się M. Ponadto ramy MoRA zapewniają elastyczność w używaniu macierzy aktualizacji o niskiej randze jako substytutu macierzy uczącej się M i operatorów, co pozwala na scalenie metody MoRA z powrotem do dużego modelu językowego, jak LoRA. Poniższa tabela porównuje wyniki FFT, LoRA, wariantów LoRA i naszej metody w zadaniach dostrajania instrukcji, rozumowania matematycznego i ciągłego wstępnego szkolenia.

MoRA: Metodologia i Architektura

Wpływ Aktualizacji o Niskiej Randze

Kluczowym punktem ram LoRA jest oszacowanie pełno-rankowych aktualizacji w FFT za pomocą aktualizacji o niskiej randze. Tradycyjnie, dla danej wstępnie wyuczonej macierzy parametrów, LoRA wykorzystuje dwie macierze o niskiej randze do obliczenia aktualizacji wagi. Aby upewnić się, że aktualizacje wagi są 0, gdy rozpoczyna się trening, ramy LoRA inicjują jedną z macierzy o niskiej randze z rozkładem Gaussa, a drugą z 0. Ogólna aktualizacja wagi w LoRA wykazuje niską rangę w porównaniu z dostrajaniem w FFT, chociaż aktualizacja o niskiej randze w LoRA dostarcza wyników porównywalnych z pełno-rankową aktualizacją w określonych zadaniach, w tym dostrajaniu instrukcji i klasyfikacji tekstu. Jednak wyniki ram LoRA zaczynają się pogarszać w zadaniach, takich jak ciągłe wstępne szkolenie i złożone rozumowanie. Na podstawie tych obserwacji, MoRA proponuje, że jest łatwiej wykorzystać możliwości i oryginalną wiedzę LLM do rozwiązywania zadań za pomocą aktualizacji o niskiej randze, ale model ma trudności z wykonywaniem zadań, które wymagają zwiększenia możliwości i wiedzy dużego modelu językowego.

Metodologia

Chociaż LLM z uczeniem się w kontekście są znaczącą poprawą w porównaniu z poprzednimi podejściami, nadal istnieją konteksty, które polegają na dostrajaniu, ogólnie dzieląc się na trzy kategorie. Są to LLM dostosowane do instrukcji, które mają na celu lepsze dopasowanie LLM do zadań końcowych i preferencji użytkowników, nie zwiększając znacznie wiedzy i możliwości LLM, co ułatwia radzenie sobie z różnymi zadaniami i złożonymi instrukcjami. Innym typem są zadania złożonego rozumowania, takie jak rozwiązywanie problemów matematycznych, dla których ogólne dostrajanie instrukcji nie jest wystarczające do radzenia sobie z złożonymi symbolicznymi wieloetapowymi zadaniami rozumowania. Większość powiązanych badań ma na celu poprawę zdolności rozumowania LLM, i albo wymaga projektowania odpowiednich zbiorów danych szkoleniowych na podstawie większych modeli nauczycielskich, takich jak GPT-4, albo przepisywania pytań zgodnych z podaniem wzdłuż ścieżki rozumowania. Trzeci typ to ciągłe wstępne szkolenie, które ma na celu poprawę domenowych zdolności LLM. W przeciwieństwie do dostrajania instrukcji, dostrajanie jest wymagane do wzbogacenia powiązanej domenowej wiedzy i umiejętności.

Jednak większość wariantów LoRA prawie wyłącznie wykorzystuje dostrajanie instrukcji GLUE lub zadania klasyfikacji tekstu do oceny ich skuteczności w kontekście LLM. Ponieważ dostrajanie instrukcji wymaga najmniejszych zasobów w porównaniu z innymi typami, może nie reprezentować właściwego porównania między wariantami LoRA. Dodawanie zadań rozumowania do oceny ich metod jest powszechną praktyką w bardziej niedawnych pracach. Jednak zwykle wykorzystujemy małe zestawy szkoleniowe (nawet 1M przykładów, co jest dość duże). LLM mają trudności z nauką właściwego rozumowania z przykładów tej wielkości. Na przykład niektóre podejścia wykorzystują GSM8K z tylko 7,5K epizodów szkoleniowych. Jednak te liczby są niewystarczające w porównaniu z metodą SOTA, która była szkolona na 395K próbek, i utrudniają ocenę zdolności tych metod do nauki zdolności rozumowania NLP.

Na podstawie obserwacji dotyczących wpływu aktualizacji o niskiej randze, ramy MoRA proponują nową metodę, aby złagodzić negatywne skutki aktualizacji o niskiej randze. Podstawowym punktem ram MoRA jest wykorzystanie tych samych parametrów uczących się do maksymalnego stopnia, aby osiągnąć wyższą rangę w macierzy aktualizacji o niskiej randze. Po uwzględnieniu wstępnie wyuczonych wag, ramy LoRA wykorzystują dwie macierze o niskiej randze A i B z łączną liczbą parametrów uczących się dla rangi r. Jednak dla tej samej liczby parametrów uczących się, macierz kwadratowa może osiągnąć najwyższą rangę, a ramy MoRA osiągają to, redukując wymiar wejściowy i zwiększając wymiar wyjściowy dla macierzy uczącej się kwadratowej. Ponadto te dwie funkcje powinny być operatorami bezparametrycznymi i powinny być wykonywane w czasie liniowym w odniesieniu do wymiaru.

MoRA: Eksperymenty i Wyniki

Aby ocenić ich wyniki, ramy MoRA są oceniane w szerokim zakresie zadań, aby zrozumieć wpływ aktualizacji o wysokiej randze na trzy zadania: zapamiętywanie par UUID, zadania dostrajania i wstępne szkolenie.

Zapamiętywanie Par UUID

Aby zademonstrować poprawę wyników, ramy MoRA są porównywane z FFT i LoRA w zadaniach zapamiętywania par UUID. Strata treningowa z eksperymentu jest odzwierciedlona w poniższym obrazie.

Warto zauważyć, że dla tej samej liczby parametrów uczących się, ramy MoRA są w stanie przewyższyć istniejące modele LoRA, co wskazuje, że skorzystały z strategii aktualizacji o wysokiej randze. Raport dokładności treningowej na poziomie znaków w różnych krokach treningu jest podsumowany w poniższej tabeli.

Jak można zauważyć, w porównaniu z LoRA, ramy MoRA wymagają mniej kroków treningu, aby zapamiętać pary UUID.

Zadania Dostrajania

Aby ocenić ich wyniki w zadaniach dostrajania, ramy MoRA są oceniane w trzech zadaniach dostrajania: dostrajaniu instrukcji, rozumowaniu matematycznym i ciągłym wstępnym szkoleniu, zaprojektowanych dla dużych modeli językowych, wraz z wysokiej jakości odpowiednim zestawem danych dla modeli MoRA i LoRA. Wyniki zadań dostrajania są przedstawione w poniższej tabeli.

Jak można zauważyć, w zadaniach rozumowania matematycznego i dostrajania instrukcji, zarówno modele LoRA, jak i MoRA zwracają podobne wyniki. Jednak model MoRA wychodzi na pierwsze miejsce w zadaniach ciągłego wstępnego szkolenia dla domen biomedycznych i finansowych, korzystając z podejścia aktualizacji o wysokiej randze do zapamiętywania nowej wiedzy. Ponadto jest ważne, aby zrozumieć, że trzy zadania są od siebie różne, z różnymi wymaganiami i różnymi zdolnościami dostrajania.

Wstępne Szkolenie

Aby ocenić wpływ aktualizacji o wysokiej randze na ogólne wyniki, transformator w ramach MoRA jest szkolony od podstaw na zestawie danych C4, a wyniki są porównywane z modelami LoRA i ReLoRA. Strata wstępnego szkolenia wraz z odpowiednią złożonością na zestawie danych C4 są przedstawione w poniższych rysunkach.

Jak można zauważyć, model MoRA dostarcza lepsze wyniki w zadaniach wstępnego szkolenia w porównaniu z modelami LoRA i ReLoRA z tą samą liczbą parametrów uczących się.

Ponadto, aby zademonstrować wpływ aktualizacji o wysokiej randze na rangę macierzy aktualizacji o niskiej randze, ramy MoRA analizują widmo wartości singularnych dla nauczonej macierzy aktualizacji o niskiej randze, szkoląc model 250M, a wyniki są zawarte w poniższym obrazie.

Końcowe Myśli

W tym artykule omówiliśmy, czy aktualizacja o niskiej randze wpływa na wyniki ram LoRA, ponieważ zaobserwowano, że mechanizm aktualizacji o niskiej randze może utrudnić dużej modelowi językowemu naukę i zapamiętywanie nowej wiedzy. W związku z tym omówiliśmy MoRA, nową metodę, która osiąga aktualizację o wysokiej randze, utrzymując przy tym taką samą liczbę parametrów uczących się, wykorzystując macierz kwadratową. Aby to osiągnąć, ramy MoRA redukują wymiar wejściowy i zwiększają wymiar wyjściowy dla macierzy kwadratowej, wprowadzając odpowiednie operatory bezparametryczne. Ponadto operatory te zapewniają, że waga może być scalona z powrotem do LLM, co sprawia, że ramy MoRA są wdrażalne jak LoRA.

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.