Umělá inteligence
MoRA: Vysoký stupeň aktualizace pro Parameter-Efficient Fine-Tuning
Díky své robustní výkonnosti a široké aplikovatelnosti ve srovnání s jinými metodami je LoRA nebo Low-Rank Adaption jednou z nejoblíbenějších metod PEFT nebo Parameter Efficient Fine-Tuning pro jemné ladění velkých jazykových modelů. Rámec LoRA využívá dvě nízkorozměrové matice k rozkladu a aproximaci aktualizovaných váh v FFT nebo Full Fine Tuning, a rámec LoRA modifikuje tyto trénovatelné parametry odpovídajícím způsobem úpravou ranku matic. Hlavní výhodou implementace tohoto procesu je, že usnadňuje rámcu LoRA sloučit tyto matice bez zpoždění inference po jemném ladění. Kromě toho, přestože nedávné velké jazykové modely dodávají pozoruhodné výkony na úkolech učení v kontextu, některé scénáře stále vyžadují jemné ladění, a lze je obecně rozdělit do tří typů. První typ, ladění instrukcí, má za cíl lépe sladit LLM s koncovými úkoly a uživatelskými preferencemi bez zvyšování znalostí a schopností LLM, přístup, který zjednodušuje proces řešení různých úkolů a složitých instrukcí. Druhý typ zahrnuje složité úkoly rozumu, jako je řešení matematických problémů. Nakonec, třetí typ je kontinuální předtrénování, přístup, který se snaží zlepšit celkové doménově specifické schopnosti velkých jazykových modelů.
V tomto článku budeme mluvit o tom, zda nízkorozměrová aktualizace ovlivňuje výkon rámcu LoRA, protože bylo pozorováno, že mechanismus nízkorozměrové aktualizace může bránit schopnosti velkého jazykového modelu učit se a pamatovat si novou znalost. Na základě toho v tomto článku budeme mluvit o MoRA, nové metodě, která dosahuje vysokorozměrové aktualizace při zachování stejného počtu trénovatelných parametrů, pomocí čtvercové matice. K tomu rámec MoRA snižuje vstupní rozměr a zvyšuje výstupní rozměr pro čtvercovou matici zaváděním odpovídajících neparametrických operátorů. Kromě toho tyto operátory zajišťují, že váha může být sloučena zpět do LLM, což činí rámec MoRA nasaditelným jako LoRA.
Tento článek si klade za cíl pokrýt rámec MoRA do hloubky, a prozkoumáme mechanismus, metodologii, architekturu rámcu a jeho srovnání se stávajícími rámcemi. Takže pojďme začít.
MoRA: Vysoký stupeň aktualizace pro PEFT
Jak se zvyšuje velikost a schopnosti jazykových modelů, PEFT nebo Parameter Efficient Fine-Tuning se stává jednou z nejoblíbenějších a nejúčinnějších metod pro adaptaci LLM na konkrétní úkoly. Ve srovnání s FFT nebo Full Fine Tuning, které aktualizuje všechny parametry, PEFT modifikuje pouze zlomek celkových parametrů, a na některých úkolech může dosáhnout podobného výkonu jako FFT aktualizací méně než 1% celkových parametrů, což snižuje požadavky na paměť pro optimalizaci a usnadňuje uložení a nasazení modelů. Kromě toho, mezi všemi existujícími metodami PEFT, LoRA je tou nejoblíbenější dnes, zejména pro LLM. Jedním z hlavních důvodů, proč metody LoRA dodávají lepší výkon ve srovnání s metodami PEFT, jako jsou adaptéry nebo prompt tuning, je, že LoRA používá nízkorozměrové matice k aktualizaci parametrů, a rámec má kontrolu nad sloučením těchto matic do původních parametrů modelu, bez zvyšování výpočetních požadavků během inference. Přestože existuje mnoho metod, které se snaží zlepšit LoRA pro velké jazykové modely, většina z nich spoléhá na GLUE k ověření jejich efektivity, buď vyžadujících málo trénovatelných parametrů, nebo dosahujících lepšího výkonu.
Kromě toho, experimenty provedené na LoRA napříč širokou škálou úkolů, včetně kontinuálního předtrénování, matematického rozumu a ladění instrukcí, ukazují, že尽管 LoRA-založené rámce demonstrují podobný výkon napříč těmito úkoly, a dodávají výkon na ladění instrukcí podobný FFT-založeným metodám. Nicméně, LoRA-založené modely nemohly replikovat výkon na kontinuálním předtrénování a matematickém rozumu. Možným vysvětlením tohoto nedostatku výkonu může být závislost LoRA na nízkorozměrové aktualizaci, protože nízkorozměrová aktualizační matice může mít potíže s odhadem plnorozměrové aktualizace v FFT, zejména v paměťově náročných úkolech, které vyžadují pamatování doménově specifické znalosti, jako je kontinuální předtrénování. Protože rank nízkorozměrové aktualizační matice je menší než plný rank, omezuje kapacitu ukládat novou informaci pomocí jemného ladění. Na základě těchto pozorování, MoRA se snaží maximalizovat rank v nízkorozměrové aktualizační matici, zatímco zachovává stejné množství trénovatelných parametrů, pomocí čtvercové matice. Následující obrázek srovnává rámec MoRA s LoRA pod stejným počtem trénovatelných parametrů.

Je třeba poznamenat, že pro stejné množství trénovatelných parametrů, rámec MoRA je schopen překonat stávající LoRA modely, ukazující, že profitoval z vysokorozměrové aktualizace. Zpráva o charakterové úrovni školení na různých školicích krocích je shrnuta v následující tabulce. 
Jak je vidět, ve srovnání s LoRA, rámec MoRA vyžaduje méně školicích kroků k zapamatování UUID párů.
MoRA: Experimenty a výsledky
K vyhodnocení jeho výkonu, rámec MoRA je vyhodnocen na široké škále úkolů, aby se pochopila vliv vysokorozměrové aktualizace na tři úkoly: pamatování UUID párů, jemné ladění a předtrénování.
Pamatování UUID párů
K prokázání zlepšení výkonu, rámec MoRA je srovnán s FFT a LoRA rámci na pamatování UUID párů. Školicí ztráta z experimentu je zobrazena v následující obrazovce.

Je třeba poznamenat, že pro stejné množství trénovatelných parametrů, rámec MoRA je schopen překonat stávající LoRA modely, ukazující, že profitoval z vysokorozměrové aktualizace. Zpráva o charakterové úrovni školení na různých školicích krocích je shrnuta v následující tabulce. 
Jak je vidět, ve srovnání s LoRA, rámec MoRA vyžaduje méně školicích kroků k zapamatování UUID párů.
Jemné ladění
K vyhodnocení jeho výkonu na jemném ladění, rámec MoRA je vyhodnocen na třech jemných laděních: ladění instrukcí, matematickém rozumu a kontinuálním předtrénování, navržených pro velké jazykové modely, spolu s vysokokvalitními odpovídajícími daty pro rámce MoRA a LoRA. Výsledky jemného ladění jsou prezentovány v následující tabulce.

Jak je vidět, na matematickém rozumu a ladění instrukcí, obě LoRA a MoRA modely dodávají podobný výkon. Nicméně, MoRA model se ukazuje jako lepší než LoRA rámec na kontinuálním předtrénování pro obě biomedicínské a finanční domény, profitující z vysokorozměrové aktualizace pro zapamatování nové znalosti.
Předtrénování
K vyhodnocení vlivu vysokorozměrové aktualizace na celkový výkon, transformátor v rámci MoRA je trénován od začátku na datech C4, a výkon je srovnán s LoRA a ReLoRA modely. Předtrénovací ztráta spolu s odpovídající složitostí na datech C4 jsou demonstrovány v následující obrazovce.


Jak je vidět, MoRA model dodává lepší výkon na předtrénovacích úkolech ve srovnání s LoRA a ReLoRA modely se stejným množstvím trénovatelných parametrů.
Kromě toho, k prokázání vlivu vysokorozměrové aktualizace na rank nízkorozměrové aktualizační matice, rámec MoRA analyzuje spektrum singulárních hodnot pro naučenou nízkorozměrovou aktualizační matici předtrénováním modelu 250M, a výsledky jsou obsaženy v následující obrazovce.

Závěrečné myšlenky
V tomto článku jsme mluvili o tom, zda nízkorozměrová aktualizace ovlivňuje výkon rámcu LoRA, protože bylo pozorováno, že mechanismus nízkorozměrové aktualizace může bránit schopnosti velkého jazykového modelu učit se a pamatovat si novou znalost. Na základě toho v tomto článku jsme mluvili o MoRA, nové metodě, která dosahuje vysokorozměrové aktualizace při zachování stejného počtu trénovatelných parametrů, pomocí čtvercové matice. K tomu rámec MoRA snižuje vstupní rozměr a zvyšuje výstupní rozměr pro čtvercovou matici zaváděním odpovídajících neparametrických operátorů. Kromě toho tyto operátory zajišťují, že váha může být sloučena zpět do LLM, což činí rámec MoRA nasaditelným jako LoRA.












