Kunstig intelligens

MoRA: Høj-Rank Opdatering til Parameter-Effektiv Finjustering

Published June 14, 2024

Updated May 15, 2026

Kunal Kejriwal

Takket være sin robuste præstation og brede anvendelighed i forhold til andre metoder, er LoRA eller Low-Rank Adaption en af de mest populære PEFT eller Parameter-Effektiv Finjusteringsmetoder til finjustering af et stort sprogmodel. LoRA-rammeværket anvender to lav-rank-matricer til at dekomponere og approksimere de opdaterede vægte i FFT eller Full Fine Tuning, og LoRA-rammeværket ændrer disse trainable parametre herefter ved at justere rangen af matricerne. Det primære fordel ved at implementere processen er, at det faciliterer LoRA-rammeværket til at sammenføje disse matricer uden inference-forsinkelse efter finjustering. Derudover, selvom nyere store sprogmodeller leverer bemærkelsesværdig præstation på in-context-læringsopgaver, kræver visse scenarier stadig finjustering og kan kategoriseres bredt i tre typer. Den første type, instruktionsfinjustering, sigter mod at tilpasse LLM’er bedre til slutopgaver og brugerpræferencer uden at forbedre viden og evner hos LLM’er, en tilgang, der simplificerer processen med at håndtere varierede opgaver og komplekse instruktioner. Den anden type omfatter komplekse resonemingsopgaver som matematiske problemsløsning. Endelig er den tredje type kontinuerlig præ-træning, en tilgang, der søger at forbedre de overordnede domænespecifikke evner hos store sprogmodeller.

I denne artikel vil vi tale om, hvorvidt lav-rank-opdatering påvirker præstationen af LoRA-rammeværket, da det er observeret, at lav-rank-opdateringsmekanismen måske kan hæmme evnen hos det store sprogmodel til at lære og huske ny viden. Bygget på dette, i denne artikel vil vi tale om MoRA, en ny metode, der opnår høj-rank-opdatering, mens den fastholder det samme antal trainable parametre, ved at anvende en kvadratisk matrix. For at opnå dette reducerer MoRA-rammeværket inputdimensionen og øger outputdimensionen for den kvadratiske matrix ved at introducere de tilsvarende ikke-parametrerede operatører. Derudover sikrer disse operatører, at vægten kan sammenføjes tilbage i LLM’er, hvilket gør MoRA-rammeværket udviklingsbar som LoRA.

Denne artikel sigter mod at dække MoRA-rammeværket i dybden, og vi udforsker mekanismen, metodikken, arkitekturen i rammeværket samt dens sammenligning med state-of-the-art-rammeværk. Så lad os komme i gang.

MoRA: Høj-Rank Opdatering til PEFT

Da størrelsen og evnerne hos sprogmodellerne øges, er PEFT eller Parameter-Effektiv Finjustering ved at blive en af de mest populære og effektive metoder til at tilpasse LLM’er til bestemte downstream-opgaver. I forhold til FFT eller Full Fine Tuning, der opdaterer alle parametre, opdaterer PEFT kun en brøkdel af de samlede parametre, og på visse opgaver kan det opnå lignende præstation som FFT ved at opdatere færre end 1% af de samlede parametre, hvilket reducerer kravene til hukommelse for optimizer betydeligt, samtidig med at det faciliterer lagring og udvikling af modeller. Derudover, blandt alle eksisterende PEFT-metoder, er LoRA den mest populære i dag, især til LLM’er. En af de primære årsager til, at LoRA-metoder leverer bedre præstation i forhold til PEFT-metoder som adapters eller prompt-tuning, er, at LoRA anvender lav-rank-matricer til at opdatere parametre, med rammeværket havende kontrollen over at sammenføje disse matricer i de oprindelige modelparametre uden at tilføje til de beregningsmæssige krav under inference. Selvom der findes talrige metoder, der søger at forbedre LoRA til store sprogmodeller, er de fleste af disse modeller afhængige af GLUE til at validere deres effektivitet, enten ved at kræve færre trainable parametre eller ved at opnå bedre præstation.

Derudover viser eksperimenter, der er udført på LoRA på tværs af en bred vifte af opgaver, herunder kontinuerlig præ-træning, matematisk resonemning og instruktionsfinjustering, at LoRA-baserede rammeværk viser lignende præstation på tværs af disse opgaver og leverer præstation på instruktionsfinjusteringsopgaver, der er sammenlignelige med FFT-baserede metoder. LoRA-baserede modeller kunne dog ikke reproducere præstationen på kontinuerlig præ-træning og matematisk resonemningsopgaver. En mulig forklaring på denne manglende præstation kan være afhængigheden af LoRA af lav-rank-matrixopdateringer, da lav-rank-opdateringsmatricen måske kan have svært ved at estimerere fuld-rank-opdateringer i FFT, især i hukommelsesintensive opgaver, der kræver at huske domænespecifik viden som kontinuerlig præ-træning. Da rangen af lav-rank-opdateringsmatricen er mindre end fuld rang, begrænser det evnen til at gemme ny information ved finjustering. Bygget på disse observationer søger MoRA at maksimere rangen i lav-rank-opdateringsmatricen, mens det fastholder det samme antal trainable parametre, ved at anvende en kvadratisk matrix i stedet for anvendelsen af lav-rank-matricer i traditionelle LoRA-baserede modeller.

I ovenstående billede repræsenterer (a) LoRA, og (b) repræsenterer MoRA. W er den frosne vægt fra modellen, M er den trainable matrix i MoRA, A og B er trainable lav-rank-matricer i LoRA, og r repræsenterer rangen i LoRA og MoRA. Som det kan observeres, viser MoRA-rammeværket en større kapacitet end LoRA-baserede modeller med en stor rang. Derudover udvikler MoRA-rammeværket tilsvarende ikke-parametrerede operatører til at reducere inputdimensionen og øge outputdimensionen for den trainable matrix M. Derudover giver MoRA-rammeværket mulighed for at anvende en lav-rank-opdateringsmatrix til at erstatte den trainable matrix M og operatørerne, hvilket sikrer, at MoRA-metoden kan sammenføjes tilbage i det store sprogmodel som LoRA.

MoRA: Metodik og Arkitektur

Indflydelsen af Lav-Rank Opdatering

Den primære princip for LoRA-baserede modeller er at estimerer fuld-rank-opdateringer i FFT ved at anvende lav-rank-opdateringer. Traditionelt set anvender LoRA to lav-rank-matricer til at beregne vægtopdateringen for en given præ-trænet parametermatrix. For at sikre, at vægtopdateringerne er 0, når træningen begynder, initialiserer LoRA-rammeværket en af de lav-rank-matricer med en Gaussian distribution, mens den anden initialiseres med 0. Den samlede vægtopdatering i LoRA viser en lav-rang i forhold til finjustering i FFT, selvom lav-rank-opdatering i LoRA leverer præstation på linje med fuld-rank-opdatering på bestemte opgaver, herunder instruktionsfinjustering og tekstklassifikation. Imidlertid begynder præstationen af LoRA-rammeværket at aftage for opgaver som kontinuerlig præ-træning og kompleks resonemning.

Metodik

Selvom LLM’er med in-context-læring er en betydelig forbedring i forhold til tidligere tilgange, er der stadig kontekster, der afhænger af finjustering, og som kan kategoriseres bredt i tre typer. Der er LLM’er, der er finjusteret for instruktioner, ved at tilpasse sig bedre til slutopgaver og brugerpræferencer uden at forbedre viden og evner hos LLM’er, en tilgang, der gør det lettere at arbejde med multiple opgaver og komplekse instruktioner. En anden type omfatter komplekse resonemingsopgaver som matematiske problemsløsning, som generel instruktionsfinjustering kommer til kort i forhold til at håndtere komplekse symboliske multi-trins resonemningsopgaver. De fleste relaterede forskninger er rettet mod at forbedre resonemsevnerne hos LLM’er, og det kræver enten design af tilsvarende træningsdatasets baseret på større lærermodeller som GPT-4 eller omskrivning af rationale-korresponderende spørgsmål langs en resonemningsvej. Den tredje type, kontinuerlig præ-træning, er designet til at forbedre de domænespecifikke evner hos LLM’er.

MoRA: Eksperimenter og Resultater

Huskning af UUID-Par

For at demonstrere forbedringerne i præstation, sammenlignes MoRA-rammeværket med FFT- og LoRA-rammeværk på opgaven med at huske UUID-par. Træningsfejlen fra eksperimentet er reflekteret i følgende billede.

Det er værd at bemærke, at for det samme antal trainable parametre, er MoRA-rammeværket i stand til at overgå de eksisterende LoRA-modeller, hvilket indikerer, at det har nydt godt af den høj-rank-opdateringsstrategi.

Finjusteringsopgaver

For at evaluere dets præstation på finjusteringsopgaver, evalueres MoRA-rammeværket på tre finjusteringsopgaver: instruktionsfinjustering, matematisk resonemning og kontinuerlig præ-træning, designet for store sprogmodeller, samt en højkvalitets korresponderende dataset for både MoRA- og LoRA-modellerne.

Præ-træning

For at evaluere indflydelsen af høj-rank-opdatering på den samlede præstation, trænes transformeren i MoRA-rammeværket fra scratch på C4-datasettet, og præstationen sammenlignes med LoRA- og ReLoRA-modellerne.

Endelige Tanker

I denne artikel har vi talt om, hvorvidt lav-rank-opdatering påvirker præstationen af LoRA-rammeværket, da det er observeret, at lav-rank-opdateringsmekanismen måske kan hæmme evnen hos det store sprogmodel til at lære og huske ny viden. Bygget på dette, i denne artikel har vi talt om MoRA, en ny metode, der opnår høj-rank-opdatering, mens den fastholder det samme antal trainable parametre, ved at anvende en kvadratisk matrix. For at opnå dette reducerer MoRA-rammeværket inputdimensionen og øger outputdimensionen for den kvadratiske matrix ved at introducere de tilsvarende ikke-parametrerede operatører.

Kunal Kejriwal

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.