Connect with us

MoRA: High-Rank Updating voor Parameter-Efficiënte Fijne Afstemming

Kunstmatige intelligentie

MoRA: High-Rank Updating voor Parameter-Efficiënte Fijne Afstemming

mm

Vanwege de robuuste prestaties en brede toepasbaarheid in vergelijking met andere methoden, is LoRA of Low-Rank Adaption een van de meest populaire PEFT- of Parameter-Efficiënte Fijne Afstemmethode voor het fijne afstemmen van een groot taalmodel. Het LoRA-kader gebruikt twee lage-rangmatrices om de gewichtsupdate te decomponeren en te benaderen in de FFT- of Full Fine Tuning, en het LoRA-kader past deze trainable parameters dienovereenkomstig aan door de rang van de matrices aan te passen. Het belangrijkste voordeel van het implementeren van het proces is dat het het LoRA-kader mogelijk maakt om deze matrices te combineren zonder vertraging in de inferentie na het fijne afstemmen. Bovendien, hoewel recente grote taalmodellen opmerkelijke prestaties leveren op taken voor contextueel leren, zijn er nog steeds scenario’s die fijne afstemming vereisen en kunnen worden onderverdeeld in drie categorieën. De eerste categorie, instructieafstemming, heeft tot doel LLM’s beter af te stemmen op eindtaken en gebruikersvoorkeuren zonder de kennis en capaciteiten van LLM’s te verbeteren, een benadering die het proces van omgaan met verschillende taken en complexe instructies vereenvoudigt. De tweede categorie omvat complexe redeneertaken zoals het oplossen van wiskundige problemen. Ten slotte is de derde categorie continue voorafgaande training, een benadering die probeert de algehele domeinspecifieke capaciteiten van grote taalmodellen te verbeteren.

In dit artikel zullen we bespreken of lage-rangbijwerking de prestaties van het LoRA-kader beïnvloedt, aangezien is waargenomen dat de lage-rangbijwerkingsmechanisme de mogelijkheid van het grote taalmodel om nieuwe kennis te leren en te onthouden, kan belemmeren. Gebaseerd op hetzelfde, in dit artikel zullen we praten over MoRA, een nieuwe methode die hoge-rangbijwerking bereikt terwijl hetzelfde aantal trainable parameters behoudt, door een vierkante matrix te gebruiken. Om dit te bereiken, reduceert het MoRA-kader de invoerdimensie en verhoogt de uitvoerdimensie voor de vierkante matrix door de overeenkomstige niet-parameteroperators in te voeren. Bovendien, deze operators zorgen ervoor dat het gewicht kan worden samengevoegd met LLM’s, waardoor het MoRA-kader inzetbaar is zoals LoRA.

Dit artikel heeft tot doel het MoRA-kader diepgaand te behandelen, en we onderzoeken de mechanisme, de methodologie, de architectuur van het kader samen met de vergelijking met state-of-the-art-kaders. Laten we dus beginnen.

MoRA: High-Rank Updating voor PEFT

Aangezien de grootte en de capaciteiten van de taalmodellen toenemen, wordt PEFT of Parameter-Efficiënte Fijne Afstemming een van de meest populaire en efficiënte methoden om LLM’s aan te passen aan specifieke downstream-taken. In vergelijking met FFT of Full Fine Tuning, die alle parameters bijwerkt, past PEFT alleen een fractie van de totale parameters aan, op sommige taken kan het vergelijkbare prestaties bereiken als FFT door minder dan 1% van de totale parameters bij te werken, waardoor de geheugeneisen voor de optimizer aanzienlijk worden verminderd en het opslaan en implementeren van modellen wordt vergemakkelijkt. Bovendien, onder alle bestaande PEFT-methoden, is LoRA de meest populaire methode vandaag, vooral voor LLM’s. Een van de belangrijkste redenen waarom LoRA-methoden betere prestaties leveren in vergelijking met PEFT-methoden zoals adapters of prompt-tuning, is dat LoRA lage-rangmatrices gebruikt om parameters bij te werken, met het kader dat de controle heeft om deze matrices te combineren met de oorspronkelijke modelparameters, zonder de berekeningsvereisten tijdens de inferentie te verhogen. Hoewel er verschillende methoden zijn die proberen LoRA te verbeteren voor grote taalmodellen, vertrouwen de meeste van deze modellen op GLUE om hun efficiëntie te valideren, hetzij door weinig trainable parameters te vereisen, hetzij door betere prestaties te bereiken.

Bovendien, experimenten die zijn uitgevoerd op LoRA over een breed scala aan taken, waaronder continue voorafgaande training, wiskundige redenering en instructieafstemming, geven aan dat, hoewel LoRA-gebaseerde kaders vergelijkbare prestaties vertonen over deze taken, en prestaties op instructieafstemmingstaken leveren die vergelijkbaar zijn met FFT-gebaseerde methoden. Echter, de LoRA-gebaseerde modellen konden de prestaties op continue voorafgaande training en wiskundige redeneertaken niet repliceren. Een mogelijke verklaring voor dit gebrek aan prestaties kan zijn dat LoRA afhankelijk is van lage-rangmatrices, aangezien de lage-rangmatrice mogelijk moeite heeft om de volledige rang bij te werken in FFT, vooral in geheugenintensieve taken die domeinspecifieke kennis vereisen, zoals continue voorafgaande training. Aangezien de rang van de lage-rangmatrice kleiner is dan de volledige rang, beperkt het de capaciteit om nieuwe informatie op te slaan met fijne afstemming. Gebaseerd op deze observaties, probeert MoRA de rang in de lage-rangmatrice te maximaliseren terwijl hetzelfde aantal trainable parameters behoudt, door een vierkante matrix te gebruiken in plaats van het gebruik van lage-rangmatrices in traditionele LoRA-gebaseerde modellen. De volgende figuur vergelijkt het MoRA-kader met LoRA onder hetzelfde aantal trainable parameters.

In de bovenstaande afbeelding, (a) vertegenwoordigt LoRA, en (b) vertegenwoordigt MoRA. W is het bevroren gewicht van het model, M is de trainable matrix in MoRA, A en B zijn trainable lage-rangmatrices in LoRA, en r vertegenwoordigt de rang in LoRA en MoRA. Zoals te zien is, toont het MoRA-kader een grotere capaciteit dan LoRA-gebaseerde modellen met een grote rang. Bovendien, het MoRA-kader ontwikkelt overeenkomstige niet-parameteroperators om de invoerdimensie te reduceren en de uitvoerdimensie te verhogen voor de trainable matrix M. Bovendien, het MoRA-kader biedt de flexibiliteit om een lage-rangmatrice te gebruiken om de trainable matrix M en de operators te vervangen, waardoor de MoRA-methode kan worden samengevoegd met het grote taalmodel zoals LoRA. De volgende tabel vergelijkt de prestaties van FFT, LoRA, LoRA-varianten en onze methode op instructieafstemming, wiskundige redenering en continue voorafgaande trainingstaken.

MoRA: Methodologie en Architectuur

De Invloed van Lage-Rangbijwerking

Het belangrijkste principe van LoRA-gebaseerde modellen is om volledige-rangbijwerkingen in FFT te schatten door lage-rangbijwerkingen te gebruiken. Traditioneel, voor een gegeven voorafgetrainde parametermatrix, gebruikt LoRA twee lage-rangmatrices om de gewichtsupdate te berekenen. Om ervoor te zorgen dat de gewichtsupdates 0 zijn wanneer de training begint, initialiseert LoRA een van de lage-rangmatrices met een Gaussian-verdeling, terwijl de andere met 0 wordt geïnitialiseerd. De algehele gewichtsupdate in LoRA vertoont een lage rang in vergelijking met fijne afstemming in FFT, hoewel lage-rangbijwerking in LoRA prestaties levert die gelijkwaardig zijn aan volledige-rangbijwerking op specifieke taken, waaronder instructieafstemming en tekstclassificatie. Echter, de prestaties van het LoRA-kader beginnen af te nemen voor taken zoals continue voorafgaande training en complexe redenering. Op basis van deze observaties, stelt MoRA voor dat het gemakkelijker is om de capaciteiten en oorspronkelijke kennis van het LLM te benutten om taken op te lossen met lage-rangbijwerkingen, maar het model worstelt met taken die het verbeteren van capaciteiten en kennis van het grote taalmodel vereisen.

Methodologie

Hoewel LLM’s met contextueel leren een belangrijke prestatieverbetering zijn ten opzichte van eerdere benaderingen, zijn er nog steeds contexten die afhankelijk zijn van fijne afstemming, die breed kunnen worden onderverdeeld in drie categorieën. Er zijn LLM’s die worden afgestemd op instructies, door beter af te stemmen op gebruikerstaken en -voorkeuren zonder de kennis en capaciteiten van LLM’s aanzienlijk te verhogen, een benadering die het werken met meerdere taken en het begrijpen van complexe instructies vereenvoudigt. Een andere categorie omvat complexe redeneertaken zoals het oplossen van wiskundige problemen, waarvoor algemene instructieafstemming ontoereikend is voor het omgaan met complexe symbolische multi-stapredeneertaken. De meeste gerelateerde onderzoeken zijn gericht op het verbeteren van de redeneercapaciteiten van LLM’s, en vereisen het ontwerpen van overeenkomstige trainingsdatasets op basis van grotere lerarenmodellen zoals GPT-4 of het herschrijven van rationale-overeenkomstige vragen langs een redeneerpad. De derde categorie, continue voorafgaande training, is ontworpen om de domeinspecifieke capaciteiten van LLM’s te verbeteren. In tegenstelling tot instructieafstemming, is fijne afstemming vereist om domeinspecifieke kennis en vaardigheden te verrijken.

Niettemin, de meeste varianten van LoRA gebruiken bijna uitsluitend GLUE-instructieafstemming of tekstclassificatie taken om hun effectiviteit in de context van LLM’s te evalueren. Aangezien fijne afstemming voor instructieafstemming de minste resources vereist in vergelijking met andere taken, kan het geen juiste vergelijking tussen LoRA-varianten vertegenwoordigen. Het toevoegen van redeneertaken om hun methoden beter te evalueren is een gebruikelijke praktijk in recentere werken. Echter, we gebruiken over het algemeen kleine trainingssets (zelfs bij 1M voorbeelden, wat vrij groot is). LLM’s worstelen met het leren van adequate redenering van voorbeelden van deze grootte. Bijvoorbeeld, sommige benaderingen gebruiken de GSM8K met slechts 7,5K trainingsafleveringen. Echter, deze aantallen zijn ontoereikend voor de SOTA-methode die is getraind op 395K samples, en maken het moeilijk om de capaciteit van deze methoden te beoordelen om de redeneercapaciteiten van NLP te leren.

Op basis van de observaties van de invloed van lage-rangbijwerking, stelt het MoRA-kader een nieuwe methode voor om de negatieve effecten van lage-rangbijwerking te mitigeren. Het basisprincipe van het MoRA-kader is om hetzelfde aantal trainable parameters te gebruiken om een hogere rang in de lage-rangmatrice te bereiken. Na het verantwoorden van de voorafgetrainde gewichten, gebruikt LoRA twee lage-rangmatrices A en B met het totale aantal trainable parameters voor rang r. Echter, voor hetzelfde aantal trainable parameters, kan een vierkante matrix de hoogste rang bereiken, en het MoRA-kader bereikt dit door de invoerdimensie te reduceren en de uitvoerdimensie te verhogen voor de trainable vierkante matrix. Bovendien, deze twee functies moeten niet-parameteroperators zijn en verwacht worden om in lineaire tijd uit te voeren in overeenstemming met de dimensie.

MoRA: Experimenten en Resultaten

Om de prestaties te evalueren, wordt het MoRA-kader geëvalueerd op een breed scala aan taken om de invloed van hoge-rangbijwerking op drie taken te begrijpen: het onthouden van UUID-paren, fijne afstemmingstaken en voorafgaande training.

Onthouden van UUID-paren

Om de verbeteringen in prestaties te demonstreren, wordt het MoRA-kader vergeleken met FFT en LoRA-kaders op het onthouden van UUID-paren. De trainingsverlies van het experiment wordt weergegeven in de volgende afbeelding.

Het is de moeite waard om op te merken dat, voor hetzelfde aantal trainable parameters, het MoRA-kader in staat is om de bestaande LoRA-modellen te overtreffen, wat aangeeft dat het profiteerde van de hoge-rangbijwerkingstrategie. De karakter-niveau trainingsnauwkeurigheidsrapport op verschillende trainingsstappen wordt samengevat in de volgende tabel.

Zoals te zien is, neemt het MoRA-kader minder trainingsstappen om de UUID-paren te onthouden in vergelijking met LoRA.

Fijne Afstemmingstaken

Om de prestaties op fijne afstemmingstaken te evalueren, wordt het MoRA-kader geëvalueerd op drie fijne afstemmingstaken: instructieafstemming, wiskundige redenering en continue voorafgaande training, ontworpen voor grote taalmodellen, samen met een hoogwaardige overeenkomstige dataset voor zowel het MoRA- als LoRA-modellen. De resultaten van de fijne afstemmingstaken worden weergegeven in de volgende tabel.

Zoals te zien is, op wiskundige redenering en instructieafstemmingstaken, leveren zowel LoRA- als MoRA-modellen vergelijkbare prestaties. Echter, het MoRA-model komt naar voren als de winnaar op continue voorafgaande trainingstaken voor zowel biomedische als financiële domeinen, profiterend van de hoge-rangbijwerking om nieuwe kennis te onthouden. Bovendien, het is essentieel om te begrijpen dat de drie taken van elkaar verschillen, met verschillende vereisten en verschillende fijne afstemmingscapaciteiten.

Voorafgaande Training

Om de invloed van hoge-rangbijwerking op de algehele prestaties te evalueren, wordt de transformatie binnen het MoRA-kader getraind vanaf scratch op de C4-datasets, en de prestaties worden vergeleken met LoRA- en ReLoRA-modellen. De voorafgaande trainingsverlies en de overeenkomstige complexiteit op de C4-dataset worden gedemonstreerd in de volgende figuren.

Zoals te zien is, levert het MoRA-model betere prestaties op voorafgaande trainingstaken in vergelijking met LoRA- en ReLoRA-modellen met hetzelfde aantal trainable parameters.

Bovendien, om de impact van hoge-rangbijwerking op de rang van de lage-rangmatrice te demonstreren, analyseert het MoRA-kader het spectrum van singuliere waarden voor de geleerde lage-rangmatrice door de 250M-model vooraf te trainen, en de resultaten worden weergegeven in de volgende afbeelding.

Finale Gedachten

In dit artikel hebben we besproken of lage-rangbijwerking de prestaties van het LoRA-kader beïnvloedt, aangezien is waargenomen dat de lage-rangbijwerkingsmechanisme de mogelijkheid van het grote taalmodel om nieuwe kennis te leren en te onthouden, kan belemmeren. Gebaseerd op hetzelfde, in dit artikel zullen we praten over MoRA, een nieuwe methode die hoge-rangbijwerking bereikt terwijl hetzelfde aantal trainable parameters behoudt, door een vierkante matrix te gebruiken. Om dit te bereiken, reduceert het MoRA-kader de invoerdimensie en verhoogt de uitvoerdimensie voor de vierkante matrix door de overeenkomstige niet-parameteroperators in te voeren. Bovendien, deze operators zorgen ervoor dat het gewicht kan worden samengevoegd met LLM’s, waardoor het MoRA-kader inzetbaar is zoals LoRA.

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.