TekoÀly
MoRA: Korkean sijan pÀivittÀminen PEFT:lle
LoRA eli Low-Rank Adaption on yksi suosituimmista PEFT eli Parameter Efficient Fine-Tuning -menetelmistä suurten kielen mallien hienosäätöön. LoRA-kehys käyttää kahta matalan sijan matriisia painojen päivittämiseen ja approksimoi päivitetyt painot FFT eli Full Fine Tuning -menetelmässä. LoRA-kehys muokkaa näitä koulutettavia parametreja vastaavasti matriisien sijan säätämisen kautta. LoRA-kehysmenetelmän merkittävin etu on, että se mahdollistaa matriisien yhdistämisen alkuperäisiin malliparametreihin ilman inference-viiveitä hienosäätöjen jälkeen. Vaikka viimeaikaiset suuret kielen mallit tarjoavat merkittävää suorituskykyä kontekstissä oppimistehtävissä, jotkin tilanteet edellyttävät edelleen hienosäätöä, ja ne voidaan laajasti jakaa kolmeen tyyppiin. Ensimmäinen tyyppi, ohjeistuksen säätö, pyrkii sopimaan LLM:t paremmin lopputehtäviin ja käyttäjän preferensseihin ilman LLM:n tietojen ja kykyjen parantamista, mikä helpottaa monien tehtävien ja monimutkaisten ohjeiden kanssa työskentelyä. Toinen tyyppi käsittää monimutkaisia päättelytehtäviä, kuten matemaattisia ongelmanratkaisutehtäviä. Kolmas tyyppi on jatkuva esisäätö, joka pyrkii parantamaan suurten kielen mallien yleisiä kykyjä tietyn alan osalta.
Tässä artikkelissa keskitymme siihen, vaikuttaako matalan sijan päivittäminen LoRA-kehysmenetelmän suorituskykyyn, koska on havaittu, että matalan sijan päivittämismekanismi saattaa haitata suuren kielen mallin kykyä oppia ja muistaa uutta tietoa. Tästä lähtien artikkelissa käsitellään MoRA:ta, uutta menetelmää, joka saavuttaa korkean sijan päivittämisen säilyttäen saman määrän koulutettavia parametreja käyttämällä neliömatriisia. Tämän saavuttamiseksi MoRA-kehys vähentää syötteen ulottuvuutta ja lisää tulosteen ulottuvuutta neliömatriisille käyttämällä vastaavia ei-parametrillisia operaattoreita. Näiden operaattorien ansiosta paino voidaan yhdistää takaisin LLM:ihin, mikä tekee MoRA-kehysmenetelmästä käyttökelpoisen LoRA:n kaltaisen.
Tämä artikkeli pyrkii kattamaan MoRA-kehysmenetelmän syvällisemmin ja tarkastelemme menetelmän mekanismia, metodologiaa, arkkitehtuuria ja vertaamme sitä valmiisiin kehyksiin. Aloita siis.
MoRA: Korkean sijan päivittäminen PEFT:lle
Koska kielen mallien koko ja kyvyt kasvavat, PEFT eli Parameter Efficient Fine-Tuning on kehittymässä yhdeksi suosituimmista ja tehokkaimmista menetelmistä sovittaa LLM:it tiettyihin laskennallisiin tehtäviin. Vertailussa FFT:hen eli Full Fine Tuningiin, joka päivittää kaikki parametri, PEFT muokkaa vain osaa parametreista, ja joissakin tehtävissä se saavuttaa saman suorituskyvyn kuin FFT päivittämällä alle 1 % parametreista, mikä vähentää merkittävästi muistivaatimuksia optimoijalle ja helpottaa mallien tallennusta ja käyttöönottoa. Lisäksi kaikista olemassa olevista PEFT-menetelmistä LoRA on suosituin tänään, erityisesti LLM:ien osalta. Yksi merkittävimmistä syistä, miksi LoRA-menetelmät tarjoavat paremman suorituskyvyn verrattuna PEFT-menetelmiin, kuten sovittimiin tai ohjelmointiin, on se, että LoRA käyttää matalan sijan matriiseja päivittämään parametreja, ja kehysmenetelmällä on valta yhdistää nämä matriisit alkuperäisiin malliparametreihin ilman laskennallisia vaatimuksia inference-ajan aikana. Vaikka on olemassa useita menetelmiä, jotka pyrkivät parantamaan LoRA:ta suurten kielen mallien osalta, useimmat näistä menetelmistä perustuvat GLUE:hen todistamaan tehokkuutensa joko edellyttämällä vähän koulutettavia parametreja tai saavuttamalla paremman suorituskyvyn.
Lisäksi kokeet, jotka on suoritettu LoRA:lla laajalla valikoimalla tehtäviä, mukaan lukien jatkuva esisäätö, matemaattinen päättely ja ohjeistuksen säätö, osoittavat, että vaikka LoRA-pohjaiset kehykset osoittavat samanlaista suorituskykyä näillä tehtävillä ja tarjoavat suorituskyvyn, joka on verrattavissa FFT-pohjaisiin menetelmiin ohjeistuksen säätötehtävissä, LoRA-pohjaiset mallit eivät voi toistaa suorituskykyä jatkuvassa esisäätössä ja matemaattisissa päättelytehtävissä. Mahdollinen selitys tälle suorituskyvyn puutteelle on se, että LoRA riippuu matalan sijan matriisipäivittämisestä, ja matalan sijan päivittämismatriisi saattaa kamppailla arvioimalla täysijärkisen päivittämisen FFT:ssä, erityisesti muistivaativissa tehtävissä, jotka edellyttävät alan spesifisen tiedon muistamista, kuten jatkuva esisäätö. Koska matalan sijan päivittämismatriisin sija on pienempi kuin täysi sija, se rajoittaa uuden tiedon tallennuskykyä hienosäätöjen aikana. Tästä lähtien MoRA pyrkii maksimoimaan sijan matalan sijan päivittämismatriisissa säilyttäen saman määrän koulutettavia parametreja käyttämällä neliömatriisia aikaisempien LoRA-pohjaisien mallien matalan sijan matriisien sijaan. Seuraava kuva vertaa MoRA-kehystä LoRA:han saman määrän koulutettavien parametreiden osalta.

Kuvassa (a) edustaa LoRA:ta ja (b) edustaa MoRA:ta. W on jäädytetty paino mallista, M on koulutettava matriisi MoRA:ssa, A ja B ovat koulutettavat matalan sijan matriisit LoRA:ssa, ja r edustaa sijaa LoRA:ssa ja MoRA:ssa. Kuten voidaan havaita, MoRA-kehys osoittaa suuremman kapasiteetin kuin LoRA-pohjaiset mallit suurella sijalla. Lisäksi MoRA-kehys kehittää vastaavat ei-parametrilliset operaattorit vähentämään syötteen ulottuvuutta ja lisäämään tulosteen ulottuvuutta koulutettavalle matriisille M. Lisäksi MoRA-kehys antaa joustavuuden käyttää matalan sijan päivittämismatriisia korvaamaan koulutettavan matriisin M ja operaattorit, varmistaen, että MoRA-menetelmä voidaan yhdistää takaisin suureen kielen malliin LoRA:n kaltaisesti. Seuraava taulukko vertaa FFT:n, LoRA:n, LoRA-varianttien ja meidän menetelmämme suorituskykyä ohjeistuksen säätö-, matemaattisen päättelyn ja jatkuvan esisäätötehtävissä.

MoRA: Metodologia ja Arkkitehtuuri
Matalan Sijan Päivittämisen Vaikutus
LoRA-pohjaisten mallien avainperiaate on arvioida täysijärkisiä päivittämisjä FFT:ssä käyttämällä matalan sijan päivittämisjä. Perinteisesti annetun esikoulutetun parametrimatriisin osalta LoRA käyttää kahta matalan sijan matriisia laskemaan painopäivittäisiä arvoja. Varmistamaan, että painopäivittäiset arvot ovat 0 koulutuksen alussa, LoRA-kehys alustaa yhden matalan sijan matriisin Gaussian-jakaumalla, kun taas toinen on 0. Kokonaisuuden painopäivittäinen arvo LoRA:ssa osoittaa matalan sijan verrattuna hienosäätöön FFT:ssä, vaikka matalan sijan päivittäminen LoRA:ssa tarjoaa suorituskyvyn, joka on vertailukelpoinen täysijärkisellä päivittämisellä tiettyjen tehtävien, kuten ohjeistuksen säätön ja tekstiluokittelun, osalta. Kuitenkin LoRA-kehysmenetelmän suorituskyky alkaa heiketä tehtävissä, kuten jatkuvassa esisäätössä ja monimutkaisessa päättelyssä. Tästä lähtien MoRA ehdottaa, että on helpompaa hyödyntää LLM:n alkuperäistä tietoa ja kykyjä ratkaista tehtäviä matalan sijan päivittämisen avulla, mutta malli kamppailee tehtävien kanssa, jotka edellyttävät LLM:n tietojen ja kykyjen parantamista.
Metodologia
Vaikka LLM:t kontekstissä oppimisella ovat merkittävä parannus edellisiin lähestymistapoihin, on edelleen tilanteita, jotka riippuvat hienosäätösta, ja ne voidaan laajasti jakaa kolmeen kategoriaan. On LLM:ien säätö ohjeistukselle, joka pyrkii sopimaan LLM:t paremmin lopputehtäviin ja käyttäjän preferensseihin ilman LLM:n tietojen ja kykyjen parantamista, mikä helpottaa monien tehtävien ja monimutkaisten ohjeiden kanssa työskentelyä. Toinen tyyppi käsittää monimutkaisia päättelytehtäviä, kuten matemaattisia ongelmanratkaisutehtäviä, joissa yleinen ohjeistuksen säätö ei riitä käsittelemään monimutkaisia symbolisia monivaiheisia päättelytehtäviä. Useimmat tutkimukset pyrkivät parantamaan LLM:ien päättelykykyjä, ja ne edellyttävät joko suurempien opettajamallien, kuten GPT-4:n, perustamista tai perustelujen vastaavien kysymysten uudelleenmuokkaamista päättelypolun mukaan. Kolmas tyyppi on jatkuva esisäätö, joka on suunniteltu parantamaan LLM:ien alan spesifisiä kykyjä. Toisin kuin ohjeistuksen säätö, hienosäätö vaaditaan rikastamaan alan spesifistä tietoa ja taitoja.
Kuitenkin useimmat LoRA:n variantit käyttävät lähes yksinomaan GLUE-ohjeistuksen säätö- tai tekstiluokittelutehtäviä arvioimaan tehokkuuttaan LLM:ien kontekstissa. Koska hienosäätö ohjeistuksen säätössä vaatii vähiten resursseja verrattuna muihin tyyppeihin, se ei välttämättä edusta oikein vertailua LoRA-varianttien välillä. Päättelytehtävien lisääminen menetelmien arviointiin on yleinen käytäntö uudemmissa tutkimuksissa. Kuitenkin yleensä käytetään pieniä koulutusjoukkoja (jopa 1 miljoonaa esimerkkiä, mikä on melko suuri). LLM:t kamppailevat oppimassa oikein päättelyä esimerkkien avulla, joissa on vain 7,5 tuhatta koulutusjaksoa. Nämä luvut eivät vastaa SOTA-menettelyä, joka on koulutettu 395 tuhannella näytteellä, ja ne tekevät vaikeaksi arvioida näiden menetelmien kykyä oppia NLP:n päättelyvoimasta.
MoRA-kehys ehdottaa uutta menetelmää vähentämään matalan sijan päivittämisen negatiivisia vaikutuksia. MoRA-kehysmenetelmän perusperiaate on käyttää samaa määrää koulutettavia parametreja mahdollisimman laajasti saavuttaakseen korkeamman sijan matalan sijan päivittämismatriisissa. Ottaen huomioon esikoulutetut painot, LoRA-kehys käyttää kahta matalan sijan matriisia A ja B, joilla on yhteensä koulutettavia parametreja sijalle r. Kuitenkin samalla määrällä koulutettavia parametreja neliömatriisi voi saavuttaa korkeimman sijan, ja MoRA-kehys saavuttaa tämän vähentämällä syötteen ulottuvuutta ja lisäämällä tulosteen ulottuvuutta koulutettavalle neliömatriisille. Lisäksi nämä kaksi funktiota tulisi olla ei-parametrillisia operaattoreita ja odotetaan suorittavan lineaarisessa ajassa vastaavan ulottuvuuden mukaan.
MoRA: Kokeet ja Tulokset
Arvioidakseen suorituskykyään MoRA-kehys arvioidaan laajalla valikoimalla tehtäviä ymmärtääkseen korkean sijan päivittämisen vaikutusta kolmeen tehtävään: UUID-pareiden muistamiseen, hienosäätötehtäviin ja esisäätöön.
UUID-Pareiden Muistaminen
Osoittamaan parannuksia suorituskyvyssä MoRA-kehys verrataan FFT- ja LoRA-kehyksiin UUID-pareiden muistamisessa. Koulutusvirhe kokeesta on näkyvissä seuraavassa kuvassa.

On huomattava, että samalla määrällä koulutettavia parametreja MoRA-kehys pystyy ylittämään olemassa olevat LoRA-mallit, osoittaen hyödyn korkean sijan päivittämisstrategiasta. Merkkikohtaisen koulutustarkkuuden raportti eri koulutusvaiheissa on tiivistetty seuraavaan taulukkoon. 
Kuten voidaan havaita, verrattuna LoRA:han, MoRA-kehys tarvitsee vähemmän koulutusvaiheita muistamaan UUID-pareja.
Hienosäätötehtävät
Arvioidakseen suorituskykyään hienosäätötehtävissä MoRA-kehys arvioidaan kolmella hienosäätötehtävällä: ohjeistuksen säätöllä, matemaattisella päättelyllä ja jatkuvalla esisäätöllä, suunniteltuina suurten kielen mallien osalta, yhdessä laadukkaan vastaavan datasetin kanssa sekä MoRA- että LoRA-malleille. Hienosäätötehtävien tulokset on esitetty seuraavassa taulukossa.

Kuten voidaan havaita, matemaattisella päättelyllä ja ohjeistuksen säätöllä sekä LoRA- että MoRA-mallit tarjoavat samanlaista suorituskykyä. Kuitenkin MoRA-malli nousee LoRA-kehyksen edelle jatkuvissa esisäätötehtävissä sekä biolääketieteellisissä että rahoituksellisissa aloissa, hyödyntäen korkean sijan päivittämismenetelmää muistamaan uutta tietoa. Lisäksi on tärkeää ymmärtää, että nämä kolme tehtävää ovat toisistaan poikkeavia ja edellyttävät erilaisia vaatimuksia ja hienosäätöominaisuuksia.
Esisisäätö
Arvioidakseen korkean sijan päivittämisen vaikutusta kokonaisuuteen MoRA-kehys koulutetaan alusta alkaen C4-datasetillä, ja suorituskyky verrataan LoRA- ja ReLoRA-mallien kanssa. Esisäätövirhe sekä vastaava monimutkaisuus C4-datasetissä on esitetty seuraavissa kuvissa.


Kuten voidaan havaita, MoRA-malli tarjoaa paremman suorituskyvyn esisäätötehtävissä verrattuna LoRA- ja ReLoRA-malleihin samalla määrällä koulutettavia parametreja.
Lisäksi osoittamaan korkean sijan päivittämisen vaikutusta matalan sijan päivittämismatriisin sijaan MoRA-kehys analysoi yksittäisten arvojen spektrin oppimismatriisille esisäätämällä 250M-mallin, ja tulokset on esitetty seuraavassa kuvassa.

Loppusanat
Tässä artikkelissa olemme keskustelleet siitä, vaikuttaako matalan sijan päivittäminen LoRA-kehysmenetelmän suorituskykyyn, koska on havaittu, että matalan sijan päivittämismekanismi saattaa haitata suuren kielen mallin kykyä oppia ja muistaa uutta tietoa. Tästä lähtien artikkelissa käsitellään MoRA:ta, uutta menetelmää, joka saavuttaa korkean sijan päivittämisen säilyttäen saman määrän koulutettavia parametreja käyttämällä neliömatriisia. Tämän saavuttamiseksi MoRA-kehys vähentää syötteen ulottuvuutta ja lisää tulosteen ulottuvuutta neliömatriisille käyttämällä vastaavia ei-parametrillisia operaattoreita. Näiden operaattorien ansiosta paino voidaan yhdistää takaisin LLM:ihin, mikä tekee MoRA-kehysmenetelmästä käyttökelpoisen LoRA:n kaltaisen.












