škrbina LoReFT: Fino podešavanje reprezentacije za jezične modele - Unite.AI
Povežite se s nama

Umjetna inteligencija

LoReFT: Fino podešavanje reprezentacije za jezične modele

mm

Objavljeno

 on

LoReFT: Fino podešavanje reprezentacije za jezične modele

Parametarski učinkovito fino podešavanje ili metode PeFT nastoje prilagoditi velike jezične modele putem ažuriranja malom broju težina. Međutim, većina postojećih radova na interpretaciji pokazala je da prikazi kodiraju semantički bogate informacije, sugerirajući da bi uređivanje tih prikaza mogla biti bolja i snažnija alternativa. Unaprijed obučeni veliki modeli često su fino podešeni za korištenje za nove domene ili zadatke, a tijekom procesa finog podešavanja, jedan osnovni model može se prilagoditi širokom spektru zadataka čak i sa samo malim količinama dostupnih podataka unutar domene modelu. Međutim, proces finog podešavanja cijelog modela zahtijeva resurse i skup je, posebno za jezične modele sa znatno većim brojem veličina i parametara. 

Parametarski učinkovito fino ugađanje ili PeFT metode predlažu rješavanje visokih troškova povezanih s finim ugađanjem cijelog modela ažuriranjem samo male količine ukupnih dostupnih težina, proces koji pomaže u smanjenju vremena obuke zajedno s upotrebom memorije. Ono što je još važnije jest to da su parametrski učinkovite metode finog podešavanja ili PeFT pokazale slične performanse finom podešavanju u nekoliko praktičnih postavki. Adapteri, uobičajena obitelj parametarski učinkovitih finih podešavanja ili PeFT metoda, uče uređivanje koje se može dodati dodatnom skupu utega koji rade zajedno sa zamrznutim osnovnim modelom, s novijim adapterima kao što je LoRA koji smanjuju broj parametara koji se mogu trenirati u naučenom ažuriranja težine korištenjem aproksimacija niskog ranga umjesto matrica pune težine prilikom uvježbavanja adaptera. 

S prethodnim radovima koji demonstriraju prikaze uređivanja koje bi mogle biti bolja alternativa finom podešavanju s parametrima ili PeFT metodama, u ovom ćemo članku govoriti o metodama finog podešavanja prikaza ili ReFT koje rade na zamrznutom modelu i učiti o specifičnim zadacima intervencije na skrivenim prikazima. Ovaj članak ima za cilj detaljno pokriti okvir ReFt ili Representation Fine-tuning, a mi istražujemo mehanizam, metodologiju, arhitekturu okvira zajedno s njegovom usporedbom s najsuvremenijim okvirima. Pa krenimo. 

ReFT: Fino podešavanje reprezentacije za jezične modele

U pokušaju usvajanja unaprijed uvježbanih jezičnih modela novim domenama i zadacima, trenutni okviri često fino podešavaju te unaprijed uvježbane jezične modele jer se s implementiranim postupkom finog ugađanja jedan osnovni model može prilagoditi raznim zadacima čak i kada radite s malom količinom podataka unutar domene. Iako proces finog podešavanja poboljšava ukupnu izvedbu, to je skup proces, posebno ako jezični model ima značajno velik broj parametara. Kako biste riješili ovaj problem i smanjili povezane troškove, PeFT ili Parameter-efficient fino podešavanje okvira ažurirajte samo mali dio ukupnih težina, proces koji ne samo da smanjuje vrijeme obuke, već također smanjuje korištenje memorije, dopuštajući PeFT okvirima da postignu slične performanse u usporedbi s pristupima potpunog finog podešavanja u praktičnim scenarijima. Adapteri, uobičajena obitelj PeFT-ova, rade tako da uče uređivanje koje se može dodati dodatnom skupu utega zajedno s podskupom utega koji rade u skladu s osnovnim modelom sa zamrznutim utezima. Nedavni adapterski okviri poput LoRA i QLoRA su pokazali da je moguće trenirati adaptere pune preciznosti na modelima smanjene preciznosti bez utjecaja na performanse. Adapteri su obično učinkovitiji i učinkovitiji u usporedbi s drugim metodama koje uvode nove komponente modela. 

Glavni vrhunac trenutnog stanja umjetnosti parametarski učinkovitih okvira finog podešavanja je da umjesto modificiranja prikaza, oni modificiraju težine. Međutim, okviri koji se bave interpretabilnošću pokazali su da prikazi kodiraju bogate semantičke informacije, sugerirajući da bi uređivanje prikaza moglo biti bolji i moćniji pristup u usporedbi s ažuriranjem težine. Ova pretpostavka da je uređivanje prikaza bolji pristup ono je što čini temelj ReFT-a ili okvira za fino podešavanje prikaza koji trenira intervencije umjesto prilagođavanja težine modela, dopuštajući modelu da manipulira malim dijelom svih prikaza u pokušaju da upravlja ponašanjem modela za rješavanje nizvodnih zadataka tijekom zaključivanja. ReFT ili Representation Fine tuning metode su nezamjenjive zamjene za PeFT koji se temelji na težini ili okvire za fino ugađanje učinkovite na parametrima. Pristup ReFT crpi inspiraciju iz nedavnih modela koji rade s velikom interpretabilnošću modela koji intervenira na reprezentacije kako bi pronašao vjerne uzročne mehanizme i upravlja ponašanjem modela tijekom zaključivanja, te se stoga može promatrati kao generalizacija modela za uređivanje prikaza. Nadovezujući se na isto, LoReFT ili potprostor niskog ranga ReFT je jaka i učinkovita instanca ReFT-a, te je parametrizacija ReFT-a koja intervenira na skrivenim prikazima u linearnom prostoru koji obuhvaća matricu projekcije niskog ranga i nadograđuje se izravno na DAS ili okvir Distributed Alignment Search. 

Nasuprot potpunom finom podešavanju, PeFT ili Parameter-efficient fino tuning framework obučava samo mali dio parametara modela i uspijeva prilagoditi model daljnjim zadacima. Parametarski učinkovit okvir finog podešavanja može se klasificirati u tri glavne kategorije:

  • Metode temeljene na adapteru: Metode koje se temelje na adapterima obučavaju dodatne module poput potpuno povezanih slojeva na vrhu prethodno obučenog modela sa zamrznutim utezima. Serijski adapteri umeću komponente između višeslojnog perceptrona ili MLP i LM ili slojeva pozornosti velikog modela, dok paralelni adapteri dodaju module uz postojeće komponente. Budući da adapteri dodaju nove komponente koje se ne mogu lako sklopiti u postojeće modele utega, predstavljaju dodatno opterećenje tijekom zaključivanja. 
  • LoRA: LoRA zajedno sa svojim nedavnim varijantama aproksimira aditivne težine tijekom treninga pomoću matrica niskog ranga i ne zahtijeva dodatne troškove tijekom zaključivanja jer se ažuriranja težine mogu spojiti u model, i to je razlog zašto se smatraju trenutnim najjači PeFT okviri. 
  • Metode temeljene na brzima: Metode koje se temelje na brzom unosu dodaju mekane tokene koji se nasumično inicijaliziraju u ulaz i treniraju njihova ugrađivanja dok drže težine jezičnog modela zamrznutima. Učinkovitost koju nude ove metode često nije zadovoljavajuća u usporedbi s drugim PeFT pristupima, a također nose značajne režijske troškove zaključivanja. 

Umjesto ažuriranja pondera, ReFT okvir uči intervencijama za izmjenu malog dijela ukupnih prikaza. Nadalje, nedavni radovi na inženjerstvu predstavljanja i upravljanju aktivacijom pokazali su da bi dodavanje fiksnih vektora upravljanja rezidualnom toku moglo olakšati određeni stupanj kontrole nad unaprijed obučenim generacijama velikih modela bez potrebe za intenzivnim resursima fino podešavanje. Drugi okviri su pokazali da uređivanje prikaza s naučenim skaliranjem i operacijom prevođenja može pokušati uskladiti, ali ne i nadmašiti performanse koje nude LoRA adapteri na širokom nizu zadataka s manje naučenih parametara. Nadalje, uspjeh ovih okvira u nizu zadataka pokazao je da reprezentacije uvedene unaprijed obučenim jezičnim modelima nose bogatu semantiku, iako je izvedba ovih modela ispod optimalne, što je rezultiralo da PeFT-ovi nastave kao pristup vrhunske tehnologije. bez dodatnog opterećenja zaključivanjem. 

ReFT : Metodologija i arhitektura

Kako bi proces očuvanja stila bio jednostavan, okvir ReFT pretpostavlja veliki model temeljen na transformatoru kao svoj ciljni model koji je sposoban proizvesti kontekstualiziranu reprezentaciju niza tokena. Za zadani niz s n brojem ulaznih tokena, ReFT okvir prvo ugrađuje te ulazne tokene u popis prikaza nakon čega m slojeva uzastopno izračunava popis skrivenih prikaza kao funkciju prethodnog popisa skrivenih prikaza. Svaki skriveni prikaz je vektor, a jezični model koristi konačne skrivene prikaze za izradu predviđanja. ReFT okvir uzima u obzir i maskirane jezične modele i autoregresivne jezične modele. Sada, prema hipotezi o linearnoj reprezentaciji, u neuronskim mrežama koncepti su kodirani unutar linearnih podprostora reprezentacija. Nedavni modeli su otkrili da je ova tvrdnja točna u modelima neuronskih mreža treniranih na prirodnom jeziku zajedno s drugim ulaznim distribucijama. 

Nadalje, u studijama interpretabilnosti okvir ležerne apstrakcije koristi intervencije razmjene kako bi se ležerno utvrdila uloga komponenata neuronske mreže pri implementaciji određenih ponašanja. Logika koja stoji iza intervencije razmjene je da ako netko fiksira prikaz na ono što bi bio za protučinjenični input, a ova intervencija dosljedno utječe na izlaz modela na način na koji tvrdnje ReFT okvira o komponenti odgovornoj za proizvodnju ta reprezentacija, tada komponenta igra uzročnu ulogu u ponašanju. Iako postoji nekoliko metoda, intervencija distribuirane razmjene idealan je pristup testiranju je li koncept kodiran u linearnom podprostoru reprezentacije, kao što tvrdi hipoteza linearne reprezentacije. Nadalje, DAS metoda se ranije koristila za pronalaženje linearne reprezentacije atributa entiteta, osjećaja, jezičnih značajki i matematičkog zaključivanja u jezičnim modelima. Međutim, nekoliko je eksperimenata pokazalo da je metoda DAS vrlo ekspresivna i da posjeduje sposobnost pronalaženja uzročno-posljedičnih učinkovitih potprostora čak i kada je transformatorski jezični model nasumično inicijaliziran te stoga tek treba naučiti prikaze specifične za zadatak, što rezultira raspravljati o tome je li DAS učinkovit i dovoljno odgovoran za zadatke tumačenja. 

Izražajnost koju nudi DAS sugerira da bi pristup mogao biti idealan alat za kontrolu ponašanja jezičnog modela zajedno s njegovim radom na kontroliranom stvaranju i odgovornom uređivanju. Stoga, za prilagodbu jezičnih modela za nizvodne zadatke, ReFT okvir koristi operaciju intervencije distribuirane razmjene kako bi napravio učinkovitu metodu novog parametra. Nadalje, ReFT metoda je skup intervencija, a okvir nalaže da za bilo koje dvije intervencije koje djeluju na istom sloju, pozicije intervencije moraju biti odvojene, s parametrima svih funkcija intervencije koji ostaju neovisni. Kao rezultat toga, ReFT je generički okvir koji obuhvaća intervencije na skrivenim prikazima tijekom prolaska modela naprijed. 

ReFT: Eksperimenti i rezultati

Kako bi procijenio svoju izvedbu u usporedbi s postojećim okvirima PEFT, ReFT okvir provodi eksperimente na četiri različita mjerila obrade prirodnog jezika i pokriva preko 20 skupova podataka, s primarnim ciljem pružanja bogate slike o tome kako LoReFT okvir radi u različitim scenarijima. Nadalje, kada se LoReFT okvir implementira u stvarnom životu, programeri trebaju odlučiti koliko će intervencija naučiti zajedno s ulaznim pozicijama i slojevima na koje će primijeniti svaku od njih. Kako bi dovršio zadatak, okvir ReFT podešava četiri hiperparametra. 

  1. Broj pozicija prefiksa na kojima treba intervenirati. 
  2. Broj pozicija sufiksa na kojima treba intervenirati. 
  3. Na kojem skupu slojeva intervenirati. 
  4. Treba li ili ne povezati parametre intervencije na različitim pozicijama u istom sloju. 

Radeći to, okvir ReFT pojednostavljuje prostor pretraživanja hiperparametara i osigurava samo fiksni dodatni trošak zaključivanja koji se ne skalira s duljinom upita. 

Gornja tablica uspoređuje točnost LLaMA-7B i LLaMA-13B okvira s postojećim PEFT modelima u 8 skupova podataka zdravorazumskog razmišljanja. Kao što se može primijetiti, LoReFT model nadmašuje postojeće PEFT pristupe pristojnom maržom, unatoč tome što ima puno manje parametara, s prosječnom izvedbom tri rada koja je prijavljena s različitim početnim parametrima za LoReFT model. Param(%) se izračunava dijeljenjem broja parametara koji se mogu obučiti s brojem ukupnih parametara osnovnog velikog modela. 

Gornja tablica sažima usporedbu točnosti LLaMA-7B i LLaMA-13B okvira u odnosu na postojeće PEFT modele kroz 4 različita skupa podataka o aritmetičkom zaključivanju, pri čemu okvir izvještava o prosječnoj izvedbi tri izvođenja s različitim nasumičnim početnim vrijednostima. Kao što se može primijetiti, unatoč puno manje parametara (%), LoReFT okvir znatno nadmašuje postojeće PEFT okvire. 

Gornja tablica sažima usporedbu točnosti RoBERTa-base i RoBERTa-large okvira u odnosu na postojeće PEFT modele preko GLUE referentne vrijednosti, s okvirom koji izvještava o prosječnoj izvedbi pet pokretanja s različitim nasumičnim početnim vrijednostima. Kao što se može primijetiti, unatoč puno manje parametara (%), LoReFT okvir znatno nadmašuje postojeće PEFT okvire. 

Final Misli

U ovom smo članku govorili o LoReFT-u, snažnoj alternativi postojećim PEFT okvirima koji postiže snažnu izvedbu kroz referentne vrijednosti iz četiri različite domene, a istovremeno nudi do 50 puta veću učinkovitost koju nude prethodni vrhunski PEFT modeli. Unaprijed obučeni veliki modeli često su fino podešeni za korištenje za nove domene ili zadatke, a tijekom procesa finog podešavanja, jedan osnovni model može se prilagoditi širokom spektru zadataka čak i sa samo malim količinama dostupnih podataka unutar domene modelu. Međutim, proces finog podešavanja cijelog modela zahtijeva resurse i skup je, posebno za jezične modele sa znatno većim brojem veličina i parametara. Parametarski učinkovito fino ugađanje ili PeFT metode predlažu rješavanje visokih troškova povezanih s finim ugađanjem cijelog modela ažuriranjem samo male količine ukupnih dostupnih težina, proces koji pomaže u smanjenju vremena obuke zajedno s upotrebom memorije. Naime, LoReFT uspostavlja novu vrhunsku izvedbu zdravorazumskog zaključivanja, praćenja uputa i razumijevanja prirodnog jezika protiv najjačih PEFT-ova.

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.