Prompt engineering

LLM-mallien hienosäätö: Räätälöinti suurten kielen mallien mukauttamiseksi yksilöllisiin vaatimuksiin

Published September 19, 2023

Updated April 4, 2026

Aayush Mittal Mittal

LLM Fine tuning representation - Midjourney

Kun olemme syyskuussa 2023, suurten kielen mallien (LLM) maisema on edelleen todistamassa mallien kohoamista, mukaan lukien Alpaca, Falcon, Llama 2, GPT-4 ja monet muut.

Tärkeä näkökohta näiden LLM-mallien potentiaalin hyödyntämisessä on hienosäätöprosessi, joka on strategia, joka mahdollistaa esikoulutettujen mallien mukauttamisen tiettyihin tehtäviin tarkkuudella. Tämän hienosäätöprosessin kautta nämä mallit voivat todella olla linjassa yksilöllisten vaatimusten kanssa, tarjoten ratkaisuja, jotka ovat sekä innovatiivisia että räätälöityjä yksilöllisiin tarpeisiin.

On kuitenkin olennaista huomata, etteivät kaikki hienosäätömahdollisuudet ole samanarvoisia. Esimerkiksi GPT-4:n hienosäätöominaisuuksiin pääsy vaatii maksullisen tilauksen, joka on suhteellisesti kalliimpi verrattuna muihin markkinoilla oleviin vaihtoehtoihin. Toisaalta avoimen lähdekoodin alue on täynnä vaihtoehtoja, jotka tarjoavat helpomman tien suurten kielen mallien voiman hyödyntämiseen. Nämä avoimen lähdekoodin vaihtoehdot demokratisoivat pääsyn edistyneisiin AI-tekniikoihin, edistäen innovaatioita ja inklusiivisuutta nopeasti kehittyvässä AI-maisemassa.

Hugging Face – Open LLM Leaderboard

Miksi LLM-hienosäätö on tärkeää?

LLM-hienosäätö on enemmän kuin tekninen parannus; se on tärkeä osa LLM-mallin kehittämistä, joka mahdollistaa tarkemman ja hienostuneemman soveltamisen erilaisissa tehtävissä. Hienosäätö säätää esikoulutetut mallit paremmin soveltumaan tiettyihin tietojoukkoihin, parantaen niiden suorituskykyä tiettyjen tehtävien suorittamisessa ja varmistaen kohdennetumman soveltamisen. Se tuo esiin LLM-mallien merkittävän kyvyn sopeutua uusiin tietoihin, osoittaen joustavuutta, joka on olennainen kiinnostuksen kasvussa AI-sovelluksissa.

Hienosäätö suurten kielen mallien avulla avaa monia mahdollisuuksia, sallien niiden menestyä erilaisissa tehtävissä, kuten mielipideanalyysissä ja lääketieteellisissä kirjallisuuskatsauksissa. Säätämällä perusmallia tiettyyn käyttötapaan, avaan uusia mahdollisuuksia, parantaen mallin tehokkuutta ja tarkkuutta. Lisäksi se mahdollistaa taloudellisemman käytön järjestelmäresursseista, koska hienosäätö vaatii vähemmän laskentatehoa verrattuna mallin kouluttamiseen alusta alkaen.

Kun syvennämme tähän opasta, tarkastelemme LLM-hienosäätöprosessin yksityiskohtia, antaen teille kattavan katsauksen, joka perustuu viimeisimpiin edistykseen ja parhaisiin käytäntöihin alalla.

Ohjeiden perusteella tapahtuva hienosäätö

Hienosäätövaihe Generative AI-elinkaaren aikana, kuvattuna alla olevassa kuvassa, on luonteenomaista ohjeiden sisääntulon ja ulostulon yhdistämisestä, yhdessä askelkohtaisen päättelyn esimerkkien kanssa. Tämä lähestymistapa mahdollistaa mallille luoda vastauksia, jotka eivät ainoastaan ole relevantteja, vaan myös tarkasti linjassa tiettyjen ohjeiden kanssa, jotka on syötetty siihen. Tämä on vaihe, jolloin esikoulutetut mallit sovitetaan ratkaisemaan erillisiä tehtäviä ja käyttötapoja, käyttäen henkilökohtaisia tietoja parantamaan toimintaa.

Generative AI Lifecycle – Fine Tuning

Yksitehtävän hienosäätö

Yksitehtävän hienosäätö keskittyy mallin asiantuntemuksen kehittämiseen tiettyyn tehtävään, kuten yhteenvetoon. Tämä lähestymistapa on erityisen hyödyllinen optimoimassa työvirran merkittäviä asiakirjoja tai keskustelulankauksia, mukaan lukien oikeudelliset asiakirjat ja asiakastukipalvelun liput. Huomattavasti, tämä hienosäätö voi saavuttaa merkittäviä suorituskyvyn parannuksia suhteellisen pienellä esimerkkijoukolla, vaihdellen 500:sta 1000:een, vastakohtana miljardeille tunnisteille, joita käytetään esikoulutusvaiheessa.

Yksitehtävän hienosäätö esimerkki

LLM-hienosäätön perusteet: Transformer-arkkitehtuuri ja sen ympärillä

LLM-hienosäätöprosessin ymmärtäminen alkaa perustavien elementtien ymmärtämisestä, jotka muodostavat LLM-mallit. Näiden mallien sydämessä on transformer-arkkitehtuuri, joka on neuroverkko, joka hyödyntää itsehuomio-mekanismeja priorisoidakseen sanan kontekstin etäisyyden sijaan lauseessa. Tämä innovatiivinen lähestymistapa mahdollistaa syvemmän ymmärryksen etäisten suhteiden välillä tunnisteiden välillä syötteenä.

Kun navigoimme transformerien yksityiskohtien läpi, kohtaamme monivaiheisen prosessin, joka alkaa koodauksesta. Tämä alkuvaihe sisältää syötteen tokenisoinnin ja upotusvektorien luomisen, jotka edustavat syötettä ja sen sijaintia lauseessa. Seuraavat vaiheet sisältävät laskelmia, jotka käyttävät matriiseja, jotka tunnetaan nimillä Kysely, Arvo ja Avain, johtuen itsehuomioarviosta, joka määrää fokuksen eri osiin lauseessa ja eri tunnisteisiin.

Transformer-arkkitehtuuri

Hienosäätö on kriittinen vaihe LLM-mallien kehittämisessä, prosessi, joka edellyttää hienovaraisia sopeutumisia saavuttaaksesi toivottuja tuloksia. Tämä vaihe, vaikka olennainen, esittää joukon haasteita, mukaan lukien laskennalliset ja tallennusvaatimukset suuren määrän parametreja käsiteltäessä. Parametrien tehokas hienosäätö (PEFT) tarjoaa tekniikoita vähentääksesi parametreja, joita on syytä hienosäätää, yksinkertaisten koulutusprosessin.

LLM-esikoulutus: Vahvan perustan luominen

LLM-kehityksen alkuvaiheissa esikoulutus on keskeisessä asemassa, käyttäen yli-parametrisoituja transformatoreja perusrakenteena. Tämä prosessi sisältää luonnollisen kielen mallinnuksen eri tavoilla, kuten bidirectional, autoregressiivinen tai sekvenssi-sekvenssi suurilla aineistoilla. Tavoitteena on luoda perusta, jota voidaan myöhemmin hienosäätää tiettyihin alatehtäviin esittelemällä tehtäväkohtaisia tavoitteita.

Esikoulutus, hienosäätö

Merkittävä suuntaus tässä alueessa on väistämätön kasvu esikoulutettujen LLM-mallien mittakaavassa, mitattuna parametreiden määrällä. Empiiriset tiedot osoittavat johdonmukaisesti, että suuremmat mallit ja enemmän dataa johtavat lähes aina parempaan suorituskykyyn. Esimerkiksi GPT-3, jolla on 175 miljardia parametriä, on asettanut benchmarkin korkealaatuisen luonnollisen kielen tuottamisessa ja suorittamalla laajan valikoiman nollasta tehtäviä taitavasti.

Hienosäätö: Mallin sopeuttamisen polku

Esikoulutuksen jälkeen LLM-malli käy hienosäätöprosessin läpi sopeutuakseen tiettyihin tehtäviin. Vaikka esikoulutettujen LLM-mallien, kuten GPT-3:n, lupauksellinen suorituskyky on näkynyt kontekstissä oppimisessa, hienosäätö säilyy ylemmänä tehtäväkohtaisissa asetuksissa. Kuitenkin yleinen lähestymistapa, joka sisältää kaikkien parametreiden hienosäätön, esittää haasteita, mukaan lukien korkeat laskennalliset ja muistivaatimukset, erityisesti suurten mittakaavojen mallien käsittelyssä.

Suurten kielen mallien, joilla on yli miljardi parametriä, tehokas GPU-muistin hallinta on ratkaisevaa. Yksittäinen mallin parametri, jolla on täysi 32-bittinen tarkkuus, edellyttää 4 tavua tilaa, mikä vastaa 4 gigatavun GPU-muistin tarvetta vain yhden miljardin parametrin mallin lataamiseksi. Itse koulutusprosessi vaatii vielä enemmän muistia ottaen huomioon erilaiset komponentit, kuten optimoijan tilat ja gradientit, mahdollisesti vaaditen jopa 80 gigatavun GPU-muistia mallin mittakaavan vuoksi.

GPU-muistin rajoitusten navigoimiseksi käytetään kvantisaatiota, joka on tekniikka, joka vähentää mallin parametreiden tarkkuutta, vähentäen siten muistin tarvetta. Esimerkiksi tarkkuuden muuttaminen 32-bittisestä 16-bittiseksi voi puolittaa tarvittavan muistin sekä mallin lataamiseksi että kouluttamiseksi.

LLM GPU-muistin vaatimus suhteessa parametreiden määrään ja tarkkuuteen

PEFT-menetelmien luokat

Parametrien tehokkaat hienosäätömenetelmät

Täysin hienosäätäessä suuria kielen malleja on tärkeää olla laskennallinen asetelma, joka pystyy käsittelemään ei ainoastaan merkittäviä mallipainoja, jotka edistyneimmille malleille ovat jo satojen gigatavujen kokoisia, vaan myös hallitsemaan muita kriittisiä elementtejä. Nämä sisältävät muun muassa optimoijan tilojen muistin varauksen, gradientien hallinnan, eteenpäin suuntautuvien aktivaatioiden ja väliaikaisen muistin hallinnan eri koulutusvaiheiden aikana.

Lisäysmenetelmä

Tämä säätömenetelmä voi lisätä esikoulutetulle mallille lisäparametreja tai kerroksia, keskittyen ainoastaan uusien parametreiden kouluttamiseen. Vaikka se lisää parametrilukumäärää, nämä menetelmät parantavat koulutuksen aikaa ja tilaa. Lisäysmenetelmä on jaettu alaluokkiin:

Sovitin: Sisällyttäen pieniä täysin kytkettyjä verkkorakenteita transformer-aliverrosten jälkeen, joista mainittavia esimerkkejä ovat AdaMix, KronA ja Compactor.
Pehmeät ohjeet: Hienosäätö osaa mallin syöteupotuksia gradientin laskennan kautta, IPT:n, prefix-tuning:in ja WARP:n ollessa merkittäviä esimerkkejä.
Muut lisäyslähestymistavat: Sisältävät tekniikoita kuten LeTS, AttentionFusion ja Ladder-Side Tuning.

Valikoivamenetelmä

Valikoivat PEFT:t hienosäätävät rajoitetun määrän ylempien kerroksia kerrostyypin ja sisäisen mallirakenteen perusteella. Tähän luokkaan kuuluvat menetelmät kuten BitFit ja LN-säätö, jotka keskittyvät säätämään tiettyjä elementtejä kuten mallin harhoja tai tiettyjä rivejä.

Uudelleenparametrisoimismenetelmä

Nämä menetelmät hyödyntävät matalan arvon esityksiä vähentääkseen säädettävien parametreiden määrää. Tunnetuin näistä on Matalan arvon sopeutus eli LoRA. Tämä menetelmä jäädyttää alkuperäiset mallipainot ja integroi uudet koulutettavat matalan arvon matriisit jokaiseen transformer-arkkitehtuurin kerrokseen. Tämä lähestymistapa ei ainoastaan vähennä koulutettavien parametreiden määrää vaan myös vähentää koulutuksen aikaa ja laskennallisia resursseja, tarjoaten siten tehokkaamman vaihtoehdon täydelliselle hienosäätölle.

1) LoRA (Matalan arvon sopeutus)

LoRA nousi merkittäväksi PEFT-tekniikaksi, jonka Edward J. Hu ja muut esittivät vuonna 2021. Se toimii uudelleenparametrisoinnin luokassa, jäädyttäen alkuperäiset painot ja lisäämällä uudet koulutettavat matalan arvon matriisit jokaiseen transformer-arkkitehtuurin kerrokseen. Tämä lähestymistapa vähentää sekä koulutettavien parametreiden määrää että koulutuksen aikaa ja laskennallisia resursseja, tarjoaten siten tehokkaamman vaihtoehdon täydelliselle hienosäätölle.

LoRA:n toimintamekanismin ymmärtämiseksi on palattava transformer-arkkitehtuuriin, jossa syöte käy tokenisoinnin ja upotusvektorien kautta, jotka edustavat syötettä ja sen sijaintia lauseessa. Nämä vektorit kulkevat koodauksen ja/tai dekooderin osuuksien läpi, kohtaamassa itsehuomio- ja eteenpäin suuntautuvat verkkorakenteet, joiden painot on esikoulutettu.

LoRA hyödyntää hajotelmateknikkaa. Perimmältään hajotelma jakaa matriisin kolmeen erilliseen matriisiin, joista yksi on diagonaali, joka sisältää hajotelmakertoimet. Nämä kertoimet ovat olennaisia, koska ne mitoittavat eri ulottuvuuksien merkitystä matriiseissa, suuremmat arvot osoittaen suurempaa merkitystä ja pienemmät arvot vähäisempää.

Hajotelma m x n -matriisille

Tämä lähestymistapa mahdollistaa LoRA:lle säilyttää datan olennaiset piirteet vähentäen ulottuvuuden määrää, optimoiden siten hienosäätöprosessin.

LoRA puuttuu tähän prosessiin, jäädyttäen kaikki alkuperäiset malliparametrit ja lisäten pari “säätömatriiseja” alkuperäisten painojen rinnalle. Nämä pienemmät matriisit, jotka merkitään A:na ja B:na, koulutetaan valvotulla oppimisella.

LoRA-kuva

Avainelementti tässä strategiassa on “arvo” (r), joka määrää matalan arvon matriisien koon. Tarkan valinnan “r”:stä voidaan saada vaikuttavia tuloksia, jopa pienellä arvolla, luomalla siten matalan arvon matriisin, jossa on vähemmän parametreja koulutettavaksi. Tämä strategia on toteutettu tehokkaasti avoimen lähdekoodin kirjastojen kautta, kuten HuggingFace Transformers, joka mahdollistaa LoRA-hienosäätön monissa tehtävissä merkittävällä tehokkuudella.

2) QLoRA: Ottaen LoRA:n tehokkuuden korkeammalle

Rakentamalla LoRA:n perustalle, QLoRA vähentää edelleen muistin vaatimusta. Tim Dettmers ja muut esittivät sen vuonna 2023, yhdistäen matalan arvon sopeutuksen kvantisaatioon, käyttäen 4-bittistä kvantisaatiomuotoa, jota kutsutaan NormaaliFloat:ksi tai nf4:ksi. Kvantisaatio on prosessi, joka siirtää datan korkeammasta tiedon esitysmuodosta vähäisempään, säilyttäen kuitenkin 16-bittisen hienosäätömenetelmien tehokkuuden, dekvantisoimalla 4-bittiset painot 16-bitteiksi laskentaoperaatioiden aikana.

Hienosäätömenetelmien vertailu: QLoRA parantaa LoRA:ta 4-bittisen tarkkuuden kvantisaatiolla ja sivutettujen optimoijien avulla muistin huippujen hallintaan

QLoRA hyödyntää NumericFloat4 (nf4):ää, kohdistuen jokaiseen transformer-arkkitehtuurin kerrokseen, ja esittelee kaksoiskvantisaation käsitteen vähentääkseen muistin jalanjäljen edelleen. Tämä saavutetaan kvantisoimalla jo kvantisoituja vakioita, strategia joka estää tyypilliset gradientin tarkistusmuistin huippuja sivutettujen optimoijien ja yhdistetyn muistinhallinnan avulla.

Guanaco, joka on QLoRA-hienosäätöinen ensemble, asettaa benchmarkin avoimen lähdekoodin chatbot-ratkaisuissa. Sen suorituskyky, joka on validoituna systemaattisilla ihmisten ja automaattisilla arvioilla, korostaa sen hallitsevuutta ja tehokkuutta alalla.

Guanacon 65B ja 33B -versiot, jotka on hienosäätöilty muokatun OASST1 -aineiston avulla, nousevat merkittäviksi kilpailijoiksi tunnetuille malleille, kuten ChatGPT:lle ja jopa GPT-4:lle.

Hienosäätö ihmisiltä saadun palautevirran kautta

Ihmisten palautteen kautta tapahtuva vahvistusoppiminen (RLHF) tulee kuvaan, kun hienosäätöitä esikoulutettuja kielen malleja ihmisten arvojen ja preferenssien mukaisesti. Tämä käsite esiteltiin avoimen AI:n toimesta vuonna 2017, luoden perustan parannelle asiakirjojen yhteenvetoon ja InstructGPT:n kehittämiseen.

RLHF:n ydin on vahvistusoppimisen paradigma, tietynlainen koneoppimisen tekniikka, jossa agentti oppii toimimaan ympäristössä suorittamalla toimintoja ja saamalla palkintoja. Se on jatkuva toiminta ja palautteen silmukka, jossa agentti kannustetaan tekemään valintoja, jotka johtavat korkeimpiin palkintoihin.

Kielen mallien maailmassa agentti on itse malli, toimien tietyn tilan puitteissa, joka määritellään nykyisillä kontekstin ikkunan tunnisteilla. “Toimintatila” kattaa kaikki mahdolliset tunnistet, joista malli voi valita, tavoitteena valita tunniste, joka on lähimpänä ihmisten preferenssejä.

RLHF-prosessi hyödyntää laajasti ihmisten palautetta kouluttaakseen palkintomallin. Tämä malli on avainasemassa ohjatessaan esikoulutettua mallia hienosäätöprosessin aikana, kannustamalla sitä tuottamaan tuloksia, jotka ovat lähempänä ihmisten arvoja. Se on dynaaminen ja iteratiivinen prosessi, jossa malli oppii sarjan “rullauksien” kautta, termi, jota käytetään kuvaamaan tilojen ja toimintojen sekä palkinnon jonoa kielen tuottamisen kontekstissa.

Kaavio, joka havainnollistaa kolmea vaihetta: (1) valvottu hienosäätö (SFT), (2) palkintomallin (RM) koulutus ja (3) vahvistusoppiminen Proximal Policy Optimization (PPO) -menetelmällä tässä palkintomallissa.

Instruct-GPT

Yksi RLHF:n merkittävimmistä potentiaaleista on sen kyky edistää personointia AI-avustajissa, sovittamalla ne yksilöllisten käyttäjien preferenssien mukaan, olipa se heidän huumorintajunsa tai päivittäisten rutiinien mukaan. Se avaa ovia luomalla AI-järjestelmiä, jotka eivät ainoastaan ole teknisesti taitavia vaan myös tuntevat inhimillisen viestinnän nuansseja.

Kuitenkin on tärkeää huomata, että RLHF ei ole virheetön ratkaisu. Mallit ovat edelleen alttiina tuottamaan epätoivottuja tuloksia, heijastaen laajaa ja usein säätelemätöntä ja harhaanjohtavaa dataa, jolla ne on koulutettu.

Johtopäätös

Hienosäätöprosessi, joka on kriittinen askel hyödyntäessä LLM-mallien, kuten Alpaca, Falcon ja GPT-4, täydellistä potentiaalia, on tullut tarkemmaksi ja kohdennetuksi, tarjoamalla räätälöityjä ratkaisuja laajaan valikoimaan tehtäviä.

Olemme nähneet yksitehtävän hienosäätön, joka erikoistuu malleissa tiettyihin rooleihin, ja Parametrien tehokkaan hienosäätön (PEFT) menetelmät, mukaan lukien LoRA ja QLoRA, jotka pyrkivät tekemään koulutusprosessin tehokkaammaksi ja kustannustehokkaammaksi. Nämä kehitykset avaavat ovia edistyneille AI-toiminnoille laajemmalle yleisölle.

Lisäksi avoimen AI:n esittelemä ihmisten palautteen kautta tapahtuva vahvistusoppiminen (RLHF) on askel kohti AI-järjestelmiä, jotka ymmärtävät ja ovat lähempänä ihmisten arvoja ja preferenssejä, asettamalla näin näyttämön AI-avustajille, jotka eivät ainoastaan ole älykkäitä vaan myös herkkästi yksilöllisten käyttäjien tarpeita kohtaan.

Molemmat RLHF ja PEFT toimivat symbioosissa parantamaan suurten kielen mallien toimintaa ja tehokkuutta. Kun yritykset, organisaatiot ja yksilöt katsovat integroivansa nämä hienosäätölliset LLM-mallit toimintaansa, he ovat käytännössä tervehtimässä tulevaisuutta, jossa AI ei ole ainoastaan työkalu vaan myös kumppani, joka ymmärtää ja sopeutuu inhimillisiin konteksteihin, tarjoten ratkaisuja, jotka ovat sekä innovatiivisia että räätälöityjä yksilöllisiin tarpeisiin.

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.