Tekoäly

Dekooderiin perustuvat suuret kielimallit: täydellinen opas

Päivitetty on Huhtikuu 27, 2024

Dekooderiin perustuvat suuret kielimallit: täydellinen opas

Suuret kielimallit (LLM) ovat mullistaneet luonnollisen kielen käsittelyn (NLP) alan osoittamalla merkittäviä kykyjä luoda ihmismäistä tekstiä, vastata kysymyksiin ja auttaa monissa kieleen liittyvissä tehtävissä. Näiden tehokkaiden mallien ytimessä on Vain dekooderin muuntajaarkkitehtuuri, muunnos alkuperäisestä muuntajaarkkitehtuurista, jota ehdotettiin peruspaperissa "Huomio on kaikki mitä tarvitset” kirjoittaneet Vaswani et ai.

Tässä kattavassa oppaassa tutkimme dekooderipohjaisten LLM-yritysten sisäistä toimintaa ja syvennymme peruselementteihin, arkkitehtonisiin innovaatioihin ja toteutusyksityiskohtiin, jotka ovat nostaneet nämä mallit NLP-tutkimuksen ja -sovellusten eturintamaan.

Transformer-arkkitehtuuri: Virkistys

Ennen kuin sukeltaa dekooderipohjaisten LLM:ien erityispiirteisiin, on välttämätöntä tarkastella uudelleen muuntajan arkkitehtuuria, perustaa, jolle nämä mallit on rakennettu. Muuntaja esitteli uudenlaisen lähestymistavan sekvenssimallinnukseen, joka luottaa yksinomaan huomiomekanismeihin datan pitkän kantaman riippuvuuksien kaappaamiseksi ilman toistuvia tai konvoluutiokerroksia.

Transformers-arkkitehtuuri

Alkuperäinen muuntajan arkkitehtuuri koostuu kahdesta pääkomponentista: kooderista ja dekooderista. Kooderi prosessoi tulosekvenssin ja muodostaa kontekstuaalisen esityksen, jonka dekooderi sitten kuluttaa tuottaakseen lähtösekvenssin. Tämä arkkitehtuuri on alun perin suunniteltu konekäännöstehtäviin, joissa enkooderi käsittelee syöttölauseen lähdekielellä ja dekooderi generoi vastaavan lauseen kohdekielellä.

Itsehuomio: avain Transformerin menestykseen

Ytimessä muuntaja piilee itsetarkkailumekanismi, tehokas tekniikka, jonka avulla malli voi punnita ja koota tietoa eri kohdista syöttösekvenssissä. Toisin kuin perinteiset sekvenssimallit, jotka käsittelevät syöttötunnisteita peräkkäin, itsetarkkailu mahdollistaa sen, että malli voi kaapata riippuvuuksia minkä tahansa merkkiparin välillä riippumatta niiden sijainnista sekvenssissä.

Monipuolinen huomio

Itsehuomiotoiminto voidaan jakaa kolmeen päävaiheeseen:

Kysely-, avain- ja arvoennusteet: Syöttösekvenssi projisoidaan kolmeen eri esitykseen: kyselyt (Q), avaimet (K) ja arvot (V). Nämä projektiot saadaan kertomalla syöte opituilla painomatriiseilla.
Huomiopisteiden laskeminen: Jokaiselle syöttösekvenssin kohdalle huomiopisteet lasketaan ottamalla pistetulo vastaavan kyselyvektorin ja kaikkien avainvektorien välillä. Nämä pisteet edustavat kunkin sijainnin relevanssia nykyiseen käsiteltävään sijaintiin.
Painotettu arvojen summa: Huomiopisteet normalisoidaan softmax-funktiolla, ja tuloksena saatuja huomiopainotuksia käytetään arvovektoreiden painotetun summan laskemiseen, jolloin saadaan tulosesitys nykyisestä sijainnista.

Monen pään huomio, muunnelma itsehuomiomekanismista, mahdollistaa sen, että malli voi vangita erityyppisiä suhteita laskemalla huomiopisteet useista "päät” rinnakkain, jokaisella on omat kysely-, avain- ja arvoennusteet.

Arkkitehtoniset vaihtoehdot ja kokoonpanot

Vaikka dekooderipohjaisten LLM:ien perusperiaatteet pysyvät johdonmukaisina, tutkijat ovat tutkineet erilaisia arkkitehtonisia muunnelmia ja kokoonpanoja parantaakseen suorituskykyä, tehokkuutta ja yleistysominaisuuksia. Tässä osiossa perehdymme erilaisiin arkkitehtonisiin valintoihin ja niiden vaikutuksiin.

Arkkitehtuurityypit

Dekooderiin perustuvat LLM:t voidaan luokitella kolmeen päätyyppiin: kooderi-dekooderi, kausaalinen dekooderi ja etuliitedekooderi. Jokaisella arkkitehtuurityypillä on omat huomionsa.

Enkooderi-dekooderi-arkkitehtuuri

Vanilla Transformer -malliin perustuva enkooderi-dekooderi-arkkitehtuuri koostuu kahdesta pinosta: enkooderista ja dekooderista. Kooderi käyttää pinottuja monen pään itsetarkkailukerroksia syöttösekvenssin koodaamiseen ja piilevien esitysten luomiseen. Sitten dekooderi suorittaa ristiin huomion näille esityksille kohdesekvenssin muodostamiseksi. Vaikka ne ovat tehokkaita erilaisissa NLP-tehtävissä, harvat LLM:t, kuten Flan-T5, omaksu tämä arkkitehtuuri.

Kausaalinen dekooderarkkitehtuuri

Kausaalisen dekooderin arkkitehtuuri sisältää yksisuuntaisen huomiomaskin, joka sallii jokaisen syötetunnisteen huomioida vain menneitä tokeneita ja itseään. Sekä tulo- että lähtötunnisteet käsitellään samassa dekooderissa. Merkittäviä malleja mm GPT-1, GPT-2 ja GPT-3 on rakennettu tälle arkkitehtuurille, ja GPT-3 esittelee merkittäviä kontekstin sisäisiä oppimisominaisuuksia. Monet LLM:t, mukaan lukien OPT, BLOOM ja Gopher, ovat ottaneet laajalti käyttöön kausaaliset dekooderit.

Etuliitedekooderin arkkitehtuuri

Etuliitteen dekooderin arkkitehtuuri, joka tunnetaan myös ei-syy-dekooderina, muokkaa kausaalisen dekooderin peittomekanismia mahdollistaakseen kaksisuuntaisen huomion etuliitetunnisteiden yli ja yksisuuntaisen huomion luomisen yhteydessä. Kuten enkooderi-dekooderi-arkkitehtuuri, etuliitedekooderit voivat koodata etuliitesekvenssin kaksisuuntaisesti ja ennustaa lähtötunnisteita autoregressiivisesti käyttämällä jaettuja parametreja. Etuliitedekooderiin perustuvia LLM-laitteita ovat GLM130B ja U-PaLM.

Kaikkia kolmea arkkitehtuurityyppiä voidaan laajentaa käyttämällä asiantuntijoiden yhdistelmä (MO) skaalaustekniikka, joka harvoin aktivoi joukon hermoverkkojen painotuksia jokaiselle tulolle. Tätä lähestymistapaa on käytetty malleissa, kuten Switch Transformer ja GLaM, ja asiantuntijoiden lukumäärän tai parametrien kokonaiskoon lisääntyminen on osoittanut merkittäviä suorituskyvyn parannuksia.

Vain dekooderille tarkoitettu muuntaja: Autoregressiivinen luonto

Vaikka alkuperäinen muuntaja-arkkitehtuuri on suunniteltu sekvenssistä sekvenssiin -tehtäviin, kuten konekääntämiseen, monet NLP-tehtävät, kuten kielen mallinnus ja tekstin luominen, voidaan kehystää autoregressiivisiksi ongelmiksi, joissa malli luo yhden tunnuksen kerrallaan, ehdolla aiemmin luodut tunnukset.

Syötä vain dekooderille tarkoitettu muuntaja, yksinkertaistettu muunnos muuntajaarkkitehtuurista, joka säilyttää vain dekooderikomponentin. Tämä arkkitehtuuri soveltuu erityisen hyvin autoregressiivisiin tehtäviin, koska se luo lähtötunnisteita yksitellen hyödyntäen aiemmin luotuja tokeneita syöttökontekstina.

Keskeinen ero vain dekooderin muuntajan ja alkuperäisen muuntajadekooderin välillä on itsehuomiomekanismissa. Vain dekooderi -asetuksissa itsehuomiotoimintoa on muokattu estämään mallia huomioimasta tulevia tokeneita. Tämä ominaisuus tunnetaan kausaalisuutena. Tämä saavutetaan tekniikalla, jota kutsutaan "naamioituneeksi itsehuomioksi", jossa tulevia asentoja vastaavat huomiopisteet asetetaan negatiiviseen äärettömyyteen, mikä peittää ne tehokkaasti softmax-normalisointivaiheen aikana.

Dekooderipohjaisten LLM-yritysten arkkitehtoniset komponentit

Vaikka itsetarkkailun ja naamioituneen itsehuomiollisuuden ydinperiaatteet pysyvät samoina, nykyaikaiset dekooderiin perustuvat LLM:t ovat ottaneet käyttöön useita arkkitehtonisia innovaatioita parantaakseen suorituskykyä, tehokkuutta ja yleistysominaisuuksia. Tutustutaanpa joihinkin uusimpien LLM-yritysten keskeisiin komponentteihin ja tekniikoihin.

Tuloesitys

Ennen syöttösekvenssin käsittelyä dekooderipohjaiset LLM:t käyttävät tokenointi- ja upotustekniikoita muuntaakseen raakatekstin mallille sopivaksi numeeriseksi esitykseksi.

vektori upottaminen

tokenization: Tokenointiprosessi muuntaa syötetyn tekstin merkkijonoksi, joka voi olla sanoja, alisia tai jopa yksittäisiä merkkejä käytetystä tunnuksenmuodostusstrategiasta riippuen. LLM:ien suosittuja tokenisointitekniikoita ovat tavuparikoodaus (BPE), SentencePiece ja WordPiece. Näillä menetelmillä pyritään löytämään tasapaino sanaston koon ja esityksen tarkkuuden välillä, jolloin malli pystyy käsittelemään harvinaisia tai sanaston ulkopuolisia sanoja tehokkaasti.

Tokenin upotukset: Tokenisoinnin jälkeen jokainen merkki kartoitetaan tiheään vektoriesitykseen, jota kutsutaan tokenin upotukseksi. Nämä upotukset opitaan harjoitusprosessin aikana ja ne kaappaavat semanttisia ja syntaktisia suhteita merkkien välillä.

Positiiviset upotukset: Muuntajamallit käsittelevät koko syöttösekvenssin samanaikaisesti, mutta niistä puuttuu toistuvissa malleissa esiintyvä tunnusmerkkien asema. Sijaintitiedon sisällyttämiseksi tunnuksen upotuksiin lisätään sijainti upotuksia, jolloin malli pystyy erottamaan tunnukset niiden sijainnin perusteella sekvenssissä. Varhaiset LLM:t käyttivät sinimuotoisiin funktioihin perustuvia kiinteitä paikannusupotuksia, kun taas uudemmat mallit ovat tutkineet opittavia paikannusupotuksia tai vaihtoehtoisia paikannuskoodaustekniikoita, kuten pyöriviä paikannusupotuksia.

Multi-Head Attention Blocks

Dekooderipohjaisten LLM:ien ydinrakennuspalikoita ovat monen pään huomiokerrokset, jotka suorittavat aiemmin kuvatun maskatun itsetarkkailutoiminnon. Nämä tasot pinotaan useita kertoja, ja jokainen kerros huolehtii edellisen kerroksen tuotosta, jolloin malli voi kaapata yhä monimutkaisempia riippuvuuksia ja esityksiä.

Huomionpäät: Jokainen usean pään huomiotaso koostuu useista "huomiopäästä", joista jokaisella on omat kysely-, avain- ja arvoennusteet. Tämä antaa mallille mahdollisuuden käsitellä syötteen eri puolia samanaikaisesti ja vangita erilaisia suhteita ja malleja.

Jäännösliitokset ja kerroksen normalisointi: Dekooderipohjaiset LLM:t käyttävät jäännösyhteyksiä ja kerrosten normalisointitekniikoita helpottaakseen syväverkkojen koulutusta ja lieventääkseen katoavaa gradienttiongelmaa. Jäljellä olevat yhteydet lisäävät kerroksen tulon sen tuottoon, mikä mahdollistaa gradientin virrata helpommin takaisin leviämisen aikana. Tason normalisointi auttaa vakauttamaan aktivaatioita ja gradientteja parantaen entisestään harjoituksen vakautta ja suorituskykyä.

Eteenpäin syötettävät kerrokset

Monen pään huomiotasojen lisäksi dekooderipohjaiset LLM:t sisältävät myötäkytkentäkerroksia, jotka soveltavat yksinkertaista myötäkytkentäistä hermoverkkoa sekvenssin jokaiseen kohtaan. Nämä tasot tuovat esiin epälineaarisuutta ja mahdollistavat mallin oppia monimutkaisempia esityksiä.

Aktivointitoiminnot: Aktivointitoiminnon valinta eteenpäinsyöttötasoissa voi vaikuttaa merkittävästi mallin suorituskykyyn. Kun aikaisemmat LLM:t luottivat laajalti käytettyyn ReLU-aktivointiin, uudemmissa malleissa on otettu käyttöön kehittyneempiä aktivointitoimintoja, kuten Gaussian Error Linear Unit (GELU) tai SwiGLU-aktivointi, jotka ovat osoittaneet parempaa suorituskykyä.

Harva huomio ja tehokkaat muuntajat

Vaikka itsehuomiomekanismi on tehokas, siinä on neliöllinen laskennallinen monimutkaisuus suhteessa sekvenssin pituuteen, mikä tekee siitä laskennallisesti kallista pitkille sarjoille. Tämän haasteen ratkaisemiseksi on ehdotettu useita tekniikoita, jotka vähentävät itsetuntemuksen laskenta- ja muistivaatimuksia, mikä mahdollistaa pidempien sekvenssien tehokkaan käsittelyn.

Vähäinen huomio: Harva huomiotekniikat, kuten GPT-3-mallissa käytetty, huomioivat valikoivasti syöttösekvenssin asemien osajoukkoa sen sijaan, että laskettaisiin huomiopisteitä kaikille asemille. Tämä voi vähentää merkittävästi laskennan monimutkaisuutta säilyttäen samalla kohtuullisen suorituskyvyn.

Liukuikkuna Huomio: Mistral 7B -mallissa esitelty liukuikkunan huomiointi (SWA) on yksinkertainen mutta tehokas tekniikka, joka rajoittaa kunkin tunnuksen tarkkaavaisuuden kiinteään ikkunan kokoon. Tämä lähestymistapa hyödyntää muuntajakerrosten kykyä välittää tietoa useiden kerrosten yli, mikä lisää tehokkaasti huomion kestoa ilman täyden itsehuomiollisuuden neliöllistä monimutkaisuutta.

Pyörivä puskurivälimuisti: Muistivaatimusten vähentämiseksi entisestään, erityisesti pitkien sekvenssien kohdalla, Mistral 7B -malli käyttää liikkuvaa puskurivälimuistia. Tämä tekniikka tallentaa ja käyttää uudelleen lasketut avain- ja arvovektorit kiinteää ikkunakokoa varten välttäen redundantteja laskelmia ja minimoiden muistin käytön.

Ryhmitetty kysely Huomio: LLaMA 2 -mallissa esitelty GQA on muunnelma usean kyselyn huomiomekanismista, joka jakaa huomiopäät ryhmiin, joista jokaisella on yhteinen avain- ja arvomatriisi. Tämä lähestymistapa löytää tasapainon usean kyselyn huomioimisen tehokkuuden ja tavallisen itsetarkkailun suorituskyvyn välillä, mikä tarjoaa paremmat päättelyajat säilyttäen samalla korkealaatuiset tulokset.

Ryhmitetty kysely huomio

Mallin koko ja skaalaus

Yksi nykyaikaisten LLM-yritysten määrittelevistä ominaisuuksista on niiden pelkkä mittakaava, ja parametrien määrä vaihtelee miljardeista satoihin miljardeihin. Mallin koon kasvattaminen on ollut ratkaiseva tekijä huippuluokan suorituskyvyn saavuttamisessa, koska suuremmat mallit voivat siepata monimutkaisempia kuvioita ja suhteita dataan.

Parametrien määrä: Dekooderipohjaisen LLM:n parametrien lukumäärä määräytyy ensisijaisesti upotusulottuvuuden (d_model), huomiopäiden lukumäärän (n_heads), kerrosten lukumäärän (n_layers) ja sanaston koon (vocab_size) perusteella. Esimerkiksi GPT-3-mallissa on 175 miljardia parametria d_malli = 12288, n_heads = 96, n_kerroksia = 96ja sanan_koko = 50257.

Mallin rinnakkaisuus: Tällaisten massiivisten mallien kouluttaminen ja käyttöönotto vaatii huomattavia laskentaresursseja ja erikoislaitteistoa. Tämän haasteen voittamiseksi on käytetty mallin rinnakkaisuustekniikoita, joissa malli on jaettu useiden GPU:iden tai TPU:iden kesken, ja jokainen laite vastaa osasta laskelmia.

Asiantuntijoiden sekoitus: Toinen lähestymistapa LLM:ien skaalaukseen on mix-of-experts (MoE) -arkkitehtuuri, joka yhdistää useita asiantuntijamalleja, joista jokainen on erikoistunut tiettyyn datan tai tehtävän osajoukkoon. Mixtral 8x7B -malli on esimerkki MoE-mallista, joka hyödyntää Mistral 7B perusmallina, joka saavuttaa erinomaisen suorituskyvyn säilyttäen samalla laskennan tehokkuuden.

Päätelmä ja tekstin luominen

Yksi dekooderipohjaisten LLM:ien ensisijaisista käyttötapauksista on tekstin luominen, jossa malli luo johdonmukaista ja luonnolliselta kuulostavaa tekstiä tietyn kehotteen tai kontekstin perusteella.

Autoregressiivinen dekoodaus: Päättelyn aikana dekooderipohjaiset LLM:t luovat tekstiä autoregressiivisellä tavalla ennustaen yhden tunnuksen kerrallaan aiemmin luotujen merkkien ja syöttökehotteen perusteella. Tätä prosessia jatketaan, kunnes ennalta määrätty pysäytyskriteeri täyttyy, kuten sekvenssin enimmäispituuden saavuttaminen tai sekvenssin loppusanan generointi.

Otantastrategiat: Monipuolisen ja realistisen tekstin luomiseksi voidaan käyttää erilaisia näytteenottostrategioita, kuten top-k -näytteenottoa, top-p-näytteenottoa (tunnetaan myös nimellä ydinnäytteenotto) tai lämpötilaskaalausta. Nämä tekniikat hallitsevat luodun tekstin monimuotoisuuden ja koherenssin välistä kompromissia säätämällä sanaston todennäköisyysjakaumaa.

Nopea suunnittelu: Syöttökehotteen laatu ja täsmällisyys voivat vaikuttaa merkittävästi luotuun tekstiin. Nopea suunnittelu, tehokkaiden kehotteiden luomisen taito, on noussut keskeiseksi osaksi LLM:ien hyödyntämistä eri tehtäviin, jolloin käyttäjät voivat ohjata mallin luomisprosessia ja saavuttaa halutut tulokset.

Human-in-the-Loop -dekoodaus: Luodun tekstin laadun ja koherenssin parantamiseksi edelleen tekniikoilla, kuten Ihmisten palautteesta oppimisen vahvistaminen (RLHF) on otettu käyttöön. Tässä lähestymistavassa ihmisen arvioijat antavat palautetta mallin luomasta tekstistä, jota käytetään sitten mallin hienosäätämiseen, kohdistamaan se tehokkaasti ihmisten mieltymyksiin ja parantamaan sen tuloksia.

Edistykset ja tulevaisuuden suunnat

Dekooderipohjaisten LLM-yritysten ala kehittyy nopeasti, ja uusi tutkimus ja läpimurrot työntävät jatkuvasti rajoja, mitä näillä malleilla voidaan saavuttaa. Tässä on joitain merkittäviä edistysaskeleita ja mahdollisia tulevaisuuden suuntaviivoja:

Tehokkaat muuntajavaihtoehdot: Vaikka vähäinen huomio ja liukuvat ikkunat ovat edistyneet merkittävästi dekooderipohjaisten LLM:ien tehokkuuden parantamisessa, tutkijat tutkivat aktiivisesti vaihtoehtoisia muuntaja-arkkitehtuureja ja huomiomekanismeja vähentääkseen laskentavaatimuksia entisestään säilyttäen tai parantaen samalla suorituskykyä.

Multimodaaliset LLM:t: Laajentamalla LLM:iden ominaisuuksia tekstin ulkopuolelle, multimodaaliset mallit pyrkivät integroimaan useita modaliteettia, kuten kuvia, ääntä tai videota, yhdeksi yhtenäiseksi puitteeksi. Tämä avaa jännittäviä mahdollisuuksia sovelluksille, kuten kuvien tekstityksille, visuaalisiin kysymyksiin vastaamiseen ja multimediasisällön luomiseen.

Hallittava sukupolvi: Luodun tekstin tarkan hallinnan mahdollistaminen on haastava mutta tärkeä suunta LLM:ille. Ohjatun tekstin luomisen ja nopean virityksen kaltaiset tekniikat pyrkivät tarjoamaan käyttäjille tarkemman hallinnan luodun tekstin eri ominaisuuksiin, kuten tyyliin, sävyyn tai erityisiin sisältövaatimuksiin.

Yhteenveto

Dekooderipohjaiset LLM:t ovat nousseet muuttuvaksi voimaksi luonnollisen kielen prosessoinnilla, joka on siirtänyt rajoja kielen luomisen ja ymmärtämisen kanssa. Näistä malleista, jotka aloitettiin vaatimattomina muuntajaarkkitehtuurin yksinkertaistettuina muunnelmina, on kehittynyt erittäin kehittyneitä ja tehokkaita järjestelmiä, jotka hyödyntävät huippuluokan tekniikoita ja arkkitehtonisia innovaatioita.

Kun jatkamme dekooderipohjaisten LLM-yritysten tutkimista ja edistämistä, voimme odottaa saavamme vieläkin merkittävämpiä saavutuksia kieleen liittyvissä tehtävissä sekä näiden mallien integroimista monenlaisiin sovelluksiin ja toimialueisiin. On kuitenkin ratkaisevan tärkeää ottaa huomioon eettiset näkökohdat, tulkittavuushaasteet ja mahdolliset vinoutumat, joita voi syntyä näiden tehokkaiden mallien laajasta käyttöönotosta.

Pysymällä tutkimuksen eturintamassa, edistämällä avointa yhteistyötä ja ylläpitämällä vahvaa sitoutumista vastuulliseen tekoälykehitykseen, voimme vapauttaa dekooderipohjaisten LLM-yritysten täyden potentiaalin ja varmistaa samalla, että niitä kehitetään ja hyödynnetään turvallisella, eettisellä ja hyödyllisellä tavalla. yhteiskuntaan.

Liittyvät aiheet:KUKINTA dekooderi GPT-3 OTK paLM NOPEA TEKNIIKKA itse huomiota muuntajat

Seuraavaksi

Taskukokoinen voimalaitos: Microsoftin Phi-3, puhelimeesi sopiva kielimalli, julkistaminen

Älä missaa

Mini-Gemini: Multimodaalisten visiokielimallien potentiaalin louhinta

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.

Unite.AI

Dekooderiin perustuvat suuret kielimallit: täydellinen opas

Tekoäly

Dekooderiin perustuvat suuret kielimallit: täydellinen opas

Sisällysluettelo

Transformer-arkkitehtuuri: Virkistys

Itsehuomio: avain Transformerin menestykseen