Tekoäly

GPT-3 : Few Shot Learning for Language Model?

Published August 24, 2023

Updated April 28, 2026

Kunal Kejriwal

Viime vuosien aikana AI- ja ML-teollisuus on kokenut meteorinvaikutuksen NLP-järjestelmien kehittämisessä ja soveltamisessa, kun tutkijat ovat onnistuneet toteuttamaan NLP-käytännön erittäin joustavilla ja tehtävänäkökulmattomilla tavoilla alaspäin siirtävissä tehtävissä.

Aluksi käytettiin yksikerroksisia edustuksia, jotka käyttivät sana-vektoreita ja syötettiin tehtäväkohtaiselle arkkitehtuurille. Seuraavaksi oli RNN-arkkitehtuuri, joka käytti monikerroksisia edustuksia ja kontekstuaalista tilaa muodostamaan parempia edustuksia. Ja viimeisimmäksi meillä on siirtymäkieli- ja esikoulutetut toistuvat mallit, jotka ovat kokonaan poistaneet tehtäväkohtaisen arkkitehtuurin tarpeen hienosäätämällä näitä verkkomalleja.

Siirtymäkielimallit ovat osoittaneet olevan suuri käännekohta NLP-teollisuudessa, koska ne ovat johtaneet valtaviin edistysaskeliin haastaviissa tehtävissä, kuten kysymysten vastaamisessa, tekstin ymmärtämisessä tai tekstien lohkojen ymmärtämisessä, tekstuaalisessa johtamisessa ja paljon muussa.

Vaikka niillä on etuja, siirtymäkielimallit ovat rajoitettuja, koska ne vaativat tehtäväkohtaista hienosäätöä tai tehtäväkohtaista tietojoukkoa saavuttaakseen halutun suorituskyvyn tehtävässä. Lisäksi siirtymäkielimallit vaativat kehittäjiltä tietojoukon hienosäätöä satoihin tuhansiin esimerkkeihin, jotka ovat erityisiä tietyn tehtävän osalta.

On selvää, että tehtäväkohtaisen tietojoukon ja tehtäväkohtaisen hienosäätämisen vaatimusten poistaminen olisi erittäin toivottavaa ja hyödyllistä NLP-teollisuudelle monista syistä.

Ongelmat olemassa olevissa esikoulutetuissa siirtymäkieli- tai toistuvissa malleissa

Rajoittaa käytännöllisyyttä ja soveltamista

Ensisijaisesti, suuren tietojoukon vaatimus, jossa on merkittyjä tietoja kullekin tehtävälle, rajoittaa kielen mallien soveltamista ja käytännöllisyyttä. Kielen mallit löytävät sovelluksia laajasta valikoimasta tehtävistä, kuten lyhyen tarinan luomisesta, kieliopillisten virheiden korjaamiseen, esimerkkien luomiseen käsitteestä. Joskus on haastavaa kerätä suuri valvottu tietojoukko, etenkin kun prosessi tarvitsee toistamista kullekin yksittäiselle tehtävälle.

Hyödyntää harhaanjohtavia yhteyksiä koulutusaineistossa

Koulutusjakauman rajoitukset ja kapeus sekä mallin ilmaisuvoima voivat johtaa perustavanlaatuiseen kasvuun potentiaalissa hyödyntää harhaanjohtavia yhteyksiä koulutusaineistossa. Potentiaali hyödyntää koulutusaineistoa voi johtaa ongelmiiin hienosäätö- ja esikoulutusparadigmassa, koska siirtymäkielimallit on suunniteltu imevänsä suuren määrän tietoa esikoulutuksen aikana.

Lisäksi aiempien mallien työ on osoittanut, että suuret mallit eivät aina johtaa parempiin tuloksiin jokaisella kerralla. Lisäksi on osoitettu, että yleistyminen, joka saavutetaan tällaisessa paradigmassa, voi johtaa heikkoon suorituskykyyn, koska malli on erittäin spesifinen koulutusaineistolle ja ei pysty suoriutumaan tilanteissa, jotka ovat koulutusaineiston ulottumattomissa.

Vertailu ihmisen oppimiseen

Lopulta, verrattaessa siirtymäkielimalleja, ihmiset eivät vaadi suurta koulutusaineistoa oppiakseen useimmat kielitehtävät. Useimmiten lyhyt ohje henkilön luonnollisella kielellä tai pieni esimerkki kielitehtävästä on riittävä, jotta ihminen voi ymmärtää ja suorittaa kielitehtävän tietyn kilpailukyvyn tasolla.

Ihmisen sopeutumiskyky on monia käytännöllisiä etuja, koska se mahdollistaa heidän vaihdella eri taitojen välillä tai yhdistää niitä paremmin suoriutumaan dialogissa, mikä on NLP-järjestelmien nykyisten kykyjen ulottumattomissa.

Ratkaistessa ongelmia metaoppimisen ja GPT-3:n avulla

Mahdollinen ratkaisu edellä mainittuihin haasteisiin on metaoppimisen käyttäminen, joka on modernin ML:n käsite, joka mahdollistaa mallille kehittää laajempi ja monipuolisempi taitojen ja mallin tunnistamiskyky koulutuksen aikana, ja sitten käyttää näitä oppimia kykyjä viittaamisen aikana sopeutua nopeasti tai tunnistaa vaadittavan tehtävän.

Metaoppiminen toteutetaan kielen mallin arkkitehtuurissa tekniikalla, jota kutsutaan ”kontekstissä oppimiseksi”, joka käyttää esikoulutetun kielen mallin tekstisyötettä tehtävän määrittelyksi. Prosessissa malli ehdolla luonnollisen kielen ohjeesta ja voi käyttää joitakin esimerkkejä, ja malli odotetaan täydentävän loput tehtävästä ennustamalla seuraavat vaiheet.

Ainoa suuri ongelma metaoppimisessa on, että vaikka se on osoittanut positiivista potentiaalia, se on edelleen heikompi kuin hienosäätölähestymistapa luonnollisen kielen arkkitehtuurissa, ja se tarvitsee lisää parantamista tullakseen käytännölliseksi menetelmäksi kielen tehtävien voittamiseksi.

Lisäksi metaoppimisen ohella toinen menetelmä, joka on suosittu, on muuttaa transformer-kielimallien kapasiteettia. Viime vuosina siirtymämallit ovat kokeneet merkittävän kasvun kapasiteetissaan, esimerkiksi RNNS18-mallilla, jossa on 100 miljoonaa parametria, DCLT18-mallilla, jossa on 300 miljoonaa parametria, RWC19-mallilla, jossa on 1,5 miljardia parametria, SSP19-mallilla, jossa on 8 miljardia parametria, RSR19-mallilla, jossa on 11 miljardia parametria, ja TUR20-mallilla, jossa on 17 miljardia parametria.

Mallin kapasiteetin lisääminen tai parametreja lisääminen on historiallisesti johtanut parannuksiin tekstin synteesissä, ja on osoitettu, että log-häviö, joka korreloi alaspäin tehtävissä, seuraa sileää voimakkaan lakia kokoonpanon funktiona. Se, että GPT-3-malli on yli 175 miljardin parametrin suuruinen, ja kun se julkaistiin, se oli suurin kapasiteetin siirtymäkielimalli. Käydään nyt läpi GPT-3-mallia.

Johdanto GPT-3-malliin

GPT-3 on itsestään aggressiivinen kielen malli, jossa on yli 175 miljardia parametria, ja se julkaistiin OpenAI:ssa vuonna 2020. GPT-3 luokitellaan myös suureksi kielen malliksi, joka on kuten sen edeltäjä GPT-2-malli, dekooderi-vain syväoppimisen transformer-malli, joka käyttää konvoluutio-pohjaista arkkitehtuuria tekstin generoimiseen.

GPT-3-malli mitataan omilla kontekstissä oppimiskyvyillään, ja GPT-3-malli arvioidaan yli kahdessa tusinassa NLP-tietojoukoissa ja useissa uusissa tehtävissä. Kullekin tehtävälle GPT-3-malli arvioidaan kolmessa eri tilanteessa,

Monen laukauksen oppiminen eli kontekstissä oppiminen: Monen laukauksen oppimisessa GPT-3-malli sallii niin monta jakoa, kuin mallin kontekstissa ikkuna mahtuu.
Yhden laukauksen oppiminen: Yhden laukauksen oppimisessa malli sallii vain yhden esimerkin.
Nollan laukauksen oppiminen: Nollan laukauksen oppimisessa ei ole esimerkkejä, ja siinä on vain luonnollisen kielen ohje, joka syötetään malliin.

Laajasti ottaen, GPT-3-malli saavuttaa halutun suorituskyvyn nollan laukauksessa ja yhden laukauksen asetuksissa, ja monen laukauksen asetuksessa se ylittää valtion viimeisimmän siirtymämallin useimmiten. Lisäksi GPT-3-malli suoriutuu hyvin yhden laukauksen ja nollan laukauksen asetuksissa luonnollisen kielen tehtävissä, jotka on suunniteltu testaamaan lennossa olevaa päättelyä tai vaativat nopeaa huomiota, kuten uusien sanojen käyttäminen lauseen jälkeen, sanojen purkaminen tai aritmeettisten operaatioiden suorittaminen. Toisaalta, kun se toimii monen laukauksen asetuksessa, GPT-3-malli generoi synthetisiä uutisartikkeleita, jotka muistuttavat ihmisen kirjoittamista, kun ne ohjataan ihmisen arvioijille.

GPT-3-malli: Lähestymistapa

GPT-3-malli käyttää perinteistä esikoulutuslähestymistapaa, joka koostuu mallista, tietojoukosta ja koulutuksesta, ja se muistuttaa esikoulutusprosessia, jota RWC-19-siirtymäkielimalli seuraa. GPT-3-malli skaalaa mallin koon, tietojoukon koon, tietojoukon monimuotoisuuden ja pidentää koulutusjakson pituutta.

Malli käyttää myös kontekstissä oppimisen lähestymistapaa, joka muistuttaa RWC-19-mallin lähestymistapaa, mutta muuttaa asioita hieman tutkimalla systemaattisesti eri asetuksia mallin sisäisten mallien oppimiseksi tietojoukon kontekstissa.

Joten, aloitetaan näiden asetusten tutkiminen ja arvioidaan, miten GPT-3-malli suoriutuu eri asetuksissa.

Hienosäätö

Mallin hienosäätö on ollut perinteinen lähestymistapa siirtymäkielimalleissa, ja se käsittää esikoulutetun mallin painojen päivittämisen koulutettaessa sitä valvotussa tietojoukossa, joka on spesifinen halutulle tehtävälle, ja satoja tuhansia merkittyjä esimerkkejä käytetään prosessin aikana.

Hienosäätölähestymistapa on hyödyllinen, koska se tarjoaa vahvan suorituskyvyn useilla mittareilla. Toisaalta, hienosäätölähestymistapan pääasiallinen rajoitus on, että se vaatii uuden ja suuren tietojoukon kullekin tehtävälle, voi hyödyntää harhaanjohtavia piirteitä koulutusaineistosta, voi johtaa epäreiluihin vertailuihin ihmisen suorituskyvyn kanssa ja voi johtaa heikkoon yleistyvyyteen ulkopuolisille.

GPT-3-mallin nykyinen laajuus ei toteuta hienosäätölähestymistapaa sen tehtäväagnostisen suorituskyvyn vuoksi, vaikka hienosäätöä voidaan soveltaa GPT-3-malliin tulevaisuudessa.

Monen laukauksen

Monen laukauksen on termi, joka viittaa asetukseen, jossa GPT-3-malli saa joitakin esimerkkejä tehtävästä viittaamisen aikana ehdollistamisena, mutta mallin painot eivät päivitetä. Monen laukauksen asetuksissa tietojoukko tyypillisesti sisältää esimerkin kontekstista ja toivottua täydennystä (esimerkiksi ranskalainen lause ja sen englanninkielinen käännös). Monen laukauksen asetus antaa mallille K esimerkkejä kontekstista ja täydennystä, ja se antaa mallille lopulta yhden viimeisen kontekstin, ja odotetaan, että malli antaa täydennys.

Monen laukauksen asetuksen pääasiallinen etu on, että se vähentää tarvetta tehtäväkohtaisiin tietoihin ja vähentää potentiaalia oppia kapeaa jakaumaa suuresta tietojoukosta, joka on hienosäädettynä kapeasti. Toisaalta, monen laukauksen oppimisen pääasiallinen haitta on, että tulokset, jotka saadaan monen laukauksen asetuksessa, eivät ole vertailukelpoisia muihin valtion viimeisimpiin malleihin, jotka on hienosäädettynä.

Yhden laukauksen

Yhden laukauksen asetuksessa malli saa vain yhden esimerkin. Yhden laukauksen asetuksen syy siirtymäkielimalleissa on, että se muistuttaa eniten tapaa, jolla tehtävät kommunikoidaan ihmisille. On yleistä antaa yksi esimerkki tehtävästä, muuten voi olla vaikea ymmärtää tehtävän kontekstia.

Nollan laukauksen

Nollan laukauksen asetuksessa ei ole esimerkkejä, ja malli saa luonnollisen kielen ohjeen, joka kuvaa tehtävän. Nollan laukauksen menetelmä on se, joka tarjoaa eniten käytännöllisyyttä, on robusti ja välttää harhaanjohtavia yhteyksiä, mutta se on myös haasteellisin kaikista kolmesta asetuksesta. Se johtuu siitä, että joissakin tapauksissa on vaikea jopa ihmisille ymmärtää tehtävän kontekstia ilman, että he näkevät esimerkin ensin.

Silti, joissakin tehtävissä nollan laukauksen asetus on se, joka muistuttaa eniten, miten ihmiset suorittavat luonnollisen kielen tehtäviä.

Yllä oleva kuva vertaa monen laukauksen, yhden laukauksen ja nollan laukauksen asetusta suoritettaessa luonnollisen kielen tehtävää, kuten ottamalla englanninkielinen lause ja kääntämällä se ranskaksi.

GPT-3: Mallin arkkitehtuuri

GPT-3-malli käyttää samaa arkkitehtuuria kuin GPT-2-malli, ja se sisältää esinormaaliutumisen, muutetun alkuarvon ja käännön estämisen tekniikoita, kuten ne olivat GPT-mallissa, lukuun ottamatta vaihtoehtoista strategiaa paikallisesti bänditettyjen harvojen huomion jakamismallien ja vaihtoehtoisten tiheiden kerrosten käyttämistä transformer-kerroksissa, vastaavasti harva transformer.

Tutkimaan mallin suorituskyvyn riippuvuutta mallin koosta, kehittäjät ovat kouluttaneet 8 eri mallin kokoa, jotka vaihtelevat kolmen eri tilausmagnitudeen yli 125 miljoonasta yli 175 miljardiin parametriin, viimeinen niistä on GPT-3-malli. Aikaisempi työ LLM-malleissa on osoittanut, että validointihäviön skaalaus riittävän suurella määrällä koulutusdataa tulisi olla likimääräinen sileä voimakas laki kokoonpanon funktiona. Kouluttamalla malleja, jotka vaihtelevat koossa, kehittäjät voivat testata hypoteesin sekä alaspäin kielen tehtävissä että validointihäviössä.

Yllä oleva kuva vertaa koon ja arkkitehtuurin 8:aa eri kokoa, joita kehitettiin GPT-3-mallille. Siinä, jossa n(params) määrittää yhteisen määrän koulutettavia malleja, n(kerrokset) määrittää yhteisen määrän kerroksia mallissa, d(malli) määrittää yksiköiden määrän kussakin kerroksessa pullonkaulassa, ja d(pää) määrittää huomion kunkin pään ulottuvuuden. Kontekstisisään asti jokaiselle mallille on sama 2048 merkkiä.

Lisäksi vähentääksesi datan siirtämisen solmujen välillä, malli on jaettu solmujen välillä syvyyden ja leveyden ulottuvuuksien mukaan. Arkkitehtuurin parametreja kullekin mallille on valittu perustuen laskennalliseen tehokkuuteen ja kuormituksen tasapainottamiseen maksimoimaan tarkin mallin asettelu solmujen yli.

Koulutusaineistot

Tyypillisesti, suuret kielen mallit käyttävät tietoja, jotka ovat laajentuneet merkittävästi viimeaikaisen kehityksen myötä, ja ne johtavat Common Crawl -tietojoukkoon, joka koostuu yli biljoonasta sanasta. Tietojoukon koko on riittävä kouluttaa GPT-3-mallia ilman päivittämistä samalle jaksolle useita kertoja. Kuitenkin, tutkimukset ja suorituskykyanalyysi osoittavat, että kevyesti suodatetut versiot tai suodattamattomat versiot Common Crawl -tietojoukosta ovat alhaisempaa laatua verrattuna kuriiteiden tietojoukkoihin.

Ratkaistakseen tietojoukon keskimääräisen laatua, kehittäjät tekivät 3 askelta parantamaan tietojoukon laatua.

Kehittäjät lataivat ja suodattivat Common Crawl -tietojoukon perustuen jakaumaan, joka on vastaava kuin korkealaatuisten viitekorpuksien.
Kehittäjät suorittivat sumean duplikaation asiakirjan tasolla tietojoukossa pyrkien säilyttämään pidätetyssä validointijoukossa yhdenmukaisen mittarin ylikoulutukselle ja estämään redundanssin.
Kehittäjät lisäsivät korkealaatuisten viitekorpuksien koulutusdataan lisätäkseen tietojoukon monimuotoisuutta ja parantamaan edelleen tietojoukon laatua.

Seuraava kuva osoittaa lopullisen suhteen tai tietojoukon sekoituksen, jota käytettiin GPT-3-mallin kouluttamiseen. Common Crawl -data koostui yli 45 TB:sta pelkästä tekstistä ennen suodattamista, joka väheni 570 GB:aan dataa suodattamisen jälkeen, mikä on karkea vastaavuus yli 400 miljardille byte-pareille. On huomattava, että tietojoukot, jotka pidetään korkealaatuisina, näytetään useammin kuin tietojoukon kokoon nähden. Niinpä, tietojoukot, kuten Books2 ja Common Crawl, näytetään vähemmän kuin kerran koulutuksen aikana, kun taas muut tietojoukot näytetään useita kertoja. Se mahdollistaa mallin hyväksymisen pienen määrän ylikoulutusta vastineeksi kouluttamisesta korkealaatuisissa koulutusaineistoissa.

Merkitsevä huolenaihe suurilla esikoulutetuilla kielen malleilla, joilla on kyky muistaa ja oppia suuren määrän sisältöä internetin datan kautta, on potentiaalinen saastuminen alaspäin tehtävistä niiden kehitys- tai testijoukkojen näkemisen kautta esikoulutuksen aikana. Vähentääksesi tämänkaltaisen saastumisen potentiaalia, kehittäjät etsivät ylityksiä testi- ja kehitysjoukkojen kanssa benchmark-mittareilla, joita tutkittiin GPT-3:lle, ja yrittivät poistaa nämä ylitykset.

Yllä oleva kuva osoittaa yhteensä laskennan, jota käytettiin GPT-3-mallin kouluttamiseen. Malli käyttää neuroniverkkomallien skaalauslakeja kouluttaakseen paljon suurempia malleja vähemmällä symboleilla kuin tyypillisesti. Tuloksena sekä GPT-3 että RoBERTa-Large-malli, joka on 10-kertaa pienempi kuin GPT-3, vaativat molemmat noin 50 petaflopsin laskennan päivässä esikoulutuksen aikana.

Arviointi

Monen laukauksen oppimisessa malli arvioi kullekin esimerkille arviointidatassa ottamalla K esimerkkejä satunnaisesti kyseisen tehtävän koulutusjoukosta ehdollistamiseksi ja rajoittamiseksi 1 tai 2 uudella rivillä riippuen tehtävästä. Storyclozelle ja LAMBADA:lle malli ottaa ehdollistamisesimerkkejä kehitysjoukosta ja arvioi sen testijoukossa, koska valvottu koulutusjoukko ei ole saatavilla. Winogradille on vain yksi tietojoukko, ja siinä ehdollistamisesimerkit otetaan suoraan siitä.

K voi olla mikä tahansa arvo välillä 0 ja mallin kontekstisisään sallimasta enimmäismäärästä, joka on next = 2048 kaikille malleille, ja se tyypillisesti mahtuu noin 10-100 esimerkkiin. Suuremmat K-arvot johtavat usein parempiin tuloksiin, mutta ei aina, joten kun mallilla on testijoukko ja erillinen kehitysjoukko saatavilla, malli kokeilee joitakin K-arvoja kehitysjoukossa, ja perusteella tuloksista, se suorittaa parhaimman arvon testijoukossa.

Lisäksi, tehtävissä, jotka vaativat valitsemaan oikean täydennyksen useista vaihtoehdoista, kehittäjät antavat K esimerkkejä oikeasta täydennyksestä ja kontekstista, ja seuraa yhtä kontekstia, ja tehtävät vertaillaan perustuen jokaisen täydennyksen LM-todennäköisyyteen. Tehtävissä, jotka vaativat binäärisen luokittelun, mallit usein antavat vaihtoehdot semanttisesti ja tarkoituksenmukaisilla nimillä, ja sitten käsitellään tehtävää samalla tavalla kuin RSR-malli ja arkkitehtuuri.

Tehtävissä, jotka vaativat vapaamuotoista täydentämistä, malli käyttää kaarihaun hakua samojen parametrejen kanssa kuin RSR-kehyksessä, kaaren pituudella 4 ja rangaistuksella 0,6. Malli on mitattu joko F1-samanlaisuuspisteellä, täsmätodennäköisyydellä tai BLEU:lla, riippuen tietojoukon standardista.

Tulokset

Yllä oleva kuva osoittaa koulutuskaaret 8:lle mallille, jotka kuuluvat GPT-3-mallin arkkitehtuuriin, kuten kuvattu aiemmin. Samoin kuin KMH-kielimallin tulokset, GPT-3-mallin suorituskyky seuraa oikein lakia käyttäen koulutuslaskentaa tehokkaasti. On pieni ero laista, kun trendi laajennetaan kahdella kohtaa. Ihmiset saattavat ajatella, että parannukset cross-entropiahäviksissä johtuvat spurioiden yksityiskohtien mallinnuksesta koulutuskorpuksessa. Kuitenkin, parannukset cross-entropiahäviksissä johtavat johdonmukaisiin voittoihin laajalla valikoimalla erilaisia NLP-tehtäviä.

Ennen kuin 8 eri mallia arvioidaan laajalla valikoimalla koulutusdataa, tietojoukot on ryhmitelty 8 eri luokkaan, jotka edustavat samanlaisia tehtäviä. Nämä luokat ovat

Arviointi perinteisillä kielen mallinnustehtävillä ja tehtävillä, jotka muistuttavat kielen mallinnusta, kuten Cloze-tehtävillä tai lauseen/paragrafin täydentämistehtävillä.
Arviointi “suljetun kirjan” kysymys-vastaus -tehtävillä.
Arviointi mallin kyvystä kääntää kieliä (erityisesti yhden laukauksen ja monen laukauksen).
Arviointi mallin suorituskyvystä Winograd-tyyppisissä tehtävissä.
Arviointi tietojoukoissa, jotka vaativat yleissivistävää päättelyä tai kysymys-vastaus -tehtäviä.
Arviointi lukemisen ymmärtämistehtävissä.
Arviointi SuperGLUE-benchmark-ryhmässä.
Tutkiminen NLI:ssä.

Kielen mallinnus, täydentäminen ja Cloze-tehtävät

Tässä osiossa GPT-3-mallin suorituskyky arvioidaan perinteisillä kielen mallinnustehtävillä sekä tehtävillä, jotka vaativat yhden kiinnostuksen sanan ennustamista tai paragrafin tai lauseen täydentämistä tai tekstin täydentämistä. Käydään niitä läpi lyhyesti.

Kielen mallinnus

GPT-3-malli laskee nollan laukauksen hämmennystä PTB- tai Penn Tree Bank -tietojoukossa. Malli jättää Wikipedia-aiheiset tehtävät pois, koska ne ovat jo mallin koulutusaineistossa, ja yhden miljardin sanan benchmark on jätetty pois, koska se aiheuttaa merkittävän kitkan aineistossa, joka on koulutusaineistossa. Kuitenkin, PTB-tietojoukko ratkaisee nämä ongelmat, koska se edeltää modernia internetiä. Suurin malli GPT-3-mallin arkkitehtuurissa asettaa uuden SOTA:n PTB-tietojoukossa merkittävällä 15 pisteen marginaalilla ja saavuttaa hämmennystason 20,50.

LAMBADA

LAMBADA-tietojoukko on käytetty testaamaan mallin mallinnusta pitkän aikavälin riippuvuuksissa paragrafeissa tai teksteissä. Se tarkoittaa, että malli pyydetään ennustamaan viimeinen sana lauseessa lukeakseen paragrafin kontekstina. Lisäksi, jatkuva skaalaus kielen malleissa johtaa väheneviin palkintoihin benchmarkissa.

GPT-3-malli saavuttaa 76 %:n täsmätarkkuuden LAMBADA:ssa ja on ylittänyt edellisen parhaan mallin yli 8 prosentilla. Lisäksi, LAMBADA-malli osoittaa monen laukauksen oppimisen joustavuuden, koska se ratkaisee ongelman klassisella tavalla tietojoukon kanssa. Lauseen täydentäminen LAMBADA:ssa on yleensä lauseen viimeinen sana, mutta koska kielen malli ei voi tietää sitä, se antaa todennäköisyyden sekä oikealle lopetukselle että muiden jatkamisille paragrafissa.

Lisäksi, kun esimerkkejä, jotka syötetään GPT-3-mallille, muutetaan tietyllä tavalla, malli palauttaa täsmätarkkuuden yli 86 prosentilla, 18 prosentin kasvun edellisiin malleihin verrattuna. Lisäksi, tulokset osoittivat, että mallin suorituskyky monen laukauksen asetuksessa kasvaa suhteessa mallin koosta. Vaikka tämä strategia vähentää pienintä mallia GPT-3-arkkitehtuurissa 20 prosentilla, se parantaa pääasiallisen GPT-3-mallin suorituskykyä 175 miljardilla parametrilla 10 prosentilla.

Suljettu kirja -kysymys-vastaus

Suljettu kirja -kysymys-vastaus on yritys mitata GPT-3-mallin kykyä vastata kysymyksiin laajalla tietämyksellä. Koska tällaisia kysymyksiä on usein suuri määrä mahdollisia kysymyksiä, tehtävä suoritetaan yleensä käyttämällä tietojen hakujärjestelmää, joka mahdollistaa mallille löytää relevantti teksti hakemalla ja yhdistämällä sen malliin, joka oppii vastaamaan kysymykseen haetun tekstin perusteella.

Yllä oleva kuva vertaa tuloksia GPT-3-mallille verrattuna muihin malleihin ja eri tietojoukkoihin. TriviaQA-tietojoukossa malli saavuttaa 64,3 prosentin täsmätarkkuuden nollan laukauksen asetuksessa, kun taas se saavuttaa 68 prosentin ja 71,2 prosentin täsmätarkkuuden yhden laukauksen ja monen laukauksen asetuksissa.

On selvää, että GPT-3-malli nollan laukauksen asetuksessa ylittää hienosäätöllä säädetyn T5-11B-mallin yli 14 prosentilla.

Yllä oleva kuva osoittaa, miten GPT-3-mallin suorituskyky kasvaa sileästi mallin koosta. Suorituskyky osoittaa, että kielen mallit jatkavat oppimista tietojoukosta, kun niiden kapasiteetti kasvaa.

Lopputajat

On turvallista sanoa, että GPT-3 oli vallankumouksellinen vaihe LLM-teollisuudessa, koska GPT-3 auttoi siirtymään kielen mallien rajoja. Se kehitys ja esteiden voittaminen GPT-3:n kanssa loi tien kehittämiseen edistyneimmästä ja tarkin kielen mallista tähän asti, GPT-4:stä.