Artificiell intelligens
GPT-3: FÄ skottinlÀrning för sprÄkmodell?

Under de senaste Ären har AI- och ML-industrin sett en hastig ökning av utvecklingen och tillÀmpningen av NLP-systemen eftersom forskare har kunnat implementera NLP-praxis pÄ mycket flexibla och uppgiftsagnostiska sÀtt för nedströmsöverföring av uppgifter.
Till en början var det enskiktsrepresentationerna som anvÀnde ordvektorer och matades sedan till den uppgiftsspecifika arkitekturen. DÀrefter var det RNN-arkitekturen som anvÀnde flerskiktsrepresentationer och kontextuellt tillstÄnd för att bilda bÀttre representationer. Och nu senast har vi överföringssprÄksmodellerna eller förutbildade Äterkommande modeller som helt har tagit bort behovet av uppgiftsspecifika arkitekturer genom att finjustera dessa nÀtverk.
ĂverföringssprĂ„ksmodellerna har visat sig vara en stor vĂ€ndpunkt i NLP-branschen eftersom de har resulterat i enorma framsteg nĂ€r det gĂ€ller utmanande uppgifter som att svara pĂ„ frĂ„gor, lĂ€sförstĂ„else eller textblock, textinneslutning och mycket mer.
Men trots sina fördelar har överföringssprÄkmodeller en stor begrÀnsning eftersom de krÀver uppgiftsspecifik finjustering eller uppgiftsspecifik datauppsÀttning för att uppnÄ önskad prestanda pÄ en uppgift. Dessutom krÀver överföringssprÄkmodeller ocksÄ utvecklare att finjustera datamÀngderna till hundratusentals exempel specifika för en viss uppgift.
Det sÀger sig sjÀlvt att ta bort kravet pÄ uppgiftsspecifik datauppsÀttning och uppgiftsspecifik finjustering kommer att vara mycket önskvÀrt och fördelaktigt för NLP-branschen av mÄnga skÀl.
Problem med befintliga förutbildade överföringssprÄkmodeller eller Äterkommande modeller
- BegrÀnsning av praktisk och anvÀndbarhet
Först och frÀmst begrÀnsar kravet pÄ en stor datamÀngd med mÀrkta data för varje uppgift sprÄkmodellernas tillÀmplighet och praktiska funktion. SprÄkmodeller kan anvÀndas i en mÀngd olika uppgifter, frÄn att skapa en novell, till att korrigera grammatiska fel, till att generera exempel pÄ ett koncept. Ibland Àr det en utmanande uppgift att samla in en stor övervakad datauppsÀttning med mÀrkt data, sÀrskilt nÀr processen behöver upprepas för varje enskild uppgift.
- Utnyttja falska korrelationer i trÀningsdata
BegrÀnsningar och trÄnghet i trÀningsfördelningen i kombination med modellens uttrycksfullhet kan resultera i en fundamental tillvÀxt i potential att utnyttja falska korrelationer i trÀningsdata. Potentialen att utnyttja trÀningsdata kan resultera i problem under finjusterings- och förtrÀningsparadigmet eftersom överföringssprÄksmodellerna Àr utformade pÄ ett sÀtt att absorbera en stor mÀngd information under förtrÀningen.
Dessutom har arbetet med tidigare modeller visat att stora modeller inte leder till bÀttre distribution varje gÄng. Dessutom har det ocksÄ indikerats att generalisering som uppnÄs under ett sÄdant paradigm kan resultera i dÄliga prestationer frÀmst pÄ grund av att modellen Àr mycket specifik för trÀningsdata och inte kan prestera bra i situationer utanför trÀningsdatans omfattning.
- JÀmförelse med mÀnskligt lÀrande
Slutligen, jÀmfört med överföringssprÄkmodeller, behöver mÀnniskor inte en stor trÀningsdatauppsÀttning nÀr det gÀller att lÀra sig de flesta sprÄkuppgifter. Oftast Àr ett kort direktiv pÄ en persons naturliga sprÄk eller en liten demonstration av sprÄkuppgiften tillrÀcklig för att en mÀnniska ska förstÄ och utföra en sprÄkuppgift med en viss konkurrenskraft.
MÀnniskans förmÄga att anpassa sig har mÄnga praktiska fördelar eftersom den gör det möjligt för dem att antingen vÀxla mellan olika fÀrdigheter eller blanda dem för att bÀttre prestera under en dialekt, nÄgot som Àr bortom kapaciteten hos de nuvarande NLP-systemen.
Ta itu med problemen med Meta Learning & GPT-3
En möjlig lösning pÄ ovanstÄende utmaningar Àr anvÀndningen av meta-inlÀrning, ett koncept i modern ML som gör det möjligt för en modell att utveckla en större och bredare uppsÀttning fÀrdigheter och förmÄga att kÀnna igen mönster under trÀning, och sedan anvÀnder dessa inlÀrda förmÄgor under interferens för att anpassa sig snabbt, eller kÀnna igen den nödvÀndiga uppgiften.
Meta Learning implementeras i sprĂ„kmodellarkitektur via en teknik som kallas "inlĂ€rning i sammanhangâ som anvĂ€nder textinmatning av en förtrĂ€nad sprĂ„kmodell som uppgiftsspecifikation. I processen förutsĂ€tter modellen en naturlig sprĂ„kinstruktion och kan till och med anvĂ€nda nĂ„gra demonstrationer, och modellen förvĂ€ntas sedan slutföra resten av uppgiften genom att förutsĂ€ga nĂ€sta steg.
Det enda stora problemet med Meta Learning Àr att Àven om det har visat positiv potential, Àr det fortfarande sÀmre Àn finjusteringsmetoden inom naturlig sprÄkarkitektur, och den behöver förbÀttras ytterligare för att bli en praktisk metod för att övervinna sprÄkuppgifter.
Förutom meta-inlÀrning Àr en annan metod som vinner popularitet att öka kapaciteten hos transformatorsprÄkmodeller. Under de senaste Ären har överföringsmodeller sett en avsevÀrd ökning av sin kapacitet med RNSS18 modell med 100 miljoner parametrar, den DCLT18 modell med 300 miljoner parametrar, den RWC19 modell med 1.5 miljarder parametrar, den SSP19 modell med 8 miljarder parametrar, den RSR19 modell med 11 miljarder parametrar, och TUR20 modell med 17 miljarder parametrar.
Att öka modellens kapacitet eller öka parametrarna har historiskt resulterat i förbÀttringar i textsyntesen, och det har funnits en indikation pÄ att loggförlust, som korrelerar med nedströmsuppgifter, ocksÄ följer en jÀmn trend att förbÀttras med skalan.
Det för oss till GPT-3-modellen som har över 175 miljarder parametrar, och nÀr den lanserades var det överföringssprÄkmodellen med högst kapacitet. LÄt oss nu prata om GPT-3-modellen.
En introduktion till GPT-3-modellen
GPT-3 Àr en autoaggressiv sprÄkmodell med över 175 miljarder parametrar som slÀpptes av OpenAI 2020. GPT-3 klassas ocksÄ som en stor sprÄkmodell som precis som sin föregÄngare GPT-2-modellen Àr en transformatormodell för djupinlÀrning endast avkodare som anvÀnder faltningsbaserad arkitektur för att generera textdata.
GPT-3-modellen mÀter sina egna kontextinlÀrningsförmÄga, och GPT-3-modellen utvÀrderas pÄ över tvÄ dussin NLP-datauppsÀttningar och flera nya uppgifter. För varje enskild uppgift utvÀrderas GPT-3-modellen under tre förhÄllanden,
- FÄ Shot Learning eller In-Context Learning: I fÄ skottinlÀrning tillÄter GPT-3-modellen sÄ mÄnga distributioner som kan passa vÀl in i modellens kontextfönster.
- One Shot Learning: I one shot learning tillÄter modellen endast en demonstration.
- Zero Shot Learning: I noll shot-inlÀrning finns det inga demonstrationer, och det finns bara en instruktion pÄ naturligt sprÄk som matas till modellen.
I stort sett GPT-3 modell uppnÄr önskad prestanda i noll- och one-shot-instÀllningar, och i fÄ-shot-instÀllningen övertrÀffar den de senaste överföringsmodellerna för det mesta. Dessutom presterar GPT-3-modellen bra i engÄngs- och nolltagningsinstÀllningar vid naturliga sprÄkuppgifter som Àr utformade för att testa resonemang i farten, eller krÀver snabb uppmÀrksamhet som att anvÀnda nya ord efter en mening, eller avkoda ord eller utföra aritmetik operationer. à andra sidan, nÀr GPT-3-modellen anvÀnds i en miljö med fÄ bilder, genererar den syntetiska nyhetsartiklar som liknar mÀnskligt skrivande nÀr den passeras genom mÀnskliga utvÀrderare.
GPT-3 Modell: Approach
GPT-3-modellen anvÀnder en konventionell förtrÀningsmetod som omfattar modell, data och trÀning, och den liknar förtrÀningsprocessen som följs av RWC-19-överföringssprÄkmodellen. GPT-3-modellen skalar upp modellstorleken, datasetstorleken, mÄngfalden av datamÀngden och ökar lÀngden pÄ trÀningsperioden.
Modellen anvÀnder ocksÄ en inlÀrningsmetod i sammanhanget som Äterigen liknar RWC-19-modellens tillvÀgagÄngssÀtt, men justerar lite genom att systematiskt utforska olika instÀllningar för inlÀrningsmönster inom ramen för datasetet.
SÄ lÄt oss börja med att utforska dessa instÀllningar och utvÀrdera hur GTP-3-modellen presterar pÄ olika instÀllningar.
Finjustering
Att finjustera modellen har varit den konventionella metoden för överföring sprÄkmodeller, och detta tillvÀgagÄngssÀtt innebÀr uppdatering av vikterna för en förtrÀnad modell genom att trÀna modellen pÄ en övervakad datauppsÀttning som Àr specifik för den önskade uppgiften, och hundratusentals mÀrkta exempel anvÀnds under processen.
Finjusterande tillvÀgagÄngssÀtt Àr fördelaktigt eftersom det ger stark prestanda över mÄnga riktmÀrken. à andra sidan Àr den huvudsakliga begrÀnsningen med att anvÀnda finjusteringsmetoden att den krÀver en ny och stor datamÀngd för varje enskild uppgift, har potential att utnyttja falska funktioner i trÀningsuppsÀttningen, kan potentiellt resultera i orÀttvis jÀmförelse med mÀnsklig prestation , och dÄlig generalisering för out-of-distribution.
Den nuvarande omfattningen av GPT-3-modellen implementerar inte finjusteringsmetoden pÄ grund av dess uppgifts-agnostiska prestanda, Àven om finjustering kan tillÀmpas pÄ GPT-3-modellen i framtiden.
FĂ„ skott
Few Shot Àr en term som hÀnvisar till instÀllningen dÀr GPT-3-modellen ges nÄgra demonstrationer av uppgiften under interferens som konditionering, men modellens vikter uppdateras inte. I de fÄ inspelningsinstÀllningarna har datasetet vanligtvis ett exempel med ett sammanhang och en önskad komplettering (till exempel en fransk mening och dess engelska översÀttning). InstÀllningen fÄ skott ger modellen K exempel pÄ sammanhang och komplettering, och den förser sedan modellen med ett sista sammanhang och förvÀntar sig att modellen ska tillhandahÄlla kompletteringen.
Den stora fördelen med att anvÀnda instÀllningen fÄ skott Àr att det avsevÀrt minskar behovet av uppgiftsspecifika data, och Àven minskar möjligheten att lÀra sig en smal fördelning frÄn en stor datamÀngd som Àr smalt finjusterad. à andra sidan Àr den stora nackdelen med att anvÀnda fÄ skott-inlÀrning att resultaten som levereras i fÄ skott-instÀllningen inte Àr upp till mÀrket och avsevÀrt dÄliga jÀmfört med andra toppmoderna modeller som Àr finjusterade.
One Shot
I ett skott-instÀllningen Àr modellen endast försedd med en enda demonstration, och resten liknar instÀllningen för fÄ skott. Anledningen till att en shot-instÀllning Àr relevant i överföringssprÄkmodeller Àr att av alla tre instÀllningarna Àr en shot den som liknar det sÀtt pÄ vilket uppgifter kommuniceras till mÀnniskor bÀst. Det beror pÄ att det i de flesta av uppgifterna Àr vanligt att ge en demonstration av uppgiften, annars kan det vara svÄrt att förstÄ sammanhanget för uppgiften.
Noll skott
I nollskottsinstÀllningen finns inga demonstrationer, och modellen ges en naturlig sprÄkinstruktion som beskriver uppgiften. Nollskottsmetoden Àr den som erbjuder maximal bekvÀmlighet, Àr robust och Àven undviker falska korrelationer, men det Àr ocksÄ den mest utmanande av alla tre instÀllningarna. Det beror pÄ att det i vissa fall Àr svÄrt Àven för oss mÀnniskor att ta reda pÄ sammanhanget för en uppgift utan att först se en demonstration.
Oavsett, för vissa uppgifter Àr noll-shot-instÀllningen den som liknar hur mÀnniskor utför naturliga sprÄkuppgifter nÀrmast.
OvanstÄende figur jÀmför instÀllningen för fÄ skott, one shot och noll shot nÀr man utför en naturlig sprÄkuppgift att ta en engelsk mening och översÀtta den till franska.
GPT-3: Modellarkitektur
GPT-3-modellen anvÀnder samma arkitektur som den som anvÀnds i GPT-2-modellen, och den inkluderar förnormalisering, modifierad initiering och reversibla tokeniseringstekniker som de anvÀndes pÄ GPT-modellen med undantag för att anvÀnda en alternativ strategi för lokalt bandade glesa uppmÀrksamhetsmönster och alternerande tÀta lager i transformatorlagren, liknande Sparse Transformer.
För att studera beroendet av modellens prestanda pÄ modellstorleken har utvecklarna trÀnat 8 olika modellstorlekar som strÀcker sig över tre olika storleksordningar frÄn 125 miljoner till över 175 miljarder parametrar, den sista av dem kallas GPT-3-modellen . Tidigare arbete relaterat till LLM-modeller har indikerat att skalning av valideringsförlust med en tillrÀcklig mÀngd trÀningsdata bör vara en ungefÀrlig jÀmn kraftlag som en funktion av storlek. Utbildningsmodeller av varierande storlek tillÄter utvecklare att testa hypotesen för bÄde nedströms sprÄkuppgifter och för valideringsförlust.
OvanstÄende figur jÀmför storleken och arkitekturen för de 8 olika modellerna som anvÀnds för utveckling av GPT-3. HÀr definierar n(params) det totala antalet trÀningsbara mönster, n(lager) definierar det totala antalet lager i modellen, d(modell) definierar antalet enheter i varje lager av flaskhalsen och d(huvud) definierar mÄtten pÄ varje uppmÀrksamhetshuvud. Kontextfönstret för varje modell Àr detsamma med 2048 tokens.
Dessutom, för att minimera överföringen av data mellan noderna, Àr modellen uppdelad över GPU:erna lÀngs dimensionernas djup och bredd. De arkitektoniska parametrarna för varje modell har valts pÄ basis av berÀkningseffektivitet och lastbalansering för att maximera precisionen i layouten av modeller över GPU:er.
TrÀningsdatauppsÀttningar
Vanligtvis anvÀnder de stora sprÄkmodellerna datamÀngder som har utökats avsevÀrt med den senaste utvecklingen, och de kulminerar i Common Crawl-dataset som bestÄr av över en biljon olika ord. DatauppsÀttningens storlek Àr tillrÀcklig för att trÀna GPT-3-modellen utan att uppdatera pÄ samma sekvens flera gÄnger. Studier och prestandaanalyser indikerar dock att lÀtt filtrerade versioner eller ofiltrerade versioner av Common Crawl-datauppsÀttningen har lÄg kvalitet jÀmfört med mer kurerad datauppsÀttning.
För att ta itu med frÄgan om den genomsnittliga kvaliteten pÄ datamÀngden tog utvecklarna tre steg för att öka kvaliteten pÄ datasetet.
- Utvecklare laddade ner och filtrerade en version av Common Crawl-datauppsÀttningen baserad pÄ ett intervall som liknar högkvalitativa referenskorpora.
- Utvecklare utförde suddig duplicering pÄ dokumentnivÄ över datamÀngden i ett försök att bevara integriteten hos deras uthÄllna valideringsuppsÀttning som ett effektivt mÄtt pÄ överanpassning, och Àven för att förhindra redundans.
- Utvecklare lade ocksÄ till högkvalitativa referenskorpora till trÀningsdatan för att utöka datauppsÀttningen Common Crawl och för att ytterligare öka mÄngfalden av datauppsÀttningen.
Följande figur visar den slutliga andelen eller blandningen av datamÀngderna som anvÀnds för att trÀna GPT-3-modellen. Common Crawl-data bestod av över 45 TB klartext före filtrering som reducerades till 570 GB data efter filtrering, ungefÀr motsvarande över 400 miljarder byte-par kodade tokens. Det Àr vÀrt att notera att datamÀngder i utbildningen som ses som högre kvalitet samplas med mer frekvens istÀllet för att sampla datasetets proportion till deras storlek. Som ett resultat samplas datauppsÀttningar som Books2 och Common Crawl mindre Àn en gÄng under trÀningen, medan de andra datauppsÀttningarna samplas flera gÄnger. Det tillÄter modellen att acceptera en liten mÀngd överpassning i utbyte mot trÀning pÄ trÀningsdata med högre kvalitet.
Ett betydande problem med stora sprÄkmodeller som Àr förtrÀnade pÄ en stor mÀngd internetdata med kapacitet att memorera och lÀra sig en stor mÀngd innehÄll Àr den potentiella kontamineringen av nedströmsuppgifter genom att deras utvecklings- eller testset ses under pre- utbildningsprocessen. För att minska sÄdan potentiell kontaminering sökte utvecklarna efter eventuella överlappningar med test- och utvecklingsuppsÀttningarna för de riktmÀrken som studerades för GPT-3, och försökte ta bort dessa överlappningar.
Bilden ovan visar den totala berÀkningen som anvÀndes under trÀningen av GPT-3-modellen. Modellen anvÀnder skalningslagar för neurala sprÄkmodeller för att trÀna mycket större modeller pÄ fÀrre tokens Àn normalt. Som ett resultat tog bÄde GPT-3 och RobERTa-Large-modellen, som Àr 10 gÄnger mindre Àn GPT-3-modellen, nÀstan 50 petaflops/dag av berÀkning under förtrÀningsprocessen.
UtvÀrdering
För fÄ skottinlÀrning utvÀrderar modellen varje exempel som finns i utvÀrderingsdatauppsÀttningen genom att dra K-exempel slumpmÀssigt frÄn den uppgiftens trÀningsdatauppsÀttning som konditionering, och avgrÀnsar den med 1 eller 2 nyrader beroende pÄ uppgiften. För Storycloze och LAMBADA, drar modellen konditioneringsexempel frÄn utvecklingsuppsÀttningen och utvÀrderar den pÄ testsetet pÄ grund av att en övervakad trÀningsuppsÀttning inte Àr tillgÀnglig. För Winograd finns det bara en datauppsÀttning, sÄ konditioneringsproverna dras direkt frÄn den.
K kan vara vilket vÀrde som helst som strÀcker sig frÄn 0 till det maximala belopp som tillÄts av modellens kontextfönster som Àr next = 2048 för alla modeller, och det passar vanligtvis cirka 10 till 100 exempel. Större vÀrden pÄ K ger ofta bÀttre resultat, men inte alltid, vilket Àr anledningen till att nÀr modellen har en testuppsÀttning och en separat utvecklingsuppsÀttning tillgÀnglig, experimenterar modellen med nÄgra fÄ vÀrden pÄ K pÄ utvecklingsuppsÀttningen, och baserat pÄ resultaten , kör den det bÀsta vÀrdet pÄ testsetet.
Vidare, pÄ de uppgifter som krÀver att man vÀljer ett korrekt slutförande frÄn flera alternativ, tillhandahÄller utvecklarna K exempel pÄ korrigering plus kontextslutförande, och följer upp det genom att endast tillhandahÄlla ett exempel pÄ sammanhang, och uppgifterna jÀmförs sedan pÄ basis av LM-sannolikhet av varje slutförande. För uppgifter som krÀver binÀr klassificering ger modellerna ofta alternativ mer semantiskt, och med mer meningsfulla namn, och behandlar sedan uppgiften som flerval, och ramar ibland ocksÄ in uppgiften liknande det som görs av RSR-modellen & arkitekturen.
För de uppgifter som krÀver komplettering i fritt format anvÀnder modellen strÄlsökning med identiska parametrar som anvÀnds i RSR-ramverket, med en strÄle av lÀngd 4 och en straffavgift pÄ 0.6. Modellen poÀngsÀtts sedan med antingen F1 likhetspoÀng, exakt matchning eller BLEU, beroende pÄ standarden för datasetet.
Resultat
OvanstÄende figur visar trÀningskurvorna för de 8 modellerna som anvÀnds i GPT-3-modellarkitekturen, enligt beskrivningen i föregÄende avsnitt. I likhet med resultaten frÄn KMH-sprÄkmodellen följer prestandan för GPT-3-modellen en korrekt lag nÀr man anvÀnder trÀningsberÀkning pÄ ett effektivt sÀtt. Det finns en liten skillnad frÄn lagen endast nÀr trenden förlÀngs med ytterligare tvÄ storleksordningar. Det kan komma upp för mÀnniskor att förbÀttringarna i kors-entropiförlust kan vara ett resultat av modellering av falska detaljer i trÀningskorpusen. FörbÀttringarna i kors-entropiförlusten leder dock till konsekventa vinster i den totala prestandan över ett brett spektrum av en mÀngd olika NLP-uppgifter.
Innan de 8 olika modellerna utvÀrderas pÄ ett brett utbud av trÀningsdata, grupperas datamÀngderna i 8 olika kategorier som representerar liknande uppgifter. Dessa kategorier Àr
- UtvÀrdering av traditionella sprÄkmodelleringsuppgifter och uppgifter som liknar sprÄkmodellering som Cloze-uppgifter, eller uppgifter för att slutföra mening/stycke.
- UtvÀrdering av "sluten bok" frÄgesvarsuppgifter.
- UtvÀrdera modellens förmÄga att översÀtta mellan sprÄk (sÀrskilt one-shot och few-shot)
- UtvÀrdera modellens prestanda pÄ Winograd Schema-liknande uppgifter.
- UtvÀrdera pÄ datamÀngder som involverar sunt förnuft eller svar pÄ frÄgor.
- UtvÀrdera pÄ lÀsförstÄelseuppgifter.
- UtvÀrderar pÄ SuperGLUE benchmark suite.
- Utforskar NLI.
SprÄkmodellering, slutförande och Cloze-uppgifter
I det hÀr avsnittet utvÀrderas GPT-3-modellens prestanda pÄ de traditionella sprÄkmodelleringsuppgifterna sÄvÀl som uppgifter som krÀver förutsÀgelse av ett enstaka ord av intresse, eller att slutföra ett stycke eller en mening, eller att slutföra en del av en text. LÄt oss diskutera dem i kort detalj.
SprÄkmodellering
GPT-3-modellen berÀknar noll-shot förvirring pÄ PTB eller Penn Tree Bank dataset. Modellen utelÀmnar Wikipedia-relaterade uppgifter eftersom den redan Àr inkluderad i modellens trÀningsdata, och riktmÀrket pÄ en miljard ord utelÀmnas ocksÄ eftersom det orsakar en betydande mÀngd friktion av datamÀngden som finns i trÀningsdatan. Men PTB-datauppsÀttningen hanterar dessa problem eftersom den kan föregÄ det moderna internet. Den största modellen i GPT-3-modellarkitekturen har en ny SOTA pÄ PTB-datauppsÀttningen med en anmÀrkningsvÀrd marginal pÄ 15 poÀng, och uppnÄr en förvirring pÄ 20.50.
Lambada
LAMBADA-datauppsÀttningen anvÀnds för att testa modelleringen av modellen pÄ lÄngvÀga beroenden i stycken eller texter. Det innebÀr att modellen uppmanas att förutsÀga det sista ordet i en mening efter att ha lÀst stycket för sammanhanget. Dessutom ger den kontinuerliga skalningen av sprÄkmodellerna minskande avkastning pÄ riktmÀrket.
GPT-3-modellen uppnÄr 76 % noggrannhet pÄ LAMBADA och har en vinst pÄ över 8 % jÀmfört med tidigare bÀsta modeller. Dessutom demonstrerar LAMBADA-modellen flexibiliteten hos fÄ-shot-inlÀrning eftersom den ÄtgÀrdade problemet pÄ ett sÀtt som förekommer klassiskt med datasetet. Fullbordandet av en mening i LAMBADA Àr vanligtvis det sista ordet i meningen, men eftersom en sprÄkmodell inte kan veta det, tilldelar den en sannolikhet inte bara till det korrekta slutet, utan Àven till andra fortsÀttningar i stycket.
Dessutom, nĂ€r exemplen som matas till GPT-3-modellen modifieras pĂ„ ett visst sĂ€tt, ger modellen en noggrannhet pĂ„ över 86 %, en ökning med över 18 % jĂ€mfört med tidigare modeller. Dessutom indikerade resultaten ocksĂ„ att prestandan hos modellen i en fĂ„-shot-instĂ€llning ökar proportionellt med ökningen i modellstorlek. Ăven om denna strategi minskar den minsta modellen i GPT-3-arkitekturen med 20 %, ökar den noggrannheten hos den primĂ€ra GPT-3-modellen med 175 miljarder parametrar med 10 %.
Svara pÄ frÄgor med sluten bok
Closed Book Question Answering Àr ett försök att mÀta GPT-3-modellens förmÄga att svara pÄ frÄgor utifrÄn bred faktakunskap. Eftersom sÄdana frÄgor ofta har en stor mÀngd möjliga frÄgor, uppnÄs uppgiften normalt med hjÀlp av ett informationshÀmtningssystem som gör att modellen kan hitta relevant text i kombination med modellen som lÀr sig att generera ett svar pÄ ett svar givet den hÀmtade texten, och frÄgan.
OvanstÄende bild jÀmför resultatet för GPT-3-modellen jÀmfört med olika modeller och körs pÄ olika datamÀngder. PÄ TriviaQA-datauppsÀttningen uppnÄr modellen en noggrannhetspoÀng pÄ 64.3 % i nollskottsinstÀllningen, medan den uppnÄr en noggrannhetspoÀng pÄ 68 % och 71.2 % i engÄngs- respektive fÄtagningsinstÀllningar.
Det kan uppenbarligen ses att GPT-3-modellen i nollskottslÀge övertrÀffar den finjusterade T5-11B-modellen med över 14 %.
OvanstÄende figur visar att GPT-3-modellens prestanda vÀxer smidigt med en ökning av modellstorleken. Prestandan tyder pÄ att sprÄkmodellerna fortsÀtter att lÀra av datasetet nÀr deras kapacitet ökar.
Avslutande tankar
Det skulle vara sÀkert att sÀga att GPT-3 var en revolutionerande fas i LLM-branschen eftersom GPT-3 hjÀlpte till att tÀnja pÄ grÀnserna för vad en sprÄkmodell kunde göra. Det var den utveckling som gjorts och de hinder som övervunnits av GPT-3 som banade vÀg för den mest avancerade och exakta stora sprÄkmodellen hittills, GPT-4.