Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

GPT-3: FÄ skottinlÀrning för sprÄkmodell?

mm

Under de senaste Ă„ren har AI- och ML-industrin sett en hastig ökning av utvecklingen och tillĂ€mpningen av NLP-systemen eftersom forskare har kunnat implementera NLP-praxis pĂ„ mycket flexibla och uppgiftsagnostiska sĂ€tt för nedströmsöverföring av uppgifter. 

Till en början var det enskiktsrepresentationerna som anvĂ€nde ordvektorer och matades sedan till den uppgiftsspecifika arkitekturen. DĂ€refter var det RNN-arkitekturen som anvĂ€nde flerskiktsrepresentationer och kontextuellt tillstĂ„nd för att bilda bĂ€ttre representationer. Och nu senast har vi överföringssprĂ„ksmodellerna eller förutbildade Ă„terkommande modeller som helt har tagit bort behovet av uppgiftsspecifika arkitekturer genom att finjustera dessa nĂ€tverk. 

ÖverföringssprĂ„ksmodellerna har visat sig vara en stor vĂ€ndpunkt i NLP-branschen eftersom de har resulterat i enorma framsteg nĂ€r det gĂ€ller utmanande uppgifter som att svara pĂ„ frĂ„gor, lĂ€sförstĂ„else eller textblock, textinneslutning och mycket mer. 

Men trots sina fördelar har överföringssprĂ„kmodeller en stor begrĂ€nsning eftersom de krĂ€ver uppgiftsspecifik finjustering eller uppgiftsspecifik datauppsĂ€ttning för att uppnĂ„ önskad prestanda pĂ„ en uppgift. Dessutom krĂ€ver överföringssprĂ„kmodeller ocksĂ„ utvecklare att finjustera datamĂ€ngderna till hundratusentals exempel specifika för en viss uppgift. 

Det sĂ€ger sig sjĂ€lvt att ta bort kravet pĂ„ uppgiftsspecifik datauppsĂ€ttning och uppgiftsspecifik finjustering kommer att vara mycket önskvĂ€rt och fördelaktigt för NLP-branschen av mĂ„nga skĂ€l. 

Problem med befintliga förutbildade överföringssprÄkmodeller eller Äterkommande modeller

  • BegrĂ€nsning av praktisk och anvĂ€ndbarhet

Först och frĂ€mst begrĂ€nsar kravet pĂ„ en stor datamĂ€ngd med mĂ€rkta data för varje uppgift sprĂ„kmodellernas tillĂ€mplighet och praktiska funktion. SprĂ„kmodeller kan anvĂ€ndas i en mĂ€ngd olika uppgifter, frĂ„n att skapa en novell, till att korrigera grammatiska fel, till att generera exempel pĂ„ ett koncept. Ibland Ă€r det en utmanande uppgift att samla in en stor övervakad datauppsĂ€ttning med mĂ€rkt data, sĂ€rskilt nĂ€r processen behöver upprepas för varje enskild uppgift. 

  • Utnyttja falska korrelationer i trĂ€ningsdata

BegrĂ€nsningar och trĂ„nghet i trĂ€ningsfördelningen i kombination med modellens uttrycksfullhet kan resultera i en fundamental tillvĂ€xt i potential att utnyttja falska korrelationer i trĂ€ningsdata. Potentialen att utnyttja trĂ€ningsdata kan resultera i problem under finjusterings- och förtrĂ€ningsparadigmet eftersom överföringssprĂ„ksmodellerna Ă€r utformade pĂ„ ett sĂ€tt att absorbera en stor mĂ€ngd information under förtrĂ€ningen. 

Dessutom har arbetet med tidigare modeller visat att stora modeller inte leder till bĂ€ttre distribution varje gĂ„ng. Dessutom har det ocksĂ„ indikerats att generalisering som uppnĂ„s under ett sĂ„dant paradigm kan resultera i dĂ„liga prestationer frĂ€mst pĂ„ grund av att modellen Ă€r mycket specifik för trĂ€ningsdata och inte kan prestera bra i situationer utanför trĂ€ningsdatans omfattning. 

  • JĂ€mförelse med mĂ€nskligt lĂ€rande

Slutligen, jĂ€mfört med överföringssprĂ„kmodeller, behöver mĂ€nniskor inte en stor trĂ€ningsdatauppsĂ€ttning nĂ€r det gĂ€ller att lĂ€ra sig de flesta sprĂ„kuppgifter. Oftast Ă€r ett kort direktiv pĂ„ en persons naturliga sprĂ„k eller en liten demonstration av sprĂ„kuppgiften tillrĂ€cklig för att en mĂ€nniska ska förstĂ„ och utföra en sprĂ„kuppgift med en viss konkurrenskraft. 

MĂ€nniskans förmĂ„ga att anpassa sig har mĂ„nga praktiska fördelar eftersom den gör det möjligt för dem att antingen vĂ€xla mellan olika fĂ€rdigheter eller blanda dem för att bĂ€ttre prestera under en dialekt, nĂ„got som Ă€r bortom kapaciteten hos de nuvarande NLP-systemen. 

Ta itu med problemen med Meta Learning & GPT-3

En möjlig lösning pĂ„ ovanstĂ„ende utmaningar Ă€r anvĂ€ndningen av meta-inlĂ€rning, ett koncept i modern ML som gör det möjligt för en modell att utveckla en större och bredare uppsĂ€ttning fĂ€rdigheter och förmĂ„ga att kĂ€nna igen mönster under trĂ€ning, och sedan anvĂ€nder dessa inlĂ€rda förmĂ„gor under interferens för att anpassa sig snabbt, eller kĂ€nna igen den nödvĂ€ndiga uppgiften. 

Meta Learning implementeras i sprĂ„kmodellarkitektur via en teknik som kallas "inlĂ€rning i sammanhang” som anvĂ€nder textinmatning av en förtrĂ€nad sprĂ„kmodell som uppgiftsspecifikation. I processen förutsĂ€tter modellen en naturlig sprĂ„kinstruktion och kan till och med anvĂ€nda nĂ„gra demonstrationer, och modellen förvĂ€ntas sedan slutföra resten av uppgiften genom att förutsĂ€ga nĂ€sta steg. 

Det enda stora problemet med Meta Learning Ă€r att Ă€ven om det har visat positiv potential, Ă€r det fortfarande sĂ€mre Ă€n finjusteringsmetoden inom naturlig sprĂ„karkitektur, och den behöver förbĂ€ttras ytterligare för att bli en praktisk metod för att övervinna sprĂ„kuppgifter. 

Förutom meta-inlĂ€rning Ă€r en annan metod som vinner popularitet att öka kapaciteten hos transformatorsprĂ„kmodeller. Under de senaste Ă„ren har överföringsmodeller sett en avsevĂ€rd ökning av sin kapacitet med RNSS18 modell med 100 miljoner parametrar, den DCLT18 modell med 300 miljoner parametrar, den RWC19 modell med 1.5 miljarder parametrar, den SSP19 modell med 8 miljarder parametrar, den RSR19 modell med 11 miljarder parametrar, och TUR20 modell med 17 miljarder parametrar. 

Att öka modellens kapacitet eller öka parametrarna har historiskt resulterat i förbĂ€ttringar i textsyntesen, och det har funnits en indikation pĂ„ att loggförlust, som korrelerar med nedströmsuppgifter, ocksĂ„ följer en jĂ€mn trend att förbĂ€ttras med skalan. 

Det för oss till GPT-3-modellen som har över 175 miljarder parametrar, och nĂ€r den lanserades var det överföringssprĂ„kmodellen med högst kapacitet. LĂ„t oss nu prata om GPT-3-modellen. 

En introduktion till GPT-3-modellen

GPT-3 Ă€r en autoaggressiv sprĂ„kmodell med över 175 miljarder parametrar som slĂ€pptes av OpenAI 2020. GPT-3 klassas ocksĂ„ som en stor sprĂ„kmodell som precis som sin föregĂ„ngare GPT-2-modellen Ă€r en transformatormodell för djupinlĂ€rning endast avkodare som anvĂ€nder faltningsbaserad arkitektur för att generera textdata. 

GPT-3-modellen mÀter sina egna kontextinlÀrningsförmÄga, och GPT-3-modellen utvÀrderas pÄ över tvÄ dussin NLP-datauppsÀttningar och flera nya uppgifter. För varje enskild uppgift utvÀrderas GPT-3-modellen under tre förhÄllanden,

  • FĂ„ Shot Learning eller In-Context Learning: I fĂ„ skottinlĂ€rning tillĂ„ter GPT-3-modellen sĂ„ mĂ„nga distributioner som kan passa vĂ€l in i modellens kontextfönster. 
  • One Shot Learning: I one shot learning tillĂ„ter modellen endast en demonstration. 
  • Zero Shot Learning: I noll shot-inlĂ€rning finns det inga demonstrationer, och det finns bara en instruktion pĂ„ naturligt sprĂ„k som matas till modellen. 

I stort sett GPT-3 modell uppnĂ„r önskad prestanda i noll- och one-shot-instĂ€llningar, och i fĂ„-shot-instĂ€llningen övertrĂ€ffar den de senaste överföringsmodellerna för det mesta. Dessutom presterar GPT-3-modellen bra i engĂ„ngs- och nolltagningsinstĂ€llningar vid naturliga sprĂ„kuppgifter som Ă€r utformade för att testa resonemang i farten, eller krĂ€ver snabb uppmĂ€rksamhet som att anvĂ€nda nya ord efter en mening, eller avkoda ord eller utföra aritmetik operationer. Å andra sidan, nĂ€r GPT-3-modellen anvĂ€nds i en miljö med fĂ„ bilder, genererar den syntetiska nyhetsartiklar som liknar mĂ€nskligt skrivande nĂ€r den passeras genom mĂ€nskliga utvĂ€rderare. 

GPT-3 Modell: Approach

GPT-3-modellen anvĂ€nder en konventionell förtrĂ€ningsmetod som omfattar modell, data och trĂ€ning, och den liknar förtrĂ€ningsprocessen som följs av RWC-19-överföringssprĂ„kmodellen. GPT-3-modellen skalar upp modellstorleken, datasetstorleken, mĂ„ngfalden av datamĂ€ngden och ökar lĂ€ngden pĂ„ trĂ€ningsperioden. 

Modellen anvĂ€nder ocksĂ„ en inlĂ€rningsmetod i sammanhanget som Ă„terigen liknar RWC-19-modellens tillvĂ€gagĂ„ngssĂ€tt, men justerar lite genom att systematiskt utforska olika instĂ€llningar för inlĂ€rningsmönster inom ramen för datasetet. 

SĂ„ lĂ„t oss börja med att utforska dessa instĂ€llningar och utvĂ€rdera hur GTP-3-modellen presterar pĂ„ olika instĂ€llningar. 

Finjustering

Att finjustera modellen har varit den konventionella metoden för överföring sprĂ„kmodeller, och detta tillvĂ€gagĂ„ngssĂ€tt innebĂ€r uppdatering av vikterna för en förtrĂ€nad modell genom att trĂ€na modellen pĂ„ en övervakad datauppsĂ€ttning som Ă€r specifik för den önskade uppgiften, och hundratusentals mĂ€rkta exempel anvĂ€nds under processen. 

Finjusterande tillvĂ€gagĂ„ngssĂ€tt Ă€r fördelaktigt eftersom det ger stark prestanda över mĂ„nga riktmĂ€rken. Å andra sidan Ă€r den huvudsakliga begrĂ€nsningen med att anvĂ€nda finjusteringsmetoden att den krĂ€ver en ny och stor datamĂ€ngd för varje enskild uppgift, har potential att utnyttja falska funktioner i trĂ€ningsuppsĂ€ttningen, kan potentiellt resultera i orĂ€ttvis jĂ€mförelse med mĂ€nsklig prestation , och dĂ„lig generalisering för out-of-distribution. 

Den nuvarande omfattningen av GPT-3-modellen implementerar inte finjusteringsmetoden pĂ„ grund av dess uppgifts-agnostiska prestanda, Ă€ven om finjustering kan tillĂ€mpas pĂ„ GPT-3-modellen i framtiden. 

FĂ„ skott

Few Shot Ă€r en term som hĂ€nvisar till instĂ€llningen dĂ€r GPT-3-modellen ges nĂ„gra demonstrationer av uppgiften under interferens som konditionering, men modellens vikter uppdateras inte. I de fĂ„ inspelningsinstĂ€llningarna har datasetet vanligtvis ett exempel med ett sammanhang och en önskad komplettering (till exempel en fransk mening och dess engelska översĂ€ttning). InstĂ€llningen fĂ„ skott ger modellen K exempel pĂ„ sammanhang och komplettering, och den förser sedan modellen med ett sista sammanhang och förvĂ€ntar sig att modellen ska tillhandahĂ„lla kompletteringen. 

Den stora fördelen med att anvĂ€nda instĂ€llningen fĂ„ skott Ă€r att det avsevĂ€rt minskar behovet av uppgiftsspecifika data, och Ă€ven minskar möjligheten att lĂ€ra sig en smal fördelning frĂ„n en stor datamĂ€ngd som Ă€r smalt finjusterad. Å andra sidan Ă€r den stora nackdelen med att anvĂ€nda fĂ„ skott-inlĂ€rning att resultaten som levereras i fĂ„ skott-instĂ€llningen inte Ă€r upp till mĂ€rket och avsevĂ€rt dĂ„liga jĂ€mfört med andra toppmoderna modeller som Ă€r finjusterade. 

One Shot

I ett skott-instĂ€llningen Ă€r modellen endast försedd med en enda demonstration, och resten liknar instĂ€llningen för fĂ„ skott. Anledningen till att en shot-instĂ€llning Ă€r relevant i överföringssprĂ„kmodeller Ă€r att av alla tre instĂ€llningarna Ă€r en shot den som liknar det sĂ€tt pĂ„ vilket uppgifter kommuniceras till mĂ€nniskor bĂ€st. Det beror pĂ„ att det i de flesta av uppgifterna Ă€r vanligt att ge en demonstration av uppgiften, annars kan det vara svĂ„rt att förstĂ„ sammanhanget för uppgiften. 

Noll skott

I nollskottsinstĂ€llningen finns inga demonstrationer, och modellen ges en naturlig sprĂ„kinstruktion som beskriver uppgiften. Nollskottsmetoden Ă€r den som erbjuder maximal bekvĂ€mlighet, Ă€r robust och Ă€ven undviker falska korrelationer, men det Ă€r ocksĂ„ den mest utmanande av alla tre instĂ€llningarna. Det beror pĂ„ att det i vissa fall Ă€r svĂ„rt Ă€ven för oss mĂ€nniskor att ta reda pĂ„ sammanhanget för en uppgift utan att först se en demonstration. 

Oavsett, för vissa uppgifter Ă€r noll-shot-instĂ€llningen den som liknar hur mĂ€nniskor utför naturliga sprĂ„kuppgifter nĂ€rmast. 

OvanstĂ„ende figur jĂ€mför instĂ€llningen för fĂ„ skott, one shot och noll shot nĂ€r man utför en naturlig sprĂ„kuppgift att ta en engelsk mening och översĂ€tta den till franska. 

GPT-3: Modellarkitektur

GPT-3-modellen anvĂ€nder samma arkitektur som den som anvĂ€nds i GPT-2-modellen, och den inkluderar förnormalisering, modifierad initiering och reversibla tokeniseringstekniker som de anvĂ€ndes pĂ„ GPT-modellen med undantag för att anvĂ€nda en alternativ strategi för lokalt bandade glesa uppmĂ€rksamhetsmönster och alternerande tĂ€ta lager i transformatorlagren, liknande Sparse Transformer. 

För att studera beroendet av modellens prestanda pĂ„ modellstorleken har utvecklarna trĂ€nat 8 olika modellstorlekar som strĂ€cker sig över tre olika storleksordningar frĂ„n 125 miljoner till över 175 miljarder parametrar, den sista av dem kallas GPT-3-modellen . Tidigare arbete relaterat till LLM-modeller har indikerat att skalning av valideringsförlust med en tillrĂ€cklig mĂ€ngd trĂ€ningsdata bör vara en ungefĂ€rlig jĂ€mn kraftlag som en funktion av storlek. Utbildningsmodeller av varierande storlek tillĂ„ter utvecklare att testa hypotesen för bĂ„de nedströms sprĂ„kuppgifter och för valideringsförlust. 

OvanstĂ„ende figur jĂ€mför storleken och arkitekturen för de 8 olika modellerna som anvĂ€nds för utveckling av GPT-3. HĂ€r definierar n(params) det totala antalet trĂ€ningsbara mönster, n(lager) definierar det totala antalet lager i modellen, d(modell) definierar antalet enheter i varje lager av flaskhalsen och d(huvud) definierar mĂ„tten pĂ„ varje uppmĂ€rksamhetshuvud. Kontextfönstret för varje modell Ă€r detsamma med 2048 tokens. 

Dessutom, för att minimera överföringen av data mellan noderna, Ă€r modellen uppdelad över GPU:erna lĂ€ngs dimensionernas djup och bredd. De arkitektoniska parametrarna för varje modell har valts pĂ„ basis av berĂ€kningseffektivitet och lastbalansering för att maximera precisionen i layouten av modeller över GPU:er. 

TrÀningsdatauppsÀttningar

Vanligtvis anvĂ€nder de stora sprĂ„kmodellerna datamĂ€ngder som har utökats avsevĂ€rt med den senaste utvecklingen, och de kulminerar i Common Crawl-dataset som bestĂ„r av över en biljon olika ord. DatauppsĂ€ttningens storlek Ă€r tillrĂ€cklig för att trĂ€na GPT-3-modellen utan att uppdatera pĂ„ samma sekvens flera gĂ„nger. Studier och prestandaanalyser indikerar dock att lĂ€tt filtrerade versioner eller ofiltrerade versioner av Common Crawl-datauppsĂ€ttningen har lĂ„g kvalitet jĂ€mfört med mer kurerad datauppsĂ€ttning. 

För att ta itu med frĂ„gan om den genomsnittliga kvaliteten pĂ„ datamĂ€ngden tog utvecklarna tre steg för att öka kvaliteten pĂ„ datasetet. 

  1. Utvecklare laddade ner och filtrerade en version av Common Crawl-datauppsĂ€ttningen baserad pĂ„ ett intervall som liknar högkvalitativa referenskorpora. 
  2. Utvecklare utförde suddig duplicering pĂ„ dokumentnivĂ„ över datamĂ€ngden i ett försök att bevara integriteten hos deras uthĂ„llna valideringsuppsĂ€ttning som ett effektivt mĂ„tt pĂ„ överanpassning, och Ă€ven för att förhindra redundans. 
  3. Utvecklare lade ocksĂ„ till högkvalitativa referenskorpora till trĂ€ningsdatan för att utöka datauppsĂ€ttningen Common Crawl och för att ytterligare öka mĂ„ngfalden av datauppsĂ€ttningen. 

Följande figur visar den slutliga andelen eller blandningen av datamĂ€ngderna som anvĂ€nds för att trĂ€na GPT-3-modellen. Common Crawl-data bestod av över 45 TB klartext före filtrering som reducerades till 570 GB data efter filtrering, ungefĂ€r motsvarande över 400 miljarder byte-par kodade tokens. Det Ă€r vĂ€rt att notera att datamĂ€ngder i utbildningen som ses som högre kvalitet samplas med mer frekvens istĂ€llet för att sampla datasetets proportion till deras storlek. Som ett resultat samplas datauppsĂ€ttningar som Books2 och Common Crawl mindre Ă€n en gĂ„ng under trĂ€ningen, medan de andra datauppsĂ€ttningarna samplas flera gĂ„nger. Det tillĂ„ter modellen att acceptera en liten mĂ€ngd överpassning i utbyte mot trĂ€ning pĂ„ trĂ€ningsdata med högre kvalitet. 

Ett betydande problem med stora sprĂ„kmodeller som Ă€r förtrĂ€nade pĂ„ en stor mĂ€ngd internetdata med kapacitet att memorera och lĂ€ra sig en stor mĂ€ngd innehĂ„ll Ă€r den potentiella kontamineringen av nedströmsuppgifter genom att deras utvecklings- eller testset ses under pre- utbildningsprocessen. För att minska sĂ„dan potentiell kontaminering sökte utvecklarna efter eventuella överlappningar med test- och utvecklingsuppsĂ€ttningarna för de riktmĂ€rken som studerades för GPT-3, och försökte ta bort dessa överlappningar. 

Bilden ovan visar den totala berĂ€kningen som anvĂ€ndes under trĂ€ningen av GPT-3-modellen. Modellen anvĂ€nder skalningslagar för neurala sprĂ„kmodeller för att trĂ€na mycket större modeller pĂ„ fĂ€rre tokens Ă€n normalt. Som ett resultat tog bĂ„de GPT-3 och RobERTa-Large-modellen, som Ă€r 10 gĂ„nger mindre Ă€n GPT-3-modellen, nĂ€stan 50 petaflops/dag av berĂ€kning under förtrĂ€ningsprocessen. 

UtvÀrdering

För fĂ„ skottinlĂ€rning utvĂ€rderar modellen varje exempel som finns i utvĂ€rderingsdatauppsĂ€ttningen genom att dra K-exempel slumpmĂ€ssigt frĂ„n den uppgiftens trĂ€ningsdatauppsĂ€ttning som konditionering, och avgrĂ€nsar den med 1 eller 2 nyrader beroende pĂ„ uppgiften. För Storycloze och LAMBADA, drar modellen konditioneringsexempel frĂ„n utvecklingsuppsĂ€ttningen och utvĂ€rderar den pĂ„ testsetet pĂ„ grund av att en övervakad trĂ€ningsuppsĂ€ttning inte Ă€r tillgĂ€nglig. För Winograd finns det bara en datauppsĂ€ttning, sĂ„ konditioneringsproverna dras direkt frĂ„n den. 

K kan vara vilket vĂ€rde som helst som strĂ€cker sig frĂ„n 0 till det maximala belopp som tillĂ„ts av modellens kontextfönster som Ă€r next = 2048 för alla modeller, och det passar vanligtvis cirka 10 till 100 exempel. Större vĂ€rden pĂ„ K ger ofta bĂ€ttre resultat, men inte alltid, vilket Ă€r anledningen till att nĂ€r modellen har en testuppsĂ€ttning och en separat utvecklingsuppsĂ€ttning tillgĂ€nglig, experimenterar modellen med nĂ„gra fĂ„ vĂ€rden pĂ„ K pĂ„ utvecklingsuppsĂ€ttningen, och baserat pĂ„ resultaten , kör den det bĂ€sta vĂ€rdet pĂ„ testsetet. 

Vidare, pĂ„ de uppgifter som krĂ€ver att man vĂ€ljer ett korrekt slutförande frĂ„n flera alternativ, tillhandahĂ„ller utvecklarna K exempel pĂ„ korrigering plus kontextslutförande, och följer upp det genom att endast tillhandahĂ„lla ett exempel pĂ„ sammanhang, och uppgifterna jĂ€mförs sedan pĂ„ basis av LM-sannolikhet av varje slutförande. För uppgifter som krĂ€ver binĂ€r klassificering ger modellerna ofta alternativ mer semantiskt, och med mer meningsfulla namn, och behandlar sedan uppgiften som flerval, och ramar ibland ocksĂ„ in uppgiften liknande det som görs av RSR-modellen & arkitekturen. 

För de uppgifter som krĂ€ver komplettering i fritt format anvĂ€nder modellen strĂ„lsökning med identiska parametrar som anvĂ€nds i RSR-ramverket, med en strĂ„le av lĂ€ngd 4 och en straffavgift pĂ„ 0.6. Modellen poĂ€ngsĂ€tts sedan med antingen F1 likhetspoĂ€ng, exakt matchning eller BLEU, beroende pĂ„ standarden för datasetet. 

Resultat

OvanstĂ„ende figur visar trĂ€ningskurvorna för de 8 modellerna som anvĂ€nds i GPT-3-modellarkitekturen, enligt beskrivningen i föregĂ„ende avsnitt. I likhet med resultaten frĂ„n KMH-sprĂ„kmodellen följer prestandan för GPT-3-modellen en korrekt lag nĂ€r man anvĂ€nder trĂ€ningsberĂ€kning pĂ„ ett effektivt sĂ€tt. Det finns en liten skillnad frĂ„n lagen endast nĂ€r trenden förlĂ€ngs med ytterligare tvĂ„ storleksordningar. Det kan komma upp för mĂ€nniskor att förbĂ€ttringarna i kors-entropiförlust kan vara ett resultat av modellering av falska detaljer i trĂ€ningskorpusen. FörbĂ€ttringarna i kors-entropiförlusten leder dock till konsekventa vinster i den totala prestandan över ett brett spektrum av en mĂ€ngd olika NLP-uppgifter. 

Innan de 8 olika modellerna utvÀrderas pÄ ett brett utbud av trÀningsdata, grupperas datamÀngderna i 8 olika kategorier som representerar liknande uppgifter. Dessa kategorier Àr

  1. UtvĂ€rdering av traditionella sprĂ„kmodelleringsuppgifter och uppgifter som liknar sprĂ„kmodellering som Cloze-uppgifter, eller uppgifter för att slutföra mening/stycke. 
  2. UtvĂ€rdering av "sluten bok" frĂ„gesvarsuppgifter. 
  3. UtvÀrdera modellens förmÄga att översÀtta mellan sprÄk (sÀrskilt one-shot och few-shot)
  4. UtvĂ€rdera modellens prestanda pĂ„ Winograd Schema-liknande uppgifter. 
  5. UtvĂ€rdera pĂ„ datamĂ€ngder som involverar sunt förnuft eller svar pĂ„ frĂ„gor. 
  6. UtvĂ€rdera pĂ„ lĂ€sförstĂ„elseuppgifter. 
  7. UtvĂ€rderar pĂ„ SuperGLUE benchmark suite. 
  8. Utforskar NLI. 

SprÄkmodellering, slutförande och Cloze-uppgifter

I det hĂ€r avsnittet utvĂ€rderas GPT-3-modellens prestanda pĂ„ de traditionella sprĂ„kmodelleringsuppgifterna sĂ„vĂ€l som uppgifter som krĂ€ver förutsĂ€gelse av ett enstaka ord av intresse, eller att slutföra ett stycke eller en mening, eller att slutföra en del av en text. LĂ„t oss diskutera dem i kort detalj. 

SprÄkmodellering

GPT-3-modellen berĂ€knar noll-shot förvirring pĂ„ PTB eller Penn Tree Bank dataset. Modellen utelĂ€mnar Wikipedia-relaterade uppgifter eftersom den redan Ă€r inkluderad i modellens trĂ€ningsdata, och riktmĂ€rket pĂ„ en miljard ord utelĂ€mnas ocksĂ„ eftersom det orsakar en betydande mĂ€ngd friktion av datamĂ€ngden som finns i trĂ€ningsdatan. Men PTB-datauppsĂ€ttningen hanterar dessa problem eftersom den kan föregĂ„ det moderna internet. Den största modellen i GPT-3-modellarkitekturen har en ny SOTA pĂ„ PTB-datauppsĂ€ttningen med en anmĂ€rkningsvĂ€rd marginal pĂ„ 15 poĂ€ng, och uppnĂ„r en förvirring pĂ„ 20.50. 

Lambada

LAMBADA-datauppsĂ€ttningen anvĂ€nds för att testa modelleringen av modellen pĂ„ lĂ„ngvĂ€ga beroenden i stycken eller texter. Det innebĂ€r att modellen uppmanas att förutsĂ€ga det sista ordet i en mening efter att ha lĂ€st stycket för sammanhanget. Dessutom ger den kontinuerliga skalningen av sprĂ„kmodellerna minskande avkastning pĂ„ riktmĂ€rket. 

GPT-3-modellen uppnĂ„r 76 % noggrannhet pĂ„ LAMBADA och har en vinst pĂ„ över 8 % jĂ€mfört med tidigare bĂ€sta modeller. Dessutom demonstrerar LAMBADA-modellen flexibiliteten hos fĂ„-shot-inlĂ€rning eftersom den Ă„tgĂ€rdade problemet pĂ„ ett sĂ€tt som förekommer klassiskt med datasetet. Fullbordandet av en mening i LAMBADA Ă€r vanligtvis det sista ordet i meningen, men eftersom en sprĂ„kmodell inte kan veta det, tilldelar den en sannolikhet inte bara till det korrekta slutet, utan Ă€ven till andra fortsĂ€ttningar i stycket. 

Dessutom, nĂ€r exemplen som matas till GPT-3-modellen modifieras pĂ„ ett visst sĂ€tt, ger modellen en noggrannhet pĂ„ över 86 %, en ökning med över 18 % jĂ€mfört med tidigare modeller. Dessutom indikerade resultaten ocksĂ„ att prestandan hos modellen i en fĂ„-shot-instĂ€llning ökar proportionellt med ökningen i modellstorlek. Även om denna strategi minskar den minsta modellen i GPT-3-arkitekturen med 20 %, ökar den noggrannheten hos den primĂ€ra GPT-3-modellen med 175 miljarder parametrar med 10 %. 

Svara pÄ frÄgor med sluten bok

Closed Book Question Answering Ă€r ett försök att mĂ€ta GPT-3-modellens förmĂ„ga att svara pĂ„ frĂ„gor utifrĂ„n bred faktakunskap. Eftersom sĂ„dana frĂ„gor ofta har en stor mĂ€ngd möjliga frĂ„gor, uppnĂ„s uppgiften normalt med hjĂ€lp av ett informationshĂ€mtningssystem som gör att modellen kan hitta relevant text i kombination med modellen som lĂ€r sig att generera ett svar pĂ„ ett svar givet den hĂ€mtade texten, och frĂ„gan. 

OvanstĂ„ende bild jĂ€mför resultatet för GPT-3-modellen jĂ€mfört med olika modeller och körs pĂ„ olika datamĂ€ngder. PĂ„ TriviaQA-datauppsĂ€ttningen uppnĂ„r modellen en noggrannhetspoĂ€ng pĂ„ 64.3 % i nollskottsinstĂ€llningen, medan den uppnĂ„r en noggrannhetspoĂ€ng pĂ„ 68 % och 71.2 % i engĂ„ngs- respektive fĂ„tagningsinstĂ€llningar. 

Det kan uppenbarligen ses att GPT-3-modellen i nollskottslĂ€ge övertrĂ€ffar den finjusterade T5-11B-modellen med över 14 %. 

OvanstĂ„ende figur visar att GPT-3-modellens prestanda vĂ€xer smidigt med en ökning av modellstorleken. Prestandan tyder pĂ„ att sprĂ„kmodellerna fortsĂ€tter att lĂ€ra av datasetet nĂ€r deras kapacitet ökar. 

Avslutande tankar

Det skulle vara sĂ€kert att sĂ€ga att GPT-3 var en revolutionerande fas i LLM-branschen eftersom GPT-3 hjĂ€lpte till att tĂ€nja pĂ„ grĂ€nserna för vad en sprĂ„kmodell kunde göra. Det var den utveckling som gjorts och de hinder som övervunnits av GPT-3 som banade vĂ€g för den mest avancerade och exakta stora sprĂ„kmodellen hittills, GPT-4. 

"En ingenjör till yrket, en författare utantill". Kunal Àr en teknisk skribent med en djup kÀrlek och förstÄelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa omrÄden genom sin engagerande och informativa dokumentation.