Verbind je met ons

Artificial Intelligence

GPT-3: weinig leren voor taalmodel?

mm

De afgelopen jaren is de AI- en ML-industrie getuige geweest van een snelle stijging in de ontwikkeling en toepassing van NLP-systemen, omdat onderzoekers NLP-praktijken op zeer flexibele en taak-agnostische manieren hebben kunnen implementeren voor het stroomafwaarts overdragen van taken. 

Aanvankelijk waren het de enkellaagse representaties die woordvectoren gebruikten en vervolgens werden ingevoerd in de taakspecifieke architectuur. Vervolgens was het de RNN-architectuur die meerlaagse representaties en contextuele toestanden gebruikte om betere representaties te vormen. En meest recentelijk hebben we de overdrachtstaalmodellen of vooraf getrainde terugkerende modellen die de behoefte aan taakspecifieke architecturen volledig hebben weggenomen door deze netwerken te verfijnen. 

De overdrachtstaalmodellen zijn een belangrijk keerpunt gebleken in de NLP-industrie, omdat ze hebben geresulteerd in enorme vooruitgang bij uitdagende taken zoals het beantwoorden van vragen, begrijpend lezen of tekstblokken, tekstuele betrokkenheid en nog veel meer. 

Ondanks hun voordelen hebben transfertaalmodellen echter een grote beperking, aangezien ze taakspecifieke verfijning of taakspecifieke dataset vereisen om de gewenste prestaties voor een taak te bereiken. Bovendien vereisen overdrachtstaalmodellen ook dat ontwikkelaars de datasets afstemmen op honderdduizenden voorbeelden die specifiek zijn voor een bepaalde taak. 

Het spreekt voor zich dat het schrappen van de vereiste voor taakspecifieke datasets en taakspecifieke verfijning zeer wenselijk en gunstig zal zijn voor de NLP-industrie om tal van redenen. 

Problemen met bestaande, vooraf getrainde overdrachtstaalmodellen of terugkerende modellen

  • Beperking van de bruikbaarheid en toepasbaarheid

Eerst en vooral beperkt de vereiste van een grote dataset met gelabelde gegevens voor elke taak de toepasbaarheid en bruikbaarheid van de taalmodellen. Taalmodellen vinden hun toepassing in een breed scala aan taken, variërend van het genereren van een kort verhaal tot het corrigeren van grammaticale fouten en het genereren van voorbeelden van een concept. Soms is het een uitdagende taak om een ​​grote bewaakte dataset met gelabelde gegevens te verzamelen, vooral wanneer het proces voor elke afzonderlijke taak moet worden herhaald. 

  • Het benutten van valse correlaties in trainingsgegevens

Beperkingen en beperktheid van de trainingsverdeling in combinatie met de expressiviteit van het model kunnen resulteren in een fundamentele groei van het potentieel om valse correlaties in trainingsgegevens te exploiteren. Het potentieel om de trainingsgegevens te exploiteren kan tot problemen leiden tijdens het verfijning- en pre-trainingsparadigma, omdat de overdrachtstaalmodellen zo zijn ontworpen dat ze een grote hoeveelheid informatie tijdens de pre-training kunnen absorberen. 

Bovendien heeft het werk aan eerdere modellen aangetoond dat grote modellen niet elke keer resulteren in een betere distributie. Bovendien is ook aangegeven dat generalisatie die onder een dergelijk paradigma wordt bereikt tot slechte prestaties kan leiden, voornamelijk omdat het model zeer specifiek is voor de trainingsgegevens en niet goed kan presteren in situaties die buiten het bereik van de trainingsgegevens vallen. 

  • Vergelijking met menselijk leren

Ten slotte hebben mensen, vergeleken met overdrachtstaalmodellen, geen grote trainingsdataset nodig als het gaat om het leren van de meeste taaltaken. Meestal is een korte instructie in de natuurlijke taal van een persoon of een kleine demonstratie van de taaltaak voldoende voor een mens om een ​​taaltaak met een bepaald niveau van concurrentievermogen te begrijpen en uit te voeren. 

Het aanpassingsvermogen van de mens heeft talloze praktische voordelen, omdat het hen in staat stelt om tussen verschillende vaardigheden te wisselen of deze te combineren om beter te presteren tijdens een dialect, iets dat de mogelijkheden van de huidige NLP-systemen te boven gaat. 

De problemen aanpakken met Meta Learning en GPT-3

Een mogelijke oplossing voor de bovenstaande uitdagingen is het gebruik van meta-leren, een concept in moderne ML waarmee een model een grotere en bredere reeks vaardigheden en het vermogen kan ontwikkelen om patronen te herkennen tijdens het trainen, en deze aangeleerde vaardigheden vervolgens tijdens interferentie gebruikt om zich aan te passen snel, of herken de vereiste taak. 

Meta Learning wordt geïmplementeerd in taalmodelarchitectuur via een techniek genaamd “contextueel leren”dat tekstinvoer van een vooraf getraind taalmodel gebruikt als taakspecificatie. Daarbij baseert het model zich op natuurlijke-taalinstructie en kan het zelfs een paar demonstraties gebruiken. Vervolgens wordt van het model verwacht dat het de rest van de taak voltooit door de volgende stappen te voorspellen. 

Het enige grote probleem met Meta Learning is dat het, hoewel het een positief potentieel heeft laten zien, nog steeds inferieur is aan de verfijningsbenadering in de architectuur van natuurlijke taal, en dat het verdere verbetering nodig heeft om een ​​praktische methode te worden voor het overwinnen van taaltaken. 

Naast meta-leren is een andere methode die aan populariteit wint het vergroten van de capaciteit van transformerende taalmodellen. De afgelopen jaren zijn de overdrachtsmodellen getuige geweest van een aanzienlijke toename van hun capaciteit met behulp van de RNSS18 model met 100 miljoen parameters, de DCLT18 model met 300 miljoen parameters, de RWC19 model met 1.5 miljard parameters, de SSP19 model met 8 miljard parameters, de RSR19 model met 11 miljard parameters, en de TUR20 model met 17 miljard parameters. 

Het vergroten van de capaciteit van het model of het vergroten van de parameters heeft historisch gezien geresulteerd in verbeteringen in de tekstsynthese, en er zijn aanwijzingen dat logverlies, dat correleert met downstream-taken, ook een vloeiende trend volgt van verbetering met de schaal. 

Dat brengt ons bij het GPT-3-model dat meer dan 175 miljard parameters heeft, en toen het werd gelanceerd, was dit het overdrachtstaalmodel met de hoogste capaciteit. Laten we het nu hebben over het GPT-3-model. 

Een inleiding tot het GPT-3-model

De GPT-3 is een auto-agressief taalmodel met meer dan 175 miljard parameters dat in 2020 door OpenAI werd vrijgegeven. GPT-3 is ook geclassificeerd als een groot taalmodel dat het GPT-2-model, net als zijn voorganger, een deep learning-transformatormodel is dat alleen voor een decoder beschikbaar is en dat op convolutie gebaseerde architectuur gebruikt om tekstuele gegevens te genereren. 

Het GPT-3-model meet zijn eigen context-leervermogen, en het GPT-3-model wordt geëvalueerd op basis van ruim twintig NLP-datasets en meerdere nieuwe taken. Voor elke individuele taak wordt het GPT-3-model geëvalueerd onder drie voorwaarden:

  • Weinig schotleren of in-context leren: Met een paar slagen leren maakt het GPT-3-model zoveel mogelijk distributies mogelijk die goed in het contextvenster van het model passen. 
  • Leren in één keer: Bij one shot learning staat het model slechts één demonstratie toe. 
  • Zero Shot-leren: Bij zero shot learning zijn er geen demonstraties en wordt er alleen een instructie in natuurlijke taal aan het model doorgegeven. 

In grote lijnen, de GPT-3-model behaalt de gewenste prestaties in zero-shot- en one-shot-instellingen, en in de weinig-shot-instelling presteert het meestal beter dan de ultramoderne overdrachtsmodellen. Bovendien presteert het GPT-3-model goed in one-shot- en zero-shot-instellingen bij taken in natuurlijke taal die zijn ontworpen om de redenering direct te testen, of vereist het snelle aandacht, zoals het gebruik van nieuwe woorden na een zin, of het ontcijferen van woorden, of het uitvoeren van rekenkundige handelingen. activiteiten. Aan de andere kant genereert het GPT-3-model, wanneer het in een paar shots-setting wordt gebruikt, synthetische nieuwsartikelen die lijken op menselijk schrijven wanneer ze door menselijke beoordelaars worden doorgegeven. 

GPT-3-model: aanpak

Het GPT-3-model maakt gebruik van een conventionele pre-trainingsaanpak die model, data en training omvat, en lijkt op het pre-trainingsproces dat wordt gevolgd door het RWC-19-overdrachtstaalmodel. Het GPT-3-model schaalt de modelgrootte, de datasetgrootte en de diversiteit van de dataset op en verlengt de lengte van de trainingsperiode. 

Het model maakt ook gebruik van een in-context leerbenadering die opnieuw lijkt op de aanpak van het RWC-19-model, maar de zaken een beetje aanpast door systematisch verschillende instellingen voor leerpatronen te onderzoeken binnen de context van de dataset. 

Laten we dus beginnen met het verkennen van deze instellingen en evalueren hoe het GTP-3-model presteert op verschillende instellingen. 

Scherpstellen

Het verfijnen van het model is de conventionele aanpak bij overdracht geweest taalmodellen, en deze aanpak omvat het bijwerken van de gewichten van een vooraf getraind model door het model te trainen op een bewaakte dataset die specifiek is voor de gewenste taak, en tijdens het proces worden honderdduizenden gelabelde voorbeelden gebruikt. 

De ‘fine-tuning’-aanpak is nuttig omdat deze sterke prestaties oplevert in tal van benchmarks. Aan de andere kant is de belangrijkste beperking van het gebruik van de fine-tuning-aanpak dat deze een nieuwe en grote dataset vereist voor elke individuele taak, het potentieel heeft om valse kenmerken van de trainingsdataset te exploiteren en mogelijk kan resulteren in een oneerlijke vergelijking met menselijke prestaties. , en slechte generalisatie voor out-of-distributie. 

De huidige reikwijdte van het GPT-3-model implementeert de fine-tuning-aanpak niet vanwege de taak-agnostische prestaties, hoewel fine-tuning in de toekomst op het GPT-3-model kan worden toegepast. 

Weinig schot

Few Shot is een term die verwijst naar de setting waarin het GPT-3-model enkele demonstraties van de taak krijgt tijdens interferentie als conditionering, maar de gewichten van het model worden niet bijgewerkt. In de weinige opname-instellingen bevat de dataset doorgaans een voorbeeld met een context en een gewenste voltooiing (bijvoorbeeld een Franse zin en de Engelse vertaling ervan). De enkele opname-instelling geeft het model K voorbeelden van context en voltooiing, en het voorziet het model vervolgens van een laatste context, en verwacht dat het model de voltooiing zal bieden. 

Het grote voordeel van de instelling voor weinig opnamen is dat het de behoefte aan taakspecifieke gegevens aanzienlijk vermindert en ook de kans verkleint om een ​​smalle verdeling te leren uit een grote dataset die nauwkeurig is afgesteld. Aan de andere kant is het grote nadeel van het gebruik van leren met weinig opnamen dat de resultaten die met de instelling voor weinig opnamen worden geleverd, niet aan de verwachtingen voldoen en aanzienlijk minder zijn dan die van andere geavanceerde modellen die wel nauwkeurig zijn afgesteld. 

One Shot

In de one-shot-setting krijgt het model slechts één demonstratie, en de rest is vergelijkbaar met de few-shot-setting. De reden waarom de one-shot-setting relevant is in transfertaalmodellen, is dat van alle drie de settings one-shot degene is die het beste overeenkomt met de manier waarop taken aan mensen worden gecommuniceerd. Dit komt doordat het in de meeste taken gebruikelijk is om één demonstratie van de taak te geven, anders kan het moeilijk zijn om de context van de taak te begrijpen. 

Nul schot

In de zero shot-setting zijn er geen demonstraties en krijgt het model een instructie in natuurlijke taal die de taak beschrijft. De zero shot-methode biedt maximaal gemak, is robuust en vermijdt ook valse correlaties, maar is ook de meest uitdagende van alle drie de instellingen. De reden hiervoor is dat het in sommige gevallen zelfs voor ons mensen moeilijk is om de context van een taak te achterhalen zonder eerst een demonstratie te hebben gezien. 

Hoe dan ook, voor sommige taken is de zero-shot-instelling degene die het dichtst lijkt op de manier waarop mensen natuurlijke taaltaken uitvoeren. 

De bovenstaande afbeelding vergelijkt de instelling voor enkele shots, de one shot en de zero shot-instelling bij het uitvoeren van een taak in natuurlijke taal, namelijk het nemen van een Engelse zin en deze in het Frans vertalen. 

GPT-3: Modelarchitectuur

Het GPT-3-model gebruikt dezelfde architectuur als die gebruikt in het GPT-2-model, en omvat pre-normalisatie, gewijzigde initialisatie en omkeerbare tokenisatietechnieken zoals ze werden gebruikt in het GPT-model, met uitzondering van het gebruik van een alternatief strategie voor lokaal gestreepte, schaarse aandachtspatronen en afwisselende dichte lagen in de transformatorlagen, vergelijkbaar met Sparse Transformer. 

Om de afhankelijkheid van de prestaties van het model van de modelgrootte te bestuderen, hebben de ontwikkelaars 8 verschillende modelgroottes getraind die variëren over drie verschillende ordes van grootte, van 125 miljoen tot meer dan 175 miljard parameters, waarvan de laatste het GPT-3-model wordt genoemd. . Eerder werk met betrekking tot LLM-modellen heeft aangegeven dat het schalen van validatieverlies met een voldoende hoeveelheid trainingsgegevens een benaderende gladde machtswet zou moeten zijn als een functie van de grootte. Met trainingsmodellen van verschillende groottes kunnen ontwikkelaars de hypothese testen voor zowel stroomafwaartse taaltaken als voor validatieverlies. 

De bovenstaande figuur vergelijkt de grootte en architectuur van de 8 verschillende modellen die worden gebruikt voor de ontwikkeling van GPT-3. Hier definieert n(params) het totale aantal trainbare patronen, n(layers) definieert het totale aantal lagen in het model, d(model) definieert het aantal eenheden in elke laag van het knelpunt, en d(head) definieert de afmetingen van elk aandachtshoofd. Het contextvenster voor elk model is hetzelfde met 2048 tokens. 

Om de gegevensoverdracht tussen de knooppunten te minimaliseren, wordt het model bovendien verdeeld over de GPU's langs de diepte en de breedte van de dimensies. De architecturale parameters voor elk model zijn gekozen op basis van rekenefficiëntie en taakverdeling om de precisie in de lay-out van modellen over GPU's te maximaliseren. 

Datasets trainen

Doorgaans gebruiken de grote taalmodellen datasets die door de recente ontwikkelingen aanzienlijk zijn uitgebreid, en culmineren ze in de Common Crawl-dataset die uit meer dan een biljoen verschillende woorden bestaat. De omvang van de dataset is voldoende om het GPT-3-model te trainen zonder meerdere keren dezelfde reeks bij te werken. Uit onderzoeken en prestatieanalyses blijkt echter dat licht gefilterde versies of ongefilterde versies van de Common Crawl-dataset van lage kwaliteit zijn in vergelijking met een meer samengestelde dataset. 

Om het probleem van de gemiddelde kwaliteit van de dataset aan te pakken, hebben ontwikkelaars drie stappen ondernomen om de kwaliteit van de dataset te verbeteren. 

  1. Ontwikkelaars hebben een versie van de Common Crawl-dataset gedownload en gefilterd op basis van een bereik dat vergelijkbaar is met referentiecorpora van hoge kwaliteit. 
  2. Ontwikkelaars voerden vage duplicatie uit op documentniveau in de hele dataset in een poging de integriteit van hun vastgehouden validatieset te behouden als een effectieve meting van overfitting, en ook om redundantie te voorkomen. 
  3. Ontwikkelaars hebben ook referentiecorpora van hoge kwaliteit aan de trainingsgegevens toegevoegd om de Common Crawl-dataset uit te breiden en de diversiteit van de dataset verder te vergroten. 

De volgende afbeelding toont de uiteindelijke verhouding of samenstelling van de datasets die gebruikt zijn voor het trainen van het GPT-3-model. De Common Crawl-data bestonden vóór filtering uit meer dan 45 TB aan platte tekst, wat na filtering werd teruggebracht tot 570 GB aan data. Dit komt ruwweg overeen met meer dan 400 miljard byteparen gecodeerde tokens. Het is belangrijk om te vermelden dat datasets in de training die als kwalitatief hoogwaardig worden beschouwd, vaker worden bemonsterd in plaats van de datasetproportioneel ten opzichte van hun grootte. Hierdoor worden datasets zoals Books2 en Common Crawl minder dan één keer bemonsterd tijdens de training, terwijl de andere datasets meerdere keren worden bemonsterd. Dit stelt het model in staat om een ​​kleine hoeveelheid overfitting te accepteren in ruil voor training op trainingsdata van hogere kwaliteit. 

Een belangrijke zorg bij grote taalmodellen die vooraf zijn getraind op een grote hoeveelheid internetgegevens met het vermogen om een ​​grote hoeveelheid inhoud te onthouden en te leren, is de potentiële besmetting van stroomafwaartse taken doordat hun ontwikkelings- of testsets worden gezien tijdens de voorstudie. training proces. Om dergelijke potentiële besmettingen te verminderen, hebben de ontwikkelaars gezocht naar eventuele overlappingen met de test- en ontwikkelingssets van de benchmarks die voor GPT-3 zijn bestudeerd, en geprobeerd deze overlappingen weg te nemen. 

De bovenstaande afbeelding toont de totale rekenkracht die is gebruikt tijdens de training van het GPT-3-model. Het model maakt gebruik van schaalwetten voor neurale taalmodellen om veel grotere modellen te trainen met minder tokens dan normaal. Als gevolg hiervan kostte zowel het GPT-3- als het RoBERTa-Large-model, dat 10x kleiner is dan het GPT-3-model, tijdens het pre-trainingsproces bijna 50 petaflops/dag aan rekenkracht. 

Evaluatie

Voor het weinige leren evalueert het model elk voorbeeld dat aanwezig is in de evaluatiegegevensset door K voorbeelden willekeurig uit de trainingsgegevensset van die taak te trekken als conditionering, en scheidt het af met 1 of 2 nieuwe regels, afhankelijk van de taak. Voor Storycloze en LAMBADA haalt het model conditioneringsvoorbeelden uit de ontwikkelingsset en evalueert deze op de testset omdat er geen begeleide trainingsset beschikbaar is. Voor Winograd bestaat er slechts één dataset, en daarom worden de conditioneringsmonsters er rechtstreeks uit getrokken. 

K kan elke waarde zijn van 0 tot het maximale bedrag dat is toegestaan ​​door het contextvenster van het model, dat n isext = 2048 voor alle modellen, en er passen doorgaans ongeveer 10 tot 100 exemplaren in. Grotere waarden van K resulteren vaak in betere resultaten, maar niet altijd. Daarom experimenteert het model, wanneer het model over een testset beschikt en een afzonderlijke ontwikkelingsset beschikbaar is, met een paar waarden van K op de ontwikkelingsset, en op basis van de resultaten , levert deze de beste waarde op de testset. 

Bovendien bieden de ontwikkelaars voor de taken waarvoor een correcte voltooiing uit meerdere opties moet worden geselecteerd, K voorbeelden van correctie plus contextaanvulling, en volgen dit op door slechts één voorbeeld van de context te geven, en de taken worden vervolgens vergeleken op basis van de LM-waarschijnlijkheid. van elke voltooiing. Voor taken die binaire classificatie vereisen, geven de modellen vaak opties meer semantisch en met betekenisvollere namen, en behandelen ze de taak vervolgens als meerkeuze, en soms worden de taken ook in een kader geplaatst dat vergelijkbaar is met wat wordt gedaan door het RSR-model en de architectuur. 

Voor de taken waarvoor voltooiing in vrije vorm vereist is, maakt het model gebruik van bundelzoekopdrachten met identieke parameters als gebruikt in het RSR-framework, met een bundellengte van 4 en een straf van 0.6. Het model wordt vervolgens gescoord met behulp van de F1-gelijkenisscore, exacte match of BLEU, afhankelijk van de standaard voor de dataset. 

Resultaten

De bovenstaande afbeelding toont de trainingscurven voor de 8 modellen die worden gebruikt in de GPT-3-modelarchitectuur, zoals beschreven in de vorige secties. Vergelijkbaar met de resultaten van het KMH-taalmodel volgen de prestaties van het GPT-3-model een goede wet bij effectief gebruik van trainingscomputers. Er is alleen sprake van een klein verschil met de wet wanneer de trend met nog twee ordes van grootte wordt verlengd. Het kan bij mensen opkomen dat de verbeteringen in kruis-entropieverlies het gevolg kunnen zijn van het modelleren van valse details van het trainingscorpus. De verbeteringen in het cross-entropieverlies leiden echter tot consistente winsten in de algehele prestaties over een breed spectrum van een verscheidenheid aan NLP-taken. 

Voordat de 8 verschillende modellen op een breed scala aan trainingsgegevens worden geëvalueerd, worden de datasets gegroepeerd in 8 verschillende categorieën die vergelijkbare taken vertegenwoordigen. Deze categorieën zijn

  1. Evaluatie van traditionele taalmodelleringstaken en taken die lijken op taalmodellering, zoals Cloze-taken of taken voor het voltooien van zinnen/paragrafen. 
  2. Evaluatie van het beantwoorden van vragen met een gesloten boek. 
  3. Evaluatie van het vermogen van het model om tussen talen te vertalen (vooral one-shot en weinig-shot)
  4. Evalueren van de prestaties van het model bij Winograd Schema-achtige taken. 
  5. Evalueren op basis van datasets waarbij gezond verstand wordt gebruikt of vragen worden beantwoord. 
  6. Evalueren van opdrachten voor begrijpend lezen. 
  7. Evalueren op basis van de SuperGLUE benchmarksuite. 
  8. NLI verkennen. 

Taalmodellering, voltooiing en Cloze-taken

In deze sectie worden de prestaties van het GPT-3-model geëvalueerd op de traditionele taalmodelleringstaken, maar ook op taken die de voorspelling vereisen van een enkel interessant woord, of het voltooien van een paragraaf of zin, of het voltooien van een stuk tekst. Laten we ze in het kort bespreken. 

Taalmodellering

Het GPT-3-model berekent de zero-shot perplexiteit op de PTB- of Penn Tree Bank-dataset. Het model laat Wikipedia-gerelateerde taken weg omdat deze al in de trainingsdata van het model zijn opgenomen, en de benchmark van één miljard woorden wordt eveneens weggelaten omdat deze een aanzienlijke frictie veroorzaakt tussen de dataset en de trainingsdata. De PTB-dataset pakt deze problemen echter aan omdat deze ouder kan zijn dan het moderne internet. Het grootste model in de GPT-3-modelarchitectuur evalueert een nieuwe SOTA op de PTB-dataset met een opmerkelijke marge van 15 punten en behaalt een perplexiteit van 20.50. 

LAMBADA

De LAMBADA-dataset wordt gebruikt om de modellering van het model op lange termijn afhankelijkheden in paragrafen of teksten te testen. Het betekent dat het model wordt gevraagd het laatste woord van een zin te voorspellen na het lezen van de paragraaf voor de context. Bovendien levert de voortdurende schaalvergroting van de taalmodellen afnemende rendementen op de benchmark op. 

Het GPT-3-model bereikt een nauwkeurigheid van 76% op LAMBADA en heeft een winst van meer dan 8% ten opzichte van eerdere beste modellen. Bovendien demonstreert het LAMBADA-model de flexibiliteit van leren met weinig kansen, aangezien het het probleem aanpakt op een manier die klassiek voorkomt bij de dataset. De voltooiing van een zin in LAMBADA is meestal het laatste woord van de zin, maar omdat een taalmodel dat niet kan weten, kent het niet alleen een waarschijnlijkheid toe aan de juiste uitgang, maar ook aan andere voortzettingen in de alinea. 

Bovendien, wanneer de voorbeelden die aan het GPT-3-model worden toegevoegd op een bepaalde manier worden aangepast, retourneert het model een nauwkeurigheid van meer dan 86%, een stijging van meer dan 18% ten opzichte van eerdere modellen. Bovendien gaven de resultaten ook aan dat de prestaties van het model in een paar-shot-setting proportioneel toenemen met de toename van de modelgrootte. Hoewel deze strategie het kleinste model in de GPT-3-architectuur met 20% verkleint, verbetert het de nauwkeurigheid van het primaire GPT-3-model met 175 miljard parameters met 10%. 

Gesloten boekvraag beantwoorden

Closed Book Question Answering is een poging om het vermogen van het GPT-3-model om vragen te beantwoorden te meten op basis van brede feitelijke kennis. Omdat dergelijke vragen vaak een groot aantal mogelijke vragen hebben, wordt de taak normaal gesproken uitgevoerd met behulp van een systeem voor het ophalen van informatie waarmee het model relevante tekst kan vinden in combinatie met het model dat leert een antwoord te genereren op een antwoord gegeven de opgehaalde tekst, en de vraag. 

De bovenstaande afbeelding vergelijkt het resultaat voor het GPT-3-model vergeleken met verschillende modellen en uitgevoerd op verschillende datasets. Op de TriviaQA-dataset behaalt het model een nauwkeurigheidsscore van 64.3% in de zero-shot-instelling, terwijl het een nauwkeurigheidsscore behaalt van 68% en 71.2% in respectievelijk one-shot- en weinig-shot-instellingen. 

Het is duidelijk te zien dat het GPT-3-model in zero-shot-setting ruim 5% beter presteert dan het verfijnde T11-14B-model. 

De bovenstaande afbeelding laat zien dat de prestaties van het GPT-3-model soepel groeien naarmate de modelgrootte toeneemt. De prestaties suggereren dat de taalmodellen blijven leren van de dataset naarmate hun capaciteit toeneemt. 

Conclusie

Het zou veilig zijn om te zeggen dat GPT-3 een revolutionaire fase in de LLM-industrie was, aangezien GPT-3 hielp bij het verleggen van de grenzen van wat een taalmodel kon doen. Het waren de gemaakte ontwikkelingen en de obstakels die door GPT-3 werden overwonnen die de weg vrijmaakten voor het meest geavanceerde en nauwkeurige grote taalmodel tot nu toe, de GPT-4. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.