csonk GPT-3: Kevés gyakorlati tanulás a nyelvi modellhez? - Egyesüljetek.AI
Kapcsolatba velünk

Mesterséges Intelligencia

GPT-3: Kevés gyakorlati tanulás a nyelvi modellhez?

mm

Közzététel:

 on

Az elmúlt néhány évben a mesterséges intelligencia és az ML iparban az NLP-rendszerek fejlesztése és alkalmazása ugrásszerűen megnőtt, mivel a kutatók rendkívül rugalmas és feladat-agnosztikus módon tudták megvalósítani az NLP-gyakorlatokat a feladatok downstream átviteléhez. 

Kezdetben az egyrétegű reprezentációk használtak szóvektorokat, majd betáplálták őket a feladatspecifikus architektúrába. Ezután az RNN architektúra volt az, amely többrétegű reprezentációkat és kontextuális állapotot használt a jobb reprezentációk kialakításához. Legutóbb pedig olyan átviteli nyelvi modellekkel vagy előre betanított ismétlődő modellekkel rendelkezünk, amelyek e hálózatok finomhangolásával teljesen megszüntették a feladat-specifikus architektúrák szükségességét. 

Az átviteli nyelvi modellek jelentős fordulópontnak bizonyultak az NLP-iparban, mivel óriási előrelépést eredményeztek az olyan kihívást jelentő feladatok terén, mint a kérdések megválaszolása, a szövegértés vagy a szövegblokkok, a szövegkövetkezmények és még sok más. 

Előnyeik ellenére azonban az átviteli nyelvi modelleknek van egy jelentős korlátja, mivel feladat-specifikus finomhangolást vagy feladat-specifikus adatkészletet igényelnek a feladat kívánt teljesítményének eléréséhez. Ezenkívül az átviteli nyelvi modellek azt is megkövetelik, hogy a fejlesztők finomhangolják az adatkészleteket több százezer, egy adott feladatra jellemző példára. 

Magától értetődik, hogy a feladatspecifikus adatkészlet és a feladatspecifikus finomhangolás követelményének megszüntetése rendkívül kívánatos, és számos okból előnyös az NLP-ipar számára. 

Problémák a meglévő, előre betanított átviteli nyelvi modellekkel vagy visszatérő modellekkel

  • A gyakorlatiasság és az alkalmazhatóság korlátozása

Mindenekelőtt az a követelmény, hogy minden feladathoz nagy adatkészletre van szükség címkézett adatokkal, korlátozza a nyelvi modellek alkalmazhatóságát és gyakorlatiasságát. A nyelvi modellek a feladatok széles skálájában találják meg alkalmazásukat, a novella generálásától a nyelvtani hibák kijavításán át a koncepcióra vonatkozó példák generálásáig. Időnként kihívást jelent egy nagy felügyelt adatkészlet gyűjtése címkézett adatokkal, különösen akkor, ha a folyamatot minden egyes feladatnál meg kell ismételni. 

  • Hamis összefüggések kihasználása a képzési adatokban

A képzési eloszlás korlátai és szűksége a modell kifejezőképességével párosulva a képzési adatok hamis korrelációinak kihasználásának lehetőségének alapvető növekedését eredményezheti. A képzési adatok kihasználásának lehetősége problémákat okozhat a finomhangolás és az előképzés paradigma során, mivel az átviteli nyelvi modelleket úgy tervezték, hogy az előképzés során nagy mennyiségű információt vegyenek fel. 

Ezenkívül a korábbi modelleken végzett munka azt mutatta, hogy a nagy modellek nem eredményeznek minden alkalommal jobb elosztást. Továbbá azt is jelezték, hogy egy ilyen paradigma alapján elért általánosítás gyenge teljesítményt eredményezhet, elsősorban azért, mert a modell erősen specifikus a betanítási adatokra, és nem tud jól teljesíteni a betanítási adatok körén kívül eső helyzetekben. 

  • Összehasonlítás az emberi tanulással

Végül, ha összehasonlítjuk a transzfer nyelvi modellekkel, az embereknek nincs szükségük nagy képzési adatkészletre, amikor a nyelvi feladatok többségéről van szó. Leggyakrabban egy személy természetes nyelvén adott rövid direktíva vagy a nyelvi feladat kis bemutatása elegendő ahhoz, hogy egy nyelvi feladatot megértsen és bizonyos szintű versenyképességgel végezzen. 

Az ember alkalmazkodóképességének számos gyakorlati előnye van, mivel lehetővé teszi számukra, hogy váltsanak a különböző készségkészletek között, vagy keverjék azokat, hogy jobban teljesítsenek egy dialektusban, ami meghaladja a jelenlegi NLP-rendszerek képességeit. 

Problémák kezelése a Meta Learning és a GPT-3 segítségével

A fenti kihívásokra egy lehetséges megoldás a metatanulás, a modern ML olyan koncepciója, amely lehetővé teszi a modell számára, hogy nagyobb és szélesebb körű készségeket és képességeket fejlesszen ki, hogy felismerje a mintákat edzés közben, majd ezeket a tanult képességeket az interferencia során alkalmazza az alkalmazkodáshoz. gyorsan, vagy felismeri a szükséges feladatot. 

A metatanulást a nyelvi modell architektúrában a „kontextusban tanulás”, amely egy előre betanított nyelvi modell szövegbevitelét használja feladatspecifikációként. A folyamat során a modell egy természetes nyelvi utasításra támaszkodik, és akár néhány demonstrációt is igénybe vehet, és a modell várhatóan befejezi a feladat többi részét a következő lépések előrejelzésével. 

A Meta Learning egyetlen fő problémája az, hogy bár pozitív lehetőségeket mutatott fel, még mindig rosszabb, mint a természetes nyelvi architektúra finomhangoló megközelítése, és további fejlesztésre szorul, hogy gyakorlati módszerré váljon a nyelvi feladatok leküzdésére. 

A metatanulás mellett egy másik egyre népszerűbb módszer a transzformátor nyelvi modellek kapacitásának növelése. Az elmúlt néhány évben az átviteli modellek kapacitása jelentősen megnövekedett RNSS18 modell 100 millió paraméterrel, a DCLT18 modell 300 millió paraméterrel, a RWC19 modell 1.5 milliárd paraméterrel, a SSP19 modell 8 milliárd paraméterrel, a RSR19 modell 11 milliárd paraméterrel, és a TUR20 modell 17 milliárd paraméterrel. 

A modell kapacitásának növelése vagy a paraméterek növelése történelmileg a szövegszintézis javulását eredményezte, és a jelek szerint a naplózási veszteség, amely korrelál a downstream feladatokkal, szintén egyenletes javulási trendet követ a skála növekedésével. 

Ezzel elérkeztünk a GPT-3 modellhez, amely több mint 175 milliárd paraméterrel rendelkezik, és indulásakor ez volt a legnagyobb kapacitású átviteli nyelvi modell. Most beszéljünk a GPT-3 modellről. 

Bevezetés a GPT-3 modellbe

A GPT-3 egy több mint 175 milliárd paraméterrel rendelkező autoagresszív nyelvi modell, amelyet az OpenAI 2020-ban adott ki. A GPT-3 szintén a nagy nyelvi modell hogy elődjéhez hasonlóan a GPT-2 modell is egy csak dekóderrel működő mélytanuló transzformátor modell, amely konvolúció alapú architektúrát használ szöveges adatok generálására. 

A GPT-3 modell saját kontextus-tanulási képességeit méri, a GPT-3 modellt pedig több mint kéttucatnyi NLP adatkészleten és több új feladaton értékelik. Minden egyes feladatnál a GPT-3 modellt három feltétel mellett értékelik,

  • Néhány pillanatnyi tanulás vagy kontextuson belüli tanulás: Néhány lépésben a GPT-3 modell annyi disztribúciót tesz lehetővé, amelyek jól illeszkednek a modell környezeti ablakába. 
  • Egylövéses tanulás: Egy lövésű tanulás során a modell csak egy bemutatót tesz lehetővé. 
  • Zero Shot tanulás: A zero shot tanulásban nincsenek bemutatók, és csak természetes nyelvű utasítások vannak a modellhez betáplálva. 

Nagy vonalakban a GPT-3 modell eléri a kívánt teljesítményt nulla és egylövés beállításban, néhány felvételes beállításnál pedig a legtöbbször felülmúlja a legmodernebb átviteli modelleket. Ezen túlmenően a GPT-3 modell jól teljesít az egyszeri és nulla lökés beállításokban olyan természetes nyelvi feladatoknál, amelyeket a menet közbeni érvelés tesztelésére terveztek, vagy gyors figyelmet igényel, mint például új szavak használata egy mondat után, szavak kódolása, vagy számtan. tevékenységek. Másrészt, ha néhány felvételes beállítással működtetik, a GPT-3 modell szintetikus hírcikkeket hoz létre, amelyek emberi kiértékelőn keresztül haladva emberi írásra hasonlítanak. 

GPT-3 modell: Megközelítés

A GPT-3 modell egy hagyományos előképzési megközelítést használ, amely modellt, adatokat és betanítást tartalmaz, és hasonlít az előképzési folyamatra, amelyet az RWC-19 átviteli nyelvi modell követ. A GPT-3 modell növeli a modell méretét, az adatkészlet méretét, az adatkészlet diverzitását, és megnöveli a betanítási időszak hosszát. 

A modell egy kontextuson belüli tanulási megközelítést is használ, amely ismét hasonlít az RWC-19 modell megközelítésére, de egy kicsit finomítja a dolgokat azáltal, hogy szisztematikusan feltárja a tanulási minták különböző beállításait az adatkészlet kontextusában. 

Tehát kezdjük azzal, hogy megvizsgáljuk ezeket a beállításokat, és értékeljük, hogyan teljesít a GTP-3 modell különböző beállítások mellett. 

Finomhangolás

A modell finomhangolása a hagyományos megközelítés az átvitel során nyelvi modellek, és ez a megközelítés magában foglalja az előre betanított modell súlyainak frissítését úgy, hogy a modellt a kívánt feladatra jellemző felügyelt adatkészletre tanítják, és a folyamat során több százezer címkézett példát használnak fel. 

A finomhangolási megközelítés azért előnyös, mert számos benchmark esetében erős teljesítményt ad vissza. Másrészt a finomhangolási megközelítés használatának fő korlátja az, hogy minden egyes feladathoz új és nagy adatkészletet igényel, képes kihasználni a képzési adatkészlet hamis jellemzőit, és tisztességtelen összehasonlítást eredményezhet az emberi teljesítménnyel. , és rossz általánosítás az eloszláson kívülre. 

A GPT-3 modell jelenlegi hatóköre feladat-agnosztikus teljesítménye miatt nem valósítja meg a finomhangolási megközelítést, bár a finomhangolás a jövőben alkalmazható a GPT-3 modellre. 

Néhány lövés

A Kevés lövés egy olyan kifejezés, amely arra a beállításra utal, amikor a GPT-3 modell néhány bemutatót kap a feladatról az interferencia során kondicionálásként, de a modell súlyai ​​nem frissülnek. A néhány felvételi beállításnál az adatkészlet általában tartalmaz egy példát kontextussal és egy kívánt kiegészítéssel (például egy francia mondattal és annak angol fordításával). A néhány felvétel beállítás megadja a modellt K példák a kontextusra és a befejezésre, majd egy végső kontextust biztosít a modellnek, és elvárja, hogy a modell adja meg a befejezést. 

A néhány felvétel beállítás használatának fő előnye, hogy jelentősen csökkenti a feladatspecifikus adatok iránti igényt, és csökkenti annak lehetőségét is, hogy szűk eloszlást tanuljunk meg egy szűkre szabott nagy adatkészletből. Másrészt a kevés felvétel tanulásának fő hátránya, hogy a néhány felvétel beállításával elért eredmények nem érik el a célt, és jelentősen gyengék a többi, finomhangolt, korszerű modellhez képest. 

Egy lövés

Az egylövés beállításnál a modell csak egyetlen bemutatóval rendelkezik, a többi pedig hasonló a néhány felvétel beállításához. Az ok, amiért egy felvétel beállítás releváns az átviteli nyelvi modellekben, az az, hogy a három beállítás közül az egyik az, amelyik a legjobban hasonlít ahhoz, ahogyan a feladatokat az emberek felé továbbítják. Ez azért van így, mert a legtöbb feladatnál gyakori, hogy egy-egy bemutatót tartanak a feladatról, különben nehéz lehet megérteni a feladat kontextusát. 

Nullalövés

A nulla lövés beállításban nincsenek bemutatók, a modell természetes nyelvi utasítást kap, amely leírja a feladatot. A zero shot módszer az, amely maximális kényelmet kínál, robusztus és elkerüli a hamis összefüggéseket, de ez a legnagyobb kihívást is a három beállítás közül. Ez azért van így, mert bizonyos esetekben még nekünk, embereknek is nehéz kitalálni egy feladat kontextusát anélkül, hogy először bemutatót látnánk. 

Ettől függetlenül bizonyos feladatoknál a nullapontos beállítás az, amely leginkább hasonlít az emberek természetes nyelvi feladatainak elvégzéséhez. 

A fenti ábra összehasonlítja a néhány lövés, az egy lövés és a nulla lövés beállítását egy természetes nyelvi feladat végrehajtása során, amikor egy angol mondatot készítünk és lefordítunk franciára. 

GPT-3: Modellarchitektúra

A GPT-3 modell ugyanazt az architektúrát használja, mint a GPT-2 modell, és magában foglalja az előnormalizálást, a módosított inicializálást és a reverzibilis tokenizációs technikákat, ahogy a GPT-modellnél is használták, kivéve az alternatív használatot. stratégia lokálisan sávozott, ritka figyelemmintázatokra, és a transzformátorrétegek sűrű rétegeinek váltakozására, hasonlóan a Sparse Transformerhez. 

A modell teljesítményének a modellmérettől való függőségének tanulmányozására a fejlesztők 8 különböző modellméretet képeztek ki, amelyek három különböző nagyságrendben mozognak 125 milliótól több mint 175 milliárd paraméterig, ezek közül az utolsó a GPT-3 modell. . Az LLM modellekkel kapcsolatos korábbi munkák azt mutatták, hogy az érvényesítési veszteség skálázásának elegendő mennyiségű betanítási adattal közelítő sima hatványtörvénynek kell lennie a méret függvényében. A különböző méretű képzési modellek lehetővé teszik a fejlesztők számára, hogy teszteljék a hipotézist mind a downstream nyelvi feladatokra, mind az érvényesítés elvesztésére vonatkozóan. 

A fenti ábra a GPT-8 fejlesztéséhez használt 3 különböző modell méretét és felépítését hasonlítja össze. Itt az n(params) határozza meg a betanítható minták teljes számát, az n(layers) a modellben lévő rétegek teljes számát, a d(modell) a szűk keresztmetszet egyes rétegeiben lévő egységek számát, a d(head) pedig az egyes figyelemfejek méretei. Az egyes modellekhez tartozó kontextusablak megegyezik 2048 tokennel. 

Ezenkívül a csomópontok közötti adatátvitel minimalizálása érdekében a modell a GPU-k között particionálva van a méretek mélysége és szélessége mentén. Az egyes modellek építészeti paramétereit a számítási hatékonyság és a terheléselosztás alapján választották ki, hogy maximalizálják a GPU-k közötti modellelrendezés pontosságát. 

Képzési adatkészletek

A nagy nyelvi modellek általában olyan adatkészleteket használnak, amelyek a legutóbbi fejlesztésekkel jelentősen bővültek, és a Common Crawl adatkészletben csúcsosodnak ki, amely több mint billió különböző szóból áll. Az adatkészlet mérete elegendő a GPT-3 modell betanításához anélkül, hogy ugyanazt a sorozatot többször frissítené. A tanulmányok és a teljesítményelemzések azonban azt mutatják, hogy a Common Crawl adatkészlet enyhén szűrt vagy szűretlen verziói gyenge minőségűek a jobban összeválogatott adatkészletekhez képest. 

Az adatkészlet átlagos minőségével kapcsolatos probléma megoldása érdekében a fejlesztők 3 lépést tettek az adatkészlet minőségének javítására. 

  1. A fejlesztők letöltötték és kiszűrték a Common Crawl adatkészlet egy olyan verzióját, amely a jó minőségű referenciakorpusokhoz hasonló tartomány alapján történt. 
  2. A fejlesztők fuzzy duplikációt hajtottak végre a dokumentum szintjén az adatkészletben, hogy megőrizzék a kitartott érvényesítési készletük integritását a túlillesztés hatékony méréseként, valamint hogy megakadályozzák a redundanciát. 
  3. A fejlesztők kiváló minőségű referenciakorpusokat is hozzáadtak a betanítási adatokhoz, hogy kiegészítsék a Common Crawl adatkészletet, és tovább növeljék az adatkészlet sokszínűségét. 

A következő ábra a GPT-3 modell betanításához használt adatkészletek végső arányát vagy keverékét mutatja. A Common Crawl adatok több mint 45 TB egyszerű szövegből álltak a szűrés előtt, amely a szűrést követően 570 GB-ra csökkent, ami nagyjából 400 milliárd bájtpárban kódolt tokennek felel meg. Érdemes megjegyezni, hogy a képzésben szereplő, jobb minőségűnek tekintett adatkészletekből gyakrabban történik mintavételezés, ahelyett, hogy az adatkészletet méretük arányában vennék minta. Ennek eredményeként az olyan adatkészletekből, mint a Books2 és a Common Crawl, a képzés során kevesebb mint egy alkalommal, míg a többi adatkészletből többször is mintavétel történik. Lehetővé teszi a modell számára, hogy elfogadjon egy kis túlillesztést, cserébe a képzési adatok jobb minőségére való képzéséért. 

A nagy mennyiségű internetes adatra előképzett, nagy mennyiségű tartalom memorizálására és megtanulására képes nagy nyelvi modellekkel kapcsolatos jelentős aggodalomra ad okot, hogy a későbbi feladatok potenciális szennyeződése azáltal, hogy fejlesztési vagy tesztkészleteiket az előkészületek során látják. képzési folyamat. Az ilyen lehetséges szennyeződések csökkentése érdekében a fejlesztők megkeresték az átfedéseket a GPT-3-hoz vizsgált referenciaértékek teszt- és fejlesztési készleteivel, és megpróbálták megszüntetni ezeket az átfedéseket. 

A fenti képen a GPT-3 modell betanítása során használt teljes számítás látható. A modell a neurális nyelvi modellekre vonatkozó skálázási törvényeket használja, hogy sokkal nagyobb modelleket tanítson a szokásosnál kevesebb tokenre. Ennek eredményeként mind a GPT-3, mind a RoBERTa-Large modell, amely 10-szer kisebb, mint a GPT-3 modell, közel 50 petaflops/nap számítást igényelt az előképzés során. 

Értékelés

A kevés lövés tanulása esetén a modell kiértékeli az értékelési adatkészletben található minden egyes példát úgy, hogy a feladat betanítási adatkészletéből véletlenszerűen K példát rajzol kondicionálásként, és a feladattól függően 1 vagy 2 újsorral elhatárolja. A Storycloze és a LAMBADA esetében a modell kondicionálási példákat merít a fejlesztőkészletből, és kiértékeli azt a tesztkészleten, mert nem áll rendelkezésre felügyelt képzési készlet. Winograd esetében csak egy adatkészlet létezik, így a kondicionáló minták közvetlenül abból származnak. 

K bármilyen érték lehet 0-tól a modell környezeti ablaka által megengedett maximális értékig, amely next = 2048 az összes modellnél, és általában 10-100 példára fér bele. A nagyobb K-értékek gyakran jobb eredményt adnak, de nem mindig ezért, ha a modellnek van tesztkészlete, és külön fejlesztőkészlet is elérhető, a modell kísérletez néhány K értékkel a fejlesztési halmazon, és az eredmények alapján. , a tesztkészlet legjobb értékét futtatja. 

Továbbá azoknál a feladatoknál, amelyeknél több lehetőség közül kell kiválasztani a helyes befejezést, a fejlesztők K példát adnak a korrekcióra és a kontextus kiegészítésre, majd ezt követik egy példa kontextusra, majd a feladatokat az LM valószínűség alapján hasonlítják össze. minden egyes befejezésről. A bináris osztályozást igénylő feladatoknál a modellek gyakran szemantikailag és értelmesebb nevekkel adnak opciókat, majd feleletválasztósként kezelik a feladatot, és néha az RSR modell és architektúra által végzett feladathoz hasonló keretbe foglalják a feladatot. 

A szabad formájú kitöltést igénylő feladatoknál a modell az RSR keretrendszerben használt paraméterekkel megegyező sugárkeresést használ, 4-es nyalábhosszal és 0.6-os büntetéssel. A modellt ezután az F1 hasonlósági pontszám, a pontos egyezés vagy a BLEU segítségével pontozzák, az adatkészlet szabványától függően. 

Eredmények

A fenti ábra a GPT-8 modellarchitektúrában használt 3 modell betanítási görbéit mutatja, az előző szakaszokban leírtak szerint. A KMH nyelvi modell eredményeihez hasonlóan a GPT-3 modell teljesítménye a megfelelő törvényt követi a képzési számítások hatékony alkalmazásakor. Csak akkor van némi eltérés a törvénytől, ha a trend további két nagyságrenddel meghosszabbodik. Az emberekben felmerülhet, hogy a keresztentrópia veszteség javulása a képzési korpusz hamis részleteinek modellezésének eredménye lehet. A keresztentrópia veszteség javulása azonban az általános teljesítmény következetes növekedéséhez vezet az NLP-feladatok széles spektrumában. 

Mielőtt kiértékelnénk a 8 különböző modellt a képzési adatok széles skáláján, az adatkészleteket 8 különböző kategóriába soroljuk, amelyek hasonló feladatokat képviselnek. Ezek a kategóriák

  1. A hagyományos nyelvi modellezési feladatok és a nyelvi modellezéshez hasonló feladatok, például a Cloze feladatok vagy a mondat-/bekezdéskiegészítő feladatok értékelése. 
  2. Értékelés „zárt könyves” kérdésre válaszoló feladatokon. 
  3. A modell nyelvek közötti fordítási képességének értékelése (különösen az egyszeri és a néhány felvételes)
  4. A modell teljesítményének értékelése Winograd Schema-szerű feladatokon. 
  5. Értékelés olyan adatkészleteken, amelyek józan ész érvelését vagy kérdésmegválaszolását foglalják magukban. 
  6. Értékelés a szövegértési feladatokról. 
  7. Értékelés a SuperGLUE benchmark csomagon. 
  8. Az NLI felfedezése. 

Nyelvi modellezési, befejezési és zárási feladatok

Ebben a részben a GPT-3 modell teljesítményét a hagyományos nyelvi modellezési feladatokon, valamint azokon a feladatokon értékeljük, amelyek egyetlen érdekes szó előrejelzését, vagy egy bekezdés vagy mondat befejezését, vagy egy szövegrész befejezését igénylik. Beszéljük meg őket röviden részletesen. 

Nyelvi modellezés

A GPT-3 modell kiszámítja a nullapontos zavart a PTB vagy a Penn Tree Bank adatkészletén. A modell kihagyja a Wikipédiával kapcsolatos feladatokat, mert az már benne van a modell betanítási adataiban, és az egymilliárd szavas benchmark is kimarad, mert jelentős súrlódást okoz a betanítási adatokon belüli adatkészletben. A PTB-adatkészlet azonban megoldja ezeket a problémákat, mert megelőzheti a modern internetet. A GPT-3 modellarchitektúra legnagyobb modellje figyelemre méltó, 15 pontos különbséggel új SOTA-t ad a PTB adatkészletre, és 20.50-es zavartságot ér el. 

LAMBADA

A LAMBADA adatkészletet a modell modellezésének tesztelésére használják a bekezdések vagy szövegek hosszú távú függőségei alapján. Ez azt jelenti, hogy a modellnek meg kell jósolnia egy mondat utolsó szavát, miután elolvasta a szövegkörnyezethez tartozó bekezdést. Továbbá a nyelvi modellek folyamatos skálázása csökkenő hozamot eredményez a benchmarkon. 

A GPT-3 modell 76%-os pontosságot ér el a LAMBADA-n, és több mint 8%-kal jobb a korábbi legjobb modellekhez képest. Ezen túlmenően a LAMBADA modell bemutatja a néhány lépésben történő tanulás rugalmasságát, mivel úgy kezelte a problémát, ahogy az az adatkészletnél klasszikusan előfordul. A LAMBADA-ban a mondat befejezése általában a mondat utolsó szava, de ezt egy nyelvi modell nem tudhatja, ezért nem csak a helyes végződéshez rendel valószínűséget, hanem a bekezdés egyéb folytatásaihoz is. 

Továbbá, ha a GPT-3 modellhez betáplált példákat bizonyos módon módosítják, a modell 86% feletti pontosságot ad vissza, ami több mint 18% -os növekedést jelent a korábbi modellekhez képest. Emellett az eredmények azt is jelezték, hogy a modell teljesítménye néhány felvételes beállításnál arányosan nő a modell méretének növekedésével. Bár ez a stratégia 3%-kal csökkenti a GPT-20 architektúra legkisebb modelljét, 3%-kal javítja a 175 milliárd paramétert tartalmazó elsődleges GPT-10 modell pontosságát. 

Zárt könyv kérdésre válaszol

A Closed Book Question Answering egy kísérlet arra, hogy mérje a GPT-3 modell azon képességét, hogy széles körű tényszerű ismereteken alapuló kérdésekre válaszoljon. Mivel az ilyen kérdések gyakran sok lehetséges lekérdezést tartalmaznak, a feladatot általában olyan információkereső rendszerrel oldják meg, amely lehetővé teszi a modell számára, hogy releváns szöveget találjon, kombinálva azzal a modellel, amely megtanul választ generálni a válaszra a kikeresett szöveg alapján, és a kérdés. 

A fenti kép a GPT-3 modell eredményét hasonlítja össze a különböző modellekkel, és különböző adatkészleteken fut. A TriviaQA adatkészleten a modell 64.3%-os pontossági pontszámot ér el a nulla lövés beállításánál, míg 68%-os pontossági pontszámot ér el az egyszeri, illetve néhány felvételes beállításnál 71.2%-os pontossági pontszámot. 

Nyilvánvalóan látható, hogy a GPT-3 modell zero-shot beállításban több mint 5%-kal felülmúlja a finomhangolt T11-14B modellt. 

A fenti ábra azt mutatja, hogy a GPT-3 modell teljesítménye zökkenőmentesen nő a modell méretének növekedésével. A teljesítmény azt sugallja, hogy a nyelvi modellek kapacitásuk növekedésével tovább tanulnak az adatkészletből. 

Záró gondolatok

Nyugodtan kijelenthetjük, hogy a GPT-3 forradalmasító szakasz volt az LLM-iparban, mivel a GPT-3 segített a nyelvi modellek korlátainak feszegetésében. A GPT-3 fejlesztései és a leküzdött akadályok nyitották meg az utat az eddigi legfejlettebb és legpontosabb nagy nyelvi modell, a GPT-4 számára. 

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.