Îstîxbaratê ya sûnî

GPT-3: Ji bo Modela Ziman Çend Fêrbûna Çê?

Published

mehan 9 ago

August 24, 2023

Di çend salên çûyî de, pîşesaziya AI û ML-ê di pêşkeftin û sepana pergalên NLP-ê de bûye şahidê bilindbûnek meteorîkî ji ber ku lêkolîner karîbûn pratîkên NLP-ê bi awayên pir maqûl û peywir-agnostîk ji bo peywirên veguheztina jêrîn bicîh bikin.

Di destpêkê de, ew nûneratiyên yek-qat bûn ku vektorên peyvan bikar anîn, û dûv re ji mîmariya peywirê re hatin xwarin. Dûv re, ew mîmariya RNN bû ku nûnertiyên pir-qat û rewşa kontekstê bikar anî da ku nûnertiyên çêtir çêbike. Û ya herî dawî, me modelên zimanê veguheztinê an jî modelên dubarekirî yên pêş-perwerdekirî hene ku bi birêkûpêkkirina van toran hewcedariya mîmariyên peywirê bi tevahî rakirine.

Modelên zimanê veguheztinê di pîşesaziya NLP-ê de îsbat kir ku di pîşesaziya NLP-ê de qonaxek zivirînek girîng e ji ber ku wan di karên dijwar ên mîna bersivdana pirsan, têgihiştinên xwendinê an blokên nivîsê, pêvekirina nivîsê, û hêj bêtir de pêşkeftinek mezin encam daye.

Lêbelê, tevî avantajên wan, modelên zimanî yên veguheztinê xwedan sînorkirinek mezin in ji ber ku ew pêdivî bi hûrgulîkirina peywirê an databasa taybetî ya peywirê heye da ku performansa xwestinê li ser peywirekê bi dest bixin. Wekî din, modelên zimên veguheztin di heman demê de ji pêşdebiran re hewce dike ku daneyên danûstendinê bi sed hezaran nimûneyên taybetî yên ji bo karek taybetî xweş bikin.

Bêyî gotinê ye ku rakirina pêdiviya databasa taybetî ya peywirê, û birêkûpêkkirina peywirê dê ji ber gelek sedeman ji bo pîşesaziya NLP-ê pir xwestin, û sûdmend be.

Pirsgirêkên Modelên Zimanî yên Veguheztina Pêş-Têrabilindkirî an Modelên Dubarekirî

Bisînorkirina Praktîkî & Sepandin

Berî her tiştî, hewcedariya danehevek mezin a bi daneya nîşankirî ji bo her peywirê sepandin û pratîkbûna modelên ziman sînordar dike. Modelên zimanî, ji çêkirina kurteçîrokekê, ji rastkirina xeletiyên rêzimanî, heta çêkirina nimûneyan li ser têgehekê, sepanên xwe di karên cûrbecûr de dibînin. Car carinan, berhevkirina danehevek mezin a çavdêrkirî bi daneyên nîşankirî re karekî dijwar e, nemaze dema ku pêdivî ye ku pêvajo ji bo her peywirek kesane were dubare kirin.

Di Daneyên Perwerdehiyê de Têkiliyên Xerab bikar tînin

Sînorkirin û tengbûna belavkirina perwerdehiyê bi eşkerebûna modelê re dikare bibe sedema mezinbûnek bingehîn a potansiyelê ji bo karanîna têkiliyên derewîn ên di daneyên perwerdehiyê de. Potansiyela îstismarkirina daneya perwerdehiyê dikare di dema paradîgmaya başkirin û pêş-perwerdekirinê de bibe sedema pirsgirêkan ji ber ku modelên zimanê veguheztinê bi rengekî hatine sêwirandin ku di dema pêş-perwerdeyê de hejmareke mezin a agahdariyê bigirin.

Wekî din, xebata li ser modelên berê destnîşan kir ku modelên mezin her û her ji belavkirinê çêtir encam nadin. Wekî din, di heman demê de hate destnîşan kirin ku gelemperîkirina ku di binê paradîgmayek weha de hatî bidestxistin dikare di serî de performansa nebaş encam bide ji ber ku model ji bo daneyên perwerdehiyê pir taybetî ye, û nikare li ser rewşên li derveyî çarçoweya daneyên perwerdehiyê baş tevbigere.

Berawirdkirin bi Fêrbûna Mirovan re

Di dawiyê de dema ku bi modelên zimanî yên veguheztinê re were berhev kirin, dema ku ew tê fêrbûna pirraniya peywirên zimanî hewcedariya mirovan bi databasek perwerdehiya mezin tune. Pir caran, kurte rêwerzek bi zimanê xwezayî yê mirovî an pêşandanek piçûk a peywira zimanî bes e ku mirov karek zimanî bi astek diyarkirî ya pêşbaziyê fam bike û pêk bîne.

Qabiliyeta mirovî ya ji bo adaptasyonê gelek feydeyên pratîkî hene ji ber ku ew dihêle ku ew di navbera komên jêhatîbûnê yên cihêreng de biguhezînin an wan bi hev re tevlihev bikin da ku di dema devokek de çêtir performansê bikin, tiştek ku li derveyî kapasîteyên pergalên NLP yên heyî ye.

Bi Fêrbûna Meta & GPT-3 re Pirsgirêkan çareser bikin

Çareseriyek mimkun ji kêşeyên jorîn re karanîna fêrbûna meta ye, têgehek di ML-ya nûjen de ku destûrê dide modelekê ku komek jêhatîbûn û jêhatîbûnek mezintir û berfereh pêşde bibe dema perwerdehiyê nas bike, û dûv re van şiyanên fêrbûyî di dema destwerdanê de bikar bîne da ku biguncîne. bi lez, an peywira pêwîst nas bike.

Fêrbûna Meta di mîmariya modela zimên de bi teknîkek bi navê "fêrbûna di çarçovê de” ya ku têketina nivîsê ya modelek zimanek pêş-perwerdekirî wekî taybetmendiyek peywirê bikar tîne. Di vê pêvajoyê de, modêl li ser rêwerzek zimanek xwezayî şert dike, û dibe ku çend xwenîşandan jî bikar bîne, û hingê tê çaverê kirin ku model bi pêşbînkirina gavên pêşeroj karê mayî temam bike.

Pirsgirêka sereke ya Meta Fêrbûna tenê ev e ku her çend wê potansiyela erênî nîşan daye jî, ew hîn jî di mîmariya zimanê xwezayî de ji nêzîkatiya birêkûpêk kêm e, û ji bo ku bibe rêbazek pratîkî ji bo derbaskirina peywirên zimanî pêdivî bi çêtirkirina bêtir heye.

Ji bilî fêrbûna meta, rêbazek din a ku populerbûna xwe zêde dike, zêdekirina kapasîteya modelên zimanê veguherîner e. Di çend salên çûyî de, modelên veguheztinê bi kapasîteya xwe re bûne şahidê zêdebûnek berbiçav RNSS18 modela bi 100 mîlyon parametre, ya DCLT18 modela bi 300 mîlyon parametre, ya RWC19 modela bi 1.5 milyar parametre, ya SSP19 modela bi 8 milyar parametre, ya RSR19 modela bi 11 milyar parametre, û ya TUR20 modela bi 17 milyar parametre.

Zêdekirina kapasîteya modelê an zêdekirina parametreyan di dîrokê de bûye sedema çêtirbûna hevsengiya nivîsê, û nîşanek heye ku windakirina têketinê, ku bi peywirên jêrîn re têkildar e, di heman demê de meylek xweş a başkirina pîvanê jî dişopîne.

Ew me digihîne modela GPT-3 ku xwedan zêdetirî 175 mîlyar parametre, û dema ku ew hate destpêkirin, ew modela zimanê veguheztinê ya bi kapasîteya herî bilind bû. Ka em niha li ser modela GPT-3 biaxivin.

Destpêkek Modela GPT-3

GPT-3 modelek zimanek xweser e ku bi zêdetirî 175 mîlyar parametreyên ku ji hêla OpenAI ve di sala 2020-an de hate berdan. GPT-3 di heman demê de wek modela zimanê mezin ku mîna selefê xwe modela GPT-2 modelek veguherîner a fêrbûna kûr-tenê dekoder-ê ye ku mîmariya-based convolution-ê bikar tîne da ku daneyên nivîsê biafirîne.

Modela GPT-3 qabiliyetên xwe yên fêrbûna çarçovê dipîve, û modela GPT-3 li ser du dehan daneyên NLP û gelek karên nû têne nirxandin. Ji bo her peywira kesane, modela GPT-3 di bin sê şertan de tê nirxandin,

Çend Fêrbûna Şotan an Fêrbûna Nav-Context: Di çend fêrbûna fîşekan de, modela GPT-3 rê dide her çend belavokan ku dikarin di pencereya çarçoweya modelê de baş bi cih bibin.
Fêrbûna Yek Shot: Di fêrbûna yek guleyan de, model tenê yek xwenîşandanek destûrê dide.
Fêrbûna Zero Shot: Di fêrbûna sifirê de, xwenîşandan tune, û tenê rêwerzek bi zimanê xwezayî heye ku ji modelê re tê xwarin.

Bi firehî diaxifin, Modela GPT-3 performansa xwestinê di mîhengên sifir-şok, û yek-fîşekê de bi dest dixe, û di mîhenga çend-fîşekan de, ew pir caran ji modelên veguheztina nûjen dertê. Wekî din, modela GPT-3 di mîhengên yek-fîşek, û sifir-şok de li peywirên zimanê xwezayî yên ku ji bo ceribandina ramanên li ser firînê hatine çêkirin baş pêk tîne, an jî baldariyek bilez hewce dike mîna karanîna peyvên nû yên li dû hevokê, an jihevnekirina peyvan, an pêkanîna jimartinê. operasyonên. Ji hêla din ve, dema ku di mîhengek çend-fîşekan de tê xebitandin, modela GPT-3 gotarên nûçeyên sentetîk ên ku dişibin nivîsandina mirovan gava ku di nav nirxdêrên mirovî re derbas dibin diafirîne.

GPT-3 Model: Nêzîkbûn

Modela GPT-3 rêgezek pêş-perwerdeyê ya kevneşopî bikar tîne ku model, dane û perwerdehiyê pêk tîne, û ew dişibe pêvajoya pêş-perwerdeyê ku li dû modela zimanê veguheztina RWC-19 tê. Modela GPT-3 mezinahiya modelê, mezinahiya danûstendinê, cihêrengiya danûstendinê, û dirêjahiya heyama perwerdehiyê zêde dike.

Model di heman demê de nêzîkatiyek fêrbûna hundurîn bikar tîne ku careke din dişibihe nêzîkatiya modela RWC-19, lê bi rêkûpêk vekolîna mîhengên cihêreng ên ji bo şêwazên fêrbûnê di nav çarçoweya databasê de tiştan piçekî diguhezîne.

Ji ber vê yekê, em bi vekolîna van mîhengan dest pê bikin, û binirxînin ka modela GTP-3 çawa li ser mîhengên cihêreng pêk tîne.

Tuning Fine

Rêzkirina modelê di veguheztinê de nêzîkatiya kevneşopî ye modelên ziman, û ev nêzîkatî bi nûvekirina giraniya modelek pêş-perwerdekirî bi perwerdekirina modelê li ser danûstendinek çavdêrîkirî ya ku ji peywira xwestinê re taybetî ye, vedihewîne, û di pêvajoyê de bi sed hezaran mînakên binavkirî têne bikar anîn.

Nêzîkatiya birêkûpêk bikêrhatî ye ji ber ku ew performansa bihêz di nav gelek pîvanan de vedigerîne. Ji aliyek din ve, sinordariya sereke ya karanîna nêzîkatiya birêkûpêk ev e ku ew ji bo her peywirek kesane danehevek nû û mezin hewce dike, xwedan potansiyel e ku taybetmendiyên derewîn ên databasa perwerdehiyê bikar bîne, dikare bibe sedema berhevdana neheq bi performansa mirovan re. , û giştîkirina belengaz ji bo belavkirina derveyî.

Qada heyî ya modela GPT-3 ji ber performansa wê ya peywir-agnostîk nêzîkatiya birêkûpêkkirinê bicîh nayîne, her çend di pêşerojê de verastkirin dikare li modela GPT-3 were sepandin.

Çend Şot

Few Shot têgehek e ku vedibêje cîhê ku modela GPT-3 di dema destwerdanê de wekî şertkirin çend xwenîşandanên peywirê tê dayîn, lê giraniya modelê nayê nûve kirin. Di çend mîhengên kişandinê de, databas bi gelemperî mînakek bi çarçoveyek, û qedandinek xwestî heye (mînak, hevokek fransî, û wergera wê ya îngilîzî). Mîhenga çend guleyan modelê dide K mînakên çarçovê, û temamkirinê, û dûv re çarçoveyek dawîn pêşkêşî modelê dike, û hêvî dike ku model temambûnê peyda bike.

Feydeya sereke ya karanîna çend mîhengên gulebaranê ev e ku ew bi girîngî hewcedariya daneyên peywirê kêm dike, û di heman demê de potansiyela fêrbûna dabeşek teng ji danûstendinek mezin a ku bi hûrgulî hatî vesaz kirin kêm dike. Ji hêla din ve, kêmasiya sereke ya karanîna fêrbûna çend guleyan ev e ku encamên ku di çend mîhengên guleyan de têne peyda kirin ne li gorî nîgarê ne, û bi rengek girîng belengaz dema ku bi modelên din ên hunerî yên ku bi hûrgulî têne berhev kirin têne berhev kirin.

One Shot

Di mîhenga yek gulebaranê de, model tenê bi xwenîşandanek yekane tê peyda kirin, û ya mayî jî mîna mîhenga çend guleyan e. Sedema ku di modelên zimanê veguheztinê de mîhenga yek fîşekê têkildar e ev e ku ji her sê mîhengan, yek wêneyek e ku dişibihe awayê ku peywiran bi mirovan re herî baş têne ragihandin. Ji ber ku di piraniya peywiran de, gelemperî ye ku meriv xwenîşandanek peywirê bide, wekî din dibe ku dijwar be ku meriv çarçoweya peywirê fam bike.

Zero Shot

Di mîhenga guleya sifir de, xwenîşandan tune, û ji modelê re rêwerzek zimanek xwezayî tê dayîn ku peywirê vedibêje. Rêbaza gulebarana zero ew e ku herî zêde rehetiya xwe pêşkêşî dike, bi hêz e, û di heman demê de ji têkiliyên derewîn dûr dikeve, lê ew di heman demê de ji her sê mîhengan jî ya herî dijwar e. Ji ber ku di hin rewşan de, ji bo me mirov jî dijwar e ku meriv çarçoweya karekî bêyî ku pêşî xwenîşandanek bibîne fam bike.

Tevî vê yekê, ji bo hin karan, mîhenga zero-shot ew e ku dişibihe meriv çawa karên zimanê xwezayî herî nêzik dike.

Nîgara jorîn çend fîşekan, yek fîşekê, û mîhenga sifirê dide ber hev dema ku peywirek zimanê xwezayî ya girtina hevokek îngilîzî û wergerandina wê bo fransî dike.

GPT-3: Mîmariya Model

Modela GPT-3 heman mîmariyê wekî ya ku di modela GPT-2 de hatî bikar anîn bikar tîne, û ew teknîkên pêş-normalîzekirinê, destpêkirina guhezbar, û teknîkên tokenîzasyona vegerê vedihewîne ji ber ku ew li ser modela GPT-ê hatine bikar anîn ji bilî karanîna alternatîfek. stratejiya ji bo qalibên balê yên kêm bendkirî yên herêmî, û guheztina qatên stûr ên di qatên transformatorê de, mîna Transformera Sparse.

Ji bo lêkolîna girêdayîbûna performansa modelê ya bi mezinahiya modelê, pêşdebiran 8 mezinahiyên modelê yên cihêreng perwerde kirine ku di sê rêzên mezinahiyê de ji 125 mîlyonî heya zêdetirî 175 mîlyar pîvanan diguhezin, ya paşîn ji wan modela GPT-3 tê gotin. . Xebatên berê yên ku bi modelên LLM-ê ve girêdayî ne destnîşan kirin ku pîvandina windabûna erêkirinê bi hêjmarek têr daneyên perwerdehiyê divê wekî fonksiyonek mezinbûnê zagonek hêzek nerm a nêzîk be. Modelên perwerdehiyê yên cûrbecûr rê dide pêşdebiran ku hem ji bo peywirên zimanê jêrîn hem jî ji bo windakirina pejirandinê hîpotezê biceribînin.

Hêjmara jorîn mezinahî û mîmariya 8 modelên cihêreng ên ku ji bo pêşkeftina GPT-3 têne bikar anîn berhev dike. Li vir, n(params) jimara giştî ya qalibên perwerdekirî diyar dike, n(qatên) hejmara giştî ya qatan di modêlê de diyar dike, d(model) di her qatek stûyê şûşeyê de hejmara yekîneyên diyar dike, û d(ser) diyar dike. pîvanên her serê bala. Pencereya çarçoveyê ji bo her modelê bi 2048 nîşanan re heman e.

Digel vê yekê, ji bo kêmkirina veguheztina daneyan di navbera girêkan de, model li seranserê GPU-yan li ser kûrahî & firehiya pîvanan tê dabeş kirin. Parametreyên mîmarî yên ji bo her modelê li ser bingeha karbidestiya hesabkerî, & hevsengiya barkirinê hatine hilbijartin da ku di sêwirana modelan de li seranserê GPU-yê rastbûna herî zêde bikin.

Daneyên Perwerdehiyê

Bi gelemperî, modelên zimanên mezin danehevên ku bi pêşkeftinên vê dawîyê re pir berfireh bûne bikar tînin, û ew di daneheva Common Crawl de ku ji zêdetirî trîlyonek peyvên cûda pêk tê, bi dawî dibin. Mezinahiya databasê têra xwe têr e ku modela GPT-3 perwerde bike bêyî ku gelek caran li ser heman rêzikê were nûve kirin. Lêbelê, lêkolîn û analîzên performansê destnîşan dikin ku guhertoyên hûrgulî yên fîlterkirî an guhertoyên nefîlterkirî yên databasa Common Crawl xwedî kalîteya nizm in dema ku bi daneheva bijartetir re têne berhev kirin.

Ji bo çareserkirina pirsgirêka kalîteya navînî ya daneyê, pêşdebiran 3 gav avêtin da ku kalîteya daneyê zêde bikin.

Pêşdebiran guhertoyek daneheva Common Crawl dakêşand û fîltre kir ku li gorî rêzek mîna korpora referansa bilind-kalîteyê ye.
Pêşdebiran di asta belgeyê de li seranserê danûstendinê dubarekirina fuzzy pêk anîn, di hewildanek ji bo parastina yekrêziya koma pejirandina xwe ya domdar wekî pîvanek bi bandor a zêdeperedanê, û hem jî ji bo pêşîgirtina zêdebûnê.
Pêşdebiran her weha korporên referansa bilind-kalîteyê li daneyên perwerdehiyê zêde kirin da ku daneheva Common Crawl zêde bikin, û pirrengiya databasê bêtir zêde bikin.

Hêjmara jêrîn rêjeya paşîn an tevliheviya danûstendinên ku ji bo perwerdekirina modela GPT-3 têne bikar anîn nîşan dide. Daneyên Common Crawl beriya fîlterkirinê ji zêdetirî 45 TB nivîsa sade pêk dihat ku piştî parzûnkirinê daket 570 GB daneyan, ku bi qasî 400 mîlyar cot-bayt nîşaneyên kodkirî ye. Hêjayî gotinê ye ku danehevên di perwerdehiyê de ku wekî kalîteya bilind têne dîtin li şûna ku nîsbeta daneyê li gorî mezinahiya wan were nimûne, bi frekansa zêdetir têne nimûne. Wekî encamek, danûstendinên mîna Books2 & Common Crawl di dema perwerdehiyê de ji yek carî kêmtir têne nimûne, lê daneyên din gelek caran têne nimûne. Ew dihêle ku model di berdêla perwerdehiya li ser daneya perwerdehiyê ya bi kalîteyek bilind de hejmareke piçûktir zêde bipejirîne.

Xemgîniyek girîng a bi modelên zimanên mezin ên ku li ser jimarek mezin daneyên înternetê ji berê ve hatine perwerde kirin û bi kapasîteya jibîrkirin û fêrbûna jimarek mezin naverokê ve gemarîbûna potansiyel a peywirên jêrîn e ku di dema pêşkeftina wan an komên ceribandinê de têne dîtin. pêvajoya perwerdeyê. Ji bo kêmkirina qirêjiya potansiyel a wusa, pêşdebiran li her hevgirtinên bi ceribandin û pêşkeftina pîvanên pîvanên ku ji bo GPT-3 hatine lêkolîn kirin geriyan, û hewl dan ku van hevbendiyan rakin.

Wêneya jorîn jimareya giştî ya ku di dema perwerdehiya modela GPT-3 de hatî bikar anîn nîşan dide. Model ji bo Modelên Zimanê Neuralî Zagonên Scaling bikar tîne da ku modelên pir mezintir li ser kêmtir nîşanan ji ya tîpîk perwerde bike. Wekî encamek, hem modela GPT-3 û hem jî modela RoBERTa-Large, ku 10x ji modela GPT-3 piçûktir e, di pêvajoya pêş-perwerdekirinê de hema hema 50 petaflops/roj hesab girt.

Nirxandin

Ji bo hînbûna çend fîşekan, model her mînakek ku di berhevoka daneya nirxandinê de heye dinirxîne bi xêzkirina K mînakan bi rasthatinî ji berhevoka perwerdehiya wê peywirê wekî şert û merc, û li gorî peywirê bi 1 an 2 xetên nû veqetîne. Ji bo Storycloze, û LAMBADA, modêl ji koma pêşkeftinê nimûneyên şertkirinê derdixe û ji ber nebûna komek perwerdehiya çavdêrîkirî wê li ser koma testê dinirxîne. Ji bo Winograd, tenê yek daneyek heye, û ji ber vê yekê nimûneyên şertkirinê rasterast ji wê têne kişandin.

K dikare her nirxek ji 0-ê bigire heya mîqdara herî zêde ya ku ji hêla pencereya çarçovê ya modelê ve ku n eext = 2048 ji bo hemî modelan, û ew bi gelemperî bi qasî 10 û 100 mînakan digire. Nirxên mezin ên K bi gelemperî encamên çêtir encam didin, lê ne her gav ji ber vê yekê gava ku modelek ceribandinek heye, û komek pêşkeftinek cihê heye, model li ser koma pêşkeftinê çend nirxên K-yê diceribîne, û li ser bingeha encaman , ew nirxa çêtirîn li ser set testê dimeşîne.

Digel vê yekê, li ser karên ku hewce dike ku ji gelek vebijarkan ve temamkirina rast hilbijêrin, pêşdebir K nimûneyên rastkirinê plus temamkirina çarçovê peyda dikin, û bi pêşkêşkirina yek nimûneyek tenê çarçoweyê dişopînin, û peywir li ser bingeha îhtîmala LM têne berhev kirin. ji her qedandinê. Ji bo peywirên ku hewceyê dabeşkirina binaryê dikin, model bi gelemperî vebijarkan bi semantîktir, û bi navên watedartir didin, û dûv re peywirê wekî pir bijartî dihesibînin, û carinan jî peywirê dişibin tiştê ku ji hêla modela RSR û mîmarî ve tê kirin.

Ji bo karên ku hewceyê temamkirina forma belaş hewce dike, model lêgerîna tîrêjê bi pîvanên heman rengî yên ku di çarçoveya RSR de têne bikar anîn, bi dirêjahiya 4, û cezayê 0.6 bikar tîne. Dûv re model bi karanîna pîvana wekheviya F1, berhevoka rastîn, an BLEU-ê, li gorî standarda ji bo databasê tête jimartin.

results

Nîgara jorîn kêşeyên perwerdehiyê yên ji bo 8 modelên ku di mîmariya modela GPT-3 de têne bikar anîn, wekî ku di beşên berê de hatine diyar kirin nîşan dide. Mîna encamên ji modela zimanê KMH, performansa modela GPT-3 dema ku hesabê perwerdehiyê bi bandor bikar tîne zagonek rast dişopîne. Tenê dema ku meyl bi du rêzikên mezinahiyê ve were dirêj kirin ji qanûnê cûdahiyek piçûk heye. Dibe ku ji mirovan re çêbibe ku çêtirkirinên di windabûna cross-entropy de dibe ku encama modelkirina hûrguliyên derewîn ên korpusa perwerdehiyê be. Lêbelê, pêşkeftinên di windabûna cross-entropy de rê li ber destkeftiyên domdar di performansa giştî de li seranserê cûrbecûr karên NLP-ê vedike.

Berî ku 8 modelên cihêreng li ser cûrbecûr daneyên perwerdehiyê binirxînin, danehev li 8 kategoriyên cihêreng têne kom kirin ku karên wekhev temsîl dikin. Ev kategorî ne

Nirxandina li ser peywirên modelkirina zimanê kevneşopî, û peywirên ku dişibin modela zimanî mîna peywirên Cloze, an peywirên temamkirina hevokê/paragrafê.
Nirxandina li ser karên bersivdana pirsa "pirtûka girtî".
Nirxandina şiyana modelê ya wergerandina di navbera zimanan de (nemaze yek-şûşeyek û çend-shot)
Nirxandina performansa modelê li ser karên mîna Winograd Schema.
Nirxandina li ser danûstendinên ku bi ramana hevpar an bersivdana pirsê vedihewîne.
Li ser karên têgihîştina xwendinê nirxandin.
Nirxandina li ser pakêta pîvana SuperGLUE.
Lêkolîna NLI.

Karên Modelkirina Ziman, Temamkirin û Girtin

Di vê beşê de, performansa modela GPT-3 li ser peywirên modelkirina zimanê kevneşopî û her weha karên ku hewceyê pêşbîniya yek peyva balkêş, an temamkirina paragrafek an hevokek, an temamkirina perçeyek nivîsê ye, tê nirxandin. Werin em wan bi hûrgulî nîqaş bikin.

Modelkirina Ziman

Modela GPT-3 li ser PTB an daneya Banka Tree ya Penn-ê tevliheviya sifir-şûştinê hesab dike. Model karên têkildarî Wîkîpediyayê ji holê radike ji ber ku ew jixwe di daneyên perwerdehiyê yên modelê de cih digire, û pîvana yek mîlyar peyvan jî ji holê radibe ji ber ku ew dibe sedema tevliheviyek girîng a databasê ku di nav daneyên perwerdehiyê de ye. Lêbelê, danûstendina PTB van pirsgirêkan çareser dike ji ber ku ew dikare pêşîya înternetê ya nûjen bike. Modela herî mezin a di mîmariya modela GPT-3 de SOTA-ya nû li ser daneya PTB-ê bi 15 xalan ve girêdayî ye, û tevliheviyek 20.50 digihîje.

LAMBADA

Daneya LAMBADA ji bo ceribandina modela modelê li ser girêdanên dûr-dirêj di paragraf an nivîsan de tê bikar anîn. Wateya wê tê vê wateyê ku ji modelê tê xwestin ku piştî xwendina paragrafê ji bo kontekstê peyva paşîn a hevokê pêşbîn bike. Wekî din, pîvandina domdar a modelên zimanî li ser pîvanê vegerên kêm kêm peyda dike.

Modela GPT-3 li ser LAMBADA ji% 76 rastbûnê digihîje, û li ser modelên çêtirîn ên berê ji% 8 qezencek heye. Digel vê yekê, modela LAMBADA nermbûna fêrbûna çend-fîşekan destnîşan dike ji ber ku ew pirsgirêk bi rengek ku bi berhevokê re bi rengek klasîk pêk tê destnîşan dike. Temamkirina hevokê di LAMBADA de bi gelemperî peyva paşîn a hevokê ye, lê wekî modelek zimanî nikare vê yekê bizane, ew îhtimalek ne tenê ji dawiya rast re, lê her weha ji berdewamiyên din ên paragrafê re jî destnîşan dike.

Wekî din, gava ku mînakên ku ji modela GPT-3 re têne guheztin bi rengek diyar têne guheztin, model rastiyek ji% 86 vedigere, ku zêdebûnek ji% 18 li gorî modelên berê. Digel vê yekê, encaman her weha destnîşan kir ku performansa modelê di mîhengek çend guleyan de bi zêdebûna mezinahiya modelê re bi rêje zêde dibe. Her çend ev stratejî di mîmariya GPT-3 de modela herî piçûk 20% kêm dike, lê rastbûna modela bingehîn a GPT-3 bi 175 mîlyar pîvanan ji sedî 10 zêde dike.

Bersiva Pirsa Pirtûka Girtî

Bersiva Pirsa Pirtûka Girtî hewildanek e ku meriv kapasîteya modela GPT-3 bipîve ku bersivê bide pirsan li ser bingeha zanîna rastîn a berfireh. Ji ber ku pirsên weha bi gelemperî gelek pirsên mimkun hene, peywir bi gelemperî bi karanîna pergalek vegerandina agahiyê pêk tê ku dihêle ku model bi tevhevbûna bi modela ku fêr dibe ku bersivek li ser bersivek ku ji nivîsa ku hatî hilanîn re çêbike, tekstek têkildar bibîne, û pirsa.

Wêneya jorîn encama modela GPT-3 bi modelên cihêreng re berhev dike, û li ser daneyên cihêreng dimeşîne. Li ser databasa TriviaQA, model di mîhenga sifir-şok de 64.3% rastbûnê bi dest dixe, di heman demê de di mîhengên yek-şok, û çend-fîşekan de bi rêzê de 68% û 71.2% digihîje.

Eşkere tê dîtin ku modela GPT-3 di mîhenga sifir-şok de ji modela T5-11B-ya xweş-ahengkirî ji% 14 bi pêş dikeve.

Nîgara jorîn nîşan dide ku performansa modela GPT-3 bi zêdebûna mezinahiya modelê re bi hêsanî mezin dibe. Performans destnîşan dike ku modelên ziman her ku kapasîteya wan zêde dibe hînbûna ji databasê berdewam dikin.

Thoughts Final

Dê bi ewlehî were gotin ku GPT-3 di pîşesaziya LLM de qonaxek şoreşger bû ji ber ku GPT-3 di xistina sînorên ku modelek zimanî dikare bike de alîkar bû. Ew pêşveçûnên çêbûn, û astengiyên ku ji hêla GPT-3 ve hatin derxistin bû ku rê li ber modela zimanê mezin a herî pêşkeftî û rastîn a heya îro, GPT-4 vekir.