Îstîxbaratê ya sûnî

DeepMind: AI Dibe ku Sînorên Ragihandina Mirovan mîras bigire, Dikare ji 'Perwerdehiya Fermî' sûd werbigire

Demê on December 9, 2022

Hevkarîyek nû ji DeepMind û Zanîngeha Stanford pêşniyar dike ku dibe ku AI bi gelemperî di ramanên razber de ji mirovan ne çêtir be, ji ber ku modelên fêrbûna makîneyê mîmariyên xwe yên ramanê ji cîhana rastîn, mînakên mirovî yên ku di çarçoveyek pratîkî de têne bingeh digirin (ya ku AI nikaribe biceribîne) digirin. ), lê di heman demê de ji kêmasiyên me yên cognitive jî têne asteng kirin.

Hatiye îsbat kirin, ev dikare astengiyek li ber ramana 'ezmanê şîn' û kalîteya jêhatî ya rewşenbîrî ya ku pir kes ji pergalên fêrbûna makîneyê hêvî dikin nîşan bide, û diyar dike ka çiqas AI ezmûna mirovî nîşan dide, û mêldarê ramanê (û aqil) e. di nav sînorên mirovî yên ku ew agahdar kirine.

Lekolînwan pêşniyar dikin ku modelên AI-ê dikarin ji pêş-perwerdekirina ramanên razber sûd werbigirin, wê wekî 'perwerdehiyek fermî' bikin, berî ku werin xebitandin li ser karên cîhana rastîn.

Di rojnameyê de wiha tê gotin:

'Mirov aqilmendên bêkêmasî ne. Em li ser hebûn û rewşên ku bi têgihiştina me ya cîhanê re hevaheng in, herî bi bandor difikirin.

"Ezmûnên me nîşan didin ku modelên ziman van şêwazên tevgerê neynikê dikin. Modelên zimanî li ser peywirên mentiqî yên mentiqî bêkêmasî pêk tînin, lê ev performans bi naverok û çarçoveyê ve girêdayî ye. Ya herî berbiçav, modelên weha pir caran di rewşên ku mirov têk diçin de têk diçin - dema ku teşwîq pir razber dibin an jî bi têgihîştina berê ya cîhanê re nakokî dibin.'

Ji bo ceribandina asta ku modelên Pêvajoya Zimanê Xwezayî ya Xwezayî (NLP) di asta GPT-ê de dibe ku di bin bandora van tixûban de biceribîne, lêkolîner rêzek sê ceribandinan li ser modelek guncan pêk anîn, û encam kirin *:

'Em wê modêlên zimanên mezin ên nûjen dibînin (bi 7 an 70 mîlyar pîvanên) di nav van karan de gelek heman şêweyên ku di mirovan de têne dîtin nîşan didin - mîna mirovan, model ji yên nerealîst an razber bi bandortir li ser rewşên pêbawer difikirin.

'Vedîtinên me ji bo têgihiştina van bandorên zanînê, û faktorên ku beşdarî performansa modela ziman dibin xwedî bandor in.'

Kaxez pêşniyar dike ku di AI-ê de çêkirina jêhatîbûnên maqûlbûnê bêyî ku jê sûdê ji ezmûna cîhana rastîn, laşî ya ku jêhatîbûnên weha dixe nav çarçovê de bide wê, dikare potansiyela pergalên weha sînordar bike, lê binihêre ku 'ezmûna bingehîn… dibe ku hin bawerî û ramanên mirovî binase'.

Nivîskar destnîşan dikin ku AI ziman bi pasîf ezmûn dike, lê ku mirov wê wekî pêkhateyek çalak û navendî ji bo ragihandina civakî diceribîne, û ku ev celeb beşdariya çalak (ku pergalên civakî yên kevneşopî yên ceza û xelatê vedihewîne) dikare ji bo têgihîştina wateyê di nav de 'kilît' be. heman awayê ku mirov dike.

Lêkolîner çavdêr dikin:

'Ji ber vê yekê dibe ku hin cûdahiyên di navbera modelên ziman û mirovan de ji cûdahiyên di navbera ezmûna dewlemend, bingehîn, înteraktîf a mirovan û ezmûna belengaz a modelan de bin.'

Ew pêşniyar dikin ku yek çareserî dibe ku serdemek 'pêş-perwerdekirin' be, bi qasî ku mirov di pergala dibistan û zanîngehê de ezmûn dikin, berî perwerdehiya li ser daneyên bingehîn ku dê di dawiyê de modelek zimanek kêrhatî û pirreng ava bike.

Ev heyama 'perwerdeya fermî' (wekî ku lêkolîner analogî dikin) dê ji pêş-perwerdeya kevneşopî ya fêrbûna makîneyê cûda bibe (ku rêbazek kêmkirina dema perwerdehiyê ye bi ji nû ve karanîna modelên nîv-perwerdekirî an îtxalkirina giranan ji modelên bi tevahî perwerdekirî, wekî 'booster' ji bo destpêkirina pêvajoya perwerdehiyê).

Di şûna wê de, ew ê serdemek fêrbûna domdar temsîl bike ku ji bo pêşdebirina jêhatîbûnên mentiqî yên AI-yê bi rengekî bêkêmasî razber hatî çêkirin, û pêşvexistina fakulteyên krîtîk bi heman rengî ku xwendekarek zanîngehê dê were teşwîq kirin ku di dema perwerdehiya pola xwe de bike. .

'Gelek encam,' nivîskar dibêjin, 'nîşan didin ku dibe ku ev ne bi qasî ku tê xuyang kirin.

Ew kaxez sernavkirî ye Modelên zimanî bandorên naverokê yên mîna mirovan li ser ramanê nîşan didin, û ji şeş lêkolînerên li DeepMind tê, û yek jî bi Zanîngeha DeepMind û Stanford ve girêdayî ye.

îmtîhan

Mirov bi mînakên pratîkî ve têgehên razber fêr dibin, bi heman rêbazê 'giringiya têgihîştî' ya ku bi gelemperî ji fêrkerên ziman re dibe alîkar ku ferhengok û qaîdeyên zimanî bi bîr bînin, bi riya mnemonîkê. Nimûneya herî hêsan a vê yekê hînkirina prensîbên nebaş ên fîzîkê ye berhevkirina 'senaryoyên rêwîtiyê' ji bo trên û otomobîlan.

Ji bo ceribandina kapasîteyên ramana razber a modelek zimanek hîperscale, lêkolîner komek sê ceribandinên zimanî/semantîkî ku ji bo mirovan jî dijwar be çêkirin. Di îmtîhanan de 'pîşeya sifir' (bêyî mînakên çareserkirî) û 'pênc guleyan' (bi pênc mînakên çareserkirî yên pêşî) hatin sepandin.

Karê yekem bi encamdana zimanê xwezayî (NLI) ve girêdayî ye, li wir mijar (kesek an jî, di vê rewşê de, awayê zimanî) du hevokan werdigire, 'pêşniyazek' û 'hîpotezek' ku xuya dike ku ji pêşgotinê tê derxistin. Bo nimûne X ji Yê piçûktir e, Hîpotez: Y ji X mezintir e (binavkirî).

Ji bo karê Encama Zimanê Xwezayî, lêkolîneran modelên zimên nirxandin chinchilla (modelek 70 mîlyar parametre) û 7B (guhertoyek 7 mîlyar parametre ya heman modelê), tê dîtin ku ji bo nimûneyên hevgirtî (ango yên ku ne bêwate bûn), tenê modela Chinchilla ya mezintir encamên ji şansê pir mezintir bi dest xist; û ew destnîşan dikin:

'Ev yek alîgiriya naverokê ya bihêz destnîşan dike: model tercîh dikin ku hevokê bi rengekî li gorî hêviyên berê temam bikin ne ku bi rêgezên mantiqê re hevaheng bin'.

Performansa pîvana 70-mîlyar Chinchilla di peywira NLI de. Li gorî lêkolîneran, hem ev model û hem jî guhertoya wê ya zirav 7B 'alîbûna baweriyê ya berbiçav' nîşan dan. Çavkanî: https://arxiv.org/pdf/2207.07051.pdf

Syllogisms

Karê duyemîn dijwariyek tevlihevtir pêşkêşî dike, sîllogîzm - argumanên ku du gotinên rast eşkere gotinek sêyemîn vedibêjin (ku dibe ku encamek mentiqî ya ku ji her du gotinên pêşîn tê derxistin an nebe):

Ji materyalê testê ya kaxezê, celebên cûrbecûr 'realîstî' û paradoksîk an bêwate.

Li vir, mirov pir xelet in, û avahiyek ku ji bo nimûneya prensîbek mentiqî hatî çêkirin hema hema yekser dibe, (û dibe ku bi domdarî) ji hêla 'baweriya' mirovî ve tevlihev û tevlihev dibe ka bersiva rast çi ye. bixwaze bûn.

Nivîskar diyar dikin ku a xwendin ji 1983 destnîşan kir ku beşdaran ji ber ku encama sîllogîzmê bi baweriyên wan re lihevhatî ne, nihêrîn:

"Beşdar bi îhtîmaleke mezin (% 90 ji caran) bi xeletî digotin sîllogîzmek nederbasdar derbasdar bû heke encam bawer be, û ji ber vê yekê bi piranî xwe dispêrin baweriyê ne ji sedemên razber."

Di ceribandina Chinchilla de li dijî dorhêlek sîllogîzmayên cihêreng, ku gelek ji wan bi encamên derewîn bi dawî bûn, lêkolîneran dît ku 'bawerî hema hema hemî biryarên sifir digire'. Ger modela ziman encamek nelihev bi rastiyê re bibîne, model, nivîskar diyar dikin, ji bo betalkirina argumana dawîn 'bi tundî alîgir e', tevî ku argûmana dawîn mentiqî ye ji gotinên pêşiyan.

Encamên guleya sifir ji bo Chinchilla (pişka sifir awayê ku piraniya mijarên ceribandinê dê van dijwariyan werbigirin, piştî ravekirina qaîdeya rêbernameyê), di navbera kapasîteya hesabkerî ya komputerê û kapasîteya modelek NLP-ê de ji bo rêvegirtina bi vî rengî 'navdêrî' diyar dike. mentiq' dijwar.

Karê Hilbijartina Wason

Ji bo ceribandina sêyemîn, hîn dijwartir e Karê Hilbijartina Wason Pirsgirêka mantiqê ji bo ku modela ziman çareser bike di gelek dubareyên cihêreng de ji nû ve hate formulekirin.

Karê Wason, hate çêkirin li 1968, xuya ye ku pir hêsan e: ji beşdaran re çar kart têne nîşandan, û rêgezek keyfî wekî 'Eger karta li aliyekî 'D' hebe, wê demê li aliyê din '3' heye.' Çar rûyên qertê yên xuya 'D', 'F', '3' û '7' nîşan didin.

Dûv re ji mijaran tê pirsîn ku ew hewce ne ku kîjan qertan bizivirînin da ku verast bikin ka qaîdeyek rast e an xelet e.

Di vê nimûneyê de çareseriya rast ev e ku meriv kartên 'D' û '7' bizivirîne. Di ceribandinên destpêkê de, hate dîtin ku dema ku piraniya mijarên (mirovî) dê bi rast 'D' hilbijêrin, ew îhtîmal e ku ew ji '3' li şûna '7' hilbijêrin, û tevlihev bikin. dijberî ya qaîdeyê ('ne 3 tê wateya ne D') bi ya Berevajî wê jî ('3' tê wateya 'D', ku bi mentiqî nayê wateya).

Nivîskar destnîşan dikin ku potansiyela baweriya berê ku navbeynkariya pêvajoya mantiqî ya di mijarên mirovî de dike, û balê dikişîne ku tewra matematîkzanên akademîk û matematîkzanên lîsansê jî bi gelemperî di bin 50% de di vê peywirê de gol girtin.

Lêbelê, gava ku şemaya peywirek Wason bi rengek ezmûna pratîkî ya mirovî nîşan dide, performans bi kevneşopî li gorî wê bilind dibe.

Nivîskar çavdêriya ceribandinên berê dikin:

'[Heke] kartên temen û vexwarinan nîşan bidin, û qaîdeyek "eger alkol vedixwin, wê hingê divê ew 21 salî an mezintir bin" û qertên bi 'bîr', 'soda', '25', '16' nîşan bidin, piraniya beşdaran rast hildibijêrin ku qertên ku 'bîr' û '16' nîşan didin kontrol bikin.'

Ji bo ceribandina performansa modela ziman li ser peywirên Wason, lêkolîner rêgezên cihêreng ên realîst û keyfî afirandin, ku hin bi peyvên "bêaqil" vedigirin, da ku bibînin ka AI dikare di çarçoweya naverokê de bikeve naverokê da ku kîjan 'kartên virtual' bizivirîne.

Hin ji gelek puzzles Wason Selection Task di ceribandinan de têne pêşkêş kirin.

Ji bo ceribandinên Wason, modela bi mirovan re li ser karên 'realîst' (ne-ne-nefêm) pêk anî.

Zero-shot Task Hilbijartina Wason ji bo Chinchilla encam dide, digel ku modela ji şansê pir baş pêk tîne, bi kêmî ve ji bo qaîdeyên 'realîst'.

Rojname şîrove dike:

'Ev vedîtinên di edebiyata mirovî de nîşan dide: mirov di bersivdana peywira Wason de pir rasttir in dema ku ew di çarçoveyek rewşên realîst de ji qaîdeyên kêfî yên di derheqê taybetmendiyên razber de tête çêkirin.'

Perwerdehiya Fermî

Encamên kaxezê potansiyela mentiqê ya pergalên NLP-ya hyperscale di çarçoweya tixûbên xwe de, yên ku em dixuye ku em di nav modelan de, bi navgîniya danehevên cîhana rastîn ên berhevkirî yên ku wan hêzdar dikin re derbas dikin, vedihewîne. Ji ber ku piraniya me ne jîr in, ne jî modelên ku pîvanên wan ji hêla me ve têne agahdar kirin.

Wekî din, xebata nû diqede, em bi kêmanî xwedan avantaja serdemek domdar a perwerdehiya çêker, û motîvasyonên civakî, darayî û hetta zayendî yên zêde hene ku hewcedariya mirovî pêk tîne. Tiştê ku modelên NLP dikarin bidest bixin encamên van faktorên hawîrdorê ne, û ew dixuye ku ew bi gelemperî ne li gorî mirovê îstîsnayî ne.

Nivîskar diyar dikin:

"Encamên me destnîşan dikin ku bandorên naverokê dikarin tenê ji perwerdekirina veguherînerek mezin derkevin holê da ku zimanê ku ji hêla çanda mirovî ve hatî hilberandin teqlîd bike, bêyî ku van mekanîzmayên hundurîn ên taybetî yên mirovan tev bigere.

'Bi gotineke din, modelên ziman û mirov herdu jî digihêjin van nerînên naverokê – lê ji mîmarî, serpêhatî û armancên perwerdehiyê yên ku xuya dikin pir cûda ne.'

Ji ber vê yekê ew celebek 'perwerdeya înductionê' di ramana pak de pêşniyar dikin, ku heye bûye nîşanî ji bo baştirkirina performansa modela ji bo matematîkê û ramana giştî. Ew wekî din destnîşan dikin ku modelên ziman jî hatine perwerde kirin an jî hatine aheng kirin da ku rêwerzan çêtir bişopînin di astek razber an giştî de, û ji bo verastkirin, rastkirin an debias hilberîna xwe.

* Veguheztina min a navgînên navmalî bo hîpergirêdan.

Yekem di 15-ê Tîrmeha 2022-an de hate weşandin.