Îstîxbaratê ya sûnî

Nifşa Parafraze Bi karanîna Fêrbûna Hêzdarkirina Kûr - Rêberên Ramanê

Demê on December 9, 2022

Dema ku dinivîsin an dipeyivin me hemîyan meraq kir gelo rêyek çêtir heye ku meriv ramanek ji yên din re ragihîne. Divê ez kîjan peyvan bikar bînim? Divê ez ramanê çawa ava bikim? Ma ew ê çawa bersiv bidin? Ba Phrasee, em gelek wext difikirîn li ser ziman – çi kar dike û çi nake.

Bifikirin ku hûn ji bo kampanyayek e-nameyê ku hûn ê ji 10 mîlyon mirovên di navnîşa we de biçin navnîşa mijarê dinivîsin û ji sedî 20-ê erzankirina laptopek nû ya spehî pêşve diçin.

Hûn ê kîjan rêzê hilbijêrin:

Naha hûn dikarin 20% ji siparîşa xweya paşîn zêde bistînin
Amade bibin - 20% erzantir

Dema ku ew heman agahdarî radigihînin, yek rêjeyek vekirî hema hema% 15 ji ya din bilindtir bi dest xist (û ez bet dikim ku hûn nekarin modela me di pêşbîniya kîjanê de bişkînin?). Digel ku ziman bi gelemperî dikare were ceribandin A testkirina / B or bandên pir-çekdar, bixweber çêkirina parafrazan pirsgirêkek lêkolînê ya bi rastî dijwar dimîne.

Ger du hevok heman wateyê parve bikin û bi hev re bêne bikar anîn wekî parafrazên hev têne hesibandin. Tiştek din a girîng a ku pir caran ji ber çavan tê girtin ev e ka hevokek ku ji makîneyê hatî hilberandin herikbar e.

Berevajî fêrbûna çavdêrîkirî, ajanên Fêrbûna Hêzdar (RL) bi danûstendina bi hawîrdora xwe re û temaşekirina xelatên ku di encamê de digirin fêr dibin. Ev cûdahiya hûrgelî ji bo ku algorîtmayan çawa dixebitin û modelan çawa têne perwerde kirin bandorên girseyî hene. Hînbûna Hêza Kûr torên neuralî wekî nêzîkatiyek fonksiyonê bikar tîne da ku destûr bide ajan ku fêr bibe ka meriv çawa di hawîrdorên tevlihev ên wekî Go, Atari, û StarCraft II.

Tevî vê serkeftinê, hînbûna xurtkirinê bi berfirehî li ser pirsgirêkên cîhana rastîn, tevî Pêvajoya Zimanê Xwezayî (NLP) nehatiye sepandin.

Wekî beşek ji min Teza MSc di Zanistiya Daneyê de, em destnîşan dikin ka Deep RL çawa dikare were bikar anîn da ku ji awayên fêrbûna çavdêrîkirî pêşdetir bike di hilberîna parafrazên nivîsa têketinê de bixweber. Pirsgirêka çêkirina parafraza çêtirîn dikare wekî peydakirina rêzika peyvan were dîtin ku hevsengiya semantîkî ya di navbera hevokan de zêde dike û di heman demê de rewanbûna di encamê de diparêze. Nûnerên RL-ê ji bo dîtina koma çêtirîn çalakiyan xweş in ku di hawîrdorên kontrolê de xelata herî zêde ya hêvîdar bi dest bixin.

Berevajî piraniya pirsgirêkan di fêrbûna makîneyê de, pirsgirêka herî mezin di piraniya serîlêdanên Nifşa Zimanê Xwezayî (NLG) de ne di modelkirinê de, lê di nirxandinê de ye. Dema ku nirxandina mirovî niha di nirxandina NLG de standarda zêr tê hesibandin, ew ji dezawantajên girîng dikişîne, di nav de bihabûn, dem-xwer, çespandina dijwar, û nebûna ji nû ve hilberandinê di nav ceribandin û berhevokan de. (Han, 2016). Wekî encamek, lêkolîner demek dirêj li metrîkên otomatîkî yên ku sade, giştîkirî ne û ku dadbariya mirovan nîşan dide digerin. (Papineni et al., 2002).

Rêbazên nirxandina otomatîkî yên herî gelemperî di nirxandina sernavên wêneyê yên ku ji makîneyê têne hilberandin de li jêr bi erênî û neyînîyên wan têne kurt kirin:

Nifşa Parafrase bi karanîna Boriya Fêrbûna Hêzdarkirinê

Me pergalek bi navê ParaPhrasee çêkir ku parafrazên bi kalîteya bilind çêdike. Pergal ji gelek gavan pêk tê da ku fêrbûna bihêzkirinê bi rengek bikêrhatî ya hesabkirinê bicîh bîne. Kurteyek ji xeta boriyê ya asta bilind li jêr tê destnîşan kirin ku bêtir hûrgulî di nav de heye teza.

Dataset

Gelek daneyên parafrazê hene ku di lêkolînê de têne bikar anîn, di nav de: Microsoft Paraphrase corpus, Pêşbaziya Wekheviya Nivîsa Semantîk a ACL, Quora Pirsên Ducarî, û Girêdanên hevpar ên Twitter. Me hilbijartiye MS-COCO ji ber mezinahî, paqijiya wê, û wekî pîvanek ji bo du kaxezên hilberîna parafrazê yên berbiçav têne bikar anîn. MS-COCO 120 hezar wêneyên dîmenên hevpar bi 5 sernavên wêneyê li ser her wêneyek ku ji hêla 5 annotatorên cûda yên mirovî ve hatî peyda kirin vedihewîne.

Digel ku ew di serî de ji bo lêkolîna dîtina komputerê hatî sêwirandin, sernav mêldarê wekheviya semantîkî ya bilind e û parafrazên balkêş in. Ji ber ku sernavên wêneyan ji hêla mirovên cihêreng ve têne peyda kirin, ew mêl dikin ku di dîmenê de hûrguliyên piçûk hebin, ji ber vê yekê hevokên çêkirî mêldarê hûrguliyên halusînasyonê ne.

Modela çavdêrîkirî

Digel ku fêrbûna hêzdarkirinê di warê karbidestiya nimûneyê, demên perwerdehiyê û tevayî pratîkên çêtirîn de pir çêtir bûye, perwerdekirina modelên RL-ê ji sifrê hîn jî bi berbelavî pir hêdî û nestêbar e. (Arulkumaran et al., 2017). Ji ber vê yekê, li şûna ku em ji sifirê perwerde bikin, em pêşî modelek çavdêrîkirî perwerde dikin û dûv re jî bi karanîna RL-ê wê xweş dikin.

Em an bikar tînin Encoder-Dekoder çarçoweya modelê û performansa çend modelên çavdêriya bingehîn binirxînin. Dema ku modela bi karanîna RL-ê baş-saz dikin, em tenê tora dekoderê baş rast dikin û tora şîfrekerê wekî statîk digirin. Bi vî awayî em du çarçoveyên sereke dinirxînin:

Perwerdekirina modela çavdêrîkirî ji nû ve bi karanîna dekoderek şîfrekerek standard/vanilla ya bi GRUs re
Bikaranîna modelên bicîkirina hevokan ên pêşwextkirî yên ji bo şîfrekerê, di nav de: bicîkirina peyvan (GloVe), InferSent, û BERT

Modelên çavdêrîkirî mêl dikin ku di nav modelan de bi BERT û şîfreker-dekodera vanilla re bi rengek wekhev performansa çêtirîn pêk bînin.

Digel ku performansa maqûl e, sê çavkaniyên gelemperî yên xeletiyê hene: stendin, çêkirina perçeyên hevokê û halusînasyon. Ev pirsgirêkên sereke ne ku bi karanîna RL-ê armanc dike ku çareser bike.

Modela Fêrbûna Hêzkirinê

Bicîhanîna algorîtmayên RL pir dijwar e, nemaze dema ku hûn nizanin ka pirsgirêk dikare were çareser kirin. Dibe ku di pêkanîna hawîrdora we de, ajanên we, hîperparametreyên we, fonksiyona xelata we, an tevliheviya hemî jorîn de pirsgirêk hebin! Dema ku hûn RL-ya kûr dikin ev pirsgirêk zêde dibin ji ber ku hûn kêfa tevliheviya lêzêdekirî digirin debugging torên neuralî.

Mîna hemî debugging, ew pir girîng e sade dest pê bike. Me guhertoyên du hawîrdorên RL-ya pêlîstokan (CartPole û FrozenLake) yên ku baş têne fêm kirin bicîh anîn da ku algorîtmayên RL ceribandin û stratejiyek dubarekirî bibînin ji bo veguheztina zanînê ji modela çavdêrîkirî.

Me dît ku bi karanîna an Algorîtmaya Lîstikvan-Rexnegir di van hawîrdoran de REINFORCE bi pêş ve çû. Di warê veguheztina zanînê bo modela lîstikvan-rexnegir de, me dît ku destpêkirina giraniyên lîstikvan bi modela çavdêrîkirî ya perwerdekirî û pêş-perwerdekirina rexnegir performansa çêtirîn bi dest xist. Me dijwar dît ku meriv nêzîkatiyên distilasyonê yên polîtîk ên sofîstîke li hawîrdorên nû giştî bike ji ber ku ew gelek hîperparametreyên nû yên ku ji bo xebatê pêdivî bi ahengkirinê dikin destnîşan dikin.

Piştgiriya van têgihiştinan, em dûv re berê xwe didin pêşvebirina nêzîkatiyek ji bo peywira hilberîna parafrazê. Pêşî divê em jîngehekê ava bikin.

Jîngeh dihêle ku em bi hêsanî bandora karanîna metrîkên nirxandina cihêreng wekî fonksiyonên xelatê biceribînin.

Dûv re em ajanê diyar dikin, ji ber gelek avantajên wê em mîmariya lîstikvan-rexnegir bikar tînin. Lîstik ji bo hilbijartina peyva paşîn di rêzikê de tê bikar anîn û giraniya wê bi karanîna modela çavdêrîkirî dest pê dike. Rexnegir texmînek xelata bendewar a ku dewletek werdigire ji bo fêrbûna lîstikvan peyda dike.

Sêwirana Fonksiyona Xelatê ya Rast

Beşa herî girîng a sêwirana pergalek RL fonksiyona xelatê ye ji ber ku ev tiştê ku nûnerê RL hewl dide xweşbîn e. Ger fonksiyona xelatê xelet be, wê hingê encam dê zirarê bibîne her çend perçeyek din a pergalê bixebite!

Mînaka vê ya klasîk e CoastRunners li cihê ku lêkolînerên OpenAI-ê fonksiyona xelatê wekî mezinkirina jimareya giştî li şûna serketina pêşbaziyê destnîşan dikin. Encama vê yekê ev e ku ajan xelekek vedît ku ew dikare bi lêdana turboyan bêyî ku pêşbirkê biqedîne pileya herî bilind bistîne.

Ji ber ku nirxandina qalîteya parafrazan bixwe pirsgirêkek neçareser e, sêwirana fonksiyonek xelatê ya ku bixweber vê armancê digire hîn dijwartir e. Piraniya aliyên ziman bi awayekî xweş di metrîkên rêzimanî de naqedin û bi peywirê ve girêdayî ne (Novikova et al., 2017).

Nûnerê RL bi gelemperî stratejiyek balkêş kifş dike da ku xelatan zêde bike ku qelsiyên di metrîka nirxandinê de bikar tîne li şûna ku nivîsek kalîteya bilind çêbike. Ev dibe sedema performansa xirab a li ser metrîkên ku ajan rasterast xweşbîn nake.

Em sê rêbazên sereke dinirxînin:

Peyv-lihevhatina Metrics

Metrîkên nirxandina NLP-ya hevpar rêjeya hevgirtina peyvan di navbera parafraza hatî çêkirin û hevoka nirxandinê de dihesibînin. Hevgirtin çiqas mezin be xelat jî mezintir dibe. Pirsgirêka nêzîkatiyên di asta peyvan de ev e ku ajan gelek peyvên girêdanê yên wekî "a ye li ser" vedihewîne û pîvana herikbariyê tune. Ev dibe sedema parafrazên pir kêm-kalîteyê.

Metrîkên Wekhevî û Fluency-asta Hevokê

Taybetmendiyên sereke yên parafraza çêkirî ev e ku ew pêdivî ye ku ew bi hevoka têketinê re herikbar û semantîk be. Ji ber vê yekê, em hewl didin ku bi eşkere van kesane binirxînin û dûv re metrîkan berhev bikin. Ji bo wekheviya semantîkî, em wekheviya kosînusê di navbera bicîkirina hevokan de ji modelên pêşdibistanê, tevî BERT, bikar tînin. Ji bo rewabûnê, em xalek li ser bingeha tevliheviya hevokek ji GPT-2 bikar tînin. Çiqas ku hevsengiya kosînûs û rewanbêjiyê mezintir be xelat jî mezintir dibe.

Me gelek berhevokên cûrbecûr ên modelên binavkirina hevokan û modelên rewangehê ceriband û her çend performansa maqûl bû, pirsgirêka sereke ya ku ajan pê re rû bi rû ma ew bû ku bi têra xwe hevsengiya semantîkî bi rewanbêjiyê re têrê nake. Ji bo piraniya veavakirinan, ajans pêşanî fêkiyê da ku di encamê de hûrgulî tê rakirin û piraniya saziyan "di nîvê" tiştek de têne danîn an "li ser maseyê" an "aliyê rê" têne guheztin.

Fêrbûna bihêzkirina pir-armanc pirsek lêkolînek vekirî ye û di vê rewşê de pir dijwar e.

Bikaranîna Modelek Dijber wekî Fonksiyona Xelatkirinê

Ji ber ku mirov di nirxandinê de standarda zêr têne hesibandin, em modelek cihêreng bi navê cihêkar perwerde dikin da ku pêşbîn bike ka du hevok parafrazên hev in an na (wek awayê ku mirovek dinirxîne). Armanca modela RL ew e ku vê modelê qanih bike ku hevoka hatî çêkirin parafraza têketinê ye. Cûdakar jimarek çêdike ku çiqasî îhtîmal e ku her du hevok parafrazên hevûdu bin ku wekî xelata perwerdekirina ajanê tê bikar anîn.

Her 5,000 texmînan ji ferqker re tê gotin ku kîjan parafraz ji databasê hatî û kîjan hatî çêkirin da ku ew bikaribe texmînên xwe yên pêşerojê baştir bike. Pêvajo çend geran berdewam dike digel ku ajan hewl dide ku cihêkar bixapîne û cihêkar hewl dide ku di navbera parafrazên hatî çêkirin û parafrazên nirxandinê yên ji berhevokê de cûda bike.

Piştî çend qonaxên perwerdehiyê, ajan parafrazên ku ji modelên çavdêrîkirî û fonksiyonên din ên xelatê derdixin diafirîne.

Encam û Sînorkirin

Nêzîktêdayînên dijber (tevî xwe-lîstina lîstikan) ji bo perwerdekirina algorîtmayên RL-yê nêzîkatiyek zehf sozdar peyda dikin ku ji performansa asta mirovî li ser hin karan bêyî diyarkirina fonksiyonek xelata eşkere.

Dema ku RL karîbû di vê nimûneyê de ji fêrbûna çavdêrîkirî derbikeve, mîqdara sermaya zêde di warê kod, hesabkirin û tevliheviyê de ne hêjayî qezenca performansê ye ji bo pir serlêdanan. RL çêtirîn ji rewşên ku fêrbûna çavdêrîkirî nekare bi hêsanî were sepandin tê hiştin, û fonksiyonek xelatê hêsan e ku meriv pênase bike (wek lîstikên Atari). Nêzîkatî û algorîtma di fêrbûna çavdêriyê de pir mazintir in û nîşana xeletiyê pir bihêztir e ku di encamê de perwerdehiyek pir zûtir û aramtir dibe.

Nêrînek din ev e, wekî nêzîkatiyên neuralî yên din, ku ajan dikare di rewşên ku têketin ji têketinên ku berê dîtiye cihêreng be, ajan dikare pir dramatîk têk bibe, ji bo sepanên hilberînê pêvekek din a kontrolên aqil hewce dike.

Teqîna berjewendiyê di nêzîkatiyên RL û pêşkeftinên di binesaziya hesabkerî de di van çend salên dawî de dê derfetên mezin ji bo sepandina RL di pîşesaziyê de, nemaze di nav NLP de, vebike.

Up Next

Ewlehiya Otomobîlên Xwe-Ajovan Bi Rêbaza Perwerdehiya Nû Baştir bû

Ma Miss

Lekolînwan bawer dikin ku AI dikare ji bo parastina nepeniya mirovan were bikar anîn

Andrew Gibbs-Bravo

Andrew Gibbs-Bravo Zanyarê Daneyê ye Phrasee balê dikişîne ser baştirkirina teknolojiyê li pişt Kopînivîsa AI-Powered a pêşeng a cîhanê ya Phrasee. Ew di heman demê de hev-organîzatorê Civîna Civaka Fêrbûna Hêzdar a Londonê ye û bi her tiştî RL, NLP, û fêrbûna makîneyê re eleqedar e.