stub Faaqida Jiilka Isticmaalka Barashada Xoojinta Qoto dheer - Hogaamiyaasha Fikirka ah - Unite.AI
Connect nala

Sirdoonka Artificial

Faaqida Jiilka Isticmaalka Barashada Xoojinta Qoto dheer - Hogaamiyaasha Fikirka ah

mm
Updated on

Marka aan qorayno ama hadlayno waxaan dhammaanteen is weydiinnay haddii ay jirto hab ka wanaagsan oo fikradda dadka kale lagula xiriiro. Kelmadee ayaan isticmaalaa? Sideen u qaabeeyaa fikirka? Sidee bay u badan tahay inay uga jawaabaan? Marka Tixraac, waxaan ku bixinaa waqti badan ka fikirida luqadda - waxa shaqeeya iyo waxa aan shaqayn.

Bal qiyaas inaad u qorayso mawduuca mawduuca ololaha iimaylka kaas oo tagi doona 10 milyan oo qof oo ku jira liiskaaga oo xayeysiinaya 20% laptop cusub oo qurxoon.

Sadarkee ayaad dooran lahayd:

  • Waxaad hadda ka qaadi kartaa 20% dheeraad ah dalabkaaga xiga
  • Diyaarso - 20% dheeraad ah

In kasta oo ay gudbinayaan isla macluumaad isku mid ah, mid ayaa helay ku dhawaad ​​15% heerka furan ee ka sarreeya kan kale (oo waxaan ku sharadiyay inaadan ka badin karin moodelkeena marka la saadaaliyo midka?). Halka luqadda inta badan lagu tijaabin karo A / B imtixaanka or burcad hubaysan oo badan, si toos ah u soo saarida ereyada ayaa weli ah dhibaato cilmi baaris oo aad u adag.

Laba jumladood ayaa loo tixgaliyaa inay midba midka kale u ekaanayaan haddii ay wadaagaan macno isku mid ah oo loo adeegsan karo si isku mid ah. Waxyaabo kale oo muhiim ah oo inta badan loo qaato si fudud ayaa ah in jumlada mishiinku ay si fiican u shaqeyso.

Si ka duwan waxbarashada la kormeero, wakiillada Xoojinta Barashada (RL) waxay wax ku bartaan iyagoo la falgalaya deegaankooda iyo fiirsashada abaal-marinnada ay helaan natiijada. Kala duwanaanshiyahan yara nuanceed ayaa saameyn weyn ku leh sida algorithms-yadu u shaqeeyaan iyo sida moodooyinka loo tababaray. Barashada xoojinta qoto dheer adeegsada shabakadaha neerfaha sida shaqada qiyaasaha si ay ugu oggolaato wakiilka inuu barto sida looga hormariyo bini'aadamka deegaan adag sida Go, Atari, iyo StarCraft II.

Inkastoo guushaas jirto, xoojinta barashada si weyn looguma dabaqin dhibaatooyinka dhabta ah ee aduunka oo ay ku jiraan Habaynta Luuqada Dabiiciga ah (NLP).

Sida qayb ka mid ah Shahaadada MSc ee Sayniska Xogta, waxaan ku tusineynaa sida Deep RL loogu isticmaali karo in lagu wanajiyo hababka wax barasho ee la kormeero iyadoo si toos ah loo soo saarayo jumladaha qoraalka la geliyo. Dhibaatada abuuritaanka odhaahda ugu wanagsan waxa loo eegi karaa in lahelo ereyada taxana ah taas oo kordhinaysa isku ekaanshaha micnaha ee jumladaha iyada oo la ilaalinayo faseexnimada wax soo saarka. Wakiilada RL waxay si fiican ugu habboon yihiin helitaanka ficillada ugu fiican si loo gaaro abaalmarinta ugu badan ee la filayo ee deegaanka xakamaynta.

Si ka duwan dhibaatooyinka ugu badan ee barashada mashiinka, dhibaatada ugu weyn ee inta badan codsiyada Jiilka Dabiiciga ah (NLG) kuma jiraan qaabaynta ee halkii qiimaynta. Iyadoo qiimeynta bini'aadamka hadda loo tixgaliyo heerka dahabka ee qiimeynta NLG, waxay la ildaran tahay faa'iidooyin la taaban karo oo ay ka mid yihiin qaali, waqti-qaadasho, caqabad ku ah hagaajinta, iyo soo saarid la'aanta tijaabooyinka iyo xog-ururinta (Haan, 2016). Natiijo ahaan, cilmi-baarayaashu waxay muddo dheer raadinayeen cabbirro otomaatig ah kuwaas oo ah kuwo fudud, guud ahaan, oo ka tarjumaya xukunka aadanaha (Papineni iyo al., 2002).

Hababka qiimaynta tooska ah ee ugu caansan ee lagu qiimaynayo qoraallada sawirka ee mashiinka ayaa lagu soo koobay hoos iyaga oo wata faa'iidooyinkooda iyo khasaarahooda:

Faaqida Jiilka adoo isticmaalaya Dhuumaha Waxbarashada Xoojinta

Waxaan sameynay nidaam lagu magacaabo ParaPhrasee kaas oo soo saara jumlado tayo sare leh. Nidaamku wuxuu ka kooban yahay tillaabooyin badan si loogu dabaqo barashada xoojinta hab xisaabeed hufan. Soo koobid kooban oo ku saabsan dhuumaha heerka sare ah ayaa hoos lagu muujiyay iyadoo tafatiran ay ku jirto ra'yigaa.

Dataset

Waxa jira dhawr qoraal oo qoraal ah oo la heli karo kuwaas oo loo isticmaalo cilmi-baadhista oo ay ku jiraan: Microsoft Paraphrase corpus, Tartan la mid ah qoraalka Semantic ACL, Su'aalaha Kooban ee Quora, Iyo Xidhiidhada La Wadaago ee Twitter. Waanu dooranay MS-COCO marka la eego cabbirkeeda, nadaafaddeeda, iyo u adeegsigeeda halbeeg ahaan laba waraaqood oo farriimaha qoraalka ah oo xusid mudan. MS-COCO waxa uu ka kooban yahay 120k sawiro muuqaalo caadi ah oo wata 5 qoraalo sawir sawirkiiba oo ay bixiyeen 5 qof oo kala duwan

Iyadoo ugu horrayn loogu talagalay cilmi-baarista aragga kumbuyuutarka, qoraallada waxay u muuqdaan inay leeyihiin isku ekaanshaha semantic oo sarreeya waxayna yihiin weedho xiiso leh. Marka la eego qoraallada sawirka waxaa bixiya dad kala duwan waxay u muuqdaan inay leeyihiin kala duwanaansho yar oo faahfaahsan oo lagu bixiyo goobta sidaa darteed weedhaha la soo saaray waxay u muuqdaan inay iftiiminayaan faahfaahinta.

Model la kormeero

Halka barashada xoojinta ay si aad ah u horumartay marka la eego hufnaanta muunada, waqtiyada tababarka, iyo guud ahaan dhaqamada ugu wanagsan, tababarida moodooyinka RL ee xoqan ayaa wali is barbar dhig aad u gaabis ah oo aan degganayn. (Arulkumaran et al., 2017). Sidaa darteed, halkii aan ka tabobar lahayn meel eber ah, waxaan marka hore tababarnaa moodal la kormeeray ka dibna si fiican u habeynay annaga oo adeegsanayna RL.

Waxaan isticmaalnaa a Codeeyaha-Decoder qaab dhismeedka oo qiimee waxqabadka dhowr nooc oo aasaasi ah oo la kormeero. Marka la hagaajiyo qaabka iyadoo la isticmaalayo RL, kaliya waxaan hagaajineynaa shabakada qalabka wax lagu dhejiyo oo waxaan ula dhaqmeynaa shabakada encoder sida mid taagan. Sidan oo kale waxaan tixgelineynaa laba qaab-dhismeedka muhiimka ah:

  • Tababarka moodeelka la kormeero ee xoqan iyadoo la isticmaalayo koodheriyaha caadiga/vanilla ee leh GRUs
  • Isticmaalka moodooyinka dhejinta jumlada hore loo tababaray ee cod-bixiyaha oo ay ku jiraan: Ku-xidhka ereyada la isku daray (GloVe), InferSent, iyo BERT

Moodooyinka la kormeero waxay u janjeeraan inay si isku mid ah u fuliyaan dhammaan moodooyinka leh BERT iyo koodhka-dejiyaha vaniljka oo gaadhaya waxqabadka ugu fiican.

Iyadoo waxqabadku u janjeero inuu noqdo mid macquul ah, waxaa jira saddex ilood oo caadi ah oo khaladaad ah: aflagaado, abuurista jajab jumlad, iyo dhalanteed. Kuwani waa dhibaatooyinka ugu waaweyn ee isticmaalka RL uu doonayo inuu xalliyo.

Qaabka Waxbarashada Xoojinta

Hirgelinta algorithms RL waa mid aad u dhib badan gaar ahaan marka aadan ogeyn in dhibaatada la xallin karo. Waxaa jiri kara dhibaatooyin xagga hirgelinta deegaankaaga, wakiiladaada, hyperparameterskaaga, shaqadaada abaal-marinaha, ama isku darka dhammaan kuwan kor ku xusan! Dhibaatooyinkan ayaa ka sii daraya markaad samaynayso RL qoto dheer markaad hesho madadaalo kakanaanta dheeraadka ah ee khaladka shabakadaha neerfaha.

Sida dhammaan cilladaha, waxaa muhiim u ah ku bilow fudud. Waxaan hirgelinay kala duwanaansho laba deegaan oo RL ah oo si fiican loo fahmay (CartPole iyo FrozenLake) si loo tijaabiyo algorithms RL oo aan u helno istaraatiijiyad lagu celin karo oo lagu wareejinayo aqoonta qaabka la kormeero.

Waxaan ogaanay in la isticmaalayo a Jilaa-Critic algorithm oo ka fiicnaaday DIIWAANKA ee deegaannadan. Marka la eego u wareejinta aqoonta qaabka jilaa- naqdiye , waxaan ogaanay in ku bilaabashada miisaanka jilaha iyada oo la raacayo qaabka korjoogteynta loo tababaray iyo ka horu marinta dhaleeceynta ay gaartay waxqabadka ugu fiican. Waxaan ku aragnay inay adag tahay in la soo koobo hababka qalafsan ee siyaasadda ee jawi cusub maadaama ay soo bandhigayaan cabbirro badan oo cusub oo u baahan hagaajin si ay u shaqeeyaan.

Annaga oo ay taageerayaan fikradahan, waxaan markaas u jeesanaynaa horumarinta hab loogu talagalay hawsha abuuritaanka ereyada. Marka hore waxaan u baahanahay inaan abuurno deegaan.

Deegaanku wuxuu noo ogolaanayaa inaan si fudud u tijaabino saameynta isticmaalka cabbirada qiimeynta kala duwan sida shaqooyinka abaal-marineed.

Waxaan markaa qeexeynaa wakiilka, marka loo eego faa'iidooyinkeeda badan waxaan isticmaalnaa qaab-dhismeedka jilaa- naqdiya. Jilaaga waxaa loo isticmaalaa in lagu xusho kelmadda xigta ee isku xigta oo miisaankiisa la bilaabay iyadoo la isticmaalayo qaabka la kormeerayo. Dhaliiluhu wuxuu bixiyaa qiyaasta abaalmarinta la filayo ee gobolku ay u badan tahay inuu helo si uu u caawiyo jilaaga inuu barto.

Dejinta Shaqada Abaalmarinta Saxda ah

Qaybta ugu muhiimsan ee qaabaynta nidaamka RL waa shaqada abaal-marintu maadaama ay tani tahay waxa wakiilka RL uu isku dayayo inuu hagaajiyo. Haddii shaqada abaalgudka ay khaldan tahay, markaa natiijadu way dhibi doontaa xitaa haddii qayb kasta oo ka mid ah nidaamka uu shaqeeyo!

Tusaalaha caadiga ah ee tani waa Orodyahannada Xeebta halkaas oo cilmi-baarayaasha OpenAI ay dejiyeen shaqada abaal-marintu iyadoo la kordhinayo wadarta guud halkii ay ku guuleysan lahaayeen tartanka. Natiijada tani waa wakiilku wuxuu helay wareeg ah halkaasoo uu ku heli karo dhibcaha ugu sarreeya isagoo garaacaya turbo isagoon waligiis dhamaystirin tartanka.

Marka la eego qiimeynta tayada ereyada lafteeda waa dhibaato aan la xalin, qaabeynta shaqo abaal-marineed oo si toos ah u qabata ujeedadan way ka sii adag tahay. Inta badan qaybaha luqaddu si fiican uguma kala baxaan cabbirada toosan oo waxay ku xidhan yihiin hawsha (Novicova iyo al., 2017).

Wakiilka RL wuxuu inta badan daaha ka qaadaa istaraatijiyad xiiso leh si loo kordhiyo abaalmarinta taasoo ka faa'iidaysanaysa daciifnimada mitirka qiimaynta halkii ay ka soo saari lahayd qoraal tayo sare leh. Tani waxay u janjeertaa inay dhaliso waxqabad liidata ee cabbiraadaha kaas oo wakiilku aanu si toos ah u wanaajinaynin.

Waxaan tixgelineynaa saddex waji oo waaweyn:

  1. Halbeegyada isku dhafka kelmad

Halbeegyada qiimeynta NLP ee caadiga ah waxay tixgeliyaan saamiga kelmado isku-dhafan ee u dhexeeya weedha la soo saaray iyo jumlada qiimaynta. Markasta oo ay is-dul-saar weyn tahay ayaa abaal-marintu ka weyn tahay. Caqabada leh hababka heerka kelmad waa wakiilka waxaa ku jira erayo badan oo isku xira sida "a waa daaran yahay" mana jirto wax qiyaas ah oo faseexatin ah. Tani waxay keenaysaa hal-ku-dhigyo tayadoodu aad u hoosayso.

  1. Isku ekaanshaha heerka jumlada iyo cabbirada faseexnimada

Astaamaha ugu muhiimsan ee weedha la soo saaray ayaa ah in ay tahay in uu si faseexa u ahaado oo macne ahaan la mid yahay jumlada gelinta. Sidaa darteed, waxaan isku dayeynaa inaan si cad u dhalino kuwan si gaar ah ka dibna aan isku geyno cabbirada. Isku ekaanshaha semantic, waxaanu isticmaalnaa isku midka ah cosine ee u dhexeeya jumladaha gundhigga ee moodooyinka horay loo tababaray oo ay ku jiraan BERT. Fasiixnimada, waxaan isticmaalnaa dhibco ku saleysan jahwareerka jumlada GPT-2. Markasta oo ay weynaadaan isku ekaanshaha cosine iyo buundooyinka faseexnimada ayaa sii weynaada abaalmarinta.

Waxaan isku daynay noocyo badan oo kala duwan oo isku dhafan oo ah moodooyinka dhejinta jumlada iyo moodooyinka faseexnimada iyo in kasta oo wax qabadku uu ahaa mid macquul ah, arrinta ugu weyn ee wakiilku wajahay ma ahayn mid si ku filan isugu dheellitiraya isku ekaanshaha semantiga iyo faseexnimada. Inta badan qaabaynta, wakiilku waxa uu mudnaan siiyay faseexnimada taasoo keentay in meesha laga saaro tafaasiisha iyo inta badan hay'adaha la dhigo "dhexda" wax ama la raro "miis" ama "dhinaca wadada".

Barashada xoojinta ujeedooyinka badan waa su'aal cilmi-baaris oo furan waana arrin aad u adag kiiskan.

  1. Isticmaalka Qaabka Adversarial sida Shaqo abaal-marineed

Marka la eego bini'aadamka waxaa loo tixgaliyaa heerka dahabka ee qiimeynta, waxaan tababarnaa nooc gaar ah oo loo yaqaan takoorka si loo saadaaliyo in laba jumladood ay yihiin hal-ku-dhigyo midba midka kale iyo in kale (oo la mid ah habka uu bini'aadamku u qiimeyn lahaa). Hadafka qaabka RL ayaa markaa ah in lagu qanciyo qaabkan in weedha la soo saaray ay tahay qayb ka mid ah gelinta. Takooruhu waxa uu abuuraa dhibco ah sida ay ugu dhawdahay in labada jumladood ay midba midka kale u ekaysiiyaan taas oo loo isticmaalo abaalmarinta si loo tababaro wakiilka.

5,000 kasta waxay qiyaasaan takooraha ayaa loo sheegaa keeba erey-bixintu ka timid xog-ururinta iyo ka la sameeyay si ay u wanaajiso malo awaalkeeda mustaqbalka. Nidaamku wuxuu sii socdaa dhowr wareeg oo wakiilku isku dayayo inuu nacasyo takooraha iyo takooraha isku dayaya inuu kala saaro ereyada la sameeyay iyo ereyada qiimaynta ee xogta.

Dhawr wareeg oo tababar ah ka dib, wakiilku waxa uu abuuraa weedho ka sarreeya moodooyinka la kormeero iyo shaqooyinka kale ee abaal-marinta.

Gabagabo iyo Xaddid

Hababka iska soo horjeeda (oo ay ku jiraan is-ciyaarista ciyaaraha) waxay bixiyaan hab aad u rajo badan oo loogu talagalay tababbarka algorithms RL si ay uga sarreeyaan waxqabadka heerka aadanaha ee hawlaha qaarkood iyada oo aan la qeexin shaqada abaal-marineed ee cad.

Halka RL uu awooday in uu ka sare maro waxbarashada la kormeerayo tusaale ahaan, qadarka dheeraadka ah ee dheeraadka ah ee koodka, xisaabinta, iyo kakanaanta maaha mid u qalma faa'iidada waxqabadka ee codsiyada badankooda. RL waxaa ugu wanaagsan in loo daayo xaaladaha waxbarashada la kormeero aan si fudud loo adeegsan karin, iyo shaqada abaalgudka waa ay fududahay in la qeexo (sida ciyaaraha Atari). Hababka iyo algorithmsyadu aad bay ugu bisil yihiin waxbarashada la kormeerayo iyo calaamadda khaladku aad bay u xoog badan tahay taas oo keenta tababar aad u degdeg badan oo deggan.

Tixgelin kale ayaa ah, sida hababka kale ee neerfayaasha, in wakiilku uu si aad ah ugu guul darreyn karo xaaladaha ay gelinta ka duwan tahay agabkii ay hore u aragtay, oo u baahan lakab dheeraad ah oo hubinta fayodhowrka codsiyada wax soo saarka.

Qarixii xiisaha leh ee hababka RL iyo horumarka kaabayaasha xisaabinta ee dhowrkii sano ee la soo dhaafay waxay furi doonaan fursado waaweyn oo lagu codsanayo RL warshadaha, gaar ahaan gudaha NLP.

Andrew Gibbs-Bravo waa saynisyahan xogeed ka tirsan Tixraac diiradda saaraya horumarinta tignoolajiyada ka danbaysa Copy-qorista ku-xooggan ee AI-Powered ee horseedka ka ah Phrasee. Isagu sidoo kale waa wada-abaabulaha kulanka Xoojinta Learning Community Meetup ee London wuxuuna xiiseeyaa wax walba RL, NLP, iyo barashada mashiinka.