stub Waa maxay sababta luqadda taariikhiga ahi ay caqabad ugu tahay sirdoonka macmal - Unite.AI
Connect nala

Sirdoonka Artificial

Waa maxay sababta luqadda taariikhiga ah ay caqabad ugu tahay sirdoonka macmal ah

mm
Updated on

Mid ka mid ah caqabadaha udub dhexaad u ah nidaamyada Habaynta Luuqadda Dabiiciga ah (NLP) waa in laga soo saaro fikrado lagama maarmaanka ah noocyo badan oo qoraal ah. Ilaha wax ku biirinta xogta tababarka ee algorithm cusub ee NLP waxay noqon kartaa mid luqad ahaan u kala duwan sida Twitter, wargeysyada waaweyn, iyo joornaalada sayniska, oo leh dhammaan rafcaannada rafcaanka ee u gaar ah mid kasta oo ka mid ah ilahaas.

In kiisaska badankood, taasi waa Ingiriis kaliya; taasina waxa loogu talagalay ilaha qoraalka ee hadda ama kuwa dhow. Marka NLP algorithm ay tahay inuu tixgeliyo walxo ka yimid xilliyo badan, waxay caadi ahaan ku dhibtoonaysaa dib-u-heshiisiinta siyaabo aad u kala duwan in ay dadku ku hadlaan ama wax ka qoraan guud ahaan bulshooyinka qaranka iyo jufooyinka, iyo gaar ahaan xilliyo kala duwan oo taariikhda ah.

Haddana, adeegsiga xogta qoraalka (sida daawayn taariikheed iyo shuqullo saynis ah oo la ixtiraami karo) ee soo taxnaa waayihii waa hab wax ku ool ah oo soo saari kara kormeer taariikhi ah oo mawduuc ah, iyo samaynta dib-u-dhiska wakhtiga tirakoobka ee ka horreeyay qaadashada iyo dayactirka qiyaasaha domainka.

Tusaale ahaan, macluumaadka cimilada ee wax ka taraya isbeddelka cimilada moodooyinka AI ee saadaalinta isbeddelka cimilada si ku filan looguma diiwaangelin adduunka oo dhan illaa 1880, halka xogta-macdan qoraalada qadiimiga ah waxay bixisaa diiwaano hore dhacdooyinka waaweyn ee saadaasha hawada oo laga yaabo inay waxtar u yeeshaan bixinta xogta cimilada ka hor Victoria.

Khalad ku meel gaadh ah

A warqad cusub oo ka socda Jaamacadda Washington iyo Machadka Allen ee AI waxay ogaadeen in xitaa muddada gaaban ee shanta sano ay keeni karto habacsanaan ku meel gaar ah taas oo meesha ka saari karta faa'iidada qaabka NLP ee horay loo tababaray.

Xaaladaha oo dhan, buundooyinka sare ayaa ka wanaagsan. Halkan waxaan ku aragnaa khariidadda kulaylka ee xaalufka ku meel gaadhka ah ee ka kooban afar mayd oo agab qoraal ah oo soconaya muddo shan sano ah. Is-waafajinta noocan oo kale ah ee udhaxeysa xogta tababarka iyo qiimeynta, sida laga soo xigtay qorayaasha warqadda cusub, waxay keeni kartaa 'hoos u dhac weyn'. Xigasho: https://arxiv.org/pdf/2111.07408.pdf

Xaaladaha oo dhan, buundooyinka sare ayaa ka wanaagsan. Halkan waxaan ku aragnaa khariidadda kulaylka ee xaalufka ku meel gaadhka ah ee afarta qaybood ee qoraalka ah ee muddada shanta sano ah. Is-waafajinta noocan oo kale ah ee udhaxeysa xogta tababarka iyo qiimeynta, sida laga soo xigtay qorayaasha warqadda cusub, waxay keeni kartaa 'hoos u dhac weyn'. Xigasho: https://arxiv.org/pdf/2111.07408.pdf

Wargeysku wuxuu leeyahay:

"Waxaan ogaanay in is-waafajinta ku meel gaadhka ahi ay saamayso guud ahaan qaabka luqadda iyo waxqabadka hawsha labadaba. Waxaan ka helnaa kala duwanaansho la'aan xagga hoos u dhaca guud ahaan qaybaha qoraalka iyo hawlaha. In ka badan 5 sano, dhibcaha F1 ee kala soocida waxay ka xumaan karaan ilaa 40 dhibcood (xidhiidhka siyaasadeed ee Twitterka) ama in ka yar 1 dhibcood (qiimaynta dib u eegista Yelp). Laba hawlood oo kala duwan oo lagu qeexay isku goob ayaa muujin kara heerar kala duwan oo hoos u dhac ah muddo ka dib.'

Kala-bax aan sinnayn

Dhibaatada udub dhexaad u ah ayaa ah in xogta tababarka guud ahaan loo kala qaybiyo laba kooxood, marmarka qaarkood 80/20 oo aan dheeli tirnayn, taas oo ay ugu wacan tahay helitaanka xogta xaddidan. Kooxda weyn ee xogta waxaa lagu tababaray shabakad neerfaha, halka xogta soo hartay loo isticmaalo sidii koox xakameyn ah si loo tijaabiyo saxnaanta algorithm ee natiijada.

Xog ururin isku dhafan oo ay ku jiraan walxo soconaya dhowr sano, sinnaan qaybin xogta waqtiyo kala duwan waxay la macno tahay in xogta qiimayntu ay si aan caadi ahayn uga kooban tahay walxo hal xilli gaar ah.

Tani waxay u horseedi doontaa inay noqoto goob tijaabo ah oo liidata oo loogu talagalay moodeel lagu tababaray noocyo badan oo kala duwan oo xilliyo ah (tusaale in badan oo ka mid ah dhammaan xogta la hayo). Dhaqan ahaan, iyada oo ku xidhan haddii xogta qiimaynta laga tirada badan yahay ay ka badan tahay inay ka tarjumayso walxo cusub ama ka weyn, waxay la mid tahay inaad awoowgaa waydiiso inuu qiimeeyo sanamyadii ugu dambeeyay ee K-Pop.

Hawsha dheer ayaa noqon doonta in lagu tababaro noocyo badan oo xog-ururin ah oo waqti xaddidan ah, iyo in la isku dayo in la ururiyo sifooyin ku habboon natiijooyinka nooc kasta. Si kastaba ha ahaatee, model random bilowga dhaqamada kali ah waxay la macno tahay in habkani uu wajahayo dhibaatooyinkeeda gaarka ah si loo gaaro sinnaanta moodeelka iyo sinnaanta - xitaa ka hor inta aan la eegin in xogta wax ku biirinta badan ay si ku filan isku mid yihiin si ay tijaabada uga dhigaan mid macno leh.

Xogta iyo Tababarka

Si loo qiimeeyo khalkhalka ku meel gaadhka ah, qorayaashu waxay tababareen afar qoraal oo afar qaybood ah:

Twitter
…halkaas oo ay ku ururiyeen xog aan summad lahayn iyaga oo soo saaraya 12 milyan oo tweets oo aan kala sooc lahayn oo si isku mid ah u faafay intii u dhaxaysay 2015-2020, halkaas oo ay qorayaashu ku barteen hay'ado la magacaabay (sida dadka iyo ururada) iyo xidhiidhada siyaasadeed.

Maqaallo Cilmiyeed
…halkaas oo qorayaashu ay ka heleen xog aan la calaamadin Semantic Scholar corpus, oo ka kooban 650,000 oo dukumeenti ah oo soconaya muddo 30 sano ah, oo ay ku barteen sheegista noocaSciERC) iyo kala soocida goobta AI (AIC, taas oo kala saarta haddii warqad lagu daabacay AAAI or ICML).

Qodobbada Wararka
…halkaas oo ay qorayaashu isticmaaleen sagaal milyan oo maqaallo ah Xogta Qolka Wararka oo socday muddo 2009-2016, kuwaas oo ay qabteen saddex hawlood: soo koobida qolka wararka, kala soocidda daabacaha iyo Kala-saarista Warbaahineed (MFC), taas oo hawsha dambe eegi doonta mudnaanta la dareemayo ee mawduucyada kala duwan ee soo saarista wararka.

Reviews cuntada
...halka ay cilmi-baarayaashu u isticmaaleen Yelp Open Dataset hal shaqo: dib u eegis qiimaynta (YELCLS), caqabadda falanqaynta dareenka dhaqameed ee caadiga ah ee cilmi-baarista NLP ee qaybtan.

Natiijooyinka

Moodooyinka ayaa lagu qiimeeyay GPT-2, oo leh natiijooyin kala duwan Dhibcaha F1. Qorayaashu waxay ogaadeen in luminta waxqabadka ee ku-meel-gaadhka ah ee ku-meel-gaadhka ah ay tahay laba-jiho, taasoo la micno ah in moodooyinka lagu tababaray xogtii dhowayd ay si xun u saamayn karaan saamaynta xogta hore, iyo beddelkeeda (eeg sawirka bilowga maqaalka garaafyada). Qorayaashu waxay xuseen in tani ay saameyn gaar ah ku leedahay codsiyada cilmiga bulshada.

Guud ahaan, natiijadu waxay tusinaysaa in habacsanaanta ku meel gaadhka ahi ay hoos u dhigto lumitaanka waxqabadka 'si la taaban karo', oo ay saamayn ballaadhan ku leedahay hawlaha intooda badan. Xog-ururinta oo daboola waqtiyo aad u dheer, sida tobanaan sano, ayaa si dabiici ah uga sii dara dhibaatada.

Qorayaashu waxay si dheeraad ah u eegeen in ku-meel-gaadhka khaldan ee ku-meel-gaadhka ahi uu sidoo kale saameeyo la calaamadeeyay iyo sidoo kale xogta tababarka kahor ee aan calaamadda lahayn. Intaa waxaa dheer, isku dayga ay ku yareynayaan saameynta iyada oo loo marayo la qabsiga domainka (hoos eeg) si weyn umay wanaajin xaaladda, in kasta oo ay sheegaan in hagaajinta xogta xogta ku jirta xogta ay caawin karto ilaa xad.

Ugu Dambeyn

Cilmi-baadhayaashu waxay xaqiijinayaan natiijooyin hore oo hore loo soo jeediyay oo daaweyn ah oo ku lug leh la qabsiga domain (DAPT, halkaas oo gunnada loo sameeyay farqiga xogta) iyo la qabsiga ku meel gaadhka ah (halka xogta lagu xushay waqti) wax yar samee si loo yareeyo dhibaatada.

Wargeysku wuxuu ku soo gabagabeeyey*:

Tijaabooyinkeennu waxay daaha ka qaadeen kala duwanaansho weyn oo ku yimid hoos u dhaca ku meel gaadhka ah ee dhammaan hawlaha, in ka badan inta laga helayo daraasadihii hore. Natiijooyinkani waxay dhiirigeliyaan daraasadda joogtada ah ee ku-meel-gaadhka ah ee ku-meel-gaadhka ah ee dhammaan codsiyada NLP, tixgelinteeda qiimeynta bartilmaameedka, iyo feejignaanta qaybta xirfadlayaasha awood u leh inay kormeeraan waxqabadka nidaamka nool waqti ka dib.

"Waxa xusid mudan, waxaan aragnay in tababarka joogtada ah ee LM-yada ee xogta ku-meel-gaadhka ah ee ku-meel-gaadhka ah aysan saameyn badan yeelan, dhiirigelinta cilmi-baaris dheeraad ah si loo helo habab ku-meel-gaar ah oo wax ku ool ah oo ka kharash yar ururinta xog-ururinta/qoraalyada la calaamadeeyay muddo ka dib."

Qorayaashu waxay soo jeedinayaan in baaritaan dheeraad ah oo lagu sameeyo barashada joogtada ah, halkaasoo xogta si joogto ah loo cusboonaysiiyo, laga yaabo in laga faa'iidaysto arrintan, iyo fikradda leexinta, iyo hababka kale ee lagu ogaanayo isbeddelka hawlaha waxay noqon karaan gargaar waxtar leh si loo cusbooneysiiyo xogta.

 

* U beddelateyda xigashooyinka khadka tooska ah una beddelo hyperlinks.