stub Moodooyinka NLP waxay u halgamayaan inay fahmaan kelmadaha magac ee soo noqnoqda - Unite.AI
Connect nala

Sirdoonka Artificial

Moodooyinka NLP waxay u halgamayaan inay fahmaan kelmadaha magac ee soo noqnoqda

mm
Updated on

Cilmi-baadhayaasha Maraykanka iyo Shiinaha waxay ogaadeen in mid ka mid ah noocyada ugu horreeya ee Habraaca Luuqadda Dabiiciga ah (NLP) aysan u muuqan inay awood u leeyihiin, asal ahaan, inay furfuraan jumladaha Ingiriisiga ah ee ka muuqda jumladaha magac-celinta soo noqnoqda (NPs), iyo 'halgan' si loo kala saaro macnaha dhexe. tusaaleyaal aad isugu dhow sida Filimka cusub ee aan jeclahay iyo Filimkii aan jeclaa (Mid kasta oo ka mid ah waxay leedahay macno kale).

Tusaalaha ciwaanka ah ee warqada, halkan waa halxiraale yar oo caruurtu inta badan ku guuldareystaan ​​inay iska bixiyaan: kubbadda labaad waa cagaar, laakiin kubbadda shanaad waa 'kubbada labaad ee cagaaran'. Xigasho: https://arxiv.org/pdf/2112.08326.pdf

Tusaalaha ciwaanka ah ee warqada, halkan waa halxiraale yar oo caruurtu ku guul daraystaan ​​inay si joogta ah u kala baxaan: kubbadda labaad waa cagaar, laakiin shanaad kubbadu waa 'kubada labaad ee cagaaran'. Xigasho: https://arxiv.org/pdf/2112.08326.pdf

Cilmi-baadhayaashu waxay dejiyeen caqabado kelmeed oo soo noqnoqonaya (RNPC) dhowr nooc oo gudaha lagu rakibay nooc abuur il furan: OpenAI's GPT-3*, Google's BERT, iyo Facebook-ga RoBERTa iyo BART, Helitaanka in moodooyinkan casriga ah ay heleen oo kaliya waxqabadka 'fursad'. Waxay ku soo gabagabeeyeen:

Natiijooyinku waxay muujinayaan in casriga casriga ah (SOTA) LM-yada si fiican loo habeeyey heerka caadiga ah bartilmaameedyo isla qaab isku mid ah ayaa dhammaan ku halgamaya xogtayada, taasoo soo jeedinaysa in aqoonta la beegsanayo aan si sahal ah loo heli karin.

Tusaalooyinka ugu yar ee lammaanaha tartanka RNPC halkaasoo moodooyinka SOTA ay sameeyeen khaladaad.

Tusaalooyinka ugu yar ee lammaanaha tartanka RNPC halkaasoo moodooyinka SOTA ay sameeyeen khaladaad.

Tusaalooyinka kore, moodooyinka ayaa ku guuldareystay, tusaale ahaan, si loo kala saaro faraqa semantic ee u dhexeeya neef halis ah oo dhintay (ie, ugaarsi aan wax khatar ah keenin waayo wuu dhintay) iyo a neef halis ah oo dhintay (sida Dabagaallo dhintay, oo laga yaabo inay ku jiraan fayras waxyeello leh, oo hadda ah khatar firfircoon).

(Waxaa intaa dheer, in kastoo warqaddu aysan taaban, 'mid dhintay' sidoo kale marar badan ayaa la isticmaalaa odhaah ahaan, taas oo ka hadlaysa labada kiisba)

Si kastaba ha ahaatee, cilmi-baarayaashu waxay kaloo ogaadeen in tababar dheeraad ah ama dheeri ah oo ay ku jiraan walxaha RNPC ay xallin karaan arrinta:

'Habab luqadeed horay loo tababaray oo leh waxqabadka SOTA ee bartilmaameedyada NLU ayaa si liidata u yaqaan aqoontan, laakiin wali way baran karaan marka ay la kulmaan tiro yar oo xog ah RNPC.'

Cilmi-baadhayaashu waxay ku doodayaan in qaabka luqadda uu awood u leeyahay inuu ku wareego qaababka soo noqnoqda ee noocaan ah ay lagama maarmaan u tahay hawlaha hoose sida falanqaynta luqadda, tarjumaada, iyo samaynta kiis gaar ah muhiimadda ay u leedahay hababka ogaanshaha waxyeelada:

"[Waxaan] tixgelineynaa muuqaalka halka isticmaale uu la falgalayo wakiilka hawsha ku jihaysan sida Siri ama Alexa, wakiilkuna wuxuu u baahan yahay inuu go'aamiyo in hawsha ku lug leh weydiinta isticmaaluhu ay suurtagal tahay [sida kuwa aan qaan-gaarin]. Waxaan dooranaa hawshan sababtoo ah waxyaabo badan oo been abuur ah ayaa ka yimid NP-yada soo noqnoqda.

'Tusaale ahaan, sida loo sameeyo bam guriga lagu sameeyo waa iska cad in ay waxyeelo leedahay sida loo sameeyo bamka qubeyska ee guriga lagu sameeyo dhib ma laha.'

The warqad waxaa cinwaan looga dhigay "filimka cusub ee aan jeclahay" ma filimka aan jeclahay? Baadhista Fahamka Kelmadaha Magacyada Soo noqnoqda, wuxuuna ka yimid shan cilmi-baarayaal oo ka tirsan Jaamacadda Pennsylvania iyo mid ka tirsan Jaamacadda Peking.

Xogta iyo Habka

Inkastoo shaqada hore ay leedahay waxbartay Qaab dhismeedka isku dhafan ee NP-yada soo noqnoqda iyo kala soocida semantic ee wax ka beddelayaasha, midkoodna hababkan kuma filna, sida ay cilmi-baarayaashu sheegeen, si wax looga qabto caqabadaha.

Sidaa darteed, iyada oo lagu salaynayo isticmaalka weedho magac oo soo noqnoqonaya oo leh laba wax-beddeleyaal, cilmi-baarayaashu waxay damceen inay caddeeyaan in aqoonta loo baahan yahay ay ka jirto nidaamyada SOTA NLP (ma aha); in iyaga la bari karo (waa la baran karaa); waxa nidaamyada NLP ay ka baran karaan NP-yada soo noqnoqda; iyo siyaabaha aqoontan oo kale uga faa'iidaysan karto codsiyada hoose.

Xogta ay cilmi-baarayaashu adeegsadeen waxa loo sameeyay afar marxaladood. Ugu horrayn waxa la dhisay qaamuuska wax ka beddelka ah oo ka kooban 689 tusaale oo laga soo qaatay suugaan hore iyo shaqo sheeko cusub.

Marka xigta cilmi-baarayaashu waxay soo ururiyeen NP-yada soo noqnoqda ee suugaanta, corpora jira, iyo ku kordhinta hal-abuurkooda. Agabka qoraalka waxa ka mid ahaa Penn Treebank, Iyo Gigaword la sharraxay meydka.

Kadibna kooxdu waxay shaqaalaysiisay arday jaamacadeed oo hore loo baadhay si ay u abuuraan tusaalayaal saddexda hawlood ee noocyada luuqadaha ay wajihi doonaan, iyaga oo markaa ka dib u ansaxiyay 8,260 xaaladood.

Ugu dambeyntii, arday badan oo jaamacadeed oo horay loo baaray ayaa la shaqaaleysiiyay, markan iyada oo loo sii marayo Amazon Mechanical Turk, si ay u qeexaan tusaale kasta sida Hawsha Sirdoonka Aadanaha (HIT), go'aaminta khilaafaadka si aqlabiyad ah. Tani waxay hoos u dhigtay kiisaska 4,567 tusaale, kuwaas oo lagu sii sifeeyay ilaa 3,790 xaaladood oo dheellitiran.

Cilmi-baarayaashu waxay habeeyeen xog-ururineedyo kala duwan oo jira si ay u diyaariyaan saddexda qaybood ee malo-awaalahooda imtixaannada, oo ay ku jiraan MNLI, SNLI, MPE iyo TALO, tababarida dhammaan moodooyinka SOTA laftooda, marka laga reebo qaabka HuggingFace, halkaasoo isbaaro la isticmaalay.

Natiijooyinka

Cilmi-baadhayaashu waxay ogaadeen in dhammaan moodooyinka 'ku halgamayaan' hawlaha RNPC, oo ka soo horjeeda 90% + dhibcaha saxsanaanta ee bini'aadamka, iyadoo moodooyinka SOTA ay ku shaqeynayaan 'fursad' heerar (tusaale iyada oo aan wax caddayn ah u lahayn kartida dhalanteed iyo fursad aan toos ahayn ee jawaabta).

Natiijooyinka imtixaannada cilmi-baarayaasha. Halkan noocyada luqadda waxaa lagu tijaabiyaa saxnimadooda marka la eego bartilmaameedka jira, iyadoo xariiqda dhexe ay u taagan tahay waxqabadka aadanaha ee hawlaha.

Natiijooyinka imtixaannada cilmi-baarayaasha. Halkan noocyada luqadda waxaa lagu tijaabiyaa saxnimadooda marka la eego bartilmaameedka jira, iyadoo xariiqda dhexe ay u taagan tahay waxqabadka aadanaha ee hawlaha.

Khadadka labaad ee baadhitaanku waxay muujinayaan in cilladahaas lagu magdhabi karo tababbarka ama hagaajinta hagaajinta qaabka dhuumaha NLP iyada oo si gaar ah loogu daro aqoonta odhaahyada soo noqnoqda. Markii tababarkan dheeriga ah la qaatay, waxaa la gaaray moodooyinka 'waxqabad adag oo eber ah oo ku saabsan ogaanshaha waxyeellada dibadda ah [hawlaha]'.

Cilmi-baarayaashu waxay ballan-qaadayaan inay ku sii daayaan koodka shaqadan https://github.com/veronica320/Recursive-NPs.

 

Markii hore waxaa la daabacay Diseembar 16, 2021 - 17th Diseembar 2021, 6:55am GMT+2: Xiriiriyaha jaban ee la saxay.

* GPT-3 Ada, kaas oo ah kan ugu dhaqsaha badan laakiin aan ahayn kan ugu fiican taxanaha. Si kastaba ha ahaatee, qaabka weyn ee 'showcase' Davinci looma heli karo hagaajinta wanaagsan ee ka kooban weedha dambe ee tijaabooyinka cilmi-baarayaasha.

U beddelashadayda xigashooyinka khadka tooska ah una beddela hyperlinks.