Sirdoonka Artificial
Kahortagga 'Hallucination' ee GPT-3 iyo Noocyada kale ee Luqadaha kakan

Sifada qeexda 'warar been abuur ah' waa in ay si joogto ah u soo bandhigto macluumaad been abuur ah iyada oo la raacayo xogta dhabta ah ee saxda ah, iyada oo xogta aan run ahayni ay helayso awood la aqoonsan karo oo ah nooc ka mid ah osmosis-suugaaneed - muujin walaac leh oo muujinaysa awoodda runta badhkeed.
Hababka habaynta luuqadda dabiiciga ah ee casriga ah (NLP) sida GPT-3 ayaa sidoo kale leh u janjeera 'hallucinate' xogtan khiyaanada leh. Qayb ahaan, tani waa sababta oo ah moodooyinka luqaddu waxay u baahan yihiin awoodda dib u habeynta iyo soo koobidda qoraallada dheer iyo inta badan labyrinthine ah, iyada oo aan la helin wax caqabad ah oo dhismo ah oo awood u leh inay qeexdo, koobto oo 'xakamayso' dhacdooyinka iyo xaqiiqooyinka si ay uga ilaaliso habka semantic dib u dhis.
Sidaa darteed xaqiiqadu maaha mid muqadas u ah qaabka NLP; Waxay si fudud ugu dambayn karaan in lagu daweeyo macnaha 'Lego lebens', gaar ahaan halka naxwaha kakan ama walxaha isha ay ku adkeeyaan in la kala saaro qaybaha kala duwan iyo qaab dhismeedka luqadda.

U fiirsashada habka si xun-xun-u-xaaladaha isha loogu sheegay waxay wareerin kartaa moodooyinka luqadda ee kakan sida GPT-3. Source: Faaqida Jiilka Isticmaalka Barashada Xoojinta Qoto dheer
Dhibaatadani waxay ka gudubtaa barashada mashiinka qoraalka ku salaysan cilmi-baarista aragtida kombuyuutarka, gaar ahaan qaybaha isticmaala takoorka semantic si loo aqoonsado ama u qeexo walxaha.

Mala-awaalka iyo fasiraadda 'isqurxinta' ee aan saxda ahayn waxay saamaysaa cilmi-baarista aragga kumbuyuutarka sidoo kale.
Marka laga hadlayo GPT-3, qaabku wuxuu ku niyad jabi karaa su'aalaha soo noqnoqda ee mawduuca uu horay uga hadlay iyo sidoo kale sida uu awoodo. Xaaladda ugu fiican, waxay qiran doontaa guuldarada:

Tijaabo dhow oo aan ku sameeyay mashiinka Davinci ee aasaasiga ah ee GPT-3. Qaabka ayaa jawaabta si sax ah u helay isku dayga koowaad, laakiin waxa uu ka cadhooday in su'aasha mar labaad la waydiiyo. Mar haddii ay xasuus gaaban ku hayso jawaabtii hore, oo ay su'aasha soo noqnoqonaysa ula dhaqanto diidmo jawaabtaas, waxay qiranaysaa guuldarada. Xigasho: https://www.scalr.ai/post/business-applications-for-gpt-3
DaVinci iyo DaVinci Instruct (Beta) ayaa arrintan ka fiican marka loo eego noocyada kale ee GPT-3 ee laga heli karo API-ga. Halkan, qaabka Curie wuxuu bixiyaa jawaab khaldan, halka qaabka Babbage uu si kalsooni leh ugu ballaariyo jawaab khaldan oo isku mid ah:
Waxyaalaha Einstein waligiis ma odhan
Marka la codsanayo GPT-3 DaVinci Instruct engine (kaas oo hadda u muuqda inuu yahay kan ugu awoodda badan) ee Einstein oraahdii caanka ahayd ee 'Ilaah kuma ciyaaro laadhuu caalamka', DaVinci wuxuu ku guuldareystay inuu helo xigashada oo wuxuu hindisay hadal aan xigasho ahayn, socday si loo iftiimiyo saddex xigasho oo kale oo macquul ah oo gebi ahaanba aan jirin (waxaa qoray Einstein ama qof kasta) iyadoo laga jawaabayo su'aalaha la midka ah:

GPT-3 waxa ay soo saartaa afar oraah oo macquul ah Einstein, midkoodna wax natiijo ah kama soo saarin qoraal buuxa oo internetka ah, in kasta oo qaarkood ay kiciyaan xigashooyin kale (dhab ah) oo ka yimid Einstein mawduuca 'male-awaalka'.
Haddi GPT-3 ay si joogto ah ugu qaldanaayeen xigashada, way sahlanaan lahayd in la dhimo barnaamijyadan dhalanteedka ah. Si kastaba ha ahaatee, inta badan ee la faafiyay oo caan ka ah xigashada, waxay u badan tahay in GPT-3 ay tahay in si sax ah loo helo xigashada:

GPT-3 sida muuqata waxay heshaa xigashooyin sax ah marka ay si fiican uga dhex muuqdaan xogta wax ku biirinta.
Dhibaato labaad ayaa soo bixi karta marka xogta taariikhda kalfadhiga GPT-3 ay ku daadato su'aal cusub:
Einstein waxay u badan tahay inuu fadeexad ku noqon doono in hadalkan loo nisbeeyo isaga. Oraahdu waxay u muuqataa inay tahay dhalanteed aan macno lahayn oo nolosha dhabta ah Winston Churchill dabeecad xumo. Su'aashii hore ee fadhiga GPT-3 ee la xidhiidha Churchill (ma aha Einstein), iyo GPT-3 waxay u muuqataa inay si khalad ah u adeegsatay summada fadhigan si ay ugu wargeliso jawaabta.
Wax ka qabashada dhalanteedka dhaqaale ahaan
Mala-awaaltu waa caqabad la arki karo oo ku wajahan qaadashada moodooyinka casriga ah ee NLP sida aaladaha cilmi-baarista - si ka sii badan marka wax soo saarka matoorada noocan oo kale ah ay aad uga fogaadaan agabka isha ee sameeyay, si ay u dejiyaan xaqiiqada xigashooyinka iyo xaqiiqooyinka ayaa noqda dhibaato.
Sidaa darteed hal caqabad oo cilmi-baaris guud oo hadda jirta oo NLP ah ayaa ah in la dhiso hab lagu aqoonsado qoraallada dhalanteed iyada oo aan loo baahnayn in la qiyaaso moodooyinka cusub ee NLP ee ku jira, qeexaya oo xaqiijinaya xaqiiqooyinka sida hay'ado kala duwan (muddo dheer, yoolal gooni ah oo tiro kombuyuutar ballaaran ah) qaybaha cilmi-baarista).
Aqoonsiga iyo Soo saarista Waxyaabaha dhalanteed
cusub A iskaashi Inta u dhaxaysa Jaamacadda Carnegie Mellon iyo Facebook AI Research waxay bixisaa hab cusub oo loogu talagalay dhibaatada dhalanteed, iyada oo la samaynayo hab lagu garto wax soo saarka dhalanteed iyo adeegsiga qoraallada dhalanteedka ah si loo abuuro xog-ururin loo isticmaali karo aasaaska miirayaasha mustaqbalka iyo hababka laga yaabo inay ugu dambeyntii noqdaan qayb muhiim ah oo ka mid ah naqshadaha NLP.

Xigasho: https://arxiv.org/pdf/2011.02593.pdf
Sawirka kore, agabka isha ayaa loo kala qaybiyay qaab sal ah, iyadoo summada '0' loo qoondeeyay si ay u saxdo erayada saxda ah iyo summada '1' oo loo qoondeeyay ereyo dhalanteed. Hoos waxaan ku aragnaa tusaale wax soo saarka dhalanteed kaas oo la xidhiidha macluumaadka gelinta, laakiin lagu daray xog aan sax ahayn.
Nidaamku waxa uu adeegsadaa cod-dejiye hore loo tababaray kaas oo awood u leh in uu khariideeyo xadhig dhalanteed ah oo dib loogu celinayo qoraalkii asalka ahaa kaas oo nooca la kharribay laga soo saaray (oo la mid ah tusaalahayga kore, halkaas oo raadinta internetku ay shaaca ka qaaday caddaynta xigashooyinka beenta ah, laakiin leh barnaamij iyo barnaamij. Habka semantic ee tooska ah). Gaar ahaan, Facebook-ga BART model autoencoder waxaa loo isticmaalaa in lagu soo saaro jumladaha la musuqmaasuqay.

Summada shaqada
Habka khariidaynta mala-awaalka ee dib loogu celinayo isha, taas oo aan suurtagal ahayn habka caadiga ah ee moodooyinka heerka sare ee NLP, waxay u oggolaanaysaa in la sawiro 'masaafada wax ka beddel', oo fududaysa habka algorithm ee lagu aqoonsanayo nuxurka dhalanteed.
Cilmi-baadhayaashu waxay ogaadeen in nidaamku xitaa awood u leeyahay inuu si fiican u soo koobo marka uusan helin wax tixraac ah oo la heli karo inta lagu jiro tababarka, taas oo soo jeedinaysa in qaabka fikradeed uu yahay mid dhawaaq ah oo si ballaaran loo soo celin karo.
Wax ka qabashada Qalabyada xad dhaafka ah
Si looga fogaado in xad dhaaf ah oo loo yimaado qaab dhismeed la fidin karo, cilmi-baarayaashu waxay si aan kala sooc lahayn uga tuureen calaamadihii geeddi-socodkii, waxayna sidoo kale adeegsadeen erey-bixin iyo hawlo kale oo buuq ah.
Turjumaada mishiinka (MT) sidoo kale waa qayb ka mid ah habkan indho-indhaynta, maadaama tarjumaadda qoraalka luqadaha oo dhan ay u badan tahay inay si adag u ilaaliso macnaha oo ay uga hortagto ku-habboonaanta xad dhaafka ah. Sidaa darteed, dhalanteedyo ayaa loo turjumay oo loo aqoonsaday mashruuca laba-luqaddood oo ku hadla lakabka tafatirka gacanta.
Dadaalku waxa ay gaadheen natiijooyin cusub oo ugu wanagsan tiro tijaabo ah oo waaxeed, waana tii ugu horaysay ee lagu gaadho natiijooyin la aqbali karo iyada oo la adeegsanayo xog ka badan 10 milyan oo calaamado ah.
Xeerka mashruuca, oo xaq u leh Ogaanshaha Mawduuca dhalanteed ee Jiilka Isku-xigta Neural ee Xaaladda, ayaa lagu sii daayay GitHub, waxayna u ogolaataa isticmaalayaasha inay soo saaraan xogtooda synthetic oo leh BART ka soo jeeda qoraal kasta. Bixinta waxaa sidoo kale loo sameeyay jiilka xiga ee moodooyinka lagu ogaanayo dhalanteedka.