Connect nala

Sirdoonka Artificial

In ka yar ayaa ka sii badan: Waa maxay sababta dib u soo celinta dukumeenti yar ay wanaajin karto jawaabaha AI

Published

 on

Soo Celinta-Jiilka La Kordhiyay (RAG) waa hab lagu dhisayo nidaamyada AI oo isku dara qaab luqadeed oo leh ilo aqoon dibadeed. Erayada fudud, AI marka hore waxay raadisaa dukumentiyada khuseeya (sida maqaallada ama boggaga internetka) ee la xidhiidha weydiinta isticmaalaha, ka dibna waxay isticmaashaa dukumentiyadaas si ay u soo saarto jawaab sax ah. Habkan ayaa loo dabaaldegay caawinta moodooyinka luqadaha waaweyn (LLMs) xaqiiqada ku ekaada oo yareeya mala-awaalka adiga oo ku salaynaya jawaabahooda xogta dhabta ah.

Dareen ahaan, mid ayaa laga yaabaa inuu u maleeyo in dukumiintiyada badan ee AI ay dib u soo ceshanayaan, sida ugu wanaagsan ee loo wargaliyo jawaabteedu waxay noqon doontaa. Si kastaba ha ahaatee, cilmi-baaristii ugu dambeysay waxay soo jeedinaysaa qallooc la yaab leh: marka ay timaado quudinta macluumaadka AI, mararka qaarkood way ka yar tahay.

Dukumentiyo Yar, Jawaabo Wanaagsan

A daraasad cusub cilmi-baarayaal ka tirsan Jaamacadda Cibraaniga ee Yeruusaalem waxay sahamiyeen sida ay tirada dukumeentiyada la siiyay nidaamka RAG waxay saameeyaan waxqabadkiisa. Muhiimad ahaan, waxay hayeen tirada guud ee qoraalka si joogto ah - taasoo macnaheedu yahay haddii dukumeenti yar la bixiyo, dukumeentiyadaas wax yar baa la ballaariyay si ay u buuxiyaan isla dhererka dukumeentiyada badani. Sidan, kala duwanaanshiyaha waxqabadka waxa loo nisbayn karaa tirada dukumentiyada halkii si fudud loo heli lahaa fikrad gaaban.

Cilmi-baarayaashu waxay isticmaaleen xog-ururin su'aal-jawaab ah (MuSiQue) oo wata su'aalo aan macno lahayn, mid kastaa wuxuu asal ahaan ku lammaaniyay 20 cutub oo Wikipedia ah (kaliya dhawr ka mid ah kuwaas oo dhab ahaantii ku jira jawaabta, inta soo hartayna waxay yihiin kuwa wax leexiya). Iyagoo gooyay tirada dukumeentiyada laga bilaabo 20 ilaa 2-4 kuwa dhabta ah ee khuseeya - oo lagu dhejiyo kuwa leh xoogaa macne ah oo dheeri ah si loo ilaaliyo dherer joogto ah - waxay abuureen xaalado halkaas oo AI ay ku leedahay qaybo yar oo agab ah oo la tixgeliyo, laakiin wali waxay ku dhow yihiin wadarta wadarta ereyada la akhriyo.

Natiijadu waxay ahayd mid cajiib ah. Xaaladaha intooda badan, moodooyinka AI waxay si sax ah uga jawaabeen markii la siiyay dukumiintiyo yar halkii ay ka ahaan lahaayeen kuwa buuxa. Waxqabadku si weyn ayuu u fiicnaaday – xaaladaha qaarkood ilaa 10% sax ahaansho ahaan (F1 score) markii nidaamku isticmaalay kaliya faro-ku-tiris ah oo dukumeenti taageero ah beddelkii ururin badan. Kobcintan ka-hortagga ah ayaa lagu arkay dhowr nooc oo luqado furan oo kala duwan, oo ay ku jiraan noocyada Meta's Llama iyo kuwa kale, taasoo muujineysa in ifafaale uusan ku xirneyn hal nooc oo AI ah.

Hal model (Qwen-2) waxa ay ahayd wax ka reeban oo la xusi karo oo la tacaalayay dukumeentiyo badan iyada oo aan la dhicin dhibco, laakiin ku dhawaad ​​dhammaan moodooyinka la tijaabiyay ayaa si fiican u sameeyay dukumeenti yar guud ahaan. Si kale haddii loo dhigo, ku darida waxyaabo badan oo tixraac ah oo ka baxsan qaybaha muhiimka ah ee muhiimka ah ayaa dhab ahaantii dhaawacaya waxqabadkooda in ka badan inta ay caawisay.

Xigasho: Levy et al.

Waa maxay sababta tani la yaab leh? Caadi ahaan, nidaamyada RAG waxaa loogu talagalay iyada oo loo maleynayo in dib u soo celinta macluumaadka ballaaran ay kaliya caawin karto AI - ka dib oo dhan, haddii jawaabtu aysan ku jirin dukumeentiyada ugu horreeya, waxay noqon kartaa tobnaad ama labaatanaad.

Daraasadani waxay rogtay qoraalkaas, taasoo muujinaysa in si aan kala sooc lahayn loogu ururiyo dukumentiyada dheeraadka ah ay dib u dhici karto. Xataa marka wadarta dhererka qoraalka si joogto ah loo hayo, joogitaanka dukumeentiyo badan oo kala duwan (mid kasta oo leh macnaha u gaarka ah iyo quirks) ayaa ka dhigay hawsha su'aalaha ka jawaabista mid aad u adag AI. Waxay u muuqataa in meel ka baxsan qodob gaar ah, dukumeenti kasta oo dheeraad ah ayaa soo bandhigay buuq ka badan kan calaamadaha, jahawareeraya qaabka oo wiiqaya awoodda uu u leeyahay inuu soo saaro jawaabta saxda ah.

Waa maxay sababta ay uga yar tahay RAG

Natiijadan "ka yar ayaa ka badan" waxay macno samaynaysaa marka aynu tixgelinno sida moodooyinka luqadda AI ay u habeeyaan macluumaadka. Marka AI la siiyo kaliya dukumentiyada ugu habboon, macnaha guud ee uu arkayo waa mid diirada saaraya oo ka madax banaan wax jeedinta, si la mid ah arday loo dhiibay bogag sax ah oo uu wax ku barto.

Daraasadda, moodooyinka ayaa si aad ah u fiicnaaday markii la siiyay kaliya dukumentiyada taageeraya, iyada oo walxaha aan khusayn laga saaray. Macnaha soo hadhay kaliya ma ahayn mid gaaban laakiin sidoo kale wuu ka nadiifsan yahay - waxa ku jiray xaqiiqooyin si toos ah u tilmaamaya jawaabta oo aan wax kale ahayn. Dukumeentiyada yar yar ee lagu leexan karo, moodeelku waxa uu si buuxda u hibayn karaa xogaha la xidhiidha, taas oo ka dhigaysa in aanay u badnayn in la leexiyo ama jahawareero.

Dhanka kale, markii dukumiintiyo badan la soo saaray, AI waxay ku qasbanaatay inay kala shaandhayso isku dhafka ku habboon iyo waxyaabaha aan khusayn. Badanaa dukumeentiyadan dheeriga ah waxay ahaayeen "la mid ah laakiin aan xiriir la lahayn" - waxaa laga yaabaa inay la wadaagaan mawduuc ama ereyo muhiim ah weydiinta laakiin dhab ahaantii kuma jiraan jawaabta. Nuxurka noocan oo kale ah ayaa marin habaabin kara qaabka. AI waxaa laga yaabaa inay lumiso dadaalka iskudayga isku xirka dhibcaha dukumeenti aan dhab ahaantii u horseedin jawaab sax ah, ama ka sii daran, waxaa laga yaabaa inay si khaldan ugu milmaan macluumaadka ilo badan. Tani waxay kordhinaysaa halista dhalanteedka - xaaladaha ay AI ka soo saarto jawaab u muuqata mid macquul ah laakiin aan ku salaysnayn il keliya.

Nuxur ahaan, ku quudinta dukumiintiyo badan qaabka waxay lumin kartaa macluumaadka faa'iidada leh waxayna soo bandhigi kartaa tafaasiisha is khilaafsan, taasoo adkeynaysa AI inay go'aansato waxa runta ah.

Waxa xiiso leh, cilmi-baarayaashu waxay ogaadeen in haddii dukumiintiyada dheeraadka ah ay si cad u yihiin kuwo aan khusayn (tusaale ahaan, qoraal aan la soo koobi karin), moodooyinka ayaa ku fiicnaaday inay iska indhatiraan. Dhibaatada dhabta ah waxay ka timaaddaa xogta mashquulinta ee u muuqata mid habboon: marka dhammaan qoraallada la soo celiyay ay ku jiraan mawduucyo isku mid ah, AI waxay u maleyneysaa inay tahay inay isticmaasho dhammaantood, waxaana laga yaabaa inay ku adkaato inay sheegto faahfaahinta dhabta ah ee muhiimka ah. Tani waxay la socotaa fiirsashada daraasadda in khalkhaliyeyaasha aan tooska ahayn waxay keeneen jahawareer ka yar kuwa wax ka jeediya gelinta. AI waxay shaandhayn kartaa wax aan macno lahayn, laakiin macluumaadka mawduuca ka baxsan waa dabin jilicsan - waxay ku soo dhex dhuuntaa iyada oo la qarinayo inay ku habboon tahay oo ay ka leexiso jawaabta. Adigoo yareynaya tirada dukumeentiyada kaliya kuwa dhabta ah ee lagama maarmaanka u ah, waxaan ka fogaannaa dejinta dabinadaan meesha ugu horeysa.

Waxa kale oo jira faa'iido wax ku ool ah: soo celinta iyo habaynta dukumentiyada yar waxay hoos u dhigtaa xisaabinta nidaamka RAG. Dukumeenti kasta oo la soo jiidaa waa in la falanqeeyaa (lagu dhejiyaa, akhriyaa, oo uu ka qaybqaato qaabka), kaas oo isticmaalaya wakhti iyo xisaabinta. Ciribtirka dukumeentiyada xad dhaafka ah waxay nidaamka ka dhigtaa mid hufan - waxay ku heli kartaa jawaabaha si degdeg ah iyo qiimo jaban. Xaalado ay saxnimadu ku soo hagaagtay inagoo diirada saarayna ilo yar, waxaan helnaa guul-guul: jawaabo ka wanaagsan iyo mid jilicsan, geeddi-socod hufan.

Xigasho: Levy et al.

Dib u eegista RAG: Tilmaamaha Mustaqbalka

Caddeyntan cusub ee tayada inta badan ay garaacdo tirada dib u soo celinta waxay leedahay saameyn muhiim ah mustaqbalka nidaamyada AI ee ku tiirsan aqoonta dibadda. Waxay soo jeedinaysaa in naqshadeeyayaasha nidaamyada RAG ay tahay inay mudnaanta siiyaan shaandhaynta caqliga leh iyo darajooyinka dukumentiyada marka loo eego mugga guud. Halkii laga heli lahaa 100 tuduc oo suurtagal ah oo la rajeynayo in jawaabtu ay ku aasan tahay meel, waxaa laga yaabaa inay caqli badan tahay in la keeno kuwa ugu sarreeya ee ugu sarreeya.

Qorayaasha daraasadda waxay xoogga saarayaan baahida loo qabo hababka dib-u-soo-celinta si ay "u dheellitiraan isku dheelitirnaanta iyo kala duwanaanta" macluumaadka ay siinayaan qaabka. Si kale haddii loo dhigo, waxaan rabnaa inaan bixinno dabool ku filan mowduuca si aan uga jawaabno su'aasha, laakiin ma ahan mid aad u badan in xaqiiqooyinka asaasiga ah ay ku qarqiyeen badda qoraalka ka baxsan.

Hore u socoshada, cilmi-baarayaashu waxay u badan tahay inay sahamiyaan farsamooyinka ka caawiya moodooyinka AI inay si qurux badan u xakameeyaan dukumeentiyo badan. Mid ka mid ah habka ayaa ah in la horumariyo habab dib-u-soo-celin ka wanaagsan ama dib-u-dejiyayaal kuwaas oo aqoonsan kara dukumeentiyada dhabta ah ee qiimaha kordhiya iyo kuwa soo bandhigaya khilaafka. Xaglo kale ayaa hagaajinaysa moodooyinka luqadda laftooda: haddii hal nooc (sida Qwen-2) uu ku guulaysto inuu la qabsado dukumeentiyo badan isagoon lumin saxnaanta, baarista sida loo tababaray ama loo qaabeeyey waxay soo jeedin kartaa tilmaamo lagu samaynayo moodooyinka kale kuwo aad u adag. Waxaa laga yaabaa in moodooyinka luqadda waaweyn ee mustaqbalka ay ku daraan habab lagu aqoonsado marka laba ilood ay isku wax sheegaan (ama iska hor imanayaan) oo ay diiradda saaraan si waafaqsan. Hadafku wuxuu noqon lahaa in la suurtageliyo moodooyinka si ay uga faa'iideystaan ​​ilo hodan ah oo kala duwan iyaga oo aan ku dhicin jaahwareerka - si wax ku ool ah u helida waxa ugu wanaagsan labada adduun (ballaaran macluumaadka iyo caddaynta diiradda).

Waxaa kaloo xusid mudan in sida Nidaamyada AI waxay helayaan daaqadaha macnaha guud (awoodda lagu akhriyo qoraal badan hal mar), si fudud ku daadinta xog badan isla markiiba ma aha xabbad qalin ah. Macnaha weyni si toos ah ulama jeedo faham wanaagsan. Daraasadani waxay muujinaysaa in xitaa haddii AI uu si farsamo ahaan u akhriyo 50 bogag markiiba, siinta 50 bogag ee macluumaadka tayada isku dhafan laga yaabo inaysan keenin natiijo wanaagsan. Qaabka ayaa wali ka faa'iidaysanaya in la soo koobo, nuxurka khuseeya si loola shaqeeyo, halkii uu ka ahaan lahaa qashin qub aan kala sooc lahayn. Dhab ahaantii, dib u soo celinta garaadka ayaa laga yaabaa inay xitaa noqoto mid aad muhiim u ah xilliga daaqadaha macnaha guud - si loo hubiyo in awoodda dheeraadka ah loo isticmaalo aqoonta qiimaha leh ee aan ahayn buuqa.

Natiijooyinka ka soo baxay "Dukumentiyo badan, Dherer isku mid ah" (waraaqda ciwaanka ah ee ku habboon) waxay dhiirigelisaa dib-u-eegista fikradahayaga cilmi-baarista AI. Mararka qaarkood, quudinta AI dhammaan xogta aan hayno maaha mid waxtar leh sida aan u maleyneyno. Adiga oo diiradda saaraya qaybaha macluumaadka ee ugu habboon, kaliya ma hagaajineyno saxnaanta jawaabaha AI ay soo saartay laakiin sidoo kale waxaan ka dhignaa nidaamyada mid hufan oo sahlan in la aamino. Waa cashar liddi ku ah, laakiin mid leh waxyaabo xiiso leh: nidaamyada mustaqbalka ee RAG ayaa laga yaabaa inay noqdaan kuwo caqli badan oo jilicsan iyagoo si taxadar leh u dooranaya dukumeenti ka yar, ka wanaagsan si loo soo saaro.

Alex McFarland waa wariye iyo qoraa AI ah oo sahaminaya horumaradii ugu dambeeyay ee sirdoonka macmal. Waxa uu la kaashaday shirkado badan oo AI ah oo bilaabay iyo daabacaadyo caalami ah.