Sirdoonka Artificial
Murugo qoto dheer oo dib u soo celinta-jiilka la kordhiyay ee LLM

Bal qiyaas inaad tahay Falanqeeye, oo aad fursad u heshay Qaabka Luuqadda Weyn. Waxaad ku faraxsan tahay rajada ay u keenayso socodkaaga shaqada. Laakiin markaa, waxaad waydiisaa qiimihii saamiyada ugu dambeeyay ama sicir bararka hadda jira, waxayna kugu dhufatay:
"Waan ka xumahay, laakiin ma bixin karo xogta wakhtiga dhabta ah ama goynta ka dib. Xogta tababbarkaydii ugu dambaysay waxay socotaa oo keliya ilaa Janaayo 2022."
Moodelka Luqadda Weyn, dhammaan awooddooda luqadeed, ma laha awood ay ku fahmaan 'hadda'. Iyo adduunka xawaaraha dheereeya,'hadda' waa wax walba.
Cilmi baaris ayaa muujisay in moodooyinka waaweyn ee horay loo tababaray ee luuqadaha (LLMs) ay sidoo kale yihiin kaydka aqoonta dhabta ah.
Waxa lagu tababaray xog aad u badan oo ay ka dhuuxeen xaqiiqooyin iyo tirooyin badan. Marka si fiican loo hagaajiyo, waxay ku gaari karaan natiijooyin cajiib ah hawlo kala duwan oo NLP ah.
Laakiin waa kan qabsashada: awooddooda ay ku galaan oo ay wax uga qabtaan aqoontan kaydsan, mararka qaarkood ma qummana. Gaar ahaan marka hawsha gacanta lagu hayo ay tahay mid aqoon-dheer u leh, moodooyinkani waxay dib u dhici karaan dhismooyin gaar ah oo dheeraad ah. Waxay la mid tahay in aad haysato maktabad leh dhammaan buugaagta adduunka, laakiin aan lahayn buug-yaraha si aad u hesho waxaad u baahan tahay.
OpenAI's ChatGPT Waxay Heshay Casriyeyn Browsing
Ogaysiiskii ugu dambeeyay ee OpenAI ee ku saabsan awooda baadhista ee ChatGPT waa boodbood muhiim ah oo loo maro jihada Dib-u-soo-celinta-Augmented Generation (RAG). Iyada oo ChatGPT ay hadda awood u leedahay inay u baadho internetka si ay u hesho macluumaadka hadda jira iyo kuwa awoodda leh, waxay muraayad u tahay habka RAG ee si firfircoon uga soo jiidanaya xogta ilaha dibadda si ay u bixiso jawaabo tayaysan.
ChatGPT hadda waxay baari kartaa intarneedka si ay kuu siiso macluumaadka hadda jira iyo kuwa awooda leh, oo ay ku dhammaystiran yihiin xiriirinta tooska ah ee ilaha. Kuma eka xogta ka hor Sebtembar 2021. pic.twitter.com/pyj8a9HWkB
- OpenAI (@OpenAI) September 27, 2023
Hadda waxaa diyaar u ah isticmaalayaasha Plus iyo Enterprise, OpenAI waxa ay qorshaynaysaa in ay u soo bandhigto sifadan dhammaan isticmaalayaasha dhawaan. Isticmaalayaasha ayaa tan ku dhaqaajin kara iyagoo dooranaya 'Bing ku baadho' ee hoos yimaada ikhtiyaarka GPT-4.
Injineerka degdega ah waa wax ku ool laakiin kuma filna
Dalabyadu waxay u adeegaan sidii albaabka aqoonta LLM. Waxay hagaan qaabka, iyagoo siinaya jihada jawaabta. Si kastaba ha ahaatee, samaynta degdega ah ee wax ku oolka ah ma aha xalka buuxa si aad uga hesho waxa aad ka rabto LLM. Sidaas oo ay tahay, aan marno dhaqan wanaagsan oo ay tahay in la tixgeliyo marka la qorayo degdeg:
- Hufnaan: Degdeg si wanaagsan loo qeexay ayaa meesha ka saaraysa madmadowga. Waa inay noqotaa mid toos ah, iyadoo la hubinayo in moodalku fahmayo ulajeeddada isticmaalaha. Caddayntani waxay inta badan u tarjuntaa jawaabo isku xidhan oo khuseeya.
- MacnahaGaar ahaan agabka badan, meelaynta wax-barashadu waxay saamayn ku yeelan kartaa wax-soo-saarka. Tusaale ahaan, u raridda tilmaamaha dhammaadka degdegga dheer waxay badanaa keeni kartaa natiijooyin wanaagsan.
- Saxnimada TilmaamahaAwoodda su'aasha, oo inta badan lagu gudbiyo qaab-dhismeedka "yaa, maxay, halkee, goorma, sababta, sidee", ayaa hagi kara tusaalaha dhinaca jawaab-celinta diiradda saaraya. Intaa waxaa dheer, qeexida qaabka wax soo saarka ee la doonayo ama cabbirka ayaa sii hagaajin kara wax soo saarka moodeelka.
- Wax ka qabashada hubaal la'aanta: Waa lagama maarmaan in la hago tusaalaha sida looga jawaabo marka aysan hubin. Tusaale ahaan, ku tilmaamida tusaalaha inuu ku jawaabo "Ma garanayo" marka aan la hubin waxay ka hortagi kartaa inay dhaliso khalad ama "dhalanteed” jawaabaha.
- Fikirka Talaabo-tallaaboTilmaamaha kakan, ku hagida qaabka inuu si nidaamsan u fikiro ama u jebiyo hawsha hawl-hoosaadyo waxay u horseedi kartaa natiijooyin dhamaystiran oo sax ah.
Marka la eego muhiimada ay leedahay soo jeedinta hagida ChatGPT, maqaal dhamaystiran ayaa laga heli karaa maqaalka at Midow.ai.
Caqabadaha ku jira Moodooyinka AI ee Generative
Injineernimada degdega ah waxay ku lug leedahay hagaajinta dardaaranka la siiyay moodeelkaaga si kor loogu qaado waxqabadkiisa. Waa hab aad qaali u ah oo kor loogu qaado saxnaanta codsigaaga Generative AI, oo u baahan kaliya hagaajin kood yar. In kasta oo injineernimada degdega ahi ay si weyn u wanaajin karto wax-soo-saarka, waxaa muhiim ah in la fahmo xaddidaadaha dabiiciga ah ee moodooyinka luqadda waaweyn (LLM). Laba caqabadood oo aasaasiga ah ayaa ah quruxda iyo aqoonta goynta.
- Maqalka: Tani waxa ay tilmaamaysaa tusaaleyaal uu si kalsooni leh ugu soo celiyo jawaab khaldan ama been abuur ah. Inkasta oo LLM horumarsan ay leedahay habab lagu garto loogana fogaado wax soo saarka noocaas ah.
- Aqoonta oo la gooyoNooc kasta oo LLM ah wuxuu leeyahay taariikhda dhamaadka tababarka, boostada oo aysan ka warqabin dhacdooyinka ama horumarka. Xaddidaaddan macneheedu waxa weeye in aqoonta moodeelku ay baraf gashay barta taarikhda tabobarka ee u dambeeya. Tusaale ahaan, moodeel la tababaray ilaa 2022 ma ogaan doono dhacdooyinka 2023.
Soo celinta-jiilka la kordhiyay (RAG) waxay bixisaa xal caqabadahan. Waxay u ogolaataa moodooyinka inay galaan macluumaadka dibadeed, yaraynta arrimaha dhalanteedka iyadoo la siinayo helitaanka xogta gaarka ah ama domainka. Goynta aqoonta, RAG waxay heli kartaa macluumaadka hadda ka baxsan taariikhda tababarka moodeelka, iyada oo hubinaysa in wax-soo-saarku uu yahay mid casri ah.
Waxa kale oo ay u ogolaataa LLM in ay soo jiidato xogta ilo kala duwan oo dibadda ah wakhtiga dhabta ah. Tani waxay noqon kartaa saldhigyo aqooneed, xog-ururin, ama xitaa baaxadda intarneedka.
Hordhaca Soo-celinta-Jiilka La Kordhiyay
Jiilka la kordhiyey ee dib u soo celinta (RAG) waa qaab dhismeed, halkii ay ka ahaan lahaayeen tignoolajiyad gaar ah, taas oo awood u siinaysa Hababka Luuqadaha Waawayn inay galaan xogta aan lagu tababarin. Waxaa jira siyaabo badan oo loo hirgeliyo RAG, iyo taam ahaanshaha ugu fiican waxay ku xiran tahay hawshaada gaarka ah iyo nooca xogtaada.
Qaabka RAG wuxuu u shaqeeyaa si habaysan:
Gelida degdega ah
Nidaamku wuxuu ku bilaabmaa gelinta isticmaalaha ama degdegga. Tani waxay noqon kartaa su'aal ama hadal raadin macluumaad gaar ah.
Soo Celinta Ilaha Dibadda
Halkii ay si toos ah u dhalin lahayd jawaab ku salaysan tababarkeeda, qaabka, iyadoo la kaashanayo qayb ka mid ah dib-u-dejinta, waxay raadisaa ilaha xogta dibadda. Ilahani waxay ka koobnaan karaan saldhigyada aqoonta, kaydka xogta, iyo dukumeentiyada dukumeentiyada ilaa xogta la heli karo intarneedka.
Fahamka Soo Celinta
Nuxurkeeda, dib u soo celinta ayaa muraayad u ah hawlgal raadin. Waxay ku saabsan tahay soo saarista macluumaadka ugu muhiimsan iyadoo laga jawaabayo gelinta isticmaalaha. Habkan waxa loo kala qaybin karaa laba marxaladood:
- Tirinta: Waxaa la odhan karaa, qaybta ugu adag ee safarka RAG oo dhan waa tusmaynta saldhiggaaga aqoonta. Habka tusmaynta waxa si balaadhan loo qaybin karaa laba weji: Loading and Splitting. Qalabka sida LangChain, hababkan waxa loo yaqaan "loaders"Iyo"kala jaray“. Loaders waxay ka soo qaataan macluumaadka ilo kala duwan, ha ahaadeen boggaga internetka ama PDFs. Marka la keeno, qaybiyayaashu ka dib waxay u kala qaybiyaan nuxurka qaybo qaniinyo leh, iyaga oo u wanagsan si loo dhexgeliyo oo loo raadiyo.
- Weydiinta: Tani waa ficilka soo saarista qaybaha aqoonta ee ugu habboon ee ku salaysan erey raadin.
In kasta oo ay jiraan siyaabo badan oo loo wajaho soo noqoshada, laga bilaabo isbarbardhigga qoraalka fudud ilaa adeegsiga makiinadaha raadinta sida Google, nidaamyada casriga ah ee Dib-u-soo-celinta-Augmented Generation (RAG) waxay ku tiirsan yihiin raadinta semantic. Xuddunta raadinta semantiga ayaa ku jirta fikradda wax-ku-xidhka.
Isku-xidhku waxay udub dhexaad u yihiin sida Hababka Luuqadaha Waaweyn (LLM) u fahmaan luqadda. Marka aadamigu isku dayo in uu qeexo sida ay macne uga keeneen erayada, sharraxaadda inta badan waxa ay dib ugu noqotaa fahamka asalka ah. Si qoto dheer ee qaab-dhismeedka garashadayada, waxaan aqoonsannahay in "ilmo" iyo "carruur" ay isku mid yihiin, ama "casaan" iyo "cagaaran" labaduba waxay muujinayaan midabyo.
Kordhinta degdega ah
Macluumaadka la helay ayaa markaa lagu daraa soojeedintii asalka ahayd, iyada oo la abuuraysa degdeg ah oo la kordhiyay ama la ballaariyay. Dakhligan la kordhiyey wuxuu siinayaa moodeelka macnaha dheeraadka ah, kaas oo si gaar ah qiimo leh haddii xogtu tahay mid domain-gaar ah ama aan qayb ka ahayn qaabka tababarka asalka ah.
Abuurista Dhamaystirka
Iyada oo degdegga la kordhiyey ee gacanta lagu hayo, moodeelku markaas waxa uu abuuraa dhammaystir ama jawaab. Jawaabtaani kuma salaysna kaliya tabobarka moodeelka balse waxa kale oo lagu wargeliyay xogta wakhtiga-dhabta ah ee la helay.
Dhismaha RAG LLM ee ugu horreeya
Warqadda cilmi-baarista ee Meta ayaa la daabacay 2020 "Soo Celinta-Jiilka La Kordhiyey ee Aqoonta-Dhaqdhaqaaqa ah ee Hawlaha NLP” waxay si qoto dheer u eegtaa farsamadan. Qaabka Jiilka La Kordhiyey ee Dib-u-soo-celinta-soo-celinta waxay ku kordhisaa habka jiilka soo jireenka ah oo leh dib-u-soo-saar dibadda ah ama hab-raadinta. Tani waxay u oggolaanaysaa moodalku inuu ka soo saaro xogta muhiimka ah ee xogta badan, taasoo kor u qaadaysa awoodda uu u leeyahay inuu soo saaro jawaabaha saxda ah ee macnaha guud.
Waa tan sida ay u shaqeyso:
- Xusuusta ParametricKani waa nooca luqadaada dhaqameed, sida moodelka seq2seq. Waxaa lagu baray xog aad u badan wax badanna way taqaanaa.
- Xusuusta aan Parametric ahaynKa fakar kan sida makiinad wax raadis ah. Waa tusmada cufan ee vector, dheh, Wikipedia, kaas oo lagu geli karo iyada oo la adeegsanayo dib-u-soo-celinta neerfaha.
Marka la isku daro, labadan waxay abuuraan qaab sax ah. Qaabka RAG ayaa marka hore ka soo saara macluumaadka la xidhiidha xusuusta aan ahayn parametric ka dibna wuxuu isticmaalaa aqoontiisa parametric si uu u bixiyo jawaab isku xidhan.
1. Habka Labo-Tallaabo:
RAG LLM waxa uu ku shaqeeyaa hannaan laba-tallaabo ah:
- Soo celintaQaabka ayaa marka hore ka raadiya dukumentiyada khuseeya ama tuducyada xog-ururinta. Tan waxa lagu sameeyaa iyada oo la isticmaalayo hab cufan oo dib u soo celin ah, kaas oo ka shaqeeya wax ku dhejinta si ay u matalaan su'aalaha iyo dukumentiyada labadaba. Ku-xidhka ayaa markaa loo isticmaalaa si loo xisaabiyo buundooyinka isku midka ah, iyo dukumeentiyada darajada sare ah ayaa la soo saaray.
- Jiilka: Iyada oo dukumeentiyada sare-k ee khuseeya gacanta lagu hayo, ka dib waxa loo gudbiyaa koronto-dhaliyaha isku xigxiga oo ay weheliso weydiinta hore. Koronto-dhaliye-kan ayaa markaa farsameeya wax-soo-saarka ugu dambeeya, isaga oo ka soo saaraya macnaha guud ee su'aasha iyo dukumentiyada la keenay labadaba.
2. Soo Celinta Cufan:
Nidaamyada soo celinta dhaqameed waxay inta badan ku tiirsan yihiin matalaad aan badnayn sida TF-IDF. Si kastaba ha ahaatee, RAG LLM waxay shaqaaleysiisaa matalo cufan, halkaas oo su'aalaha iyo dukumeentiyaduba ay ku dhex jiraan meelo vector ah oo joogto ah. Tani waxay u oggolaanaysaa isbarbardhigga isbarbardhigga nuanceed ee dheeraadka ah, qabashada xiriirrada semantic ee ka baxsan isbarbardhigga ereyga muhiimka ah.
3. Jiilka isku xigxiga-ilaa-Taxane:
Dukumeentiyada la helay waxay u shaqeeyaan sidii macnaha guud ee qaabka jiilka. Qaabkan, oo inta badan ku salaysan qaab-dhismeedyada sida Transformers, ka dibna waxa uu dhaliyaa wax-soo-saarka kama dambaysta ah, isaga oo hubinaya in uu isku xidhan yahay oo xaalad ahaan khuseeya.
Raadinta Dukumentiga
Dukumeentiga Tilmaanta iyo Soo Celinta
Si loo helo xog hufan, gaar ahaan dukumentiyada waaweyn, xogta inta badan waxaa lagu kaydiyaa kaydka xogta. Qayb kasta oo xog ah ama dukumeenti ah ayaa la tusmeeyay iyadoo lagu salaynayo vector-ka-soo-kabashada, kaasoo qabta nuxurka macnaha nuxurka. Tilmaan-siinta hufan waxay hubisaa soo-celinta degdegga ah ee macluumaadka la xidhiidha iyadoo lagu saleynayo soo-gelinta degdegga ah.
Xogta Vector

Source: Redis
Xogta xogta ee Vector, oo mararka qaarkood loo yaqaan kaydinta vector, waa xog ururin ku habaysan oo ku takhasusay kaydinta iyo soo qaadashada xogta vector. Dhinaca AI iyo sayniska kombiyuutarka, vectors asal ahaan waa liis tirooyin calaamad u ah dhibcaha meel bannaan oo dhinacyo badan leh. Si ka duwan xog-ururinta dhaqameed, kuwaas oo si aad ah ula jaanqaadaya xogta shaxda, xogta xogta vector waxay iftiimisaa maaraynta xogta si dabiici ah ugu habboon qaabka vector, sida ku dhejinta moodooyinka AI.
Qaar ka mid ah xogta macluumaadka vector ee caanka ah waxaa ka mid ah Annoy, Faysal by Meta, Milvus, Iyo Canab. Xog-ururintani waxay udub dhexaad u yihiin codsiyada AI, iyaga oo ka caawinaya hawlaha u dhexeeya nidaamyada talada ilaa sawir raadinta. Platforms sida AWS waxay sidoo kale bixiyaan adeegyo loogu talagalay baahida xogta xogta, sida Amazon OpenSearch Service iyo Amazon RDS ee PostgreSQL. Adeegyadan waxaa loo habeeyay kiisas gaar ah oo la isticmaalo, iyadoo la hubinayo tusmaynta hufan iyo weydiinta.
Udub dhexaad u ah
Marka la eego in dukumentiyo badan ay noqon karaan kuwo ballaaran, farsamada loo yaqaan "chunking" ayaa badanaa la isticmaalaa. Tani waxa ay ku lug leedahay in dukumentiyada waaweyn loo kala jebiyo qaybo yaryar oo macno ahaan isku xidhan. Qaybahaan ayaa markaa la tix-geliyaa oo la soo saarayaa sidii loo baahnaa, iyadoo la hubinayo in qaybaha ugu muhiimsan ee dukumeentiga loo isticmaalo kordhinta degdega ah.
Tixgelinta Daaqadda Macnuhu
LLM kastaa waxa uu ku shaqeeyaa gudaha daaqada macnaha guud, taas oo asal ahaan ah tirada ugu badan ee macluumaadka ay hal mar tixgalin karto. Haddii ilaha xogta dibadda ay bixiyaan macluumaadka ka sarreeya daaqadan, waxay u baahan tahay in loo kala qaybiyo qaybo yaryar oo ku habboon daaqadda macnaha guud.
Faa'iidooyinka Isticmaalka Soo Celinta-Jiilka La Kordhiyay
- Saxnaanta la xoojiyey: Iyadoo la adeegsanayo ilaha xogta dibadda, RAG LLM waxay dhalin kartaa jawaabo aan ku salaysnayn xogta tababarka laakiin sidoo kale waxaa lagu wargeliyaa macluumaadka ugu habboon iyo kuwa ugu casrisan ee laga heli karo corpus dib u soo celinta.
- Ka gudubka goldaloolooyinka aqoonta: RAG waxay si wax ku ool ah wax uga qabataa xaddidnaanta aqoonta dabiiciga ah ee LLM, haddii ay tahay sababtoo ah goynta tababarka moodeelka ama maqnaanshaha xogta gaarka ah ee qaybta tababarka.
- miday: RAG waxaa lagu dhex dari karaa ilo xogo dibadeed oo kala duwan, laga soo bilaabo keydka macluumaadka lahaanshaha ee hay'adda ilaa xogta internetka si guud loo heli karo. Tani waxay ka dhigeysaa mid la qabsan kara codsiyo iyo warshado kala duwan.
- Yaraynta dhalanteedkaMid ka mid ah caqabadaha haysta LLM waa suurtagalnimada "dhalaalka" ama abuurista xog dhab ah oo khaldan ama been abuur ah. Bixinta xogta waqtiga-dhabta ah, RAG waxay si weyn u yareeyn kartaa fursadaha wax soo saarka noocaas ah.
- HeerarkaMid ka mid ah faa'iidooyinka aasaasiga ah ee RAG LLM waa awoodda ay u leedahay in ay cabbirto. Marka la kala saaro habka dib u soo celinta iyo soo saarista, qaabku wuxuu si hufan u maamuli karaa xog-ururinta, taas oo ka dhigaysa mid ku haboon codsiyada dhabta ah ee aduunka halkaasoo xogtu ku badan tahay.
Caqabadaha iyo Tixgelinta
- Kordhinta Xisaabinta: Habka laba-tallaabo wuxuu noqon karaa mid aad u adag xisaabinta, gaar ahaan marka la macaamilayo xog-ururinta.
- Ku-tiirsanaanta XogtaTayada dukumeentiyada la soo saaray waxay si toos ah u saameeyaan tayada jiilka. Sidaa darteed, haysashada corpus-ka-soo-celinta dhamaystiran oo si fiican loo habeeyey waa muhiim.
Ugu Dambeyn
Marka la isku daro hababka dib u soo celinta iyo soo saarista, Jiilka La Kordhiyay ee Soo Celinta ayaa bixiya xal adag oo ku saabsan hawlaha aqoonta-dhaqdhaqaaqa leh, hubinta wax soo saarka kuwaas oo labadaba la wargeliyay iyo xaalad ahaan khuseeya.
Ballanqaadka dhabta ah ee RAG wuxuu ku jiraa codsiyadeeda dhabta ah ee suurtagalka ah. Waaxyaha sida daryeelka caafimaadka, halkaas oo macluumaadka saxda ah ee waqtiga iyo saxda ah ay muhiim u noqon karaan, RAG waxay bixisaa awood ay ku soo saarto oo ay fikrado ka soo saarto suugaanta caafimaad ee ballaaran si aan kala go 'lahayn. Dhinaca maaliyadda, halka suuqyadu ay horumariyaan daqiiqad kasta, RAG waxay bixin kartaa xog-ururin xog-waqtiga-dhabta ah, oo ka caawinaysa go'aan-qaadasho xog-ogaal ah. Intaa waxaa dheer, xagga akadeemiyada iyo cilmi-baarista, aqoonyahannada waxay ka faa'iideysan karaan RAG si ay u baaraan kaydka macluumaadka, samaynta dib u eegista suugaanta iyo falanqaynta xogta si hufan.

