stub Sidee U Shaqaysa Kala Soocidda Qoraalku? - Midow.AI
Connect nala
AI Masterclass:

AI 101

Sidee U Shaqaysa Kala Soocidda Qoraalku?

mm
Updated on

Kala soocidda qoraalku waa habka loo falanqeeyo taxanaha qoraalka iyo u samaynta sumad, iyada oo la gelinayo koox ku salaysan nuxurkooda. Kala-soocidda qoraalka waxay hoosta ka xariiqaysaa ku dhawaad ​​AI ama hawsha barashada mashiinka ee ku lug leh Habaynta Luuqadda Dabiiciga ah (NLP). Kala soocida qoraalka, barnaamijka kombuyuutarku wuxuu qaban karaa hawlo kala duwan oo kala duwan sida aqoonsiga spam, falanqaynta dareenka, iyo hawlaha chatbot. Sidee bay u kala soocidda qoraalku si sax ah u shaqeysaa? Waa maxay hababka kala duwan ee loo fuliyo kala soocidda qoraalka? Jawaabaha su'aalahan hoos ayaan ku baadhi doonaa.

Qeexida Kala Soocidda Qoraalka

Waa muhiim inaad waqti qaadato oo aad hubiso inaan fahamnay waa maxay kala soocidda qoraalka, guud ahaan, ka hor inta aan la dhex gelin hababka kala duwan ee samaynta kala soocidda qoraalka. Kala soocidda qoraalku waa mid ka mid ah ereyada lagu dabaqo hawlo badan oo kala duwan iyo algorithms, markaa waxaa faa'iido leh in la hubiyo in aan fahamno fikradda aasaasiga ah ee kala soocidda qoraalka ka hor inta aan loo gudbin si loo sahamiyo siyaabaha kala duwan ee loo fulin karo.

Wax kasta oo ku lug leh abuurista qaybo kala duwan oo qoraal ah, ka dibna lagu calaamadiyo muunado qoraal oo kala duwan sida qaybahan, waxaa loo tixgelin karaa kala soocida qoraalka. Ilaa inta uu nidaamku fulinayo talaabooyinkan aasaasiga ah waxa loo qaadan karaa kala soocida qoraalka, iyada oo aan loo eegin habka saxda ah ee loo isticmaalo in lagu kala saaro qoraalka iyo iyada oo aan loo eegin sida kala soocida qoraalka ugu dambaynta loo dabaqo. Ogaanshaha spamka iimaylka, abaabulida dukumeenti mawduuc ahaan ama cinwaan, iyo garashada dareenka dib u eegista alaabada ayaa ah dhammaan tusaalooyinka kala soocida qoraalka sababtoo ah waxaa lagu dhammeeyaa iyagoo u qaadanaya qoraal ahaan iyo soo saarista calaamadda fasalka qoraalkaas.

Sidee U Shaqaysa Kala Soocidda Qoraalku?

Sawirka: Quinn Dombrowski oo la sii marayo Flickr, CC BY SA 2.0 , (https://www.flickr.com/photos/quinnanya/4714794045)

Inta badan hababka kala soocidda qoraalka waxaa loo qaybin karaa mid ka mid ah saddexda qaybood ee kala duwan: hababka qaanuunka ku salaysan ama hababka barashada mashiinka.

Hababka Kala Soocida Ku Salaysan Xeerka

Hababka kala soocida qoraalka ee qaanuunka ku salaysan waxay ku shaqeeyaan adeegsiga xeerar luuqadeed oo si cad loo habeeyey. Nidaamku wuxuu adeegsadaa xeerarka uu sameeyay injineerku si uu u go'aamiyo fasalka gabal qoraal ah oo la bixiyay ay tahay inuu ka tirsan yahay, isagoo raadinaya tilmaamo qaab macnihiisa qoraalka ah. Xeer kastaa waxa uu leeyahay qaab ay tahay in qoraalku u dhigmo si loo geliyo qaybta u dhiganta.

Si aad u noqoto mid la taaban karo, aynu nidhaahno waxaad rabtay inaad naqshadayso kalasaar qoraaleed awood u leh inuu kala saaro mawduucyada caanka ah ee wada hadalka, sida cimilada, filimada, ama cuntada. Si aad awood ugu siiso kala-soocida qoraalkaaga inuu aqoonsado dooda cimilada, waxaad u sheegi kartaa inuu ka raadiyo ereyada cimilada la xiriira gudaha muunadaha qoraalka ee la quudinayo. Waxaad haysataa liis ereyo fure ah, odhaahyo, iyo qaabab kale oo khuseeya oo loo isticmaali karo in lagu kala saaro mawduuca. Tusaale ahaan, waxaad ku bari kartaa kala soocida inuu raadiyo erayada sida "dabaysha", "roob", "qorraxda", "barafka", ama "daruur". Waxaad markaasi kala sooci kartaa ka eegi kartaa qoraalka gelida oo tiri inta jeer ee ay erayadani ka soo dhex muuqdaan jidhka qoraalka iyo haddii ay ka soo muuqdaan in ka badan erayada la xidhiidha filimada, waxaad u kala saaraysaa qoraalka mid ka tirsan fasalka cimilada.

Faa'iidada nidaamyada ku salaysan qawaaniinta ayaa ah in wax-soo-saarkooda iyo wax-soo-saarkooda ay yihiin kuwo la saadaalin karo oo ay dadku fasiri karaan, waxaana lagu hagaajin karaa faragelinta gacanta ee injineerku. Si kastaba ha ahaatee, hababka kala soocida xeerarka ku salaysan sidoo kale waa yara jajaban yihiin, waxayna inta badan ku adkaataa waqti guud, sababtoo ah waxay kaliya u hoggaansami karaan qaababka hore loo sii qorsheeyey. Tusaale ahaan, ereyga "daruur" wuxuu tixraaci karaa qoyaanka cirka, ama waxa ay ula jeedaan daruur dhijitaal ah oo xogta lagu kaydiyo. Way adagtahay in nidaamyada ku salaysan qawaaniinta ay xalliyaan nuucyadan iyada oo aanay injineeradu ku bixin wakhti cadaalad ah oo ay isku dayaan inay gacanta ku saadaaliyaan oo ay la qabsadaan waxyaalahan khiyaanada ah.

Nidaamyada Barashada Mashiinka

Sida kor ku xusan, nidaamyada ku salaysan qawaaniinta waxay leeyihiin xaddidaadyo, sababtoo ah shaqadooda iyo xeerarkooda waa in horay loo sii qorsheeyay. Taas beddelkeeda, nidaamyada kala-saarista ku salaysan barashada mashiinka waxay ku shaqeeyaan iyagoo adeegsanaya algorithms kuwaas oo falanqeynaya jaangooyooyinka xogta ee qaababka la xiriira fasal gaar ah.

Algorithms-yada barashada mishiinada waxaa la siiya tusaalooyin horay loo sii calaamadeeyay/ horay loo sii sifeeyay kuwaas oo lagu falanqeeyay sifooyin khuseeya. Tusaalooyinkan hore loo calaamadiyey waa xogta tababarka.

Kala soocida barashada mashiinka ayaa falanqeysa xogta tababarka oo waxay barataa qaababka la xiriira fasalada kala duwan. Taas ka dib, dhacdooyinka aan la arkin ayaa laga saaraa calaamadahooda waxaana la geeyaa algorithm-ka kala soocida taas oo calaamadisa tusaalooyinka. Calaamadaha la qoondeeyey ayaa markaa la barbar dhigayaa calaamadihii asalka ahaa si loo arko sida saxda ah ee kala-soocida barashada mashiinka, iyadoo la eegayo sida wanaagsan ee moodalku u bartay qaabka uu saadaalinayo fasallada.

Algorithms-yada barashada mashiinka waxay ku shaqeeyaan falanqaynta xogta tirooyinka. Tani waxay ka dhigan tahay in si loo isticmaalo algorithm barashada mashiinka xogta qoraalka, qoraalka wuxuu u baahan yahay in loo beddelo qaab nambareed. Waxaa jira habab kala duwan oo lagu codeeyo xogta qoraalka sida xogta tirada iyo abuurista hababka barashada mashiinka agagaarka xogtan. Waxaan hoos ku dabooli doonaa siyaabaha kala duwan ee loo matalo xogta qoraalka.

Boorsada-Erayada

Shandad ereyo waa mid ka mid ah hababka inta badan loo isticmaalo codaynta iyo matalaadda xogta qoraalka. Ereyga "Boorsada-ereyada" waxay ka timaaddaa xaqiiqda ah in aad si dhab ah u qaadato dhammaan ereyada dukumeentiyada oo aad ku riddo hal "bac" adigoon fiiro gaar ah u siin nidaamka ereyga ama naxwaha, adigoo fiiro gaar ah u leh oo keliya inta jeer ee ereyada bacda ku jirta. Tani waxay keenaysaa hannaan dheer, ama vector, oo ka kooban hal meel oo ka mid ah dhammaan ereyada dukumeenti gelinta. Markaa haddii ay jiraan 10000 kelmadood oo gaar ah oo ku jira dukumeentiyada la geliyo, calaamaduhu waxay noqon doonaan 10000 eray. Sidan ayaa loo xisaabiyaa cabbirka ereyga bac/feature vector.

Sawirka: gk_ iyada oo loo marayo Machinelearning.co, (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

Ka dib marka la go'aamiyo cabbirka muuqaalka muuqaalka, dukumeenti kasta oo ku jira liiska wadarta dukumentiyada waxaa loo qoondeeyay vector u gaar ah oo ay ka buuxaan tirooyin tilmaamaya inta jeer ee ereyga su'aashu uu ka soo muuqdo dukumeentiga hadda. Tani waxay ka dhigan tahay in haddii ereyga "cuntadu" uu ka soo baxo siddeed jeer gudaha hal dukumeenti qoraal ah, qaabka u dhigma ee vector/qaabka muujinta wuxuu yeelan doonaa siddeed booska u dhigma.

Si kale u dhig, dhammaan kelmadaha gaarka ah ee ku jira dukumeentiyada la soo gelinayo dhammaantood waxa lagu ururiyaa hal bac ka dibna dukumeenti kasta waxa uu helayaa eray vector ah oo la mid ah, kaas oo lagu buuxinayo tirada jeer ee erayada kala duwani ay ku soo baxeen dukumeentiga. .

Xogta qoraalka ahi waxay inta badan ka koobnaan doontaa tiro badan oo kelmado gaar ah, laakiin badidood si joogto ah looma isticmaalo. Sababtan awgeed, tirada ereyada loo isticmaalo abuuritaanka ereyga vector waxay caadi ahaan ku xardhan yihiin qiime la doortay (N) ka dibna cabbirka astaanta ayaa noqon doona Nx1.

Soo noqnoqoshada muddada-joojinta dukumeentiga (TF-IDF)

Hab kale oo lagu matali karo dukumeenti ku salaysan erayada ku jira ayaa la duubay Soo noqnoqoshada muddada-joojinta dukumeentiga (TF-IDF). Habka TF-IDF waxa kale oo uu abuuraa vector matala dukumeentiga ku salaysan erayada ku jira, laakiin si ka duwan Kiishka-ereyada erayadani waa lagu miisaamay in ka badan inta jeer ee ay soo noqnoqdaan. TF-IDF waxay tixgelisaa muhiimada ereyada dukumeentiyada, iyadoo isku dayaysa inay qeexdo sida eraygaasi ugu habboon yahay mawduuca dukumeentiga. Si kale haddii loo dhigo, TF-IDF waxay falanqaysaa khusaynta halkii ay ka ahaan lahayd soo noqnoqoshada ereyga ayaa lagu tiriyaa muuqaalka muuqaalka waxaa lagu beddelay dhibcaha TF-IDF oo la xisaabiyay iyada oo la eegayo dhammaan xogta.

Habka TF-IDF wuxuu ku shaqeeyaa marka ugu horeysa xisaabinta ereyga soo noqnoqda, tirada jeer ee ereyada gaarka ah ay ka dhex muuqdaan dukumeenti gaar ah. Si kastaba ha ahaatee, TF-IDF waxay sidoo kale ka taxadartaa inay xaddiddo saameynta erayada aadka loo isticmaalo sida "the", "ama", iyo "iyo", maadaama "ereyada joojinta" ay yihiin kuwo aad u badan oo bixiya macluumaad aad u yar oo ku saabsan waxa ku jira dukumeentiga. Erayadani waxay u baahan yihiin in la dhimo, taas oo ah waxa "soo noqnoqoshada dukumeentiga lidka ku ah" ee qaybta TF-IDF ay tilmaamayso. Tan waxaa loo sameeyaa sababtoo ah dukumeenti badan oo kelmado gaar ah ayaa ka muuqda, faa'iidada yar ee eraygaasi waa ka soocida dukumeentiyada kale ee liiska dukumentiyada. Qaaciddada ay TF-IDF adeegsato si ay u xisaabiso muhimadda kelmadda waxa loo dejiyay in lagu ilaaliyo ereyada ugu badan iyo kuwa ugu qanisan macno ahaan.

Calaamadaha sifo ee uu abuuray habka TF-IDF waxa ay ka kooban yihiin qiyam caadi ah oo isu geynaya hal, iyada oo kelmad kasta u qoondaynaysa qiime miisaan leh sida lagu xisaabiyay qaacidada TF-IDF.

Erayada hadalka

Erayada ku lifaaqan waa habab lagu matalo qoraalka kuwaas oo hubinaya in ereyada macnahooda la mid ahi ay leeyihiin tiro isku mid ah.

Erayada ku lifaaqan ku shaqee ereyada "vectorization"., taasoo la micno ah in ay u taagan yihiin erayada sida vector-dhabta ah oo dhab ah oo ku jira booska vector. Xeeldheerayaashu waxay ku jiraan shabag ama matrix, waxayna leeyihiin jihada iyo dhererka (ama baaxadda). Marka ereyada loo turjumayo sida vector, ereyada waxaa loo rogaa unugyo ka kooban qiyam dhab ah. Eray kasta waxa loo habeeyey hal vector, ereyada macnahooda la mid ahina waxay leeyihiin jihada iyo baaxadda. Codaynta noocaan ah waxay suurtogal ka dhigaysaa algorithm barashada mashiinka inuu barto xiriirka adag ee u dhexeeya erayada.

Ku-xidhka ereyada kala duwan ayaa la abuuray iyadoo la eegayo sida erayada su'aasha loo isticmaalo. Sababtoo ah ereyada loo isticmaalo siyaalo isku mid ah waxay yeelan doonaan vectors isku mid ah, habka abuurista ereyada dhejinta ayaa si toos ah u tarjumaysa qaar ka mid ah macnaha erayada ay leeyihiin. Boorsada ereyada, marka la barbardhigo, waxay abuurtaa matalo jajaban halkaas oo kelmado kala duwani ay yeelan doonaan matalo aan isku mid ahayn xitaa haddii loo isticmaalo xaalado isku mid ah.

Natiijo ahaan, ku-xidhka kelmadu waxay ku fiican yihiin qabashada macnaha guud ee erayada jumlada dhexdeeda.

Waxaa jira algorithms iyo habab kala duwan oo loo isticmaalo in lagu abuuro ereyada ku dhejinta. Qaar ka mid ah hababka ugu caansan ee la isku halayn karo ee kelmado dhejinta waxaa ka mid ah: dhejinta lakabyada, word2vec, iyo GloVe.

Lakabyada isku dhejinta

Mid ka mid ah dariiqooyinka suurtagalka ah ee loo isticmaalo ereyada ku dhejinta oo ay weheliso barashada mashiinka/nidaamka barashada qotodheer waa in la isticmaalo isticmaal lakabka wax ku dhejinta. Lakabyada isku dhejinta waa lakabyo barasho qoto dheer oo u beddela ereyada isku dhejinta ka dibna lagu quudiyo inta ka hartay nidaamka waxbarasho qotodheer. Erayga ku dhejinta waxaa la bartaa iyadoo shabakadu u tababarto hawl gaar ah oo ku salaysan qoraalka.

Erayada isku dhejinta, ereyada la midka ah waxay yeelan doonaan matalaad isku mid ah waxayna noqon doonaan kuwo midba midka kale u dhow marka loo eego ereyada aan isku midka ahayn.

Si loo isticmaalo lakabyada wax-ku-xidhka, qoraalka wuxuu u baahan yahay in marka hore la sii horumariyo. Qoraalka dukumeentigu waa inuu noqdaa mid-kulan, oo cabbirka xajmigu wuxuu u baahan yahay in la sii cayimo. Qoraalka hal-kulan ayaa markaa loo beddelaa ereyga "vectors" waxaana xididdada loo gudbiyaa qaabka barashada mashiinka.

Word2Vec

Word2Vec waa hab kale oo caan ah oo kelmado la dhex dhigo. Word2Vec waxay isticmaashaa habab tirokoobsi ah si ay erayada ugu badalaan gundhig waxaana loo habeeyay isticmaalka moodooyinka shabakada neerfaha. Word2Vec waxaa soo saaray cilmi-baarayaasha Google-ka waana mid ka mid ah hababka ugu badan ee la adeegsado, maadaama ay si la isku halleyn karo ay u soo saarto waxyaabo faa'iido leh oo qani ah. Matalaadda Word2Vec ayaa faa'iido u leh aqoonsiga semantic iyo syntactic commonalities ee luqadda. Tani waxay ka dhigan tahay in ereyada Word2Vec ay qabtaan xiriirka ka dhexeeya fikrado isku mid ah, iyagoo awood u leh inay kala saaraan in waxa ka dhexeeya "Boqor" iyo "Boqoradda" ay tahay royalty iyo in "Boqorka" uu tilmaamayo "nin-nimada" halka boqoraddu ay tilmaamayso "Naag-nimada".

GloVe

GloVE, ama Global Vector ee matalaadda Erayga, waxay ku dhistaa algorithms-ka dhex-galka ah ee ay isticmaasho Word2Vec. Hababka ku-xidhka GloVe waxay isku daraan dhinacyada Word2Vec iyo farsamooyinka wax-soo-saarka matrixka sida Falanqaynta Semantic Aasaasiga ah. Faa'iidada Word2Vec waa in ay qabsan karto macnaha guud, laakiin ganacsi ahaan waxay si liidata u qabataa tirakoobyada qoraalka caalamiga ah. Taa beddelkeeda, matalaad-dhaqameedka vector-ka ayaa ku wanaagsan go'aaminta tirakoobyada qoraalka caalamiga ah laakiin faa'iido uma laha go'aaminta macnaha guud ee erayada iyo odhaahyada. GloVE waxa uu ka soo qaataa sida ugu wanaagsan ee labada habba, isaga oo abuuraya eray-macnaha ku salaysan tirakoobka qoraalka caalamiga ah.

Blogger iyo programmer leh takhasusyo ku jira Barashada Mashiinka iyo Barashada Deep mowduucyo. Daniel wuxuu rajeynayaa inuu ka caawiyo dadka kale inay u isticmaalaan awoodda AI wanaagga bulshada.