AI 101

Dabeşkirina Nivîsar Çawa Kar dike?

Demê on August 23, 2020

Tesnîfkirina nivîsê pêvajoya analîzkirina rêzikên nivîsê ye û danîna etîketekê ji wan re, danîna wan di komekê de li gorî naveroka wan e. Dabeşkirina nivîsê hema hema her peywira fêrbûna AI an makîneyê ya ku bi Pêvajoya Zimanê Xwezayî (NLP) ve girêdayî ye, digire. Bi dabeşkirina nivîsê, bernameyek komputerê dikare cûrbecûr karên cihêreng ên wekî naskirina spam, analîzkirina hestê, û fonksiyonên chatbotê pêk bîne. Tesnîfkirina nivîsê bi rastî çawa dixebite? Rêbazên cihêreng ên pêkanîna dabeşkirina nivîsê çi ne? Em ê bersivên van pirsan li jêr bikolin.

Diyarkirina Tesnîfkirina Nivîsan

Girîng e ku em hinekî dem bavêjin û pê ewle bin ku em fam dikin tesnîfkirina nivîsê çi ye, bi gelemperî, berî ku li ser awayên cihêreng ên kirina dabeşkirina nivîsê hûr bibin. Dabeşkirina nivîsê yek ji wan têgînan e ku li ser gelek kar û algorîtmayên cihêreng tê sepandin, ji ber vê yekê kêrhatî ye ku em pê ewle bin ku em têgeha bingehîn a dabeşkirina nivîsê fam bikin berî ku em bigerin ku rêyên cihêreng ên ku ew dikare were meşandin vekolin.

Tiştê ku tê de çêkirina kategoriyên cihêreng ên ji bo nivîsê, û dûv re jî wekî van kategoriyan binavkirina nimûneyên nivîsê yên cihêreng, dikare wekî dabeşkirina nivîsê were hesibandin. Heya ku pergalek van gavên bingehîn pêk bîne, ew dikare wekî dabeşkerek nivîsê were hesibandin, bêyî ku awayê tam ku ji bo tesnîfkirina metnê tê bikar anîn û bêyî ku di dawiyê de dabeşkera nivîsê çawa were sepandin. Tesbîtkirina spam e-nameyê, birêxistinkirina belgeyan li gorî mijar an sernavê, û naskirina hesta vekolînek ji bo hilberekê, hemî mînakên dabeşkirina nivîsê ne ji ber ku ew bi wergirtina nivîsê wekî têketinek û derxistina etîketek polê ji bo wê perçeya nivîsê têne çêkirin.

Dabeşkirina Nivîsar Çawa Kar dike?

Wêne: Quinn Dombrowski bi rêya Flickr, CC BY SA 2.0, (https://www.flickr.com/photos/quinnanya/4714794045)

Pir awayên dabeşkirina nivîsê dikare di yek ji sê kategoriyên cihêreng de were danîn: Rêbazên bingehîn an rêbazên fêrbûna makîneyê.

Rêbazên Tesnîfkirina Bingeha Rêbaz

Rêbazên dabeşkirina nivîsê-bingeha qaîdeyê bi karanîna qaîdeyên zimanî yên eşkere yên endezyarkirî tevdigerin. Pergal qaîdeyên ku ji hêla endezyar ve hatine afirandin bikar tîne da ku diyar bike ku perçeyek nivîsê ya diyarkirî divê ji kîjan polê be, di forma hêmanên nivîsê yên têkildar ên semantîk de li nîşanan digere. Her qaîdeyek xwedan nimûneyek e ku divê nivîs li hev bicive da ku di kategoriya têkildar de were danîn.

Ji bo ku bêtir konkret be, em bibêjin ku we dixwest hûn dabeşkerek nivîsê sêwirînin ku bikaribe mijarên hevpar ên axaftinê, mîna hewa, fîlim, an xwarin ji hev cuda bike. Ji bo ku hûn dabeşkera nivîsa xwe bikar bînin ku nîqaşa hewayê nas bike, dibe ku hûn jê re bibêjin ku di laşê nimûneyên nivîsa ku ew tê xwarin de li peyvên girêdayî hewayê bigere. Hûn ê navnîşek peyvên sereke, biwêj û nimûneyên din ên têkildar hebin ku dikarin ji bo cihêkirina mijarê werin bikar anîn. Mînakî, dibe ku hûn talîmatê bidin dabeşkerê ku li peyvên mîna "ba", "baran", "roj", "berf" an "ewr" bigere. Dûv re hûn dikarin kategoriya dabeşker di nav nivîsa têketinê de binihêrin û çend caran bijmêrin ku ev peyv di laşê nivîsê de xuya dibin û heke ew ji peyvên bi fîliman re bi gelemperî xuya bibin, hûn ê nivîsê wekî aîdê pola hewayê bihesibînin.

Feydeya pergalên-bingeha rêbazan ev e ku ketin û derketinên wan ji hêla mirovan ve têne pêşbînîkirin û şîrove kirin, û ew dikarin bi destwerdana destan ji hêla endezyar ve werin baştir kirin. Lêbelê, rêbazên dabeşkirinê yên li ser bingeha qaîdeyan di heman demê de hinekî şikestî ne, û ew bi gelemperî demek dijwar a giştîkirina wan heye ji ber ku ew tenê dikarin bi qalibên pêşwext ên ku di nav de hatine bernamekirin bişopînin. Wek mînak, peyva "ewr" dikare behsa şilavê bike. ezman, an jî ew dikare behsa ewrek dîjîtal a ku dane tê hilanîn be. Zehmet e ku pergalên bingehîn-rêbazan van nuwazeyan bi rê ve bibin bêyî ku endezyar demek maqûl derbas bikin ku hewl bidin ku bi destan van hûrguliyan pêşbînî bikin û rast bikin.

Pergalên Fêrbûna Makîneyê

Wekî ku li jor hatî behs kirin, pergalên li ser bingeha qaîdeyan xwedan sînor in, ji ber ku fonksiyon û rêzikên wan divê pêş-bernamekirî bin. Berevajî vê, pergalên dabeşkirinê yên li ser bingeha fêrbûna makîneyê bi sepandina algorîtmayên ku danehevên ji bo qalibên ku bi çînek taybetî ve girêdayî ne analîz dikin tevdigerin.

Algorîtmayên fêrbûna makîneyê mînakên pêş-etîketkirî / pêş-tefsîdarkirî yên ku ji bo taybetmendiyên têkildar têne analîz kirin têne xwarin. Van mînakên pêş-navkirî daneyên perwerdehiyê ne.

Klasifkera fêrbûna makîneyê daneyên perwerdehiyê analîz dike û qalibên ku bi çînên cihêreng ve girêdayî ne fêr dibe. Piştî vê yekê, mînakên nedîtî ji etîketên xwe têne hilanîn û li algorîtmaya dabeşkirinê ya ku mînakan etîketekê destnîşan dike têne xwarin. Dûv re etîketên hatine destnîşan kirin bi etîketên orîjînal re têne berhev kirin da ku bibînin ka dabeşkera fêrbûna makîneyê çiqas rast bû, û bihejmêre ka model çiqas baş fêr bûye ka kîjan qalibên kîjan dersan pêşbînî dike.

Algorîtmayên fêrbûna makîneyê bi analîzkirina daneyên hejmarî tevdigerin. Ev tê vê wateyê ku ji bo ku algorîtmayek fêrbûna makîneyê li ser daneya nivîsê bikar bîne, pêdivî ye ku nivîs di forma hejmarî de were veguheztin. Rêbazên cûrbecûr yên şîfrekirina daneyên nivîsê wekî daneyên jimareyî û afirandina rêbazên fêrbûna makîneyê li dora vê daneyê hene. Em ê hin awayên cihêreng ên temsîlkirina daneyên nivîsê li jêr veşêrin.

Bag-ji-Words

Bag-ji-peyvên yek ji nêzîkatiyên ku herî zêde tê bikar anîn ji bo şîfrekirin û temsîlkirina daneya nivîsê ye. Gotina "bag-ji-peyvan" ji wê yekê tê ku hûn bi rastî hemî peyvên di belgeyan de digirin û hemî wan dixin nav yek "bag" bêyî ku guh bidin rêza peyvan an rêziman, tenê bala xwe bidin frekansa peyvan di çenteyê de. Ev encam di rêzek dirêj, an vektor de, ku yek nûneriya hemî peyvan di belgeyên têketinê de vedihewîne. Ji ber vê yekê heke di belgeyên têketinê de bi tevahî 10000 peyvên bêhempa hebin, vektorên taybetmendiyê dê 10000 peyvan dirêj bibin. Bi vî awayî mezinahiya peyva çente/vektora taybetmendiyê tê hesabkirin.

Wêne: gk_ bi rêya Machinelearning.co, (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

Piştî ku mezinahiya vektora taybetmendiyê hate destnîşankirin, her belgeyek di navnîşa tevahî belgeyan de vektora xwe ya ku bi hejmarên ku destnîşan dikin çend caran peyva navborî di belgeya heyî de xuya dike tê destnîşan kirin. Ev tê vê wateyê ku heke peyva "xwarin" heşt caran di nav yek belgeyek nivîsê de xuya bibe, ew vektora taybetmendiya têkildar / rêzika taybetmendiyê dê di cîhê têkildar de heştek hebe.

Bi awayekî din, hemî peyvên yekta yên ku di belgeyên têketinê de xuya dibin, hemî di yek çenteyê de têne berhev kirin û dûv re her belge vektorek peyvek bi heman mezinahiyê werdigire, ku dûv re bi çend caran ku peyvên cûda di belgeyê de xuya dibin tê dagirtin. .

Daneyên nivîsê bi gelemperî dê hejmareke mezin ji peyvên yekta hebin, lê piraniya wan pir caran nayên bikar anîn. Ji ber vê yekê, hejmara peyvên ku ji bo afirandina vektora peyvan têne bikar anîn bi gelemperî li nirxek bijartî (N) tête girtin û dûv re pîvana vektora taybetmendiyê dê Nx1 be.

Frequency Term-Frequency Belgeya Berevajî (TF-IDF)

Rêyek din a temsîlkirina belgeyek li ser bingeha peyvên tê de dublaj kirin Frequency Term-Frequency Belgeya Berevajî (TF-IDF). Nêzîkatiyek TF-IDF di heman demê de vektorek diafirîne ku belgeyê li ser bingeha peyvên tê de temsîl dike, lê berevajî Bag-of-words ev peyv in. ji hêla frekansa wan ve bêtir girankirî ye. TF-IDF girîngiya peyvên di belgeyan de dihesibîne, hewl dide ku bihejmêre ka ew peyv çiqasî bi mijara belgeyê re têkildar e. Bi gotinek din, TF-IDF li şûna frekansê têkildariyê analîz dike û jimartinên peyvan di vektorek taybetmendiyê de bi xalek TF-IDF-ê ku li gorî tevahîya databasê tê hesibandin tê veguheztin.

Nêzîktêdayînek TF-IDF bi hesabkirina yekem car frekansa termê, çend caran ku şertên yekta di nav belgeyek taybetî de xuya dibin, tevdigere. Lêbelê, TF-IDF di heman demê de balê dikişîne ku bandora peyvên pir gelemperî yên wekî "the", "an", û "û" bisînor bike ji ber ku ev "gotinên rawestanê" pir gelemperî ne lê di heman demê de agahdariya pir hindik li ser naveroka belgeyê radigihînin. Pêdivî ye ku van peyvan bêne daxistin, ya ku beşa "frekansa berevajî-belge" ya TF-IDF jê re vedibêje. Ev tê kirin ji ber ku çend belgeyên ku peyvên taybetî tê de têne xuyang kirin, ew peyv di cihêkirina wê ji belgeyên din ên di navnîşa hemî belgeyan de kêmtir bikêr e. Formula ku TF-IDF ji bo hesabkirina girîngiya peyvekê bikar tîne, ji bo parastina peyvên ku herî zêde û ji hêla semantîkî ve dewlemendtirîn in têne çêkirin.

Vektorên taybetmendiyê yên ku ji hêla nêzîkatiya TF-IDF ve hatine afirandin nirxên normalîzekirî hene ku bi yek re vedigirin, her peyvê nirxek giran wekî ku ji hêla formula TF-IDF ve hatî hesibandin destnîşan dikin.

Peydabûna Peyvê

Bicîhkirina peyvan Rêbazên temsîlkirina nivîsê ne ku piştrast dikin ku peyvên bi wateyên wekhev xwedî temsîlên hejmarî yên wekhev in.

Bicîhkirina peyvan bi "vektorîzekirin" peyvan tevdigerin, tê wê wateyê ku ew peyvan wekî vektorên bi nirx-rast-rast di cîhek vektor de temsîl dikin. Vektor di tevnek an matrixê de hene, û rê û dirêjî (an mezinahî) wan hene. Dema ku peyvan wekî vektor têne temsîl kirin, peyv vediguherin vektorên ku ji nirxên rastîn pêk tên. Her peyv bi yek vektorê ve tê xêzkirin, û peyvên ku di wateyê de dişibin hev xwedî rê û mezinahî ne. Ev celeb şîfrekirinê dihêle ku algorîtmayek fêrbûna makîneyê fêrî têkiliyên tevlihev ên di navbera peyvan de bibe.

Berhevkirinên ku peyvên cihêreng temsîl dikin, li gorî ka peyvên navborî çawa têne bikar anîn têne çêkirin. Ji ber ku peyvên ku bi awayên wekhev têne bikar anîn dê vektorên mîna hev hebin, pêvajoya çêkirina binavkirina peyvan bixweber hin wateyên peyvan werdigerîne. Berevajî vê, nêzîkatiya çenteyek peyvan, nûnertiyên nazik diafirîne ku tê de peyvên cihêreng dê xwedan temsîlên cihêreng bin jî heke ew di çarçoveyek pir dişibin hev werin bikar anîn.

Wekî encamek, bicîkirina peyvan di girtina çarçoweya peyvan de di nav hevokê de çêtir e.

Algorîtm û nêzîkatiyên cihêreng hene ku ji bo afirandina binavkirina peyvan têne bikar anîn. Hin awayên binavkirina peyvan ên herî gelemperî û pêbawer ev in: qatên bicîkirinê, word2vec, û GloVe.

Pêlên Embedding

Yek rêyek potansiyel a karanîna binavkirina peyvan ligel pergalek fêrbûna makîneyê / fêrbûna kûr ev e qatek embedding bikar bînin. Tebeqên vegirtinê qatên fêrbûna kûr in ku peyvan vediguhezînin navberan û dûv re di pergala fêrbûna kûr de tê xwarin. Gava ku torgilok ji bo peywirek bingehîn-nivîsarek taybetî perwerde dike, peyva embedding têne fêr kirin.

Di nêzîkatiya binavkirina peyvan de, peyvên dişibin hev wê xwediyê nimayişên mîna hev bin û ji peyvên cihêreng zêdetir nêzîkî hev bin.

Ji bo ku hûn qatên bicîkirinê bikar bînin, pêdivî ye ku pêşiyê nivîs were pêvajo kirin. Pêdivî ye ku nivîsa di belgeyê de yek-germ were kod kirin, û pêdivî ye ku mezinahiya vektorê berê were diyar kirin. Dûv re nivîsa yek-germ vediguhere vektorên peyvan û vektor derbasî modela fêrbûna makîneyê dibin.

Word2Vec

Word2Vec rêbazeke din a hevpar a bicîkirina peyvan e. Word2Vec rêbazên îstatîstîkî bikar tîne da ku peyvan biguhezîne navgînan û ew ji bo karanîna bi modelên bingehîn ên tora neuralî re xweşbîn e. Word2Vec ji hêla lêkolînerên Google-ê ve hatî pêşve xistin û ew yek ji wan awayên ku herî zêde tê bikar anîn e, ji ber ku ew bi pêbawerî bikêrhatî, zengîn peyda dike. Nûneratiyên Word2Vec ji bo naskirina hevpariyên semantîk û hevoksaziyê di ziman de bikêr in. Ev tê vê wateyê ku nûnertiyên Word2Vec têkiliyên di navbera têgehên wekhev de digirin, ku dikarin ji hev cuda bikin ku hevpariya di navbera "Padîşah" û "Qral" de qralî ye û ku "Qral" tê wateya "zilam-bûn" dema ku Queen tê wateya "Jin-bûn".

Lepik

GloVE, an Vektora Gerdûnî ji bo Nûnertiya Peyv, li ser algorîtmayên binavkirinê yên ku ji hêla Word2Vec ve têne bikar anîn ava dike. Rêbazên binavkirina GloVe hem aliyên Word2Vec û hem jî teknîkên faktorkirina matrixê yên mîna Analîza Semantîk a Dereng bi hev re vedihewîne. Feydeya Word2Vec ev e ku ew dikare çarçovê bigire, lê wekî danûstendinek ew statîstîkên nivîsê yên gerdûnî nebaş digire. Berevajî vê, nûnerên vektorê yên kevneşopî di destnîşankirina statîstîkên nivîsê yên gerdûnî de baş in lê ew ji bo destnîşankirina çarçoweya peyvan û hevokan ne bikêr in. GloVE ji her du nêzîkatiyên çêtirîn derdixe, li ser bingeha statîstîkên nivîsê yên gerdûnî, peyv-kontektê diafirîne.

Up Next

Dabeşkirina Wêne Çawa Kar dike?

Ma Miss

Otomasyona Pêvajoya Robotîk (RPA) çi ye?

Daniel Nelson

Blogger û bernameçêkerê ku di nav de pispor e Fêrbûna Machine û Fêrbûna Kûr mijarên. Daniel hêvî dike ku alîkariya kesên din bike ku hêza AI-ê ji bo başiya civakî bikar bînin.