stuacach Conas a Oibríonn Aicmiú Téacs? - Aontú.AI
Ceangail le linn
Máistir-rang AI:

AI 101

Conas a Oibríonn Aicmiú Téacs?

mm
Nuashonraithe on

Is éard atá i rangú téacs ná an próiseas chun seichimh téacs a anailísiú agus lipéad a shannadh dóibh, iad a chur i ngrúpa bunaithe ar a n-ábhar. Tá rangú téacs mar bhunús le beagnach aon tasc AI nó meaisínfhoghlama a bhaineann le Próiseáil Teanga Nádúrtha (NLP). Le haicmiú téacs, is féidir le ríomhchlár raon leathan de thascanna éagsúla a dhéanamh amhail aithint turscair, anailís meoin agus feidhmeanna chatbot. Conas a oibríonn rangú téacs go díreach? Cad iad na modhanna éagsúla chun rangú téacs a dhéanamh? Fiosróimid freagraí na gceisteanna seo thíos.

Aicmiú Téacs a Shainmhíniú

Tá sé tábhachtach roinnt ama a thógáil agus a chinntiú go dtuigeann muid cad é an t-aicmiú téacs, go ginearálta, sula ndéantar iniúchadh ar na modhanna éagsúla chun téacs a rangú. Tá aicmiú téacs ar cheann de na téarmaí sin a chuirtear i bhfeidhm ar go leor tascanna agus halgartaim éagsúla, mar sin tá sé úsáideach a chinntiú go dtuigimid bunchoincheap rangú téacs sula mbogaimid ar aghaidh chun iniúchadh a dhéanamh ar na bealaí éagsúla inar féidir é a dhéanamh.

Aon rud a bhaineann le catagóirí éagsúla a chruthú le haghaidh téacs, agus ansin samplaí téacs éagsúla a lipéadú mar na catagóirí seo, is féidir aicmiú téacs a mheas. Chomh fada agus a dhéanann córas na bunchéimeanna seo is féidir é a mheas mar aicmitheoir téacs, beag beann ar an modh cruinn a úsáidtear chun an téacs a rangú agus beag beann ar an gcaoi a gcuirtear an t-aicmitheoir téacs i bhfeidhm ar deireadh. Is samplaí d’aicmiú téacs iad turscar ríomhphoist a bhrath, doiciméid a eagrú de réir ábhair nó teidil, agus meon athbhreithnithe ar tháirge a aithint toisc go mbaintear amach iad trí théacs a ghlacadh mar ionchur agus lipéad ranga a aschur don phíosa téacs sin.

Conas a Oibríonn Aicmiú Téacs?

Grianghraf: Quinn Dombrowski via Flickr, CC BY SA 2.0 , ( https://www.flickr.com/photos/quinnanya/4714794045)

Is féidir an chuid is mó de mhodhanna aicmithe téacs a chur i gceann amháin de thrí chatagóir éagsúla: modhanna bunaithe ar rialacha nó modhanna meaisínfhoghlama.

Modhanna Aicmithe Bunaithe ar Riail

Feidhmíonn modhanna aicmithe téacs atá bunaithe ar rialacha trí úsáid a bhaint as rialacha teangeolaíocha a bhfuil innealtóireacht shainráite déanta orthu. Úsáideann an córas na rialacha a chruthaigh an t-innealtóir chun a chinneadh cén aicme ar cheart do phíosa áirithe téacs a bheith i gceist léi, ag lorg leideanna i bhfoirm eilimintí téacs atá ábhartha go séimeantach. Tá patrún ag gach riail a chaithfidh an téacs a mheaitseáil le cur sa chatagóir chomhfhreagrach.

Le bheith níos nithiúla, déarfaimis gur theastaigh uait aicmitheoir téacs a dhearadh a bheadh ​​in ann idirdhealú a dhéanamh idir topaicí coitianta comhrá, amhail an aimsir, scannáin nó bia. Le go mbeidh do rangaitheoir téacs in ann plé na haimsire a aithint, b’fhéidir go ndéarfá leis focail a bhaineann leis an aimsir a chuardach i gcorp na samplaí téacs atá á mbeathú aige. Bheadh ​​liosta eochairfhocail, frásaí agus patrúin ábhartha eile agat a d’fhéadfaí a úsáid chun idirdhealú a dhéanamh idir an topaic. Mar shampla, b’fhéidir go dtabharfaidh tú treoir don aicmitheoir focail mar “gaoth”, “báisteach”, “grian”, “sneachta”, nó “scamall” a chuardach. D’fhéadfá ansin go mbreathnódh an t-aicmitheoir trí théacs ionchuir agus an líon uaireanta a léirítear na focail seo i gcorp an téacs a chomhaireamh agus dá mbeadh siad le feiceáil níos coitianta ná focail a bhaineann le scannáin, dhéanfá an téacs a rangú mar a bhaineann leis an rang aimsire.

Is é an buntáiste a bhaineann le córais atá bunaithe ar rialacha ná go bhfuil a n-ionchuir agus a n-aschur intuartha agus inléirithe ag daoine, agus gur féidir iad a fheabhsú trí idirghabháil láimhe ón innealtóir. Mar sin féin, bíonn modhanna aicmithe bunaithe ar rialacha beagán brittle freisin, agus is minic a bhíonn am deacair acu ginearálú toisc nach féidir leo ach cloí leis na patrúin réamhshainithe a cláraíodh isteach. Mar shampla, d'fhéadfadh an focal “scamall” tagairt a dhéanamh do thaise sa spéir, nó d'fhéadfadh sé a bheith ag tagairt do scamall digiteach ina bhfuil sonraí stóráilte. Tá sé deacair do chórais rialacha-bhunaithe na nuances seo a láimhseáil gan na hinnealtóirí a chaitheamh méid cothrom ama ag iarraidh a réamh-mheas agus a choigeartú de láimh do na subtleties.

Córais Meaisín Foghlama

Mar a luadh thuas, tá teorainneacha ag baint le córais atá bunaithe ar rialacha, mar ní mór a bhfeidhmeanna agus a rialacha a réamhchlárú. I gcodarsnacht leis sin, feidhmíonn córais aicmithe meaisín-fhoghlaim-bhunaithe trí halgartaim a chur i bhfeidhm a dhéanann anailís ar thacair sonraí do phatrúin a bhaineann le haicme áirithe.

Cothaítear cásanna réamh-lipéadaithe/réamhrangaithe le halgartaim meaisínfhoghlama a ndéantar anailís orthu le haghaidh gnéithe ábhartha. Is iad na cásanna réamhlipéadaithe seo na sonraí oiliúna.

Déanann an t-aicmitheoir meaisínfhoghlama anailís ar na sonraí oiliúna agus foghlaimíonn sé patrúin a bhaineann leis na ranganna éagsúla. Ina dhiaidh sin, baintear a lipéid ar chásanna nach bhfuil le feiceáil agus cuirtear iad leis an algartam aicmithe a sannann lipéad do na cásanna. Ansin cuirtear na lipéid sannta i gcomparáid leis na lipéid bhunaidh chun a fháil amach cé chomh cruinn agus a bhí an t-aicmitheoir meaisínfhoghlama, ag tomhas cé chomh maith agus a d’fhoghlaim an tsamhail cad iad na patrúin a thuar cé na ranganna.

Feidhmíonn halgartaim meaisínfhoghlama trí anailís a dhéanamh ar shonraí uimhriúla. Ciallaíonn sé seo gur gá an téacs a thiontú go formáid uimhriúil chun algartam meaisínfhoghlama a úsáid ar shonraí téacs. Tá modhanna éagsúla ann chun sonraí téacs a ionchódú mar shonraí uimhriúla agus modhanna meaisínfhoghlama a chruthú timpeall na sonraí seo. Clúdóimid cuid de na bealaí éagsúla chun sonraí téacs a léiriú thíos.

Mála-of-Focail

Mála-focail ar cheann de na cuir chuige is coitianta a úsáidtear chun sonraí téacs a ionchódú agus a léiriú. Tagann an téarma “mála na bhfocal” ón bhfíric go nglacann tú go bunúsach na focail go léir sna doiciméid agus go gcuireann tú iad go léir in aon “mhála” gan aird a thabhairt ar ord na bhfocal nó ar an ngramadach, gan aird a thabhairt ach ar an minicíocht na bhfocal sa mhála. Is éard a bhíonn mar thoradh air seo ná eagar fada, nó veicteoir, ina bhfuil léiriú aonair de na focail go léir sna doiciméid ionchuir. Mar sin má tá 10000 focal uathúla san iomlán sna doiciméid ionchuir, beidh na gnéithe veicteoirí 10000 focal ar fad. Seo mar a ríomhtar méid an mhála focal/feicteora gné.

Grianghraf: gk_ via Machinelearning.co, ( https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

Tar éis méid an ghné-veicteora a chinneadh, sanntar a veicteoir féin do gach doiciméad sa liosta doiciméad iomlán, líonta le huimhreacha a léiríonn cé mhéad uair a fheictear an focal atá i gceist sa doiciméad reatha. Ciallaíonn sé seo má tá an focal “bia” le feiceáil ocht n-uaire laistigh de dhoiciméad téacs amháin, beidh ocht gcinn sa suíomh comhfhreagrach ag an eagar veicteoireach/gnéithe comhfhreagracha sin.

Ar bhealach eile, cuirtear na focail uathúla ar fad atá le feiceáil sna doiciméid ionchuir go léir i mála amháin agus ansin faigheann gach doiciméad veicteoir focal den mhéid céanna, a líontar isteach ansin leis an líon uaireanta a bhíonn na focail éagsúla le feiceáil sa doiciméad. .

Is minic a bheidh líon mór focal uathúla i dtacar sonraí téacs, ach ní úsáidtear an chuid is mó díobh go minic. Ar an ábhar sin, is gnách go gcuirtear teorainn ar líon na bhfocal a úsáidtear chun an focal veicteoir a chruthú ag luach roghnaithe (N) agus ansin is é Nx1 toise an ghné-veicteora.

Minicíocht Téarma-Minicíocht Doiciméad Inbhéarta (TF-IDF)

Bealach eile chun doiciméad a léiriú atá bunaithe ar na focail atá ann, tugtar dubáil air Minicíocht Téarma-Minicíocht Doiciméad Inbhéarta (TF-IDF). Cruthaíonn cur chuige TF-IDF veicteoir freisin a sheasann don doiciméad bunaithe ar na focail atá ann, ach murab ionann agus Bag-of-words tá na focail seo ualaithe ag níos mó ná a minicíocht amháin. Déanann TF-IDF tábhacht na bhfocal sna doiciméid a mheas, agus iarracht á déanamh a chainníochtú cé chomh ábhartha is atá an focal sin d’ábhar an doiciméid. I bhfocail eile, déanann TF-IDF anailís ar ábharthacht in ionad minicíochta agus cuirtear scór TF-IDF a ríomhtar maidir leis an tacar sonraí iomlán in ionad an chomhairimh focal i ngné-veicteora.

Feidhmítear cur chuige TF-IDF tríd an minicíocht téarma a ríomh ar dtús, an líon uaireanta a léirítear na téarmaí uathúla laistigh de dhoiciméad ar leith. Mar sin féin, déanann TF-IDF cúram freisin teorainn a chur leis an tionchar a bhíonn ag focail thar a bheith coitianta ar nós “the”, “nó”, agus “agus”, mar go bhfuil na “stopfhocail” seo an-choitianta ach is fíorbheagán faisnéise a thugann siad faoi ábhar an doiciméid. Ní mór na focail seo a chur as an áireamh, agus is é sin a dtagraíonn an chuid “minicíocht inbhéartach doiciméid” de TF-IDF. Déantar é seo mar dá mhéad doiciméad a thaispeánann focal sonrach iontu, is ea is lú úsáideach a bheidh an focal sin chun é a idirdhealú ó na doiciméid eile i liosta na ndoiciméad go léir. Tá an fhoirmle a úsáideann TF-IDF chun tábhacht focal a ríomh deartha chun na focail is minice agus is saibhre ó thaobh séimeantach de a chaomhnú.

Sna gné-veicteoirí a chruthaigh an cur chuige TF-IDF tá luachanna normalaithe arb ionann iad agus a haon, agus sanntar luach ualaithe do gach focal mar a ríomhtar leis an bhfoirmle TF-IDF.

Embedings Word

Leabú focal is modhanna iad chun téacs a léiriú a chinntíonn go bhfuil léirithe uimhriúla cosúla ag focail a bhfuil bríonna comhchosúla acu.

Leabú focal oibriú trí “veicteoiriú” focail, rud a chiallaíonn go seasann siad focail mar veicteoirí fíorluacha i spás veicteora. Tá na veicteoirí ann i ngreille nó i maitrís, agus tá treo agus fad (nó méid) acu. Agus focail á léiriú mar veicteoirí, déantar na focail a thiontú ina veicteoirí atá comhdhéanta de fhíorluachanna. Tá gach focal mapáilte go veicteoir amháin, agus tá treo agus méid comhchosúil ag focail atá cosúil le brí. Leis an gcineál seo ionchódaithe is féidir le algartam meaisínfhoghlama caidrimh chasta idir focail a fhoghlaim.

Cruthaítear na leabaithe a sheasann do fhocail éagsúla maidir leis an gcaoi a n-úsáidtear na focail atá i gceist. Toisc go mbeidh veicteoirí cosúla ag focail a úsáidtear ar bhealaí comhchosúla, aistrítear cuid den bhrí atá leis na focail go huathoibríoch tríd an bpróiseas chun leabú focal a chruthú. Cruthaíonn cur chuige mála focal, i gcodarsnacht leis sin, léirithe brioscacha ina mbeidh léiriúcháin neamhchosúla ag focail éagsúla fiú má úsáidtear iad i gcomhthéacsanna atá an-chosúil.

Mar thoradh air sin, is fearr comhthéacs focail laistigh d’abairt a ghabháil le neadú focal.

Úsáidtear algartaim agus cuir chuige éagsúla chun leabú focal a chruthú. I measc cuid de na modhanna leabaithe focal is coitianta agus is iontaofa tá: sraitheanna leabú, word2vec, agus GloVe.

Sraitheanna a Leabú

Bealach amháin a d’fhéadfaí a úsáid chun leabú focal a úsáid in éineacht le córas meaisínfhoghlama/domhainfhoghlaim bain úsáid as ciseal leabaithe. Is sraitheanna foghlama domhain iad sraitheanna leabaithe a thiontaíonn focail ina leabaithe a chuirtear isteach ansin sa chuid eile den chóras domhainfhoghlama. Foghlaimítear na leabú focal de réir mar a thraenáil an líonra do thasc ar leith bunaithe ar théacs.

I gcur chuige leabú focal, beidh léirithe comhchosúla ag focail chomhchosúla agus beidh siad níos gaire dá chéile ná d’fhocail neamhchosúla.

Chun sraitheanna leabaithe a úsáid, ní mór an téacs a réamhphróiseáil ar dtús. Ní mór an téacs sa doiciméad a ionchódú aon-te, agus ní mór méid an veicteora a shonrú roimh ré. Ansin déantar an téacs aon-te a thiontú go veicteoirí focal agus seoltar na veicteoirí isteach sa mhúnla meaisínfhoghlama.

Focal 2Vec

Focal 2Vec modh coitianta eile chun focail a leabú. Úsáideann Word2Vec modhanna staitistiúla chun focail a thiontú ina leabaithe agus déantar é a bharrfheabhsú le húsáid le samhlacha néaracha líonra-bhunaithe. D'fhorbair taighdeoirí Google Word2Vec agus tá sé ar cheann de na modhanna leabaithe is coitianta a úsáidtear, toisc go dtugann sé leabú saibhir úsáideacha go hiontaofa. Tá léirithe Word2Vec úsáideach chun comóntachtaí shéimeantacha agus comhréire teanga a aithint. Ciallaíonn sé seo go n-áiríonn uiríll Word2Vec gaolmhaireachtaí idir choincheapa cosúla, a bheith in ann idirdhealú a dhéanamh gur ríchíosa é an chomóntacht idir “Rí” agus “Banríon” agus go dtugann “Rí” le tuiscint “fear-náire” agus go dtugann an Bhanríon le tuiscint “Ban-Ghaeltacht”.

GloVe

Glove, nó Veicteoir Domhanda um Léiriú Focal, cuireann sé leis na halgartaim leabaithe a úsáideann Word2Vec. Comhcheanglaíonn modhanna leabaithe GloVe gnéithe de theicnící Word2Vec agus fachtóiriú maitrís ar nós Anailís Shéimeantach Folaigh. Is é an buntáiste a bhaineann le Word2Vec ná gur féidir leis comhthéacs a ghabháil, ach mar mhalairt ar fad ní bhíonn sé ag gabháil le staitisticí domhanda téacs. Os a choinne sin, tá léirithe traidisiúnta veicteoirí go maith chun staitisticí téacs domhanda a chinneadh ach níl siad úsáideach chun comhthéacs focail agus frásaí a chinneadh. Baineann GloVE leas as an dá chur chuige is fearr, ag cruthú comhthéacs focal bunaithe ar staitisticí téacs domhanda.

Blogger agus ríomhchláraitheoir le speisialtachtaí i Foghlaim Meaisín agus Deep Learning topaicí. Tá súil ag Daniel cabhrú le daoine eile cumhacht AI a úsáid ar mhaithe le leas sóisialta.