AI 101

Cad is Laghdú Toise ann?

Nuashonraithe on Deireadh Fómhair 20, 2020

Cad is Laghdú Toise ann?

Laghdú toise is próiseas é a úsáidtear chun toise an tacair sonraí a laghdú, ag glacadh le go leor gnéithe agus á léiriú mar níos lú gnéithe. Mar shampla, d’fhéadfaí úsáid a bhaint as laghdú toise chun tacar sonraí fiche gné a laghdú go dtí cúpla gné. Úsáidtear laghdú toise go coitianta i foghlaim gan mhaoirsiú tascanna a chruthú go huathoibríoch ranganna as go leor gnéithe. D'fhonn tuiscint níos fearr a fháil cén fáth agus conas a úsáidtear laghdú toise, féachfaimid ar na fadhbanna a bhaineann le sonraí ardtoiseacha agus na modhanna is coitianta chun toise a laghdú.

Níos Mó Toisí is cúis le Rófheistiú

Tagraíonn toise don líon gnéithe/colún laistigh de thacar sonraí.

Glactar leis go minic go bhfuil níos mó gnéithe níos fearr ag foghlaim meaisín, toisc go gcruthaíonn sé múnla níos cruinne. Mar sin féin, ní gá go n-aistríonn níos mó gnéithe go múnla níos fearr.

Is féidir le gnéithe tacair sonraí a bheith éagsúil go forleathan i dtéarmaí cé chomh húsáideach agus atá siad don tsamhail, agus is beag tábhacht a bhaineann le go leor gnéithe. Ina theannta sin, dá mhéad gnéithe atá sa tacar sonraí, is ea is mó samplaí a bheidh ag teastáil lena chinntiú go léirítear go maith na teaglamaí éagsúla gnéithe laistigh de na sonraí. Mar sin, méadaíonn líon na samplaí i gcomhréir le líon na ngnéithe. Ciallaíonn níos mó samplaí agus níos mó gnéithe go gcaithfidh an tsamhail a bheith níos casta, agus de réir mar a éiríonn samhlacha níos casta éiríonn siad níos íogaire do rófheisteas. Foghlaimíonn an tsamhail na patrúin sna sonraí oiliúna go ró-mhaith agus ní dhéantar ginearálú ar shonraí as samplaí.

Tá buntáistí éagsúla ag baint le gné an tacair sonraí a laghdú. Mar a luadh, is lú an seans go ndéanfar rófheisteas ar shamhlacha níos simplí, toisc go gcaithfidh an tsamhail níos lú toimhdí a dhéanamh maidir leis an gcaoi a bhfuil baint ag gnéithe lena chéile. Ina theannta sin, ciallaíonn níos lú toisí go bhfuil níos lú cumhachta ríomhaireachta ag teastáil chun na halgartaim a oiliúint. Mar an gcéanna, tá gá le níos lú spáis stórála le haghaidh tacar sonraí a bhfuil toise níos lú aige. Má laghdaítear toise an tacair sonraí is féidir leat algartaim a úsáid nach bhfuil oiriúnach do thacair sonraí a bhfuil go leor gnéithe acu.

Modhanna Coiteann Laghdú Toise

Is féidir laghdú toise a dhéanamh trí roghnú gné nó innealtóireacht ghné. Is éard atá i gceist le roghnú gné nuair a shainaithníonn an t-innealtóir na gnéithe is ábhartha den tacar sonraí, agus innealtóireacht gné an próiseas chun gnéithe nua a chruthú trí ghnéithe eile a chomhcheangal nó a athrú.

Is féidir roghnú gné agus innealtóireacht a dhéanamh de réir ríomhchláraithe nó de láimh. Nuair a bhíonn gnéithe á roghnú de láimh agus á n-innealtóireacht, is gnách na sonraí a léirshamhlú chun comhghaolta idir gnéithe agus ranganna a fháil. D’fhéadfadh go leor ama a bheith i gceist le laghdú toise a dhéanamh ar an mbealach seo agus mar sin baineann cuid de na bealaí is coitianta chun toise a laghdú le húsáid na n-algartam atá ar fáil i leabharlanna mar Scikit-learn for Python. Áirítear ar na comhhalgartaim laghdaithe toiseachta seo: Anailís ar Phríomh-Chomhpháirt (PCA), Dianscaoileadh Luacha Aonair (SVD), agus Anailís Líneach Idirdhealaitheach (LDA).

Is gnách gurb iad na halgartaim a úsáidtear chun toise a laghdú do thascanna foghlama gan mhaoirseacht ná PCA agus SVD, agus is gnách gurb iad LDA agus PCA na cinn a úsáidtear le haghaidh laghdú gné na foghlama maoirsithe. I gcás samhlacha foghlama maoirsithe, cuirtear na gnéithe nua-ghinte díreach isteach san aicmitheoir meaisínfhoghlama. Tabhair faoi deara nach bhfuil sna húsáidí a gcuirtear síos orthu anseo ach cásanna úsáide ginearálta agus nach iad na coinníollacha amháin inar féidir na teicníochtaí seo a úsáid. Is modhanna staitistiúla atá sna halgartaim laghdaithe toise a bhfuil cur síos orthu thuas agus úsáidtear iad lasmuigh de mhúnlaí meaisínfhoghlama.

Anailís ar Phríomh-Chomhpháirt

Grianghraf: Maitrís le príomhchodanna aitheanta

Anailís ar Phríomh-Chomhpháirt (PCA) is modh staidrimh é a dhéanann anailís ar thréithe/gnéithe tacair sonraí agus a dhéanann achoimre ar na gnéithe is mó a mbíonn tionchar acu. Déantar gnéithe an tacar sonraí a chomhcheangal i léiriúcháin a choinníonn an chuid is mó de shaintréithe na sonraí ach a scaiptear thar níos lú toisí. Is féidir leat smaoineamh air seo mar “bhrú” na sonraí ó léiriú toise níos airde go ceann nach bhfuil ach roinnt toisí ann.

Mar shampla de chás ina bhféadfadh PCA a bheith úsáideach, smaoinigh ar na bealaí éagsúla ina bhféadfaí cur síos a dhéanamh ar fhíon. Cé gur féidir cur síos a dhéanamh ar fhíon trí úsáid a bhaint as go leor gnéithe an-sonracha amhail leibhéil CO2, leibhéil aeraithe, etc., d’fhéadfadh sé go mbeadh gnéithe sonracha den sórt sin sách neamhúsáideach agus iarracht á déanamh cineál sonrach fíona a aithint. Ina áit sin, bheadh sé níos stuama an cineál a aithint bunaithe ar ghnéithe níos ginearálta cosúil le blas, dath agus aois. Is féidir PCA a úsáid chun gnéithe níos sainiúla a chomhcheangal agus chun gnéithe a chruthú atá níos ginearálta, níos úsáidí, agus is lú an seans go gcruthóidh siad rófheisteas.

Déantar PCA trí chinneadh a dhéanamh ar an gcaoi a n-athraíonn na gnéithe ionchuir ón meán i leith a chéile, ag cinneadh an bhfuil gaol ar bith idir na gnéithe. Chun é seo a dhéanamh, cruthaítear maitrís chomhathraitheach, ag bunú maitrís comhdhéanta de na comhathraitheas maidir leis na péirí féideartha de na gnéithe tacair sonraí. Úsáidtear é seo chun comhghaolta idir na hathróga a chinneadh, le comhathraitheas diúltach a léiríonn comhghaol inbhéartach agus comhghaol dearfach a léiríonn comhghaol dearfach.

Cruthaítear na príomhchodanna (is mó tionchair) den tacar sonraí trí chomhcheangail líneacha de na hathróga tosaigh a chruthú, rud a dhéantar le cabhair ó choincheapa líneacha ailgéabar ar a dtugtar eigenluachanna agus eigenvectors. Cruthaítear na teaglamaí ionas nach mbeidh na príomhchodanna comhghaolmhara lena chéile. Comhbhrúitear an chuid is mó den fhaisnéis atá sna hathróga tosaigh isteach sa chéad chúpla príomh-chomhpháirt, rud a chiallaíonn gur cruthaíodh gnéithe nua (na príomhchodanna) a chuimsíonn an fhaisnéis ón mbunachar sonraí i spás tríthoiseach níos lú.

Dianscaoileadh Luach Uatha

Grianghraf: Le Cmglee – Féinobair, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=67853297

Dianscaoileadh Luach Uatha (SVD) is a úsáidtear chun na luachanna laistigh de mhaitrís a shimpliú, an maitrís a laghdú síos go dtí a chomhchodanna agus ríomhaireachtaí a dhéanamh leis an maitrís sin níos éasca. Is féidir SVD a úsáid le haghaidh maitrísí fíorluacha agus casta araon, ach chun críocha an mhínithe seo, scrúdóidh sé conas maitrís fíorluachanna a dhianscaoileadh.

Glac leis go bhfuil maitrís againn atá comhdhéanta de shonraí fíorluacha agus gurb é an sprioc atá againn ná líon na gcolún/gnéithe laistigh den mhaitrís a laghdú, cosúil le sprioc PCA. Cosúil le PCA, déanfaidh SVD gné na maitrís a chomhbhrú agus an méid is féidir d'éagsúlacht na maitrís a chaomhnú. Más mian linn oibriú ar mhaitrís A, is féidir linn maitrís A a léiriú mar thrí mhaitrís eile ar a dtugtar U, D, & V. Tá maitrís A comhdhéanta de na heilimintí x * y bunaidh agus tá maitrís U comhdhéanta d'eilimintí X * X (is é maitrís orthogonal). Is maitrís orthogonal éagsúil é Maitrís V ina bhfuil eilimintí y * y. Tá na dúile x * y i maitrís D agus is maitrís trasnánach é.

Chun na luachanna do mhaitrís A a dhianscaoileadh, ní mór dúinn na bunluachanna uatha maitrís a thiontú go dtí na luachanna trasnánacha a fhaightear laistigh de mhaitrís nua. Nuair a bhíonn siad ag obair le maitrísí orthogonal, ní athraíonn a n-airíonna má iolraítear iad faoi uimhreacha eile. Mar sin, is féidir linn maitrís A a chomhfhogasú trí leas a bhaint as an maoin seo. Nuair a iolraímid na maitrísí orthogonal mar aon le trasuíomh de Maitrís V, is é an toradh maitrís comhionann lenár A bunaidh.

Nuair a dhianscaoiltear Maitrís A síos i maitrísí U, D, agus V, tá na sonraí a fhaightear laistigh de Mhaitrís A iontu. Mar sin féin, is iad na colúin is clé de na maitrísí a choinneoidh formhór na sonraí. Ní féidir linn ach na chéad chúpla colún seo a thógáil agus léiriú a bheith againn ar Mhaitrís A a bhfuil i bhfad níos lú toisí aige agus an chuid is mó de na sonraí laistigh de A.

Anailís Idirdhealaithe Líneach

Ar Chlé: Maitrís roimh LDA, Ar Dheis: Ais i ndiaidh LDA, inscartha anois

Anailís Líneach Idirdhealaitheach (LDA) is próiseas a thógann sonraí ó ghraf iltoiseach agus ath-theilgeann sé ar ghraf líneach é. Is féidir é seo a shamhlú ach smaoineamh ar ghraf déthoiseach a líonadh le pointí sonraí a bhaineann le dhá rang éagsúla. Glac leis go bhfuil na pointí scaipthe timpeall ionas nach féidir líne ar bith a tharraingt a scarfaidh an dá aicme éagsúla go néata. Chun an cás seo a láimhseáil, is féidir na pointí a fhaightear sa ghraf 2T a laghdú go graf 1T (líne). Beidh na pointí sonraí go léir scaipthe trasna na líne seo agus tá súil againn gur féidir í a roinnt ina dhá chuid a léiríonn an deighilt is fearr is féidir idir na sonraí.

Agus LDA á dhéanamh tá dhá phríomhsprioc ann. Is é an chéad sprioc an t-athraitheas do na ranganna a íoslaghdú, agus is é an dara sprioc an fad idir modhanna an dá rang a uasmhéadú. Baintear na spriocanna seo amach trí ais nua a chruthú a bheidh sa ghraf 2T. Feidhmíonn an ais nuachruthaithe an dá rang a scaradh bunaithe ar na spriocanna a ndearnadh cur síos orthu roimhe seo. Tar éis don ais a bheith cruthaithe, cuirtear na pointí a fhaightear sa ghraf 2T feadh na haise.

Tá trí chéim ag teastáil chun na bunphointí a aistriú go dtí suíomh nua feadh na haise nua. Sa chéad chéim, úsáidtear an fad idir na haicmí aonair (an t-athraitheas idir aicmí) chun inscarthacht na n-aicmí a ríomh. Sa dara céim, déantar an t-athraitheas laistigh de na haicmí éagsúla a ríomh, agus an fad idir an sampla agus meán an ranga atá i gceist a chinneadh. Sa chéim dheireanach, cruthaítear an spás tríthoiseach níos ísle a uasmhéadaíonn an t-éagsúlacht idir ranganna.

Baineann teicníc LDA amach na torthaí is fearr nuair a bhíonn na hacmhainní do na sprioc-ranganna i bhfad óna chéile. Ní féidir leis an LDA na haicmí a dheighilt go héifeachtach le hais líneach má tá forluí ar an acmhainn dáileacháin.

Ar Aghaidh Ar Aghaidh

Cad is Foghlaim Ensemble ann?

Ná Mise

Cad is Gréasán Sáraíochta Ginideach (GAN) ann?

Daniel Nelson

Blogger agus ríomhchláraitheoir le speisialtachtaí i Foghlaim Meaisín agus Deep Learning topaicí. Tá súil ag Daniel cabhrú le daoine eile cumhacht AI a úsáid ar mhaithe le leas sóisialta.

Aonaigh.AI

Cad is Laghdú Toise ann?

AI 101

Cad is Laghdú Toise ann?

Clár ábhair

Cad is Laghdú Toise ann?

Níos Mó Toisí is cúis le Rófheistiú

Modhanna Coiteann Laghdú Toise

Anailís ar Phríomh-Chomhpháirt

Dianscaoileadh Luach Uatha

Anailís Idirdhealaithe Líneach

Aonaigh.AI

Cad is Laghdú Toise ann?

Clár ábhair

Cad is Laghdú Toise ann?

Níos Mó Toisí is cúis le Rófheistiú

Modhanna Coiteann Laghdú Toise

Anailís ar Phríomh-Chomhpháirt

Dianscaoileadh Luach Uatha

Anailís Idirdhealaithe Líneach

B'fhéidir gur mhaith leat