stub Dè a th’ ann an lughdachadh meudachd? — Unite.AI
Ceangal leinn
Clas Maighstir AI:

AI 101

Dè a th’ ann an lughdachadh meudachd?

mm
Ùraichte on

Dè a th’ ann an lughdachadh meudachd?

Lùghdachadh meudachd na phròiseas a thathar a’ cleachdadh gus meudachd dàta a lughdachadh, a’ gabhail mòran fheartan agus gan riochdachadh mar nas lugha de fheartan. Mar eisimpleir, dh’ fhaodadh lughdachadh meudachd a bhith air a chleachdadh gus seata dàta de fhichead feart a lughdachadh sìos gu dìreach beagan fheartan. Tha lughdachadh meudachd air a chleachdadh gu cumanta ann an ionnsachadh gun stiùireadh gnìomhan gus clasaichean a chruthachadh gu fèin-ghluasadach a-mach à mòran fheartan. Gus tuigse nas fheàrr fhaighinn carson agus ciamar a thathas a’ cleachdadh lughdachadh meudachd, bheir sinn sùil air na duilgheadasan co-cheangailte ri dàta àrd-mheudach agus na dòighean as mòr-chòrdte airson meudachd a lughdachadh.

Bidh barrachd mheudan a’ leantainn gu cus uidheamachadh

Tha meudachd a’ toirt iomradh air an àireamh de fheartan/colbhan taobh a-staigh stòr-dàta.

Thathas gu tric a’ gabhail ris gu bheil barrachd fheartan nas fheàrr ann an ionnsachadh innealan, leis gu bheil e a’ cruthachadh modail nas cruinne. Ach, chan eil barrachd fheartan gu riatanach ag eadar-theangachadh gu modail nas fheàrr.

Faodaidh feartan stòr-dàta atharrachadh gu farsaing a thaobh cho feumail sa tha iad don mhodail, le mòran fheartan nach eil cho cudromach. A bharrachd air an sin, mar as motha de fheartan a tha anns an t-seata dàta, is ann as motha de shamhlaichean a tha a dhìth gus dèanamh cinnteach gu bheil na measgachadh eadar-dhealaichte de fheartan air an deagh riochdachadh taobh a-staigh an dàta. Mar sin, tha an àireamh de shamhlaichean ag àrdachadh ann an co-rèir ris an àireamh de fheartan. Tha barrachd shampaill agus barrachd fheartan a’ ciallachadh gum feum am modail a bhith nas iom-fhillte, agus mar a bhios modalan a’ fàs nas iom-fhillte bidh iad nas mothachail air cus uidheamachadh. Tha am modail ag ionnsachadh nam pàtranan anns an dàta trèanaidh ro mhath agus chan eil e a’ dèanamh coitcheannachadh gu dàta a-mach à sampall.

Tha grunn bhuannachdan ann a bhith a’ lughdachadh meudachd dàta. Mar a chaidh ainmeachadh, chan eil modalan nas sìmplidh cho buailteach a bhith a 'toirt thairis air, oir feumaidh am modail nas lugha de bharailean a dhèanamh a thaobh mar a tha feartan co-cheangailte ri chèile. A bharrachd air an sin, tha nas lugha de mheudan a’ ciallachadh gu bheil feum air nas lugha de chumhachd coimpiutaireachd gus na h-algorithms a thrèanadh. San aon dòigh, tha feum air nas lugha de rùm stòraidh airson stòr-dàta aig a bheil meudachd nas lugha. Le bhith a’ lughdachadh meudachd dàta leigidh sin leat algorithms a chleachdadh nach eil iomchaidh airson stòran-dàta le mòran fheartan.

Dòighean Lùghdachadh Tomhas Coitcheann

Faodaidh lughdachadh meudachd a bhith le taghadh feart no innleadaireachd feart. Is e taghadh feart far a bheil an innleadair a’ comharrachadh na feartan as buntainniche den t-seata dàta, fhad ‘s a tha innleadaireachd feart Is e seo am pròiseas airson feartan ùra a chruthachadh le bhith a’ cothlamadh no ag atharrachadh feartan eile.

Faodar taghadh feart agus innleadaireachd a dhèanamh le prògram no le làimh. Nuair a bhios tu a’ taghadh agus a’ innleadaireachd feartan le làimh, tha sealladh an dàta gus co-dhàimhean eadar feartan agus clasaichean a lorg àbhaisteach. Faodaidh a bhith a’ dèanamh lughdachadh meudachd san dòigh seo a bhith ùine mhòr agus mar sin tha cuid de na dòighean as cumanta air meudachd a lughdachadh a’ toirt a-steach cleachdadh algoirmean a tha rim faighinn ann an leabharlannan mar Scikit-learn for Python. Tha na h-algorithms lughdachadh meudachd cumanta seo a’ toirt a-steach: Mion-sgrùdadh Prìomh Cho-phàirt (PCA), Lùghdachadh Luach Singilte (SVD), agus Mion-sgrùdadh Lethbhreith Sreathach (LDA).

Is e PCA agus SVD mar as trice na h-algorithms a thathas a’ cleachdadh ann an lughdachadh meudachd airson gnìomhan ionnsachaidh gun stiùireadh, agus mar as trice is e LDA agus PCA an fheadhainn a tha air an cleachdadh airson lughdachadh meudachd ionnsachaidh fo stiùir. A thaobh modalan ionnsachaidh fo stiùir, tha na feartan ùra dìreach air am biathadh a-steach don neach-seòrsachaidh ionnsachadh inneal. Thoir an aire nach eil anns na cleachdaidhean a tha air am mìneachadh an seo ach cùisean cleachdaidh coitcheann agus chan e na h-aon chumhaichean anns am faodar na dòighean sin a chleachdadh. Chan eil anns na h-algorithms lughdachadh meudachd a tha air am mìneachadh gu h-àrd ach dòighean staitistigeil agus thathas gan cleachdadh taobh a-muigh modalan ionnsachaidh inneal.

Mion-sgrùdadh Prìomh phàirtean

Dealbh: Matrix le prìomh phàirtean air an comharrachadh

Mion-sgrùdadh Prìomh Chomharran (PCA) Is e dòigh staitistigeil a th’ ann a bhith a’ dèanamh anailis air feartan/feartan dàta agus a’ toirt geàrr-chunntas air na feartan as buadhaiche. Tha feartan an dàta air an cur còmhla ann an riochdachaidhean a chumas a’ mhòr-chuid de fheartan an dàta ach a tha sgapte thar nas lugha de mheudan. Faodaidh tu smaoineachadh air seo mar “sguabadh” an dàta sìos bho riochdachadh meud nas àirde gu fear le dìreach beagan tomhasan.

Mar eisimpleir de shuidheachadh far am faodadh PCA a bhith feumail, smaoinich air na diofar dhòighean air fìon a mhìneachadh. Ged a tha e comasach cunntas a thoirt air fìon le bhith a’ cleachdadh mòran fheartan sònraichte leithid ìrean CO2, ìrean èadhair, msaa, dh’ fhaodadh gum bi feartan sònraichte mar sin an ìre mhath gun fheum nuair a thathar a’ feuchainn ri seòrsa sònraichte de dh’fhìon a chomharrachadh. An àite sin, bhiodh e na b’ ciallaiche an seòrsa aithneachadh stèidhichte air feartan nas fharsainge leithid blas, dath, agus aois. Faodar PCA a chleachdadh gus feartan nas sònraichte a chur còmhla agus feartan a chruthachadh a tha nas fharsainge, nas fheumail, agus nach eil cho buailteach a bhith ag adhbhrachadh cus.

Tha PCA air a dhèanamh le bhith a’ dearbhadh mar a tha na feartan cuir a-steach eadar-dhealaichte bhon mheadhan a thaobh a chèile, a’ dearbhadh a bheil dàimh sam bith eadar na feartan. Gus seo a dhèanamh, thèid matrix covariance a chruthachadh, a’ stèidheachadh matrix air a dhèanamh suas de na covariances a thaobh na paidhrichean a dh’ fhaodadh a bhith ann de fheartan an t-seata. Tha seo air a chleachdadh gus co-dhàimhean eadar na caochladairean a dhearbhadh, le covariance àicheil a’ nochdadh co-dhàimh inbhéartach agus co-dhàimh adhartach a’ nochdadh co-dhàimh adhartach.

Tha na prìomh phàirtean (as buadhaiche) den t-seata dàta air an cruthachadh le bhith a’ cruthachadh cothlamadh sreathach de na caochladairean tùsail, a tha air a dhèanamh le cuideachadh bho bhun-bheachdan loidhneach ailseabra ris an canar luachan eigen agus eigenvectors. Tha na cothlamadh air an cruthachadh gus nach bi na prìomh phàirtean ceangailte ri chèile. Tha a’ mhòr-chuid den fhiosrachadh anns na caochladairean tùsail air a dhlùthadh a-steach don chiad beagan phrìomh phàirtean, a’ ciallachadh gun deach feartan ùra (na prìomh phàirtean) a chruthachadh anns a bheil am fiosrachadh bhon t-seata dàta tùsail ann an àite meud nas lugha.

Dì-luachadh Luach Singilte

Dealbh: Le Cmglee - An obair agad fhèin, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=67853297

Lùghdachadh luach singilte (SVD) is air a chleachdadh gus luachan taobh a-staigh matrix a dhèanamh nas sìmplidhe, a 'lùghdachadh na matrix sìos gu na pàirtean co-phàirteach agus a' dèanamh àireamhachadh leis a 'mhaitris sin nas fhasa. Faodar SVD a chleachdadh an dà chuid airson matrices fìor-luach agus iom-fhillte, ach airson adhbharan a’ mhìneachaidh seo, nì sinn sgrùdadh air mar a nì thu sgrios air matrix de fhìor luachan.

Gabh ris gu bheil matrix againn air a dhèanamh suas de dhàta fìor luach agus is e ar n-amas an àireamh de cholbhan / fheartan taobh a-staigh na matrix a lughdachadh, coltach ri amas PCA. Coltach ri PCA, bidh SVD a’ teannachadh meudachd a’ mhaitrix fhad ‘s a tha e a’ gleidheadh ​​​​na h-uimhir de dh’ caochlaideachd na matrix ’s as urrainn. Ma tha sinn airson obrachadh air matrix A, is urrainn dhuinn matrix A a riochdachadh mar trì matrices eile ris an canar U, D, & V. Tha Matrix A air a dhèanamh suas de na h-eileamaidean x * y tùsail fhad ‘s a tha matrix U air a dhèanamh suas de eileamaidean X * X. matrix orthogonal). Tha Matrix V na mhaitrix orthogonal eadar-dhealaichte anns a bheil eileamaidean y * y. Tha na h-eileamaidean x * y ann am Matrix D agus is e matrix trastain a th’ ann.

Gus na luachan airson matrix A a bhriseadh sìos, feumaidh sinn na luachan singilte singilte tùsail a thionndadh gu na luachan trastain a lorgar taobh a-staigh matrix ùr. Nuair a bhios iad ag obair le matrices orthogonal, chan atharraich na feartan aca ma tha iad air an iomadachadh le àireamhan eile. Mar sin, is urrainn dhuinn tuairmse a dhèanamh air matrix A le bhith a’ gabhail brath air an togalach seo. Nuair a bhios sinn ag iomadachadh na matrices orthogonal còmhla ri tar-chuir Matrix V, tha an toradh na mhaitrix co-ionann ris an A.

Nuair a thèid Matrix A a bhriseadh sìos gu matrices U, D, agus V, tha an dàta a gheibhear ann am Matrix A annta. Ach, 's ann air na colbhan as fhaide air chlì de na matrices a chumas a' mhòr-chuid den dàta. Is urrainn dhuinn dìreach na beagan cholbhan sin a ghabhail agus riochdachadh Matrix A a bhith againn aig a bheil fada nas lugha de mheudan agus a’ mhòr-chuid den dàta taobh a-staigh A.

Mion-sgrùdadh Linear Discriminant

 

Clì: Matrix ron LDA, Deas: Ais às deidh LDA, a-nis dealaichte

Mion-sgrùdadh Sreathach Lethbhreith (LDA) na phròiseas a bheir dàta bho ghraf ioma-thaobhach agus ga ath-dhealbhadh air graf loidhneach. Faodaidh tu seo fhaicinn le bhith a’ smaoineachadh air graf dà-thaobhach làn de phuingean dàta a bhuineas do dhà chlas eadar-dhealaichte. Thoir an aire gu bheil na puingean air an sgapadh mun cuairt gus nach tèid loidhne a tharraing a dhealaicheas gu sgiobalta an dà chlas eadar-dhealaichte. Gus an suidheachadh seo a làimhseachadh, faodar na puingean a lorgar sa ghraf 2D a lùghdachadh sìos gu graf 1D (loidhne). Bidh a h-uile puing dàta air an sgaoileadh thairis air an loidhne seo agus tha sinn an dòchas gun tèid a roinn ann an dà earrann a tha a’ riochdachadh an dealachaidh as fheàrr den dàta.

Nuair a bhios tu a’ coileanadh LDA tha dà phrìomh amas ann. Is e a’ chiad amas an eadar-dhealachadh airson nan clasaichean a lughdachadh, agus is e an dàrna amas an astar as motha eadar dòighean an dà chlas a mheudachadh. Tha na h-amasan sin air an coileanadh le bhith a’ cruthachadh axis ùr a bhios ann sa ghraf 2D. Bidh an axis ùr-chruthaichte ag obair gus an dà chlas a sgaradh stèidhichte air na h-amasan a chaidh a mhìneachadh roimhe. Às deidh an axis a chruthachadh, thèid na puingean a lorgar sa ghraf 2D a chuir air an axis.

Tha trì ceumannan a dhìth gus na puingean tùsail a ghluasad gu suidheachadh ùr air an axis ùr. Anns a 'chiad cheum, tha an astar eadar na clasaichean fa leth a' ciallachadh (an eadar-dhealachadh eadar-chlas) air a chleachdadh gus sgaradh nan clasaichean obrachadh a-mach. Anns an dàrna ceum, tha an caochladh taobh a-staigh nan clasaichean eadar-dhealaichte air a thomhas, air a dhèanamh le bhith a 'dearbhadh an astair eadar an sampall agus a' mheadhan airson a 'chlas sin. Anns a’ cheum mu dheireadh, thathas a’ cruthachadh an àite le tomhas ìosal a tha a’ meudachadh an eadar-dhealachaidh eadar clasaichean.

Bidh an innleachd LDA a’ coileanadh nan toraidhean as fheàrr nuair a tha na dòighean airson nan clasaichean targaid fada bho chèile. Chan urrainn dha LDA na clasaichean a sgaradh gu h-èifeachdach le axis sreathach ma tha na dòighean airson sgaoilidhean a’ dol thairis air.

 

Blogger agus prògramadair le speisealaichean ann an Machine Ionnsachadh agus Ionnsachadh domhainn cuspairean. Tha Daniel an dòchas daoine eile a chuideachadh gus cumhachd AI a chleachdadh airson math sòisealta.