Best Of

10 Algartam Foghlama Meaisín is Fearr

Nuashonraithe on Feabhra 10, 2022

Cé go bhfuil muid ag maireachtáil trí thréimhse nuálaíochta urghnách san fhoghlaim meaisín-luathaithe GPU, is minic (agus go feiceálach) na páipéir thaighde is déanaí le halgartaim atá fiche nó tríocha bliain, i gcásanna áirithe 70 bliain d'aois.

D’fhéadfadh roinnt daoine a áiteamh go dtagann go leor de na sean-mhodhanna seo isteach i gcampa na ‘anailíse staitistice’ seachas an meaisínfhoghlama, agus b’fhearr leo teacht na hearnála siar go dtí 1957, agus aireagán an Perceptron.

Ag cur san áireamh a mhéid a thacaíonn na halgartaim níos sine seo leis na treochtaí is déanaí agus na forbairtí ceannlíne a bhaineann le foghlaim meaisín, agus go bhfuil siad fite fuaite ina chéile, is seasamh inchomórtais é. Mar sin, déanaimis féachaint ar chuid de na bloic thógála 'clasaiceacha' atá mar bhonn agus thaca ag na nuálaíochtaí is déanaí, chomh maith le roinnt iontrálacha níos nuaí atá ag déanamh tairiscint luath do halla na Laochra AI.

1: Claochladáin

In 2017 bhí Google Research i gceannas ar chomhoibriú taighde a chríochnaigh leis an páipéar Aird Is gá duit. Thug an saothar breac-chuntas ar ailtireacht úrnua a chuir chun cinn meicníochtaí aird ó 'phíobáil' i múnlaí ionchódóra/díchódóra agus líonra athfhillteach go dtí teicneolaíocht bhunathraithe lárnach ina gceart féin.

Tugadh teideal don chur chuige Trasfhoirmeoir, agus tá sé ina mhodheolaíocht réabhlóideach ó shin i leith Próiseáil Teanga Nádúrtha (NLP), ag cumhachtú, i measc go leor samplaí eile, an tsamhail teanga uath-aischéimnitheach agus póstaer AI-leanbh GPT-3.

Claochladáin a réiteach go galánta an fhadhb trasdul seicheamh, ar a dtugtar 'claochlú' freisin, a úsáidtear i bpróiseáil seichimh ionchuir i seichimh aschuir. Faigheann agus bainistíonn claochladán sonraí ar bhealach leanúnach freisin, seachas i mbaisceanna seicheamhacha, rud a cheadaíonn ‘marthanacht cuimhne’ nach bhfuil ailtireachtaí RNN deartha lena fháil. Le haghaidh forbhreathnú níos mionsonraithe ar chlaochladáin, féach ar ár n-alt tagartha.

I gcodarsnacht leis na Líonraí Néaracha Athfhillteacha (RNNanna) a bhí tosaithe ag dul i gceannas ar thaighde ML i ré CUDA, d'fhéadfadh ailtireacht Trasfhoirmeora a bheith go héasca freisin. comhthreomhar, ag oscailt an bhealaigh chun dul i ngleic go torthúil le corpas sonraí i bhfad níos mó ná na RNNanna.

Úsáid Coitianta

Ghlac Trasfhoirmeoirí samhlaíocht an phobail in 2020 nuair a scaoileadh GPT-3 de chuid OpenAI, rud a bhain sult as an taifead a sháraigh an tráth sin. 175 billiún paraiméadair. Chuir tionscadail níos déanaí, mar shampla 2021, an t-éacht ollmhór seo faoi deara ar deireadh thiar thall scaoileadh de Megatron-Turing NLG 530B de chuid Microsoft, a bhfuil (mar a thugann an t-ainm le fios) le feiceáil os cionn 530 billiún paraiméadair.

A amlíne de thionscadail hyperscale Transformer NLP.... Foinse: microsoft

Tá ailtireacht claochladáin tar éis trasnú freisin ó NLP go fís ríomhaire, ag cumhachtáil a glúin nua creataí sintéise íomhá ar nós OpenAI's Clip agus SLAB, a úsáideann mapáil fearainn téacs>íomhá chun íomhánna neamhiomlána a chríochnú agus íomhánna núíosacha ó fhearainn oilte a shintéisiú, i measc líon méadaitheach feidhmchlár gaolmhara.

Déanann DALL-E iarracht íomhá pháirteach de mheirge Platón a chomhlánú. Foinse: https://openai.com/blog/dall-e/

2: Líonraí Sáraíochta Géiniteacha (GANanna)

Cé go bhfuil clúdach neamhghnách faighte ag claochladáin sna meáin trí scaoileadh agus glacadh le GPT-3, tá an Líonra Sáraitheach Giniúna (GAN) branda so-aitheanta ann féin, agus féadfaidh sé a bheith páirteach sa deireadh go domhain mar bhriathar.

Ar dtús molta i 2014 agus a úsáidtear go príomha le haghaidh sintéise íomhá, Gréasán Sáraíochta Ginideach ailtireacht comhdhéanta de a Gineadóir agus a Idirdhealaitheoir. Téann an Gineadóir trí na mílte íomhánna i dtacar sonraí, ag iarraidh iad a athchruthú go atriallach. I gcás gach iarracht, grádaíonn an tIdirdhealaithe obair an Ghineadóra, agus cuireann sé an Gineadóir ar ais chun déanamh níos fearr, ach gan aon léargas ar an mbealach a ndearnadh earráid san atógáil roimhe seo.

Foinse: https://developers.google.com/machine-learning/gan/gan_structure

Cuireann sé seo iallach ar an nGineadóir iliomad bealaí a iniúchadh, in ionad na cosáin dalla a d’fhéadfadh a bheith ann dá n-inseodh an tIdirdhealaithe dó cá raibh sé ag dul amú (féach #8 thíos) a leanúint. Faoin am a mbeidh an oiliúint thart, tá léarscáil mhionsonraithe agus chuimsitheach ag an nGineadóir de na caidrimh idir pointí sa tacar sonraí.

Sliocht as físeán na dtaighdeoirí a théann leis (féach leabaithe ag deireadh an ailt). Tabhair faoi deara go bhfuil an t-úsáideoir ag ionramháil na gclaochluithe le cúrsóir 'grab' (barr ar chlé). Foinse: https://www.youtube.com/watch?v=k7sG4XY5rIc

Ón bpáipéar Cothromaíocht GAN a Fheabhsú trí Fheasacht ar Spásúlacht a Ardú: timthrialltar creat nua trí spás folaigh GAN a bhíonn uaireanta mistéireach, ag soláthar uirliseacht fhreagrach d'ailtireacht sintéise íomhá. Foinse: https://genforce.github.io/eqgan/

De réir analaí, is é seo an difríocht idir comaitéireacht humdrum amháin go Londain Láir a fhoghlaim, nó sealbhú go cúramach. An tEolas.

Is é an toradh ná bailiúchán ardleibhéil gnéithe i spás folaigh an tsamhail oilte. D’fhéadfadh ‘duine’ a bheith mar tháscaire shéimeantach le haghaidh gné ardleibhéil, agus d’fhéadfadh go nochtfaí tréithe foghlamtha eile, amhail ‘fireann’ agus ‘baineann’ de bharr shliocht sainiúlachta a bhaineann leis an ngné. Ag leibhéil níos ísle is féidir leis na fo-ghnéithe briseadh síos go dtí, 'blonde', 'Caucasian', et al.

Tá gabháil ceist shuntasach i spás folaigh GANanna agus creataí ionchódóra/díchódóra: an gné fite fuaite dá ‘féiniúlacht’ sa spás folaigh an aoibh gháire ar aghaidh baineann ginte GAN, nó an brainse comhthreomhar é?

Aghaidheanna ginte GAN ón duine seonótaí. Foinse: https://this-person-does-not-exist.com/ga

Le cúpla bliain anuas tá méadú ag teacht ar líon na dtionscnamh taighde nua ina leith seo, b'fhéidir ag réiteach an bhealaigh d'eagarthóireacht ghné-leibhéil ar stíl Photoshop do spás folaigh GAN, ach i láthair na huaire, tá go leor claochluithe i ndáiríre ' pacáistí ar fad nó gan aon rud. Go háirithe, baintear amach a ardleibhéal inléirmhínithe sa spás folaigh trí úsáid a bhaint as maisc deighilte shéimeantach.

Úsáid Coitianta

In aice leis an rannpháirtíocht atá acu (iarbhír teoranta go leor) i bhfíseáin falsa dhomhain a bhfuil móréilimh orthu, tá méadú tagtha ar GANanna íomhá/fís-lárnaithe le ceithre bliana anuas, rud a chuir iontais ar thaighdeoirí agus ar an bpobal araon. Is dúshlán é coinneáil suas leis an ráta meadhrán agus minicíocht eisiúintí nua, cé go stór GitHub Feidhmchláir iontacha GAN Tá sé mar aidhm aige liosta cuimsitheach a sholáthar.

Go teoiriciúil is féidir le Líonraí Sáraíochta Ginidiúla gnéithe a dhíorthú ó aon fhearann dea-fhrámaithe, téacs san áireamh.

3: SVM

Ar dtús i 1963, Tacaíocht Meaisín Veicteoir (SVM) algartam lárnach a thagann chun cinn go minic i dtaighde nua. Faoi SVM, mapálann veicteoirí diúscairt choibhneasta na bpointí sonraí i dtacar sonraí, fad is a bhíonn tacaíocht rianaíonn veicteoirí na teorainneacha idir grúpaí, gnéithe nó tréithe éagsúla.

Sainmhíníonn veicteoirí tacaíochta na teorainneacha idir grúpaí. Foinse: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Tugtar a hipearphlána.

Ag leibhéil ghné íseal, tá an SVM déthoiseach (íomhá thuas), ach sa chás go bhfuil líon níos airde grúpaí nó cineálacha aitheanta, éiríonn sé tríthoiseach.

Teastaíonn SVM tríthoiseach le sraith níos doimhne pointí agus grúpaí. Foinse: https://cml.rhul.ac.uk/svm.html

Úsáid Coitianta

Ós rud é gur féidir le Meaisíní Veicteoir Tacaíochta aghaidh a thabhairt go héifeachtach agus go hainniseach ar shonraí ardtoiseacha de go leor cineálacha, ardaíonn siad go forleathan thar raon earnálacha meaisínfhoghlama, lena n-áirítear a bhrath deepfake, aicmiú íomhá, aicmiú cainte gráin, Anailís DNA agus tuar struchtúr daonra, i measc a lán eile.

4: K-Modhanna Braisliú

Is éard atá i gcnuasú i gcoitinne ná foghlaim gan mhaoirsiú cur chuige a fhéachann le pointí sonraí a chatagóiriú trí meastachán dlúis, ag cruthú léarscáil de dháileadh na sonraí atá á staidéar.

K-Ciallaíonn sé deighleoga diaga, grúpaí agus pobail a bhraisliú i sonraí. Foinse: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

Braisliú K-Meáin Is é an cur chuige seo an cur chuige is mó a bhfuil éileamh uirthi anois, agus pointí sonraí á n-aoire i 'Grúpaí K' sainiúla, a d'fhéadfadh earnálacha déimeagrafacha, pobail ar líne, nó aon chomhiomlánú rúnda eile a d'fhéadfadh a bheith ag fanacht le fáil amach sna sonraí staidrimh amh a léiriú.

Cruthaítear cnuasaigh in anailís K-Means. Foinse: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Is é an luach K féin an fachtóir cinntitheach maidir le háisiúlacht an phróisis, agus maidir le luach optamach a bhunú do bhraisle. Ar dtús, déantar an luach K a shannadh go randamach, agus a ghnéithe agus a saintréithe veicteoir i gcomparáid lena chomharsana. Na comharsana sin is dlúithe cosúil leis an bpointe sonraí leis an luach a shanntar go randamach, sanntar iad dá bhraisle go atriallach go dtí go mbíonn na grúpálacha go léir a cheadaíonn an próiseas tugtha amach ag na sonraí.

Nochtfaidh an plota don earráid chearnógach, nó ‘costas’ luachanna difriúla i measc na gcnuasach an pointe uillinn le haghaidh na sonraí:

An 'pointe uillinn' i gcnuasghraf. Foinse: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Tá pointe na huillinne cosúil ó thaobh coincheapa leis an mbealach a leathnaíonn caillteanas go dtí tuairisceáin laghdaitheacha ag deireadh seisiún oiliúna le haghaidh tacar sonraí. Léiríonn sé an pointe ag nach mbeidh aon idirdhealú breise idir grúpaí le sonrú, rud a thugann le fios go bhfuiltear chun bogadh ar aghaidh go dtí na céimeanna ina dhiaidh sin sa phíblíne sonraí, nó chun torthaí a thuairisciú.

Úsáid Coitianta

Is teicneolaíocht phríomha in anailís chustaiméara í K-Means Cnuasú, ar chúiseanna soiléire, ós rud é go dtugann sé modheolaíocht shoiléir agus inmhínithe chun líon mór taifead tráchtála a aistriú go léargais dhéimeagrafacha agus go 'treoraí'.

Lasmuigh den iarratas seo, tá K-Means Clustering fostaithe freisin le haghaidh tuar sciorrtha talún, deighilt íomhá leighis, sintéis íomhá le GANs, aicmiú doiciméad, agus pleanáil cathrach, i measc go leor úsáidí féideartha agus iarbhír eile.

5: Foraoise Randamach

Is Random Forest an foghlaim ensemble modh a mheánaíonn an toradh ó raon de crainn chinnidh chun tuar foriomlán a bhunú don toradh.

Foinse: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Má tá taighde déanta agat air fiú chomh beag le breathnú ar an Ais go dtí an Todhchaí triológ, is furasta go leor crann cinntí féin a choincheapú: luíonn roinnt cosán romhat, agus téann gach cosán amach chuig toradh nua ina bhfuil a thuilleadh cosáin fhéideartha.

In foghlaim a threisiú, b'fhéidir go n-imeofá siar ó chosán agus go dtosóidh tú arís ó sheasamh níos luaithe, agus go ngéillfidh crainn chinnidh dá dturas.

Mar sin is é an t-algartam Random Forest, go bunúsach, leathadh-gheallta do chinntí. Tugtar 'randamach' ar an algartam mar go ndéanann sé ad hoc roghnúcháin agus tuairimí chun tuiscint a fháil ar an airmheán suim na dtorthaí ón eagar crann cinntí.

Ós rud é go gcuirtear an iliomad fachtóirí san áireamh, d'fhéadfadh sé a bheith níos deacra cur chuige Foraoise Randamach a thiontú go graif bhríocha ná mar chrann cinntí, ach is dócha go mbeidh sé i bhfad níos táirgiúla.

Tá crainn chinnidh faoi réir rófheistithe, i gcás ina bhfuil na torthaí a fhaightear sainiúil do na sonraí agus nach dócha go ginearálfaidh siad. Téann roghnú treallach Random Forest ar phointí sonraí i ngleic leis an gclaonadh seo, ag druidim ar aghaidh chuig treochtaí ionadaíocha bríocha agus úsáideacha sna sonraí.

Aischéimniú crann Cinnidh. Foinse: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Úsáid Coitianta

Cosúil le go leor de na halgartaim ar an liosta seo, is gnách go n-oibríonn Random Forest mar shórtálaí 'luath' agus mar scagaire sonraí, agus mar sin éiríonn sé go seasta sna páipéir thaighde nua. I measc roinnt samplaí d’úsáid Randamach Foraoise Sintéis Íomhá Athshondais Mhaighnéadaigh, Tuar praghas Bitcoin, deighilt daonáirimh, aicmiú téacs agus braite calaoise cárta creidmheasa.

Ós rud é gur algartam ísealleibhéil é Random Forest in ailtireachtaí meaisínfhoghlama, féadfaidh sé cur le feidhmíocht modhanna ísealleibhéil eile, chomh maith le halgartaim léirshamhlaithe, lena n-áirítear Cnuasú Ionduchtach, Claochluithe Gné, aicmiú doiciméad téacs ag baint úsáide as gnéithe tanaí, agus ag taispeáint Píblínte.

6: Naive Bayes

Mar aon le meastachán dlúis (féach 4, thuas), a Bayes naive Is algartam cumhachtach ach sách éadrom é aicmitheoir atá in ann dóchúlachtaí a mheas bunaithe ar ghnéithe ríofa na sonraí.

Caidrimh gné i aicmitheora Bayes naive. Foinse: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Tagraíonn an téarma ‘naïve’ don toimhde i Teoirim Bayes go bhfuil gnéithe neamhghaolmhara, ar a dtugtar neamhspleáchas coinníollach. Má ghlacann tú leis an dearcadh seo, ní leor siúl agus caint mar lacha chun a dhearbhú go bhfuilimid ag déileáil le lacha, agus ní ghlactar le haon toimhde 'soiléir' roimh am.

Bheadh an leibhéal seo de dhéine acadúil agus imscrúdaithe ró-ard nuair a bhíonn ‘chiall choiteann’ ar fáil, ach is caighdeán luachmhar é nuair a thrasnaíonn sé an iliomad débhríochtaí agus comhghaolmhaireacht a d’fhéadfadh a bheith ann i tacar sonraí meaisínfhoghlama.

I ngréasán bunaidh Bayesian, tá gnéithe faoi réir feidhmeanna scórála, lena n-áirítear fad cur síos íosta agus Scóráil Bayesian, a fhéadfaidh srianta a chur ar na sonraí i dtéarmaí na naisc mheasta a aimsítear idir na pointí sonraí, agus an treo ina sreabhann na naisc sin.

Os a choinne sin, oibríonn aicmitheoir naive Bayes ag glacadh leis go bhfuil gnéithe réada tugtha neamhspleách, ag baint úsáide as teoirim Bayes ina dhiaidh sin chun dóchúlacht réada tugtha a ríomh, bunaithe ar a ghnéithe.

Úsáid Coitianta

Tá ionadaíocht mhaith ag scagairí Naive Bayes i tuar galar agus catagóiriú doiciméad, scagadh spam, aicmiú meon, córais mholtóirí, agus calaois a bhrath, i measc iarratais eile.

7: K- Na Comharsana is cóngaraí (KNN)

Moladh don chéad uair ag Scoil Leighis Eitlíochta Aerfhórsa SAM i 1951, agus go gcaithfidh sé freastal ar na crua-earraí ríomhaireachta úrscothacha ó lár an 20ú haois, .i. K- Comharsana is gaire (KNN) algartam barainneach atá fós le feiceáil go feiceálach ar fud páipéir acadúla agus tionscnaimh taighde meaisínfhoghlama na hearnála príobháidí.

Tugtar ‘an foghlaimeoir leisciúil’ ar KNN, ós rud é go ndéanann sé scanadh uileghabhálach ar thacar sonraí chun na gaolmhaireachtaí idir pointí sonraí a mheas, seachas a bheith ag teastáil go gcuirfí oiliúint ar mhúnla meaisínfhoghlama iomlán.

Grúpa KNN. Foinse: https://scikit-learn.org/stable/modules/neighbors.html

Cé go bhfuil KNN caol ó thaobh na hailtireachta de, cuireann a chur chuige córasach éileamh suntasach ar oibríochtaí léite/scríofa, agus d’fhéadfadh fadhbanna a bheith ag baint le húsáid i dtacar sonraí an-mhóra gan teicneolaíochtaí comhcheangailte ar nós Anailís Phríomh-Chomhpháirt (PCA), ar féidir leo tacair sonraí casta agus ardtoirte a athrú. isteach grúpaí ionadaíocha gur féidir le KNN trasnú gan iarracht níos lú.

A staidéar le déanaí meastóireacht ar éifeachtúlacht agus barainneacht roinnt halgartaim a raibh sé de chúram orthu a thuar cé acu an bhfágfaidh fostaí cuideachta, fuarthas amach go raibh an KNN septuageránach fós níos fearr ná iomaitheoir níos nua-aimseartha i dtéarmaí cruinneas agus éifeachtúlacht thuarthach.

Úsáid Coitianta

Mar gheall ar simplíocht choincheapa agus fhorghníomhaithe na coitiantachta, níl KNN sáinnithe sna 1950í – tá sé curtha in oiriúint do cur chuige atá níos dírithe ar DNN i dtogra 2018 ó Ollscoil Stáit Pennsylvania, agus tá sé fós ina phróiseas luathchéime lárnach (nó ina uirlis anailíse iar-phróiseála) i go leor creataí foghlama meaisín atá i bhfad níos casta.

I bhfoirmíochtaí éagsúla, baineadh úsáid as KNN nó le haghaidh fíorú sínithe ar líne, aicmiú íomhá, mianadóireacht téacs, tuar barr, agus aitheantas facial, seachas feidhmeanna agus ionchorpruithe eile.

Córas aitheantais aghaidhe bunaithe ar KNN faoi oiliúint. Foinse: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Córas aitheantais aghaidhe bunaithe ar KNN faoi oiliúint. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Próiseas Cinnidh Markov (MDP)

Creat matamaitice a thug matamaiticeoir Meiriceánach Richard Bellman isteach i 1957, Tá Próiseas Cinnidh Markov (MDP) ar cheann de na bloic is bunúsaí de foghlaim a threisiú ailtireachta. Algartam coincheapúil ann féin, tá sé curtha in oiriúint do líon mór algartam eile, agus atarlaithe arís agus arís eile i mbarr reatha an taighde AI/ML.

Scrúdaíonn MDP timpeallacht sonraí trí úsáid a bhaint as a mheastóireacht ar a staid reatha (.i. ‘cá háit’ a bhfuil sé sna sonraí) chun cinneadh a dhéanamh ar cé acu nód de na sonraí is cóir a iniúchadh.

Foinse: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Tabharfaidh Próiseas Cinnidh Markov bunúsach tosaíocht do bhuntáiste garthéarmach thar chuspóirí fadtéarmacha níos inmhianaithe. Ar an ábhar sin, is gnách é a neadú i gcomhthéacs ailtireachta beartais níos cuimsithí san fhoghlaim atreisithe, agus is minic a bhíonn sé faoi réir fachtóirí teorannacha amhail luach saothair lascainithe, agus athróga comhshaoil modhnacha eile a choiscfidh air ó sciobadh chuig sprioc láithreach gan breithniú a dhéanamh ar an toradh inmhianaithe níos leithne.

Úsáid Coitianta

Tá coincheap ísealleibhéil MDP forleathan i dtaighde agus in imscaradh gníomhach na meaisínfhoghlama. Tá sé molta le haghaidh Córais cosanta slándála IoT, baint éisc, agus réamhaisnéis an mhargaidh.

Chomh maith lena infheidhmeacht shoiléir a fichille agus cluichí eile go docht seicheamhach, is MDP freisin contender nádúrtha le haghaidh an oiliúint nós imeachta ar chórais róbataic, mar is féidir linn a fheiceáil san fhíseán thíos.

Pleanálaí Domhanda ag baint úsáide as Próiseas Cinnidh Markov - Robotics Soghluaiste Tionscail

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Minicíocht Téarma-Minicíocht Doiciméad Inbhéartach

Minicíocht Téarma (TF) an líon uaireanta a léirítear focal i ndoiciméad a roinnt ar líon iomlán na bhfocal sa doiciméad sin. Dá bhrí sin an focal róin tá minicíocht téarma 0.001 ag láithriú uair amháin in alt míle focal. Leis féin, tá TF gan úsáid den chuid is mó mar tháscaire ar thábhacht téarma, toisc go bhfuil earraí gan brí (amhail a, agus, an, agus it) forlámhas.

Chun luach bríoch a fháil do théarma, ríomhann Minicíocht Doiciméad Inbhéarta (IDF) TF focal thar dhoiciméid iolracha i dtacar sonraí, ag sannadh rátáil íseal do mhinicíocht an-ard stadfhocail, mar ailt. Déantar na gné-veicteora a thagann chun cinn a normalú go luachanna iomlána, agus sanntar meáchan cuí do gach focal.

Déanann TF-IDF ábharthacht téarmaí bunaithe ar mhinicíocht a ualú thar roinnt doiciméad, agus is annamh a bhíonn siad ina tháscaire ar shuntas. Foinse: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Tugann TF-IDF ualú ar ábharthacht téarmaí bunaithe ar mhinicíocht thar roinnt doiciméad, agus is annamh a tharlaíonn sé mar tháscaire ar shuntas. Foinse: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Cé go gcoisceann an cur chuige seo focail thábhachtacha shéimeantacha a chailleadh mar imircigh, ní chiallaíonn inbhéartú an meáchan minicíochta go huathoibríoch go bhfuil téarma íseal-minicíochta nach bhfuil asluiteach, toisc go bhfuil roinnt rudaí annamh agus gan luach. Mar sin ní mór do théarma ísealmhinicíochta a luach a chruthú sa chomhthéacs ailtireachta níos leithne trí thaispeáint (fiú ag minicíocht íseal in aghaidh an doiciméid) i roinnt doiciméad sa tacar sonraí.

In ainneoin a aois, Is modh cumhachtach agus tóir é TF-IDF chun pasanna scagtha tosaigh i gcreatanna Próiseála Teanga Nádúrtha.

Úsáid Coitianta

Toisc gur ghlac TF-IDF páirt éigin ar a laghad i bhforbairt algartam PageRank asarlaíochta Google den chuid is mó le fiche bliain anuas, tá sé anois glactha go forleathan mar thactic ionramhála Sinsearach, in ainneoin 2019 John Mueller diabhlaíocht a thábhachtaí atá sé do thorthaí cuardaigh.

Mar gheall ar an rúndacht timpeall PageRank, níl aon fhianaise shoiléir ann go bhfuil TF-IDF nach bhfuil tactic éifeachtach faoi láthair chun ardú i rátálacha Google. Loiscneach plé i measc gairmithe TF le déanaí le fios go bhfuil an-tuiscint, ceart nó nach bhfuil, go bhféadfadh socrúchán Sinsearach feabhsaithe a bheith mar thoradh ar mhí-úsáid téarma fós (cé go bhfuil líomhaintí maidir le mí-úsáid monaplachta agus fógraíocht iomarcach doiléir teorainneacha na teoirice seo).

10: Sliocht Grádán Stochastic

Ginealach Grádán Stochastic (SGD) modh atá ag éirí níos coitianta chun oiliúint na múnlaí meaisínfhoghlama a bharrfheabhsú.

Is modh é Giniúint Grádáin féin chun an feabhas atá á dhéanamh ag samhail le linn oiliúna a bharrfheabhsú agus a chainníochtú ina dhiaidh sin.

Sa chiall seo, léiríonn ‘grádán’ fána síos (seachas grádán dath-bhunaithe, féach an íomhá thíos), áit a seasann pointe is airde an ‘chnoic’, ar chlé, do thús an phróisis oiliúna. Ag an gcéim seo níl na sonraí ina n-iomláine feicthe ag an tsamhail fiú uair amháin, agus níor fhoghlaim sé go leor faoi na caidrimh idir na sonraí chun claochluithe éifeachtacha a tháirgeadh.

Sliocht grádáin ar sheisiún oiliúna FaceSwap. Is féidir linn a fheiceáil go bhfuil an oiliúint ardchláraithe le tamall anuas sa dara leath, ach go bhfuil sé tar éis a mbealach a ghnóthú sa deireadh síos an grádán i dtreo cóineasaithe inghlactha.

Seasann an pointe is ísle, ar dheis, do chóineasú (an pointe ag a bhfuil an tsamhail chomh héifeachtach agus a bheidh sé riamh ag dul faoi na srianta agus na socruithe a fhorchuirtear).

Feidhmíonn an grádán mar thaifead agus mar thuar don difríocht idir an ráta earráide (cé chomh cruinn agus atá na gaolmhaireachtaí sonraí a mhapáil ag an tsamhail faoi láthair) agus na meáchain (na socruithe a mbíonn tionchar acu ar an gcaoi a bhfoghlaimeoidh an tsamhail).

Is féidir an taifead dul chun cinn seo a úsáid chun eolas a sceideal ráta foghlama, próiseas uathoibríoch a insíonn don ailtireacht éirí níos gráinneach agus beacht de réir mar a athraíonn na mionsonraí doiléire go caidrimh agus go mapálacha soiléire. Go bunúsach, cuireann caillteanas grádáin léarscáil díreach in am ar fáil den chéad áit ar cheart don oiliúint dul, agus conas ba chóir di dul ar aghaidh.

Is í an nuálaíocht a bhaineann le Sliochd Grádán Stochastic ná go nuashonraíonn sé paraiméadair an mhúnla ar gach sampla oiliúna in aghaidh an atriallta, rud a chuireann dlús leis an turas chuig an gcóineasú de ghnáth. Mar gheall ar theacht na dtacar sonraí hipearscála le blianta beaga anuas, tá méadú tagtha ar an éileamh atá ar SGD le déanaí mar mhodh amháin chun dul i ngleic leis na saincheisteanna lóistíochta a tháinig chun cinn.

Ar an láimh eile, tá SGD impleachtaí diúltacha le haghaidh scálú gnéithe, agus d’fhéadfadh go mbeadh gá le níos mó atriallta chun an toradh céanna a bhaint amach, rud a éilíonn pleanáil bhreise agus paraiméadair bhreise, i gcomparáid le gnáthshliocht an Ghrádáin.

Úsáid Coitianta

Mar gheall ar a inchumraitheacht, agus in ainneoin a chuid easnaimh, tá SGD ar an algartam optamaithe is mó tóir chun líonraí néaracha a fheistiú. Cumraíocht amháin de SGD atá ag éirí ceannasach i bpáipéir thaighde AI/ML nua is ea an Meastachán um Nóiméad Oiriúnaitheach a roghnú (ADAM, a tugadh isteach. i 2015) optamóir.

Déanann ADAM an ráta foghlama do gach paraiméadar a oiriúnú go dinimiciúil ('ráta foghlama oiriúnaitheach'), chomh maith le torthaí ó nuashonruithe roimhe seo a ionchorprú sa chumraíocht ina dhiaidh sin ('móiminteam'). Ina theannta sin, is féidir é a chumrú chun nuálaíochtaí níos déanaí a úsáid, mar shampla Móiminteam Nesterov.

Áitíonn roinnt, áfach, gur féidir le húsáid móiminteam luas a chur ar ADAM (agus halgartaim chomhchosúla) go dtí a conclúid fo-optamach. Mar is amhlaidh leis an gcuid is mó d’imeallú na hearnála taighde meaisínfhoghlama, is obair idir lámha í SGD.

Foilsíodh den chéad uair an 10 Feabhra 2022. Arna leasú an 10 Feabhra 20.05 EET – formáidiú.

Ar Aghaidh Ar Aghaidh

10 Chatbots Saincheaptha AI is Fearr do Shuíomh Gréasáin Gnó (Aibreán 2024)

Ná Mise

10 Uirlis AI “Is Fearr” do Ghnó (Aibreán 2024)

Máirtín Anderson

Scríbhneoir ar mheaisínfhoghlaim, hintleachta saorga agus sonraí móra.
Suíomh pearsanta: martinanderson.ai
Déan teagmháil le: [ríomhphost faoi chosaint]
Twitter: @manders_ai

Aonaigh.AI

10 Algartam Foghlama Meaisín is Fearr

Best Of

10 Algartam Foghlama Meaisín is Fearr

Clár ábhair

1: Claochladáin

2: Líonraí Sáraíochta Géiniteacha (GANanna)

3: SVM

4: K-Modhanna Braisliú

5: Foraoise Randamach

6: Naive Bayes

7: K- Na Comharsana is cóngaraí (KNN)

8: Próiseas Cinnidh Markov (MDP)

9: Minicíocht Téarma-Minicíocht Doiciméad Inbhéartach

10: Sliocht Grádán Stochastic

Poist is déanaí

Aonaigh.AI

10 Algartam Foghlama Meaisín is Fearr

Clár ábhair

1: Claochladáin

2: Líonraí Sáraíochta Géiniteacha (GANanna)

3: SVM

4: K-Modhanna Braisliú

5: Foraoise Randamach

6: Naive Bayes

7: K- Na Comharsana is cóngaraí (KNN)

8: Próiseas Cinnidh Markov (MDP)

9: Minicíocht Téarma-Minicíocht Doiciméad Inbhéartach

10: Sliocht Grádán Stochastic

B'fhéidir gur mhaith leat

Poist is déanaí