stuacach Cad is Foghlaim Neartú Dhomhain ann? - Aontú.AI
Ceangail le linn
Máistir-rang AI:

AI 101

Cad is Foghlaim Neartú Dhomhain ann?

mm
Nuashonraithe on

Cad is Foghlaim Neartú Dhomhain ann?

Mar aon le foghlaim mheaisín gan mhaoirseacht agus foghlaim faoi mhaoirseacht, is foirm choitianta eile de chruthú AI ná foghlaim athneartaithe. Taobh amuigh d’fhoghlaim athneartaithe rialta, foghlaim treisithe domhain torthaí iontacha iontacha a bheith mar thoradh air, a bhuí leis an bhfíric go gceanglaíonn sé na gnéithe is fearr den fhoghlaim dhomhain agus den fhoghlaim threisithe araon. Breathnaímid go beacht ar conas a fheidhmíonn an fhoghlaim treisithe domhain.

Sula tumaimid isteach i bhfoghlaim threisithe dhomhain, b’fhéidir gur smaoineamh maith é sinn féin a athnuachan faoi chomh rialta foghlaim a threisiú oibreacha. San fhoghlaim atreisithe, déantar algartaim spriocdhírithe a dhearadh trí phróiseas trialach agus earráide, ag barrfheabhsú na gníomhaíochta as a dtagann an toradh is fearr/an gníomh a ghnóthaíonn an “luach saothair” is mó. Nuair a chuirtear oiliúint ar algartaim um fhoghlaim treisithe, tugtar “luach saothair” nó “pionóis” dóibh a mbíonn tionchar acu ar na gníomhartha a dhéanfaidh siad amach anseo. Déanann halgartaim iarracht sraith gníomhartha a aimsiú a thabharfaidh an luach saothair is mó don chóras, ag cothromú luach saothair láithreach agus amach anseo.

Tá halgartaim foghlama treisithe an-chumhachtach mar is féidir iad a chur i bhfeidhm ar thasc ar bith nach mór, a bheith in ann foghlaim go solúbtha agus go dinimiciúil ó thimpeallacht agus gníomhartha féideartha a aimsiú.

Forbhreathnú ar Fhoghlaim Treisithe Dhomhain

Grianghraf: Megajuice trí Wikimedia Commons, CC 1.0 ( https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Nuair a bhaineann sé le foghlaim treisithe domhain, is gnách go léirítear an timpeallacht le híomhánna. Is éard is íomhá ann ná gabháil den timpeallacht ag pointe áirithe ama. Ní mór don ghníomhaire anailís a dhéanamh ar na híomhánna agus faisnéis ábhartha a bhaint astu, ag baint úsáide as an bhfaisnéis chun a chur in iúl cad ba cheart dóibh a dhéanamh. De ghnáth déantar foghlaim threisithe dhomhain le ceann amháin de dhá theicníc éagsúla: foghlaim luach-bhunaithe agus foghlaim bunaithe ar bheartas.

Baineann teicníochtaí foghlama luach-bhunaithe úsáid as algartaim agus ailtireachtaí cosúil le líonraí néaracha comhráiteacha agus Líonraí Deep-Q. Feidhmíonn na halgartaim seo tríd an íomhá a thiontú go liathscála agus codanna neamhriachtanacha den íomhá a ghearradh amach. Ina dhiaidh sin, téann an íomhá faoi convolutions éagsúla agus oibríochtaí comhthiomsaithe, ag baint na codanna is ábhartha den íomhá. Úsáidtear na codanna tábhachtacha den íomhá ansin chun an Q-luach a ríomh do na gníomhartha éagsúla is féidir leis an ngníomhaire a dhéanamh. Úsáidtear Q-luachanna chun an cúrsa gníomhaíochta is fearr don ghníomhaire a chinneadh. Tar éis na luachanna Q tosaigh a ríomh, déantar cúlfhillteadh ionas gur féidir na luachanna Q is cruinne a chinneadh.

Úsáidtear modhanna atá bunaithe ar bheartais nuair a bhíonn líon na ngníomhartha féideartha ar féidir leis an ngníomhaire a dhéanamh thar a bheith ard, rud a tharlaíonn go hiondúil i gcásanna sa saol fíor. Teastaíonn cur chuige difriúil ó chásanna mar seo mar ní pragmatach é na luachanna-Q a ríomh do gach gníomh aonair. Feidhmíonn cur chuige bunaithe ar bheartais gan luachanna feidhme a ríomh do ghníomhaíochtaí aonair. Ina áit sin, glacann siad beartais tríd an mbeartas a fhoghlaim go díreach, go minic trí theicníochtaí ar a dtugtar Grádáin Beartais.

Feidhmíonn grádáin bheartais trí stát a fháil agus trí dhóchúlachtaí gníomhartha a ríomh bunaithe ar thaithí roimhe seo an ghníomhaire. Roghnaítear an gníomh is dócha ansin. Déantar an próiseas seo arís agus arís eile go dtí deireadh na tréimhse meastóireachta agus tugtar an luach saothair don ghníomhaire. Tar éis déileáil leis an luach saothair leis an ngníomhaire, déantar paraiméadair an líonra a nuashonrú le backpropagation.

Cad is Q-Learning ann?

Mar Q-Foghlaim Is cuid chomh mór den phróiseas foghlama treisithe domhain, a ligean ar roinnt ama a ghlacadh chun tuiscint a fháil i ndáiríre conas a oibríonn an córas Q-foghlaim.

Próiseas Cinnidh Markov

Próiseas cinneadh Markov saor in aisce,. Grianghraf: waldoalvarez trí Pixabay, Ceadúnas Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

D'fhonn gníomhaire AI sraith tascanna a dhéanamh agus sprioc a bhaint amach, ní mór don ghníomhaire a bheith in ann déileáil le seicheamh stáit agus imeachtaí. Tosóidh an gníomhaire ag stát amháin agus caithfidh sé sraith gníomhartha a dhéanamh chun staid deiridh a bhaint amach, agus is féidir go mbeadh líon ollmhór stát ann idir na stáit tosaigh agus na stáit deiridh. Tá sé praiticiúil nó dodhéanta faisnéis a stóráil maidir le gach stát, mar sin ní mór don chóras teacht ar bhealach chun an fhaisnéis stáit is ábhartha a chaomhnú. Baintear é seo amach trí úsáid a bhaint as a Próiseas Cinnidh Markov, a chaomhnaíonn ach an fhaisnéis maidir leis an staid reatha agus an stát roimhe sin. Leanann gach stát maoin Markov, a rianaíonn conas a athraíonn an gníomhaire ón stát roimhe sin go dtí an staid reatha.

Q-Fhoghlaim Dhomhain

Nuair a bhíonn rochtain ag an tsamhail ar fhaisnéis faoi staid na timpeallachta foghlama, is féidir luachanna Q a ríomh. Is ionann na luachanna-Q agus an luach saothair iomlán a thugtar don oibreán ag deireadh seicheamh gníomhartha.

Ríomhtar na luachanna Q le sraith luaíochtaí. Tá luach saothair láithreach, arna ríomh ag an staid reatha agus ag brath ar an ngníomh atá ann faoi láthair. Ríomhtar an Q-luach don staid ina dhiaidh sin freisin, mar aon leis an Q-luach don staid ina dhiaidh sin, agus mar sin de go dtí go mbeidh na Q-luachanna go léir do na staideanna éagsúla ríofa. Tá paraiméadar Gáma ann freisin a úsáidtear chun meáchan an luach saothair amach anseo ar ghníomhaíochtaí an ghníomhaire a rialú. Go hiondúil déantar beartais a ríomh trí luachanna-Q a thúsú go randamach agus ligean don tsamhail teacht le chéile i dtreo na Q-luachanna is fearr le linn na hoiliúna.

Líonraí Q domhain

Ceann de na fadhbanna bunúsacha a bhaineann le úsáid na Q-foghlaim le haghaidh foghlama treisithe is é an méid cuimhne a theastaíonn chun sonraí a stóráil a mhéadú go tapa de réir mar a mhéadaíonn líon na stát. Réitíonn Deep Q Networks an fhadhb seo trí mhúnlaí líonra néaracha a chomhcheangal le luachanna Q, rud a chuireann ar chumas gníomhaire foghlaim ó thaithí agus buille faoi thuairim réasúnta a dhéanamh faoi na gníomhartha is fearr le déanamh. Le Q-fhoghlaim domhain, na feidhmeanna Q-luach a mheas le líonraí neural. Glacann an líonra néarúil an stát isteach mar na sonraí ionchuir, agus aschuireann an líonra luach Q do na gníomhartha éagsúla a d'fhéadfadh an gníomhaire a dhéanamh.

Baintear foghlaim domhain-Q i gcrích trí eispéiris uile an ama atá caite a stóráil sa chuimhne, uas-aschuir a ríomh don líonra Q, agus ansin feidhm chaillteanais a úsáid chun an difríocht idir luachanna reatha agus na luachanna teoiriciúla is airde is féidir a ríomh.

Foghlaim Neartú Dhomhain vs Foghlaim dhomhain

Difríocht thábhachtach amháin idir an fhoghlaim threisithe dhomhain agus an domhainfhoghlaim rialta is ea go mbíonn na hionchuir ag athrú i gcónaí i gcás an chéad cheann díobh, rud nach bhfuil fíor san fhoghlaim dhomhain thraidisiúnta. Conas is féidir leis an tsamhail foghlama cuntas a thabhairt ar ionchuir agus aschuir a bhíonn ag athrú de shíor?

Go bunúsach, chun cuntas a thabhairt ar an éagsúlacht idir luachanna tuartha agus luachanna sprice, is féidir dhá líonra néaracha a úsáid in ionad ceann amháin. Déanann líonra amháin na spriocluachanna a mheas, agus tá an líonra eile freagrach as na réamh-mheastacháin. Déantar paraiméadair an spriocghréasáin a nuashonrú de réir mar a fhoghlaimíonn an tsamhail, tar éis do líon roghnaithe atriallta oiliúna a bheith caite. Nasctar aschuir na ngréasán faoi seach le chéile ansin chun an difríocht a chinneadh.

Foghlaim Pholasaí-Bhunaithe

Foghlaim bunaithe ar pholasaí oibríonn cur chuige difriúil ó chur chuige bunaithe ar Q-luach. Cé go gcruthaíonn cuir chuige Q-luach feidhm luacha a thuar luach saothair do stáit agus do ghníomhartha, cinneann modhanna atá bunaithe ar bheartas beartas a dhéanfaidh stáit a mhapáil chuig gníomhartha. I bhfocail eile, déantar an fheidhm bheartais a roghnaíonn gníomhartha a bharrfheabhsú go díreach gan aird ar an bhfeidhm luacha.

Grádáin Beartais

Titeann beartas le haghaidh foghlama treisithe domhain isteach i gceann amháin de dhá chatagóir: stochastic nó cinntitheach. Is éard atá i mbeartas cinntitheach ná ceann ina ndéantar stáit a mhapáil chuig gníomhartha, rud a chiallaíonn go gcuirtear gníomh ar ais nuair a thugtar faisnéis don pholasaí. Idir an dá linn, tugann beartais stochastic dáileadh dóchúlachta ar ais do ghníomhaíochtaí seachas aon ghníomhaíocht scoite amháin.

Úsáidtear beartais cinntitheacha nuair nach mbíonn aon éiginnteacht ann faoi thorthaí na ngníomhartha is féidir a dhéanamh. I bhfocail eile, nuair a bhíonn an timpeallacht féin cinntitheach. I gcodarsnacht leis sin, tá aschuir bheartais stochastic oiriúnach do thimpeallachtaí ina bhfuil toradh gníomhaíochtaí neamhchinnte. Go hiondúil, bíonn roinnt éiginnteachta i gceist le cásanna foghlama treisithe agus mar sin baintear úsáid as beartais stochastic.

Tá roinnt buntáistí ag cur chuige grádán beartais thar chur chuige Q-foghlaim, chomh maith le roinnt míbhuntáistí. I dtéarmaí buntáistí, tagann modhanna atá bunaithe ar bheartas le chéile ar pharaiméadair optamach níos tapúla agus níos iontaofa. Is féidir an grádán beartais a leanúint díreach go dtí go gcinntear na paraiméadair is fearr, ach le modhanna bunaithe ar luach is féidir athruithe móra ar ghníomhaíochtaí agus ar na paraiméadair ghaolmhara a bheith mar thoradh ar athruithe beaga ar luachanna gníomhaíochta measta.

Oibríonn grádáin bheartais níos fearr do spásanna gníomhaíochta ardtoiseacha freisin. Nuair a bhíonn líon an-ard gníomhartha féideartha le déanamh, éiríonn foghlaim Q domhain neamhphraiticiúil toisc go gcaithfidh sé scór a shannadh do gach gníomh féideartha do gach céim ama, rud a d’fhéadfadh a bheith dodhéanta ó thaobh ríomha de. Mar sin féin, le modhanna atá bunaithe ar bheartas, déantar na paraiméadair a choigeartú le himeacht ama agus laghdaíonn líon na bparaiméadar is fearr is féidir go tapa de réir mar a thagann an tsamhail le chéile.

Tá grádáin bheartais in ann beartais stocastaíocha a chur i bhfeidhm freisin, murab ionann agus beartais atá bunaithe ar luach. Toisc go n-eascraíonn beartais stocastic dáileadh dóchúlachta, ní gá comhbhabhtáil taiscéalaíochta/saothraithe a chur i bhfeidhm.

Maidir le míbhuntáistí, is é an príomh-mhíbhuntáiste a bhaineann le grádáin bheartais ná gur féidir leo dul i bhfostú agus iad ag cuardach na bparaiméadar barrmhaithe, ag díriú ar shraith chúng áitiúil de luachanna barrmhaithe amháin in ionad na luachanna domhanda is fearr.

Feidhm Scór Beartais

Na beartais a úsáidtear chun aidhm feidhmíochta samhail a bharrfheabhsú chun feidhm scór a uasmhéadú – J(θ). Má J(θ) is tomhas é ar cé chomh maith agus atá ár mbeartas chun an sprioc inmhianaithe a bhaint amach, is féidir linn luachanna “θ” a thugann an polasaí is fearr dúinn. Ar dtús, ní mór dúinn luach saothair ionchais beartais a ríomh. Déanaimid meastachán ar luach saothair an bheartais ionas go mbeidh cuspóir againn, rud le leas a bhaint as. Is í an Fheidhm Scór Beartais an chaoi a ríomhaimid an luach saothair beartais a bhfuiltear ag súil leis, agus tá Feidhmeanna Scór Beartais éagsúla ann a úsáidtear go coitianta, mar shampla: luachanna tosaigh do thimpeallachtaí eipeasóideach, an meánluach do thimpeallachtaí leanúnacha, agus an meánluach saothair in aghaidh na céime ama.

Ardú Céime Beartais

Tá sé mar aidhm ag ardú céime na paraiméadair a bhogadh go dtí go bhfuil siad ag an áit is airde scór. Grianghraf: Fearann ​​Poiblí ( https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Tar éis an Fheidhm Scór Beartais atá ag teastáil a úsáid, agus luach saothair ionchais beartais a ríomh, is féidir linn luach a fháil don pharaiméadar “θ” a uasmhéadaíonn an fheidhm scórála. Chun an fheidhm scórála J(θ), teicníocht ar a dtugtar “ardú céime” a úsáidtear. Tá ardú céime cosúil ó thaobh coincheap de agus shliocht grádáin san fhoghlaim dhomhain, ach táimid ag barrfheabhsú an mhéadaithe is géire in ionad an laghdaithe. Tá sé seo amhlaidh toisc nach “earráid” é ár scór, mar a dhéantar i go leor fadhbanna domhain foghlama. Is é ár scór rud ba mhaith linn a uasmhéadú. Úsáidtear slonn ar a dtugtar Teoirim Grádáin an Bheartais chun an grádán a mheas maidir le polasaí “θ".

Achoimre ar Fhoghlaim Treisithe Dhomhain

Go hachomair, comhcheanglaíonn foghlaim treisithe domhain gnéithe den fhoghlaim athneartaithe agus líonraí néaracha doimhne. Déantar foghlaim threisithe dhomhain le dhá theicníc dhifriúla: Deep Q-foghlaim agus grádáin bheartais.

Tá sé mar aidhm ag modhanna domhainfhoghlama Q a thuar cé na luach saothair a leanfaidh gníomhartha áirithe a ghlactar i stát ar leith, agus tá sé mar aidhm ag cur chuige grádán beartais an spás gníomhaíochta a bharrfheabhsú, ag tuar na ngníomhartha iad féin. Tá cineálacha cur chuige bunaithe ar bheartais maidir le foghlaim threisithe dhomhain de chineál cinntitheach nó stochastic. Léarscáilíonn beartais cinntitheacha stáit go díreach chuig gníomhartha agus cruthaíonn beartais stocaíocha dáileadh dóchúlachta do ghníomhaíochtaí.

Blogger agus ríomhchláraitheoir le speisialtachtaí i Foghlaim Meaisín agus Deep Learning topaicí. Tá súil ag Daniel cabhrú le daoine eile cumhacht AI a úsáid ar mhaithe le leas sóisialta.