stub Dè a th’ ann an Ionnsachadh Neartachadh domhainn? — Unite.AI
Ceangal leinn
Clas Maighstir AI:

AI 101

Dè a th’ ann an Ionnsachadh Neartachadh domhainn?

mm
Ùraichte on

Dè a th’ ann an Ionnsachadh Neartachadh domhainn?

Còmhla ri ionnsachadh innealan gun stiùireadh agus ionnsachadh fo stiùir, is e cruth cumanta eile de chruthachadh AI ionnsachadh neartachaidh. A bharrachd air ionnsachadh ath-neartachaidh cunbhalach, ionnsachadh neartachaidh domhainn faodaidh seo leantainn gu toraidhean iongantach, le taing gu bheil e a’ cothlamadh nan taobhan as fheàrr an dà chuid de ionnsachadh domhainn agus ionnsachadh neartachaidh. Bheir sinn sùil gu mionaideach air mar a tha ionnsachadh neartachaidh domhainn ag obair.

Mus tèid sinn a-steach gu ionnsachadh neartachaidh domhainn, is dòcha gum biodh e na dheagh bheachd ùrachadh a thoirt dhuinn fhìn air cho cunbhalach ionnsachadh daingneachaidh obraichean. Ann an ionnsachadh ath-neartachaidh, tha algorithms a tha ag amas air amasan air an dealbhadh tro phròiseas deuchainn is mearachd, a’ dèanamh an fheum as fheàrr airson na h-obrach a tha a’ leantainn gu an toradh as fheàrr/an gnìomh a gheibh an “duais” as motha. Nuair a thèid algoirmean ionnsachaidh ath-neartachaidh a thrèanadh, gheibh iad “duaisean” no “peanasan” a bheir buaidh air na gnìomhan a nì iad san àm ri teachd. Bidh algorithms a’ feuchainn ri seata de ghnìomhan a lorg a bheir an duais as motha don t-siostam, a’ cothromachadh an dà chuid duaisean sa bhad agus san àm ri teachd.

Tha algorithms ionnsachadh neartachaidh gu math cumhachdach oir faodar an cur an sàs ann an cha mhòr gnìomh sam bith, a bhith comasach air ionnsachadh gu sùbailte agus gu dinamach bho àrainneachd agus gnìomhan a lorg a dh’ fhaodadh a bhith ann.

Sealladh farsaing air Ionnsachadh Neartachaidh domhainn

Dealbh: Megajuice tro Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Nuair a thig e gu ionnsachadh neartachaidh domhainn, tha an àrainneachd mar as trice air a riochdachadh le ìomhaighean. Is e dealbh glacadh den àrainneachd aig àm sònraichte. Feumaidh an neach-ionaid na h-ìomhaighean a sgrùdadh agus fiosrachadh buntainneach a thoirt bhuapa, a’ cleachdadh an fhiosrachaidh gus innse dè na gnìomhan a bu chòir dhaibh a dhèanamh. Mar as trice bidh ionnsachadh neartachaidh domhainn air a dhèanamh le aon de dhà dhòigh eadar-dhealaichte: ionnsachadh stèidhichte air luach agus ionnsachadh stèidhichte air poileasaidh.

Bidh dòighean ionnsachaidh stèidhichte air luach a’ cleachdadh algoirmean agus ailtirean leithid lìonraidhean neural convolutional agus Lìonraidhean domhainn-Q. Bidh na h-algorithms sin ag obair le bhith ag atharrachadh an ìomhaigh gu sgèile-ghlas agus a 'toirt a-mach pàirtean neo-riatanach den ìomhaigh. Às deidh sin, bidh an ìomhaigh a’ dol tro dhiofar chòmhstri agus obair cruinneachaidh, a’ toirt a-mach na pàirtean as buntainniche den ìomhaigh. Tha na pàirtean cudromach den ìomhaigh an uairsin air an cleachdadh gus an luach Q obrachadh a-mach airson na diofar ghnìomhan as urrainn don neach-ionaid a dhèanamh. Bithear a’ cleachdadh luachan Q gus faighinn a-mach dè an dòigh-obrach as fheàrr airson an neach-ionaid. Às deidh na luachan Q-tùsail a bhith air an obrachadh a-mach, thathas a’ dèanamh iomadachadh air ais gus an tèid na luachan Q as cinntiche a dhearbhadh.

Bithear a’ cleachdadh dhòighean stèidhichte air poileasaidh nuair a tha an àireamh de ghnìomhan a dh’ fhaodadh an neach-ionaid a dhèanamh fìor àrd, rud a tha mar as trice fìor ann an suidheachaidhean fìor. Feumaidh suidheachaidhean mar seo dòigh-obrach eadar-dhealaichte oir chan eil e pragmatach obrachadh a-mach luachan Q airson a h-uile gnìomh fa leth. Bidh modhan-obrach stèidhichte air poileasaidh ag obrachadh gun a bhith a’ tomhas luachan gnìomh airson gnìomhan fa leth. An àite sin, bidh iad a’ gabhail ri poileasaidhean le bhith ag ionnsachadh a’ phoileasaidh gu dìreach, gu tric tro dhòighean ris an canar Gradients Poileasaidh.

Bidh caiseadan poileasaidh ag obrachadh le bhith a’ faighinn stàite agus a’ tomhas coltachd airson gnìomhan stèidhichte air eòlas an neach-ionaid roimhe. Thèid an gnìomh as coltaiche an uairsin a thaghadh. Bidh am pròiseas seo air ath-aithris gu deireadh na h-ùine measaidh agus thèid na duaisean a thoirt don neach-ionaid. Às deidh na buannachdan a bhith air an làimhseachadh leis an neach-ionaid, thèid paramadairean an lìonra ùrachadh le backpropagation.

Dè a th’ ann an Q-Learning?

Seach gu bheil Q-Ionnsachadh na phàirt cho mòr den phròiseas ionnsachaidh neartachaidh domhainn, leig dhuinn beagan ùine a ghabhail gus tuigse fhaighinn air mar a tha an siostam ionnsachaidh Q ag obair.

Pròiseas co-dhùnadh Markov

Markov pròiseas co-dhùnadh a. Dealbh: waldoalvarez tro Pixabay, Cead Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Gus an urrainn do àidseant AI sreath de ghnìomhan a choileanadh agus amas a ruighinn, feumaidh an neach-ionaid a bhith comasach air dèiligeadh ri sreath de stàitean agus de thachartasan. Tòisichidh an neach-ionaid aig aon stàit agus feumaidh e sreath de ghnìomhan a ghabhail gus staid crìochnachaidh a ruighinn, agus faodaidh àireamh mhòr de stàitean a bhith ann eadar na stàitean tòiseachaidh is crìochnachaidh. Tha e do-dhèanta no do-dhèanta fiosrachadh a stòradh mu gach stàit, agus mar sin feumaidh an siostam dòigh a lorg gus dìreach am fiosrachadh stàite as iomchaidh a ghleidheadh. Tha seo air a choileanadh tro bhith a’ cleachdadh a Markov pròiseas co-dhùnadh a, a tha a 'gleidheadh ​​​​dìreach am fiosrachadh a thaobh an staid làithreach agus an stàit roimhe. Bidh a h-uile stàite a’ leantainn seilbh Markov, a bhios a’ cumail sùil air mar a dh’ atharraicheas an neach-ionaid bhon stàit a bh’ ann roimhe chun na staid làithreach.

Q-Ionnsachadh domhainn

Aon uair ‘s gu bheil cothrom aig a’ mhodail air fiosrachadh mu staid na h-àrainneachd ionnsachaidh, faodar luachan Q a thomhas. Is e na luachan Q an duais iomlan a bheirear don àidseant aig deireadh sreath ghnìomhan.

Tha na luachan Q air an tomhas le sreath de dhuaisean. Tha duais sa bhad ann, air a thomhas aig an staid làithreach agus a rèir na gnìomhachd làithreach. Tha an luach-Q airson na stàite às dèidh sin air a thomhas cuideachd, còmhla ris an luach Q airson na stàite às deidh sin, agus mar sin air adhart gus am bi na luachan Q gu lèir airson nan stàitean eadar-dhealaichte air an obrachadh a-mach. Tha paramadair Gamma ann cuideachd a thathas a’ cleachdadh gus smachd a chumail air an cuideam a th’ aig duaisean san àm ri teachd air gnìomhan an neach-ionaid. Mar as trice bidh poileasaidhean air an tomhas le bhith a’ tòiseachadh luachan Q air thuaiream agus a’ leigeil leis a’ mhodail tighinn còmhla a dh’ ionnsaigh na luachan Q as fheàrr thar cùrsa an trèanaidh.

Lìonraidhean Q domhainn

Aon de na duilgheadasan bunaiteach co-cheangailte cleachdadh Q-ionnsachadh airson ionnsachadh ath-neartachaidh is e gu bheil an ìre de chuimhne a dh’ fheumar airson dàta a stòradh a’ leudachadh gu luath mar a bhios an àireamh de stàitean a’ dol am meud. Bidh Deep Q Networks a’ fuasgladh na duilgheadas seo le bhith a’ cothlamadh mhodalan lìonra neural le luachan Q, a’ leigeil le neach-ionaid ionnsachadh bho eòlas agus tomhas reusanta a dhèanamh mu na gnìomhan as fheàrr ri dhèanamh. Le ionnsachadh domhainn Q, thathas a’ tomhas na gnìomhan luach Q le lìonraidhean neural. Bidh an lìonra neural a’ toirt an stàit a-steach mar an dàta cuir a-steach, agus bidh an lìonra a’ toirt a-mach luach Q airson a h-uile gnìomh eadar-dhealaichte a dh’ fhaodadh an neach-ionaid a dhèanamh.

Tha ionnsachadh domhainn Q air a choileanadh le bhith a’ stòradh na h-eòlasan san àm a dh’ fhalbh mar chuimhne, a’ tomhas na toraidhean as àirde airson an lìonra Q, agus an uairsin a’ cleachdadh gnìomh call gus an eadar-dhealachadh eadar luachan gnàthach agus na luachan teòiridheach as àirde obrachadh a-mach.

Ionnsachadh Neartachadh domhainn vs Ionnsachadh domhainn

Is e aon eadar-dhealachadh cudthromach eadar ionnsachadh neartachaidh domhainn agus ionnsachadh domhainn cunbhalach gu bheil na h-in-ghabhail an-còmhnaidh ag atharrachadh, rud nach eil fìor ann an ionnsachadh domhainn traidiseanta. Ciamar as urrainn don mhodail ionnsachaidh cunntas a thoirt air cuir a-steach agus toraidhean a tha an-còmhnaidh ag atharrachadh?

Gu bunaiteach, gus cunntas a thoirt air an eadar-dhealachadh eadar luachan ro-mheasta agus luachan targaid, faodar dà lìonra neòil a chleachdadh an àite aon. Bidh aon lìonra a 'toirt tuairmse air na luachan targaid, agus tha an lìonra eile an urra ris na ro-innse. Tha crìochan an lìonra targaid air an ùrachadh mar a bhios am modail ag ionnsachadh, às deidh grunn thursan trèanaidh a dhol seachad. Tha toraidhean nan lìonraidhean fa leth an uairsin air an ceangal ri chèile gus an diofar a dhearbhadh.

Ionnsachadh Stèidhichte air Poileasaidh

Ionnsachadh stèidhichte air poileasaidh tha dòighean-obrach ag obrachadh ann an dòigh eadar-dhealaichte seach dòighean-obrach stèidhichte air luach Q. Fhad ‘s a tha dòighean-obrach luach-Q a’ cruthachadh gnìomh luach a bhios a’ ro-innse dhuaisean airson stàitean agus gnìomhan, bidh modhan stèidhichte air poileasaidh a’ dearbhadh poileasaidh a mapaicheas stàitean gu gnìomhan. Ann am faclan eile, tha an gnìomh poileasaidh a thaghas airson gnìomhan air a mheudachadh gu dìreach gun aire a thoirt don ghnìomh luach.

Gradients Poileasaidh

Tha poileasaidh airson ionnsachadh neartachaidh domhainn ann an aon de dhà roinn: stochastic no cinntiche. Is e poileasaidh cinntiche aon far a bheil stàitean air am mapadh gu gnìomhan, a’ ciallachadh nuair a thèid fiosrachadh a thoirt don phoileasaidh mu stàit gun tèid gnìomh a thilleadh. Aig an aon àm, bidh poileasaidhean stochastic a’ tilleadh cuairteachadh coltachd airson gnìomhan an àite aon ghnìomh air leth.

Bithear a’ cleachdadh phoileasaidhean cinntiche nuair nach eil mì-chinnt ann mu bhuilean nan gnìomhan a ghabhas dèanamh. Ann am briathran eile, nuair a tha an àrainneachd fhèin cinntiche. An coimeas ri sin, tha toraidhean poileasaidh stocastic iomchaidh airson àrainneachdan far nach eil cinnt air toradh nan gnìomhan. Mar as trice, bidh suidheachaidhean ionnsachaidh ath-neartachaidh a’ toirt a-steach ìre de mhì-chinnt gus am bi poileasaidhean stocastic air an cleachdadh.

Tha beagan bhuannachdan aig modhan caisead poileasaidh thairis air dòighean ionnsachaidh Q, a bharrachd air cuid de eas-bhuannachdan. A thaobh buannachdan, bidh modhan stèidhichte air poileasaidh a’ tighinn còmhla nas luaithe agus nas earbsaiche air na paramadairean as fheàrr. Faodar an caisead poileasaidh a leantainn gus an tèid na crìochan as fheàrr a dhearbhadh, ach le dòighean stèidhichte air luach faodaidh atharrachaidhean beaga ann an luachan gnìomh measta leantainn gu atharrachaidhean mòra ann an gnìomhan agus na crìochan co-cheangailte riutha.

Bidh caiseadan poileasaidh ag obair nas fheàrr airson àiteachan gnìomh àrd-mheudach cuideachd. Nuair a tha àireamh fìor àrd de ghnìomhan comasach ri dhèanamh, bidh ionnsachadh domhainn Q a’ fàs neo-phractaigeach oir feumaidh e sgòr a shònrachadh airson a h-uile gnìomh a dh’ fhaodadh a bhith ann airson a h-uile ceum ùine, a dh ’fhaodadh a bhith do-dhèanta a thaobh àireamhachadh. Ach, le modhan stèidhichte air poileasaidh, tha na crìochan air an atharrachadh thar ùine agus tha an àireamh de pharamadairean as fheàrr a dh’ fhaodadh a bhith a’ crìonadh gu sgiobalta mar a bhios am modail a’ tighinn còmhla.

Tha caiseadan poileasaidh cuideachd comasach air poileasaidhean stocastic a chur an gnìomh, eu-coltach ri poileasaidhean stèidhichte air luach. Leis gu bheil poileasaidhean stocastic a’ toirt a-mach cuairteachadh coltachd, chan fheumar malairt sgrùdaidh / brathaidh a chuir an gnìomh.

A thaobh eas-bhuannachdan, is e prìomh ana-cothrom caiseadan poileasaidh gum faod iad a dhol an sàs fhad ‘s a tha iad a’ lorg nam paramadairean as fheàrr, le fòcas a-mhàin air seata cumhang, ionadail de luachan as fheàrr an àite luachan cruinne as fheàrr.

Gnìomh Sgòr Poileasaidh

Na poileasaidhean a chleachdar gus amas coileanaidh modail a bharrachadh gus gnìomh sgòr a mheudachadh – J(θ). Ma tha J(θ) na thomhas air cho math sa tha ar poileasaidh airson an amas a tha sinn ag iarraidh a choileanadh, is urrainn dhuinn luachan “θ“Bheir sin am poileasaidh as fheàrr dhuinn. An toiseach, feumaidh sinn an duais poileasaidh ris a bheil dùil obrachadh a-mach. Bidh sinn a’ tuairmse na duais poileasaidh gus am bi amas againn, rudeigin airson an fheum as fheàrr a dhèanamh. Is e Gnìomh Sgòr Poileasaidh mar a bhios sinn a’ tomhas an duais poileasaidh ris a bheil dùil, agus tha diofar dhleastanasan Sgòr Poileasaidh air an cleachdadh gu cumanta, leithid: luachan tòiseachaidh airson àrainneachdan episodic, an luach cuibheasach airson àrainneachdan leantainneach, agus an duais chuibheasach gach ceum ùine.

Àrdachadh caisead poileasaidh

Tha dìreadh caisead ag amas air na crìochan a ghluasad gus am bi iad aig an àite far a bheil an sgòr as àirde. Dealbh: Fearann ​​​​Poblach (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Às deidh an gnìomh Sgòr Poileasaidh a thathar ag iarraidh a chleachdadh, agus duais poileasaidh ris a bheil dùil air a thomhas, is urrainn dhuinn luach a lorg airson a’ pharamadair “θ” a tha a’ meudachadh gnìomh an sgòr. Gus an gnìomh sgòr J (θ), innleachd ris an canar “dìreadh caisead” air a chleachdadh. Tha dìreadh caisead coltach ann am bun-bheachd ri teàrnadh caisead ann an ionnsachadh domhainn, ach tha sinn a’ dèanamh an fheum as fheàrr airson an àrdachadh as cas an àite lughdachadh. Tha seo air sgàth nach e “mearachd” a th’ anns an sgòr againn, mar ann an iomadh duilgheadas ionnsachaidh domhainn. Is e an sgòr againn rudeigin a tha sinn airson a mheudachadh. Thathas a’ cleachdadh abairt ris an canar Teòirim Caisead Poileasaidh gus tuairmse a dhèanamh air an caisead a thaobh poileasaidh “θ".

Geàrr-chunntas air Ionnsachadh Neartachaidh domhainn

Ann an geàrr-chunntas, tha ionnsachadh neartachaidh domhainn a’ cothlamadh taobhan de ionnsachadh neartachaidh agus lìonraidhean neural domhainn. Tha ionnsachadh neartachaidh domhainn air a dhèanamh le dà dhòigh eadar-dhealaichte: ionnsachadh domhainn Q agus caiseadan poileasaidh.

Tha dòighean ionnsachaidh domhainn Q ag amas air ro-innse dè na buannachdan a thig às deidh gnìomhan sònraichte a chaidh a ghabhail ann an staid shònraichte, fhad ‘s a tha dòighean caisead poileasaidh ag amas air an àite gnìomh as fheàrr fhaighinn, a’ ro-innse na gnìomhan fhèin. Tha modhan-obrach stèidhichte air poileasaidh airson ionnsachadh neartachaidh domhainn an dàrna cuid cinntiche no stochastic. Tha mapa poileasaidhean dearbhte ag innse gu dìreach ri gnìomhan fhad ‘s a tha poileasaidhean stochastic a’ toirt a-mach sgaoilidhean coltachd airson gnìomhan.

Blogger agus prògramadair le speisealaichean ann an Machine Ionnsachadh agus Ionnsachadh domhainn cuspairean. Tha Daniel an dòchas daoine eile a chuideachadh gus cumhachd AI a chleachdadh airson math sòisealta.