AI 101

Fêrbûna Hêzkirina Kûr çi ye?

Demê on August 2, 2021

Fêrbûna Hêzkirina Kûr çi ye?

Digel fêrbûna makîneyê ya bêserûber û fêrbûna çavdêrîkirî, celebek din a hevpar a afirandina AI-ê fêrbûna xurtkirinê ye. Ji bilî hînbûna xurtkirina birêkûpêk, hînbûna xurtkirina kûr dikare bibe sedema encamên ecêb balkêş, spas ji ber vê yekê ku ew aliyên çêtirîn ên fêrbûna kûr û fêrbûna xurtkirinê bi hev re dike. Ka em bi rastî binihêrin ka fêrbûna xurtkirina kûr çawa dixebite.

Berî ku em bikevin nav fêrbûna xurtkirina kûr, dibe ku ramanek baş be ku em xwe li ser çiqas bi rêkûpêk nûve bikin hînbûna hînkirinê dixebite. Di fêrbûna bihêzkirinê de, algorîtmayên armanc-armanc bi pêvajoyek ceribandin û xeletiyê ve têne sêwirandin, ji bo çalakiya ku digihîje encama çêtirîn / çalakiya ku herî zêde "xelat" werdigire xweşbîn dike. Dema ku algorîtmayên fêrbûna bihêzkirinê têne perwerde kirin, ji wan re "xelat" an "ceza" têne dayîn ku bandorê li ser kiryarên ku ew ê di pêşerojê de bikin. Algorîtmayan hewl didin ku komek çalakiyan bibînin ku dê pergalê bi xelata herî zêde peyda bike, hem xelatên tavil û hem jî yên pêşerojê hevseng bike.

Algorîtmayên fêrbûna xurtkirinê pir bi hêz in ji ber ku ew dikarin hema hema li her peywirê werin sepandin, ku karibin bi nermî û dînamîkî ji hawîrdorek fêr bibin û kiryarên mimkun kifş bikin.

Berfirehiya Fêrbûna Hêzdarkirina Kûr

Wêne: Megajuice bi rêya Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/Pel:Reinforcement_learning_diagram.svg)

Dema ku dor tê fêrbûna xurtkirina kûr, jîngeh bi gelemperî bi wêneyan tê destnîşan kirin. Wêneyek girtina hawîrdorê di demek taybetî de ye. Pêdivî ye ku ajan wêneyan analîz bike û agahdariya têkildar ji wan derxîne, agahdarî bikar bîne da ku agahdar bike ka kîjan çalakiyê divê bike. Fêrbûna xurtkirina kûr bi gelemperî bi yek ji du teknîkên cihêreng ve tête kirin: fêrbûna nirx-bingeh û fêrbûna li ser bingeha siyasetê.

Teknîkên fêrbûna-bingeha nirxê algorîtma û mîmarî wekî torên neuralî yên konvolutional û Deep-Q-Networks. Van algorîtmayan bi veguheztina wêneyê li pîvana gewr û derxistina beşên nehewce yên wêneyê tevdigerin. Dûv re, wêne di nav tevgerên cûrbecûr û operasyonên berhevkirinê de derbas dibe, beşên herî têkildar ên wêneyê derdixe. Dûv re beşên girîng ên wêneyê têne bikar anîn da ku nirxa Q-ê ji bo kiryarên cihêreng ên ku ajan dikare bike têne hesibandin. Q-nirx têne bikar anîn ku ji bo kargêrê çêtirîn qursa çalakiyê diyar bikin. Piştî ku nirxên Q-ya destpêkê têne hesibandin, paşnavkirin tê kirin da ku nirxên Q-ya herî rast bêne destnîşankirin.

Rêbazên li ser bingeha siyasetê têne bikar anîn dema ku jimara kiryarên mimkun ên ku ajan dikare bike pir zêde ye, ku bi gelemperî di senaryoyên cîhana rastîn de wusa ye. Rewşên mîna van nêzîkatiyek cûda hewce dike ji ber ku hesabkirina Q-nirxan ji bo hemî kiryarên kesane ne pragmatîk e. Nêzîkatiyên li ser bingeha siyasetê bêyî hesibandina nirxên fonksiyonê ji bo çalakiyên kesane tevdigerin. Di şûna wê de, ew bi fêrbûna siyasetê rasterast, bi gelemperî bi teknîkên bi navê Gradientên Siyasetê, polîtîkayan dipejirînin.

Gerdûnên polîtîkayê bi wergirtina dewletek û hesabkirina îhtîmalên ji bo çalakiyan li ser bingeha ezmûnên berê yên ajan tevdigerin. Dûv re çalakiya herî muhtemel tê hilbijartin. Ev pêvajo heya dawiya dema nirxandinê tê dubarekirin û xelat ji ajan re têne dayîn. Piştî ku xelat bi ajansê re hatin girtin, pîvanên torê bi paşnavkirinê têne nûve kirin.

Q-Learning çi ye?

Bo Q-Fêrbûn beşek pir mezin a pêvajoya fêrbûna xurtkirina kûr e, em hinekî dem bidin ku bi rastî fam bikin ka pergala Q-hînbûnê çawa dixebite.

Pêvajoya Biryara Markov

Pêvajoyek biryara Markov. Wêne: waldoalvarez bi rêya Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/Pel:Markov_Decision_Process.svg)

Ji bo ku karmendek AI-ê çend karan pêk bîne û bigihîje armancekê, divê ajan karibe bi rêzek rewş û bûyeran re mijûl bibe. Ajan dê li yek dewletekê dest pê bike û divê ew rêzek çalakiyan bike da ku bigihîje rewşek dawî, û dibe ku hejmareke mezin a dewletan di navbera dewletên destpêkê û dawiyê de hebin. Veguheztina agahdariya li ser her dewletê ne pratîkî an jî ne gengaz e, ji ber vê yekê divê pergal rêyek bibîne ku tenê agahdariya dewletê ya herî têkildar biparêze. Ev bi bikaranîna a Pêvajoya Biryara Markov, ku tenê agahdariya di derbarê rewşa heyî û ya berê de diparêze. Her dewlet taybetmendiyek Markov dişopîne, ku dişopîne ka ajan çawa ji rewşa berê berbi rewşa heyî diguhezîne.

Q-Fêrbûna Kûr

Dema ku model bigihîje agahdariya rewşên hawîrdora fêrbûnê, Q-nirx dikare were hesibandin. Q-nirx xelata tevahî ye ku di dawiya rêzek çalakiyan de ji ajan re tê dayîn.

Q-nirx bi rêzek xelatan têne hesibandin. Xelatek tavilê heye, ku di rewşa heyî de tê hesibandin û li gorî çalakiya heyî ve girêdayî ye. Q-nirxa dewleta paşerojê jî, ligel Q-nirxa dewleta piştî wê jî tê hesab kirin, û wusa berdewam dike heya ku hemî Q-nirxên dewletên cûda werin hesibandin. Di heman demê de parameterek Gamma jî heye ku tê bikar anîn da ku kontrol bike ka xelatên pêşerojê çiqas giraniya kiryarên ajan heye. Polîtîka bi gelemperî bi destpêkirina Q-nirxan bi rasthatinî têne hesibandin û dihêle ku model di dema perwerdehiyê de berbi nirxên Q-ya çêtirîn ve bigihîje hev.

Deep Q-Networks

Yek ji pirsgirêkên bingehîn ên ku tê de ye bikaranîna Q-hînbûnê ji bo hînbûna xurtkirinê ev e ku mîqdara bîra ku ji bo hilanîna daneyan hewce dike bi lez zêde dibe her ku hejmara dewletan zêde dibe. Tora Q kûr vê pirsgirêkê bi berhevkirina modelên tora neuralî bi Q-nirxan re çareser dike, rê dide ku nûnerek ji ezmûnê fêr bibe û di derheqê kiryarên çêtirîn ên ku têne kirin de texmînên maqûl bike. Bi fêrbûna Q kûr re, fonksiyonên Q-nirx bi torên neuralî têne texmîn kirin. Tora neuralî dewletê wekî daneya têketinê digire nav xwe, û tor ji bo hemî kiryarên cûda yên gengaz ên ku ajan dikare bike Q-nirx derdixe.

Fêrbûna Q-ya kûr bi hilanîna hemî ezmûnên paşîn di bîranînê de, hesabkirina herî zêde derketinên ji bo tora Q-yê, û dûv re jî fonksiyonek windakirinê bikar tîne da ku cûdahiya di navbera nirxên heyî û nirxên herî bilind ên gengaz ên teorîkî de hesab bike.

Fêrbûna Hêzdarkirina Kûr vs Fêrbûna Kûr

Cûdahiya girîng a di navbera fêrbûna xurtkirina kûr û fêrbûna kûr a birêkûpêk de ev e ku di rewşa berê de têketin bi domdarî diguhezin, ku di fêrbûna kûr a kevneşopî de ne wusa ye. Modela fêrbûnê çawa dikare têketin û derketinên ku bi berdewamî diguherin hesab bike?

Di bingeh de, ji bo hesabkirina cûdahiya di navbera nirxên pêşbînîkirî û nirxên armanc de, du torên neuralî dikarin li şûna yekê bikar bînin. Tora yek nirxên armancê texmîn dike, dema ku tora din ji pêşbîniyan berpirsiyar e. Dema ku model hîn dibe, piştî ku hejmarek bijartî ya dubareyên perwerdehiyê derbas bûne, pîvanên tora armanc têne nûve kirin. Dûv re derketinên torên têkildar bi hev re têne girêdan da ku cûdahiyê diyar bikin.

Fêrbûna Bingeha Polîtîkayê

Fêrbûna li ser bingeha polîtîkayê Nêzîkatî ji nêzîkatiyên bingeha Q-nirx cuda cuda dixebitin. Dema ku nêzîkatiyên Q-nirx fonksiyonek nirxê diafirîne ku ji bo dewlet û çalakiyan xelatan pêşbîn dike, rêbazên li ser bingeha siyasetê siyasetek diyar dikin ku dê dewletan bi çalakiyan re nexşîne. Bi gotinek din, fonksiyona polîtîkaya ku ji bo çalakiyan hildibijêre rasterast bêyî fonksiyona nirxê xweşbîn e.

Gradients Policy

Siyasetek ji bo fêrbûna xurtkirina kûr dikeve yek ji du kategoriyan: stokastîk an diyarker. Siyaseta diyarker ew e ku dewlet bi kiryaran ve têne nexşe kirin, tê vê wateyê ku dema ku siyaset li ser dewletek agahdarî tê dayîn çalakiyek tê vegerandin. Di vê navberê de, polîtîkayên stokastîk li şûna çalakiyek yekane, veqetandî dabeşek îhtimalê ji bo çalakiyan vedigerînin.

Polîtîkayên diyarker dema ku di derbarê encamên kiryarên ku dikarin bên kirin de nezelaliyek tune be, polîtîkayên diyarker têne bikar anîn. Bi gotineke din, dema ku hawîrdor bixwe diyarker be. Berevajî vê, encamên polîtîkaya stokastîk ji bo hawîrdorên ku encamên çalakiyan ne diyar in guncan in. Bi gelemperî, senaryoyên fêrbûna bihêzkirinê hin dereceyek nediyariyê vedihewîne ji ber vê yekê polîtîkayên stokastîk têne bikar anîn.

Nêzîkatiyên gradienta siyasetê li ser nêzîkatiyên fêrbûna Q, û hem jî hin dezawantajên xwe hene. Di warê avantajan de, rêbazên bingeh-siyasetê zûtir û pêbawertir li ser pîvanên çêtirîn li hev dicivin. Rêjeya polîtîkayê tenê dikare were şopandin heya ku parametreyên çêtirîn werin destnîşankirin, lê digel ku bi rêbazên nirx-based guheztinên piçûk di nirxên çalakiyê yên texmînkirî de dikarin bibin sedema guhertinên mezin di çalakiyan de û pîvanên wan ên têkildar.

Pîvana polîtîkayê ji bo cîhên çalakiya pîvana bilind jî çêtir dixebitin. Gava ku hejmareke pir zêde ya kiryarên mimkun ên ku bêne kirin hebin, fêrbûna Q-ya kûr nepraktîkî dibe ji ber ku ew pêdivî ye ku ji bo her gavavêtinên demkî ji her çalakiya gengaz re xalek destnîşan bike, ku dibe ku ji hêla hesabkirinê ve ne gengaz be. Lêbelê, bi rêbazên bingeh-siyasetê re, parametre bi demê re têne sererast kirin û ji ber ku model li hev diqewime hejmara parametreyên çêtirîn ên gengaz zû piçûk dibe.

Berevajî polîtîkayên nirx-based gradientên polîtîkayê jî dikarin polîtîkayên stokastîk bicîh bînin. Ji ber ku polîtîkayên stochastîk dabeşek îhtîmalê çêdike, pêdivî ye ku bazirganiyek lêgerîn / îstîsmar ne were sepandin.

Di warê dezavantajan de, dezavantajiya sereke ya gradientên siyasetê ev e ku ew dikarin dema ku li pîvanên çêtirîn digerin, asê bibin, li şûna nirxên optimum ên gerdûnî tenê li ser komek teng, herêmî ya nirxên optimum hûr bibin.

Fonksiyon Score Siyaseta

Polîtîkayên ku ji bo baştirkirina armanca performansa modelê têne bikar anîn ji bo zêdekirina fonksiyonek xalî - J(θ). Ger J(θ) pîvanek e ku siyaseta me ji bo gihîştina armanca xwestinê çiqas baş e, em dikarin nirxên "θ” ku siyaseta herî baş dide me. Pêşîn, pêdivî ye ku em xelatek polîtîkaya hêvîdar hesab bikin. Em xelata siyasetê texmîn dikin ji ber vê yekê me armancek heye, tiştek ku meriv jê xweşbîn bike. Fonksiyona Pûana Siyasetê ew e ku em çawa xelata polîtîkaya çaverê dihesibînin, û fonksiyonên Pûana Siyasetê yên cihêreng hene ku bi gelemperî têne bikar anîn, wek: nirxên destpêkê ji bo hawîrdorên episodîk, nirxa navînî ji bo derdorên domdar, û xelata navînî ya her gavê.

Polîtîkaya Gradient Ascent

Hilkişîna gradient armanc dike ku parametreyan biguhezîne heya ku ew li cîhê ku puan herî zêde ye ne. Wêne: Domaina Giştî (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Piştî ku Fonksiyona Pûana Siyasetê ya xwestî were bikar anîn, û xelatek polîtîkaya çaverê tê hesibandin, em dikarin nirxek ji bo parametreyê bibînin "θ” ya ku fonksiyona hejmarê herî zêde dike. Ji bo ku fonksiyona xalê herî zêde bike J(θ), teknîkek bi navê "hilkişîna gradient” tê bikaranîn. Di fêrbûna kûr de hilkişîna gradientê di têgînê de dişibihe daketina gradientê, lê em li şûna kêmbûnê ji bo zêdebûna herî asê xweşbîn dikin. Ev ji ber ku pûana me ne "xeletî" ye, mîna di gelek pirsgirêkên hînbûna kûr de. Pûana me tiştek e ku em dixwazin herî zêde bikin. Gotinek bi navê Teorema Gradientê ya Polîtîkayê ji bo texmînkirina gradientê li gorî siyasetê tê bikar anîn "θ".

Kurteya Fêrbûna Hêzdarkirina Kûr

Bi kurtahî, fêrbûna bihêzkirina kûr aliyên fêrbûna bihêzkirinê û torên neuralî yên kûr hevûdu dike. Fêrbûna xurtkirina kûr bi du teknîkên cihêreng pêk tê: Fêrbûna Q-kûr û gradientên siyasetê.

Rêbazên fêrbûna Q-ya kûr armanc dikin ku pêşbîn bikin ka kîjan xelat dê li dû hin kiryarên ku di rewşek diyarkirî de hatine girtin bişopînin, dema ku nêzîkbûnên gradientî yên siyasetê armanc dikin ku cîhê çalakiyê xweşbîn bikin, çalakiyan bixwe pêşbîn bikin. Nêzîkatiyên li ser bingeha siyasetê yên fêrbûna xurtkirina kûr di xwezaya xwe de diyarker an stochastîk in. Polîtîkayên diyarker dewletan rasterast ji çalakiyan re nexşe dikin dema ku polîtîkayên stokastîk ji bo çalakiyan dabeşên îhtîmalê çêdikin.

Up Next

Fêrbûna Federalî çi ye?

Ma Miss

Teorema Bayes çi ye?

Daniel Nelson

Blogger û bernameçêkerê ku di nav de pispor e Fêrbûna Machine û Fêrbûna Kûr mijarên. Daniel hêvî dike ku alîkariya kesên din bike ku hêza AI-ê ji bo başiya civakî bikar bînin.