AI 101

Kas ir pastiprināšanas mācības?

Atjaunināts on Jūnijs 5, 2021

Kas ir pastiprināšanas mācības?

Vienkārši sakot, pastiprināšanas mācīšanās ir mašīnmācīšanās tehnika, kas ietver mākslīgā intelekta aģenta apmācību, atkārtojot darbības un ar tām saistītās atlīdzības. Pastiprināšanas mācību aģents eksperimentē vidē, veicot darbības un saņemot atlīdzību, kad tiek veiktas pareizās darbības. Laika gaitā aģents iemācās veikt darbības, kas maksimizēs tā atlīdzību. Šī ir ātra pastiprināšanas mācīšanās definīcija, taču, rūpīgāk aplūkojot pastiprināšanas mācīšanās jēdzienus, varēsit iegūt labāku un intuitīvāku izpratni par to.

Termins “pastiprināšanas mācības” ir pārņemts no jēdziena pastiprināšana psiholoģijā. Šī iemesla dēļ veltīsim laiku, lai saprastu pastiprināšanas psiholoģisko jēdzienu. Psiholoģiskā nozīmē termins pastiprināšana attiecas uz kaut ko tādu, kas palielina iespējamību, ka notiks konkrēta reakcija/darbība. Šī pastiprināšanas koncepcija ir galvenā ideja operantu kondicionēšanas teorijā, ko sākotnēji ierosināja psihologs BF Skiners. Šajā kontekstā pastiprināšana ir jebkas, kas izraisa noteiktas uzvedības biežuma palielināšanos. Ja domājam par iespējamu pastiprināšanu cilvēkiem, tās var būt tādas lietas kā uzslavas, paaugstināšana darbā, konfektes un jautras aktivitātes.

Tradicionālajā psiholoģiskajā izpratnē ir divi pastiprinājuma veidi. Ir pozitīvs pastiprinājums un negatīvs pastiprinājums. Pozitīvs pastiprinājums ir kaut kā pievienošana, lai uzlabotu uzvedību, piemēram, garduma došana suni, kad tas labi uzvedas. Negatīvā pastiprināšana ietver stimulu, kas izraisa uzvedību, noņemšanu, piemēram, skaļu trokšņu izslēgšanu, lai pierunātu trakulīgu kaķi.

Pozitīvs un negatīvs pastiprinājums

Pozitīvs pastiprinājums palielina uzvedības biežumu, bet negatīvs pastiprinājums samazina biežumu. Kopumā pozitīvs pastiprinājums ir visizplatītākais pastiprināšanas veids, ko izmanto pastiprināšanas mācībās, jo tas palīdz modeļiem maksimāli palielināt konkrētā uzdevuma veiktspēju. Ne tikai tas, bet arī pozitīvs pastiprinājums liek modelim veikt ilgtspējīgākas izmaiņas, kas var kļūt par konsekventiem modeļiem un saglabāties ilgu laiku.

Turpretim, lai gan negatīvs pastiprinājums arī palielina uzvedības iespējamību, to izmanto, lai saglabātu minimālo veiktspējas standartu, nevis sasniegtu modeļa maksimālo veiktspēju. Negatīva pastiprināšana pastiprināšanas mācībās var palīdzēt nodrošināt, ka modelis tiek atturēts no nevēlamām darbībām, taču tas nevar likt modelim izpētīt vēlamās darbības.

Pastiprināšanas aģenta apmācība

Kad tiek apmācīts pastiprināšanas mācību aģents, ir četras dažādas sastāvdaļas or valstis izmanto apmācībā: sākuma stāvokļi (stāvoklis 0), jaunais stāvoklis (stāvoklis 1), darbības un atlīdzības.

Iedomājieties, ka mēs apmācām pastiprināšanas aģentu spēlēt platformas videospēli, kur AI mērķis ir sasniegt līmeņa beigas, pārvietojoties pa ekrānu. Spēles sākotnējais stāvoklis tiek iegūts no vides, kas nozīmē, ka pirmais spēles kadrs tiek analizēts un piešķirts modelim. Pamatojoties uz šo informāciju, modelim ir jāizlemj par darbību.

Sākotnējās apmācības fāzēs šīs darbības ir nejaušas, bet, modelim pastiprinoties, noteiktas darbības kļūs biežākas. Pēc darbības veikšanas spēles vide tiek atjaunināta un tiek izveidots jauns stāvoklis vai rāmis. Ja aģenta veiktā darbība ir devusi vēlamo rezultātu, pieņemsim, ka šajā gadījumā aģents joprojām ir dzīvs un nav skāris ienaidnieks, aģentam tiek piešķirta zināma atlīdzība, un tas, visticamāk, darīs to pašu nākotne.

Šī pamata sistēma tiek pastāvīgi cilpa, kas notiek atkal un atkal, un katru reizi aģents mēģina uzzināt vairāk un palielināt atlīdzību.

Epizodiski pret nepārtrauktiem uzdevumiem

Pastiprināšanas mācību uzdevumus parasti var iedalīt vienā no divām dažādām kategorijām: epizodiski uzdevumi un nepārtraukti uzdevumi.

Epizodiskie uzdevumi veiks mācīšanās/apmācības cilpu un uzlabos to veiktspēju, līdz tiks izpildīti daži beigu kritēriji un apmācība tiks pārtraukta. Spēlē tas var būt līmeņa beigu sasniegšana vai iekrišana bīstamā situācijā, piemēram, tapas. Turpretim nepārtrauktiem uzdevumiem nav izbeigšanas kritēriju, būtībā tie turpina apmācību mūžīgi, līdz inženieris izvēlas beigt apmācību.

Montekarlo vs laika atšķirība

Ir divi galvenie veidi, kā mācīties vai apmācīt pastiprinošu mācību aģentu. In Montekarlo pieeja, balvas aģentam tiek piegādātas (tā rezultāts tiek atjaunināts) tikai apmācības epizodes beigās. Citiem vārdiem sakot, tikai tad, kad tiek sasniegts pārtraukšanas nosacījums, modelis uzzina, cik labi tas darbojās. Pēc tam tā var izmantot šo informāciju, lai atjauninātu, un, kad tiks sākta nākamā apmācības kārta, tā reaģēs atbilstoši jaunajai informācijai.

Jūsu darbs IR Klientu apkalpošana laika atšķirības metode atšķiras no Montekarlo metodes ar to, ka vērtības novērtējums vai rezultāta novērtējums tiek atjaunināts apmācības epizodes laikā. Kad modelis pāriet uz nākamo darbību, vērtības tiek atjauninātas.

Izpēte pret ekspluatāciju

Pastiprināšanas mācību aģenta apmācība ir līdzsvarošanas akts, kas ietver divu dažādu rādītāju līdzsvarošanu: izpēti un izmantošanu.

Izpēte ir vairāk informācijas par apkārtējo vidi ievākšana, savukārt izpētē tiek izmantota jau zināmā informācija par vidi, lai nopelnītu atlīdzības punktus. Ja aģents tikai pēta un nekad neizmanto vidi, vēlamās darbības nekad netiks veiktas. No otras puses, ja aģents tikai izmanto un nekad nepēta, aģents iemācīsies veikt tikai vienu darbību un neatklās citas iespējamās atlīdzības iegūšanas stratēģijas. Tāpēc, veidojot pastiprinošu mācību aģentu, izpētes un izmantošanas līdzsvarošana ir ļoti svarīga.

Izmantošanas gadījumi pastiprināšanai

Pastiprināšanas mācības var izmantot dažādās lomās, un tās ir vislabāk piemērotas lietojumprogrammām, kurās uzdevumiem nepieciešama automatizācija.

Rūpniecisko robotu veicamo uzdevumu automatizācija ir viena no jomām, kur pastiprināšanas mācīšanās ir noderīga. Pastiprināšanas mācības var izmantot arī tādām problēmām kā teksta ieguve, veidojot modeļus, kas spēj apkopot garus teksta korpusus. Pētnieki arī eksperimentē ar pastiprināšanas apmācību izmantošanu veselības aprūpes jomā, pastiprinošajiem aģentiem veicot tādus darbus kā ārstēšanas politikas optimizēšana. Mācību pastiprināšana varētu tikt izmantota arī, lai pielāgotu mācību materiālus skolēniem.

Pastiprināšanas mācību kopsavilkums

Mācību pastiprināšana ir spēcīga AI aģentu konstruēšanas metode, kas var novest pie iespaidīgiem un dažkārt pārsteidzošiem rezultātiem. Aģenta apmācīšana, izmantojot pastiprinošu mācīšanos, var būt sarežģīta un sarežģīta, jo tas prasa daudzas apmācības atkārtojumus un smalku izpētes/izmantošanas dihotomijas līdzsvaru. Tomēr, ja tas ir veiksmīgs, aģents, kas izveidots ar pastiprinošu mācīšanos, var veikt sarežģītus uzdevumus dažādās vidēs.

Saistītās tēmas:101

Nākošais

Kas ir lēmumu koks?

Nepalaidiet garām

Kas ir dziļā mācīšanās?

Daniels Nelsons

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.

Apvienojieties.AI

Kas ir pastiprināšanas mācības?

AI 101

Kas ir pastiprināšanas mācības?

Satura rādītājs

Kas ir pastiprināšanas mācības?

Pozitīvs un negatīvs pastiprinājums

Pastiprināšanas aģenta apmācība

Epizodiski pret nepārtrauktiem uzdevumiem

Montekarlo vs laika atšķirība

Izpēte pret ekspluatāciju

Izmantošanas gadījumi pastiprināšanai

Pastiprināšanas mācību kopsavilkums

Apvienojieties.AI

Kas ir pastiprināšanas mācības?

Satura rādītājs

Kas ir pastiprināšanas mācības?

Pozitīvs un negatīvs pastiprinājums

Pastiprināšanas aģenta apmācība

Epizodiski pret nepārtrauktiem uzdevumiem

Montekarlo vs laika atšķirība

Izpēte pret ekspluatāciju

Izmantošanas gadījumi pastiprināšanai

Pastiprināšanas mācību kopsavilkums

Jums varētu patikt