stub X'inhu Tagħlim ta' Tisħiħ? - Unite.AI
Kuntatt magħna
Masterclass AI:

AI 101

X'inhu t-Tagħlim ta' Tisħiħ?

mm
Aġġornata on

X'inhu t-Tagħlim ta' Tisħiħ?

Fi kliem sempliċi, it-tagħlim ta 'rinforz huwa teknika ta' tagħlim bil-magni li tinvolvi taħriġ ta 'aġent ta' intelliġenza artifiċjali permezz tar-ripetizzjoni ta 'azzjonijiet u premjijiet assoċjati. Aġent tat-tagħlim ta' rinfurzar jesperimenta f'ambjent, jieħu azzjonijiet u jiġi ppremjat meta jittieħdu l-azzjonijiet korretti. Maż-żmien, l-aġent jitgħallem jieħu l-azzjonijiet li jimmassimizzaw il-premju tiegħu. Dik hija definizzjoni mgħaġġla ta 'tagħlim ta' rinfurzar, iżda li tagħti ħarsa aktar mill-qrib lejn il-kunċetti wara t-tagħlim ta 'rinfurzar tgħinek tikseb fehim aħjar u aktar intuwittiv tiegħu.

It-terminu "tagħlim ta' rinfurzar" huwa adattat mill-kunċett ta' tisħiħ fil-psikoloġija. Għal dik ir-raġuni, ejja nieħdu mument biex nifhmu l-kunċett psikoloġiku ta 'rinforz. Fis-sens psikoloġiku, it-terminu rinfurzar jirreferi għal xi ħaġa li żżid il-probabbiltà li sseħħ rispons/azzjoni partikolari. Dan il-kunċett ta 'rinforz huwa idea ċentrali tat-teorija tal-kondizzjonament operant, inizjalment proposta mill-psikologu BF Skinner. F'dan il-kuntest, it-tisħiħ huwa kull ħaġa li tikkawża li tiżdied il-frekwenza ta 'imġieba partikolari. Jekk naħsbu dwar tisħiħ possibbli għall-bnedmin, dawn jistgħu jkunu affarijiet bħal tifħir, żieda fuq ix-xogħol, ħelu, u attivitajiet divertenti.

Fis-sens tradizzjonali, psikoloġiku, hemm żewġ tipi ta 'rinforz. Hemm tisħiħ pożittiv u rinforz negattiv. It-tisħiħ pożittiv huwa ż-żieda ta 'xi ħaġa li żżid l-imġieba, bħall-għoti ta' kura lill-kelb tiegħek meta jġib ruħu tajjeb. It-tisħiħ negattiv jinvolvi t-tneħħija ta 'stimolu biex iqajjem imġieba, bħall-għeluq ta' ħsejjes qawwijin biex iġibu qattus skittish.

Tisħiħ Pożittiv u Negattiv

It-tisħiħ pożittiv iżid il-frekwenza ta 'imġieba filwaqt li r-rinfurzar negattiv inaqqas il-frekwenza. B'mod ġenerali, it-tisħiħ pożittiv huwa l-aktar tip komuni ta 'rinfurzar użat fit-tagħlim ta' rinfurzar, peress li jgħin lill-mudelli jimmassimizzaw il-prestazzjoni fuq kompitu partikolari. Mhux hekk biss imma rinfurzar pożittiv iwassal lill-mudell biex jagħmel bidliet aktar sostenibbli, bidliet li jistgħu jsiru mudelli konsistenti u jippersistu għal perjodi twal ta’ żmien.

B'kuntrast, filwaqt li rinfurzar negattiv jagħmel ukoll imġieba aktar probabbli li sseħħ, huwa użat biex jinżamm standard minimu ta 'prestazzjoni aktar milli jilħaq il-prestazzjoni massima ta' mudell. It-tisħiħ negattiv fit-tagħlim ta' rinfurzar jista' jgħin biex jiġi żgurat li mudell jinżamm 'il bogħod minn azzjonijiet mhux mixtieqa, iżda ma jistax verament jagħmel mudell jesplora l-azzjonijiet mixtieqa.

Taħriġ ta' Aġent ta' Rinfurzar

Meta aġent tat-tagħlim ta' rinfurzar jiġi mħarreġ, hemm erba 'ingredjenti differenti or istati użati fit-taħriġ: stati inizjali (Stat 0), stat ġdid (Stat 1), azzjonijiet, u premjijiet.

Immaġina li qed nitħarrġu aġent ta' rinfurzar biex nilagħbu video game platforming fejn l-għan tal-AI huwa li jasal sal-aħħar tal-livell billi nimxu dritt fuq l-iskrin. L-istat inizjali tal-logħba huwa miġbud mill-ambjent, jiġifieri l-ewwel qafas tal-logħba jiġi analizzat u mogħti lill-mudell. Abbażi ta' din l-informazzjoni, il-mudell irid jiddeċiedi dwar azzjoni.

Matul il-fażijiet inizjali tat-taħriġ, dawn l-azzjonijiet huma każwali iżda hekk kif il-mudell jiġi rinfurzat, ċerti azzjonijiet se jsiru aktar komuni. Wara li tittieħed l-azzjoni l-ambjent tal-logħba jiġi aġġornat u jinħoloq stat jew qafas ġdid. Jekk l-azzjoni meħuda mill-aġent ipproduċiet riżultat mixtieq, ejja ngħidu f'dan il-każ li l-aġent għadu ħaj u ma ntlaqatx minn ghadu, jingħata xi premju lill-aġent u jsir aktar probabbli li jagħmel l-istess f' il-futur.

Din is-sistema bażika hija kontinwament looped, jiġri għal darb'oħra u għal darb'oħra, u kull darba l-aġent jipprova jitgħallem ftit aktar u jimmassimizza l-premju tiegħu.

Ħidmiet Episodiċi vs Kontinwi

Il-kompiti ta' tagħlim ta' rinfurzar jistgħu tipikament jitqiegħdu f'waħda minn żewġ kategoriji differenti: ħidmiet episodiċi u ħidmiet kontinwi.

Ħidmiet episodiċi se jwettqu l-linja tat-tagħlim/taħriġ u jtejbu l-prestazzjoni tagħhom sakemm jintlaħqu xi kriterji finali u t-taħriġ jintemm. F'logħba, dan jista 'jkun qed jilħaq it-tmiem tal-livell jew jaqa' f'periklu bħal spikes. B'kuntrast, il-kompiti kontinwi m'għandhomx kriterji ta 'terminazzjoni, essenzjalment ikomplu jitħarrġu għal dejjem sakemm l-inġinier jagħżel li jtemm it-taħriġ.

Monte Carlo vs Differenza Temporali

Hemm żewġ modi primarji ta 'tagħlim, jew taħriġ, aġent tat-tagħlim ta' rinfurzar. Fil l-approċċ Monte Carlo, il-premjijiet jitwasslu lill-aġent (il-punteġġ tiegħu huwa aġġornat) biss fi tmiem l-episodju tat-taħriġ. Fi kliem ieħor, meta tintlaqat il-kundizzjoni tat-terminazzjoni biss il-mudell jitgħallem kemm wettaq tajjeb. Imbagħad jista’ juża din l-informazzjoni biex jaġġorna u meta jinbeda r-rawnd ta’ taħriġ li jmiss se jirrispondi skont l-informazzjoni l-ġdida.

il metodu tad-differenza temporali huwa differenti mill-metodu Monte Carlo billi l-istima tal-valur, jew l-istima tal-punteġġ, tiġi aġġornata matul l-episodju tat-taħriġ. Ladarba l-mudell javvanza għall-pass tal-ħin li jmiss il-valuri jiġu aġġornati.

Esplorazzjoni vs Sfruttament

It-taħriġ ta 'aġent tat-tagħlim ta' rinfurzar huwa att ta 'bilanċ, li jinvolvi l-ibbilanċjar ta' żewġ metriċi differenti: esplorazzjoni u sfruttament.

L-esplorazzjoni hija l-att li tiġbor aktar informazzjoni dwar l-ambjent tal-madwar, filwaqt li l-esplorazzjoni qed tuża l-informazzjoni diġà magħrufa dwar l-ambjent biex taqla 'punti ta' premju. Jekk aġent jesplora biss u qatt ma jisfrutta l-ambjent, l-azzjonijiet mixtieqa qatt ma jitwettqu. Min-naħa l-oħra, jekk l-aġent jisfrutta biss u qatt ma jesplora, l-aġent jitgħallem biss iwettaq azzjoni waħda u ma jiskoprix strateġiji oħra possibbli biex jaqla’ premjijiet. Għalhekk, il-bilanċ tal-esplorazzjoni u l-isfruttament huwa kritiku meta jinħoloq aġent ta 'tagħlim ta' rinfurzar.

Każijiet ta' Użu Għat-Tagħlim ta' Tisħiħ

It-tagħlim ta' rinfurzar jista' jintuża f'varjetà wiesgħa ta' rwoli, u huwa l-aktar adattat għal applikazzjonijiet fejn il-kompiti jeħtieġu awtomazzjoni.

L-awtomazzjoni tal-kompiti li għandhom jitwettqu minn robots industrijali hija qasam wieħed fejn it-tagħlim ta' rinfurzar huwa utli. It-tagħlim ta' rinfurzar jista' jintuża wkoll għal problemi bħall-minjieri tat-test, li joħolqu mudelli li huma kapaċi jiġbru fil-qosor korpi twal ta 'test. Ir-riċerkaturi qed jesperimentaw ukoll bl-użu ta 'tagħlim ta' rinfurzar fil-qasam tal-kura tas-saħħa, b'aġenti ta 'rinfurzar li jimmaniġġjaw impjiegi bħall-ottimizzazzjoni tal-politiki ta' trattament. It-tagħlim ta' rinfurzar jista' jintuża wkoll biex jippersonalizza l-materjal edukattiv għall-istudenti.

Sommarju tat-Tagħlim ta' Tisħiħ

It-tagħlim ta' rinfurzar huwa metodu qawwi ta' kostruzzjoni ta' aġenti tal-IA li jista' jwassal għal riżultati impressjonanti u kultant sorprendenti. It-taħriġ ta’ aġent permezz ta’ tagħlim ta’ rinfurzar jista’ jkun kumpless u diffiċli, peress li jeħtieġ ħafna iterazzjonijiet ta’ taħriġ u bilanċ delikat tad-dikotomija ta’ esplorazzjoni/sfruttament. Madankollu, jekk jirnexxi, aġent maħluq bit-tagħlim ta’ rinfurzar jista’ jwettaq ħidmiet kumplessi taħt varjetà wiesgħa ta’ ambjenti differenti.

Blogger u programmatur bi speċjalitajiet fi Tagħlim bil-Magni u, Tagħlim fil-fond suġġetti. Daniel jittama li jgħin lil ħaddieħor juża l-qawwa tal-IA għall-ġid soċjali.