- Terminoloġija (A sa D)
- Kontroll tal-Kapaċità AI
- AI Ops
- albumazzjonijiet
- Prestazzjoni tal-Assi
- Autoencoder
- Propagazzjoni lura
- Teorema ta' Bayes
- Data Big
- Chatbot: Gwida għall-Bidu
- Ħsieb Komputazzjonali
- Kompjuter Viżjoni
- Matriċi ta' Konfużjoni
- Netwerks Konvulsjonali Neurali
- sigurtà ċibernetika
- Tessili tad-Data
- Storytelling tad-Data
- Xjenza data
- Magazzinaġġ tad-Dejta
- Siġra tad-Deċiżjoni
- Deepfakes
- Tagħlim fil-fond
- Tagħlim ta 'Rinfurzar Profond
- devops
- DevSecOps
- Mudelli ta' Diffużjoni
- Twin Diġitali
- Tnaqqis tad-Dimensjonalità
- Terminoloġija (E sa K)
- Xifer AI
- Emozzjoni AI
- Ensemble Tagħlim
- Hacking Etiku
- ETL
- AI spjegabbli
- Tagħlim Federat
- FinOps
- AI Ġenerattiva
- Netwerk Avversarju Ġenerattiv
- Ġenerattiv vs Diskriminattiv
- Spinta tal-gradjent
- Inżul gradjent
- Tagħlim tal-Ftit-Shot
- Klassifikazzjoni tal-Immaġni
- Operazzjonijiet tal-IT (ITOps)
- Awtomazzjoni tal-Inċidenti
- Influwenza l-Inġinerija
- K-Mezzi Clustering
- K-Eqreb Ġirien
- Terminoloġija (L sa Q)
- Terminoloġija (R sa Z)
- Tisħiħ tat-Tagħlim
- AI responsabbli
- RLHF
- Awtomazzjoni tal-Proċess Robotiku
- Strutturat vs Mhux Strutturat
- Analiżi tas-Sentimenti
- Supervisjat vs Unsupervised
- Appoġġ Magni tal-Vettur
- Dejta Sintetika
- Midja Sintetika
- Klassifikazzjoni tat-Test
- TinyML
- Trasferiment Tagħlim
- Netwerks newrali tat-trasformaturi
- Test ta 'Turing
- Tiftix ta' Xebh tal-Vector
AI 101
X'inhu t-Tagħlim ta' Tisħiħ?
Tabella tal-kontenut
X'inhu t-Tagħlim ta' Tisħiħ?
Fi kliem sempliċi, it-tagħlim ta 'rinforz huwa teknika ta' tagħlim bil-magni li tinvolvi taħriġ ta 'aġent ta' intelliġenza artifiċjali permezz tar-ripetizzjoni ta 'azzjonijiet u premjijiet assoċjati. Aġent tat-tagħlim ta' rinfurzar jesperimenta f'ambjent, jieħu azzjonijiet u jiġi ppremjat meta jittieħdu l-azzjonijiet korretti. Maż-żmien, l-aġent jitgħallem jieħu l-azzjonijiet li jimmassimizzaw il-premju tiegħu. Dik hija definizzjoni mgħaġġla ta 'tagħlim ta' rinfurzar, iżda li tagħti ħarsa aktar mill-qrib lejn il-kunċetti wara t-tagħlim ta 'rinfurzar tgħinek tikseb fehim aħjar u aktar intuwittiv tiegħu.
It-terminu "tagħlim ta' rinfurzar" huwa adattat mill-kunċett ta' tisħiħ fil-psikoloġija. Għal dik ir-raġuni, ejja nieħdu mument biex nifhmu l-kunċett psikoloġiku ta 'rinforz. Fis-sens psikoloġiku, it-terminu rinfurzar jirreferi għal xi ħaġa li żżid il-probabbiltà li sseħħ rispons/azzjoni partikolari. Dan il-kunċett ta 'rinforz huwa idea ċentrali tat-teorija tal-kondizzjonament operant, inizjalment proposta mill-psikologu BF Skinner. F'dan il-kuntest, it-tisħiħ huwa kull ħaġa li tikkawża li tiżdied il-frekwenza ta 'imġieba partikolari. Jekk naħsbu dwar tisħiħ possibbli għall-bnedmin, dawn jistgħu jkunu affarijiet bħal tifħir, żieda fuq ix-xogħol, ħelu, u attivitajiet divertenti.
Fis-sens tradizzjonali, psikoloġiku, hemm żewġ tipi ta 'rinforz. Hemm tisħiħ pożittiv u rinforz negattiv. It-tisħiħ pożittiv huwa ż-żieda ta 'xi ħaġa li żżid l-imġieba, bħall-għoti ta' kura lill-kelb tiegħek meta jġib ruħu tajjeb. It-tisħiħ negattiv jinvolvi t-tneħħija ta 'stimolu biex iqajjem imġieba, bħall-għeluq ta' ħsejjes qawwijin biex iġibu qattus skittish.
Tisħiħ Pożittiv u Negattiv
It-tisħiħ pożittiv iżid il-frekwenza ta 'imġieba filwaqt li r-rinfurzar negattiv inaqqas il-frekwenza. B'mod ġenerali, it-tisħiħ pożittiv huwa l-aktar tip komuni ta 'rinfurzar użat fit-tagħlim ta' rinfurzar, peress li jgħin lill-mudelli jimmassimizzaw il-prestazzjoni fuq kompitu partikolari. Mhux hekk biss imma rinfurzar pożittiv iwassal lill-mudell biex jagħmel bidliet aktar sostenibbli, bidliet li jistgħu jsiru mudelli konsistenti u jippersistu għal perjodi twal ta’ żmien.
B'kuntrast, filwaqt li rinfurzar negattiv jagħmel ukoll imġieba aktar probabbli li sseħħ, huwa użat biex jinżamm standard minimu ta 'prestazzjoni aktar milli jilħaq il-prestazzjoni massima ta' mudell. It-tisħiħ negattiv fit-tagħlim ta' rinfurzar jista' jgħin biex jiġi żgurat li mudell jinżamm 'il bogħod minn azzjonijiet mhux mixtieqa, iżda ma jistax verament jagħmel mudell jesplora l-azzjonijiet mixtieqa.
Taħriġ ta' Aġent ta' Rinfurzar
Meta aġent tat-tagħlim ta' rinfurzar jiġi mħarreġ, hemm erba 'ingredjenti differenti or istati użati fit-taħriġ: stati inizjali (Stat 0), stat ġdid (Stat 1), azzjonijiet, u premjijiet.
Immaġina li qed nitħarrġu aġent ta' rinfurzar biex nilagħbu video game platforming fejn l-għan tal-AI huwa li jasal sal-aħħar tal-livell billi nimxu dritt fuq l-iskrin. L-istat inizjali tal-logħba huwa miġbud mill-ambjent, jiġifieri l-ewwel qafas tal-logħba jiġi analizzat u mogħti lill-mudell. Abbażi ta' din l-informazzjoni, il-mudell irid jiddeċiedi dwar azzjoni.
Matul il-fażijiet inizjali tat-taħriġ, dawn l-azzjonijiet huma każwali iżda hekk kif il-mudell jiġi rinfurzat, ċerti azzjonijiet se jsiru aktar komuni. Wara li tittieħed l-azzjoni l-ambjent tal-logħba jiġi aġġornat u jinħoloq stat jew qafas ġdid. Jekk l-azzjoni meħuda mill-aġent ipproduċiet riżultat mixtieq, ejja ngħidu f'dan il-każ li l-aġent għadu ħaj u ma ntlaqatx minn ghadu, jingħata xi premju lill-aġent u jsir aktar probabbli li jagħmel l-istess f' il-futur.
Din is-sistema bażika hija kontinwament looped, jiġri għal darb'oħra u għal darb'oħra, u kull darba l-aġent jipprova jitgħallem ftit aktar u jimmassimizza l-premju tiegħu.
Ħidmiet Episodiċi vs Kontinwi
Il-kompiti ta' tagħlim ta' rinfurzar jistgħu tipikament jitqiegħdu f'waħda minn żewġ kategoriji differenti: ħidmiet episodiċi u ħidmiet kontinwi.
Ħidmiet episodiċi se jwettqu l-linja tat-tagħlim/taħriġ u jtejbu l-prestazzjoni tagħhom sakemm jintlaħqu xi kriterji finali u t-taħriġ jintemm. F'logħba, dan jista 'jkun qed jilħaq it-tmiem tal-livell jew jaqa' f'periklu bħal spikes. B'kuntrast, il-kompiti kontinwi m'għandhomx kriterji ta 'terminazzjoni, essenzjalment ikomplu jitħarrġu għal dejjem sakemm l-inġinier jagħżel li jtemm it-taħriġ.
Monte Carlo vs Differenza Temporali
Hemm żewġ modi primarji ta 'tagħlim, jew taħriġ, aġent tat-tagħlim ta' rinfurzar. Fil l-approċċ Monte Carlo, il-premjijiet jitwasslu lill-aġent (il-punteġġ tiegħu huwa aġġornat) biss fi tmiem l-episodju tat-taħriġ. Fi kliem ieħor, meta tintlaqat il-kundizzjoni tat-terminazzjoni biss il-mudell jitgħallem kemm wettaq tajjeb. Imbagħad jista’ juża din l-informazzjoni biex jaġġorna u meta jinbeda r-rawnd ta’ taħriġ li jmiss se jirrispondi skont l-informazzjoni l-ġdida.
il metodu tad-differenza temporali huwa differenti mill-metodu Monte Carlo billi l-istima tal-valur, jew l-istima tal-punteġġ, tiġi aġġornata matul l-episodju tat-taħriġ. Ladarba l-mudell javvanza għall-pass tal-ħin li jmiss il-valuri jiġu aġġornati.
Esplorazzjoni vs Sfruttament
It-taħriġ ta 'aġent tat-tagħlim ta' rinfurzar huwa att ta 'bilanċ, li jinvolvi l-ibbilanċjar ta' żewġ metriċi differenti: esplorazzjoni u sfruttament.
L-esplorazzjoni hija l-att li tiġbor aktar informazzjoni dwar l-ambjent tal-madwar, filwaqt li l-esplorazzjoni qed tuża l-informazzjoni diġà magħrufa dwar l-ambjent biex taqla 'punti ta' premju. Jekk aġent jesplora biss u qatt ma jisfrutta l-ambjent, l-azzjonijiet mixtieqa qatt ma jitwettqu. Min-naħa l-oħra, jekk l-aġent jisfrutta biss u qatt ma jesplora, l-aġent jitgħallem biss iwettaq azzjoni waħda u ma jiskoprix strateġiji oħra possibbli biex jaqla’ premjijiet. Għalhekk, il-bilanċ tal-esplorazzjoni u l-isfruttament huwa kritiku meta jinħoloq aġent ta 'tagħlim ta' rinfurzar.
Każijiet ta' Użu Għat-Tagħlim ta' Tisħiħ
It-tagħlim ta' rinfurzar jista' jintuża f'varjetà wiesgħa ta' rwoli, u huwa l-aktar adattat għal applikazzjonijiet fejn il-kompiti jeħtieġu awtomazzjoni.
L-awtomazzjoni tal-kompiti li għandhom jitwettqu minn robots industrijali hija qasam wieħed fejn it-tagħlim ta' rinfurzar huwa utli. It-tagħlim ta' rinfurzar jista' jintuża wkoll għal problemi bħall-minjieri tat-test, li joħolqu mudelli li huma kapaċi jiġbru fil-qosor korpi twal ta 'test. Ir-riċerkaturi qed jesperimentaw ukoll bl-użu ta 'tagħlim ta' rinfurzar fil-qasam tal-kura tas-saħħa, b'aġenti ta 'rinfurzar li jimmaniġġjaw impjiegi bħall-ottimizzazzjoni tal-politiki ta' trattament. It-tagħlim ta' rinfurzar jista' jintuża wkoll biex jippersonalizza l-materjal edukattiv għall-istudenti.
Sommarju tat-Tagħlim ta' Tisħiħ
It-tagħlim ta' rinfurzar huwa metodu qawwi ta' kostruzzjoni ta' aġenti tal-IA li jista' jwassal għal riżultati impressjonanti u kultant sorprendenti. It-taħriġ ta’ aġent permezz ta’ tagħlim ta’ rinfurzar jista’ jkun kumpless u diffiċli, peress li jeħtieġ ħafna iterazzjonijiet ta’ taħriġ u bilanċ delikat tad-dikotomija ta’ esplorazzjoni/sfruttament. Madankollu, jekk jirnexxi, aġent maħluq bit-tagħlim ta’ rinfurzar jista’ jwettaq ħidmiet kumplessi taħt varjetà wiesgħa ta’ ambjenti differenti.
Blogger u programmatur bi speċjalitajiet fi Tagħlim bil-Magni u, Tagħlim fil-fond suġġetti. Daniel jittama li jgħin lil ħaddieħor juża l-qawwa tal-IA għall-ġid soċjali.