cung Çfarë është të mësuarit përforcues? - Bashkohu.AI
Lidhu me ne
Masterclass i AI:

UA 101

Çfarë është të mësuarit përforcues?

mm
Përditësuar on

Çfarë është të mësuarit përforcues?

E thënë thjesht, të mësuarit përforcues është një teknikë e mësimit të makinerive që përfshin trajnimin e një agjenti të inteligjencës artificiale përmes përsëritjes së veprimeve dhe shpërblimeve të lidhura. Një agjent mësimor përforcues eksperimenton në një mjedis, duke ndërmarrë veprime dhe duke u shpërblyer kur ndërmerren veprimet e duhura. Me kalimin e kohës, agjenti mëson të ndërmarrë veprime që do të maksimizojnë shpërblimin e tij. Ky është një përkufizim i shpejtë i të mësuarit përforcues, por një vështrim më i afërt i koncepteve pas të mësuarit përforcues do t'ju ndihmojë të fitoni një kuptim më të mirë dhe më intuitiv të tij.

Termi “të mësuarit përforcues” është përshtatur nga koncepti i përforcimi në psikologji. Për këtë arsye, le të marrim një moment për të kuptuar konceptin psikologjik të përforcimit. Në kuptimin psikologjik, termi përforcim i referohet diçkaje që rrit gjasat që një përgjigje/veprim i caktuar të ndodhë. Ky koncept i përforcimit është një ide qendrore e teorisë së kushtëzimit operant, e propozuar fillimisht nga psikologu BF Skinner. Në këtë kontekst, përforcimi është çdo gjë që shkakton rritjen e shpeshtësisë së një sjelljeje të caktuar. Nëse mendojmë për një përforcim të mundshëm për njerëzit, këto mund të jenë gjëra të tilla si lëvdata, ngritje në punë, ëmbëlsira dhe aktivitete argëtuese.

Në kuptimin tradicional, psikologjik, ekzistojnë dy lloje të përforcimit. Ka përforcim pozitiv dhe përforcim negativ. Përforcimi pozitiv është shtimi i diçkaje për të rritur një sjellje, si p.sh. t'i jepni qenit tuaj një kënaqësi kur ai sillet mirë. Përforcimi negativ përfshin heqjen e një stimuli për të shkaktuar një sjellje, si mbyllja e zhurmave të forta për të larguar një mace të dredhur.

Përforcimi Pozitiv & Negativ

Përforcimi pozitiv rrit frekuencën e një sjelljeje ndërsa përforcimi negativ ul frekuencën. Në përgjithësi, përforcimi pozitiv është lloji më i zakonshëm i përforcimit që përdoret në të mësuarit përforcues, pasi ndihmon modelet të maksimizojnë performancën në një detyrë të caktuar. Jo vetëm kaq, por përforcimi pozitiv e bën modelin të bëjë ndryshime më të qëndrueshme, ndryshime të cilat mund të bëhen modele të qëndrueshme dhe të vazhdojnë për periudha të gjata kohore.

Në të kundërt, ndërkohë që përforcimi negativ gjithashtu bën që një sjellje të ndodhë më shumë, ai përdoret për të ruajtur një standard minimal të performancës sesa për të arritur performancën maksimale të një modeli. Përforcimi negativ në mësimin përforcues mund të ndihmojë në sigurimin që një model të mbahet larg veprimeve të padëshiruara, por nuk mund ta bëjë një model të eksplorojë veprimet e dëshiruara.

Trajnimi i një agjenti përforcues

Kur trajnohet një agjent mësimor përforcues, ka katër përbërës të ndryshëm or shtete përdoren në trajnim: gjendjet fillestare (Gjendja 0), gjendja e re (Gjendja 1), veprimet dhe shpërblimet.

Imagjinoni që ne po trajnojmë një agjent përforcues për të luajtur një lojë video platformuese ku qëllimi i AI është të arrijë në fund të nivelit duke lëvizur drejt e në të gjithë ekranin. Gjendja fillestare e lojës është nxjerrë nga mjedisi, që do të thotë se korniza e parë e lojës analizohet dhe i jepet modelit. Bazuar në këtë informacion, modeli duhet të vendosë për një veprim.

Gjatë fazave fillestare të trajnimit, këto veprime janë të rastësishme, por me përforcimin e modelit, disa veprime do të bëhen më të zakonshme. Pas kryerjes së veprimit, mjedisi i lojës përditësohet dhe krijohet një gjendje ose kornizë e re. Nëse veprimi i ndërmarrë nga agjenti dha një rezultat të dëshirueshëm, le të themi në këtë rast që agjenti është ende gjallë dhe nuk është goditur nga një armik, agjentit i jepet njëfarë shpërblimi dhe ka më shumë gjasa të bëjë të njëjtën gjë në e ardhmja.

Ky sistem bazë qarkullohet vazhdimisht, duke ndodhur përsëri dhe përsëri, dhe çdo herë agjenti përpiqet të mësojë pak më shumë dhe të maksimizojë shpërblimin e tij.

Detyrat episodike kundër të vazhdueshme

Detyrat e të mësuarit përforcues zakonisht mund të vendosen në një nga dy kategoritë e ndryshme: detyrat episodike dhe detyrat e vazhdueshme.

Detyrat episodike do të kryejnë ciklin e të mësuarit/trajnimit dhe do të përmirësojnë performancën e tyre derisa të përmbushen disa kritere përfundimtare dhe trajnimi të përfundojë. Në një lojë, kjo mund të jetë arritja e fundit e nivelit ose rënia në një rrezik si thumba. Në të kundërt, detyrat e vazhdueshme nuk kanë kritere përfundimi, në thelb vazhdojnë të stërviten përgjithmonë derisa inxhinieri të zgjedhë të përfundojë trajnimin.

Monte Carlo vs Diferenca Kohore

Ekzistojnë dy mënyra kryesore të të mësuarit, ose trajnimit, një agjent mësimor përforcues. Në qasja e Monte Karlos, shpërblimet i dorëzohen agjentit (rezultati i tij përditësohet) vetëm në fund të episodit të trajnimit. Për ta thënë ndryshe, modeli mëson se sa mirë ka performuar vetëm kur goditet kushti i përfundimit. Më pas mund ta përdorë këtë informacion për të përditësuar dhe kur të fillojë raundi tjetër i trajnimit, ai do të përgjigjet në përputhje me informacionin e ri.

La metoda e diferencës kohore ndryshon nga metoda Monte Carlo në atë që vlerësimi i vlerës, ose vlerësimi i pikëve, përditësohet gjatë rrjedhës së episodit të stërvitjes. Pasi modeli kalon në hapin tjetër të kohës, vlerat përditësohen.

Eksplorimi vs Shfrytëzimi

Trajnimi i një agjenti të të mësuarit përforcues është një akt balancues, që përfshin balancimin e dy metrikave të ndryshme: eksplorimin dhe shfrytëzimin.

Eksplorimi është akti i mbledhjes së më shumë informacionit për mjedisin përreth, ndërsa eksplorimi është duke përdorur informacionin e njohur tashmë për mjedisin për të fituar pikë shpërblimi. Nëse një agjent vetëm eksploron dhe nuk shfrytëzon kurrë mjedisin, veprimet e dëshiruara nuk do të kryhen kurrë. Nga ana tjetër, nëse agjenti vetëm shfrytëzon dhe nuk eksploron kurrë, agjenti do të mësojë vetëm të kryejë një veprim dhe nuk do të zbulojë strategji të tjera të mundshme për të fituar shpërblime. Prandaj, balancimi i eksplorimit dhe shfrytëzimit është kritik kur krijohet një agjent mësimor përforcues.

Përdorimi i rasteve për mësimin përforcues

Mësimi përforcues mund të përdoret në një larmi rolesh dhe është më i përshtatshmi për aplikacionet ku detyrat kërkojnë automatizim.

Automatizimi i detyrave që do të kryhen nga robotët industrialë është një fushë ku mësimi përforcues rezulton i dobishëm. Të mësuarit përforcues mund të përdoret gjithashtu për probleme si nxjerrja e tekstit, duke krijuar modele që janë në gjendje të përmbledhin trupat e gjatë të tekstit. Studiuesit po eksperimentojnë gjithashtu me përdorimin e të mësuarit përforcues në fushën e kujdesit shëndetësor, me agjentë përforcues që trajtojnë punë si optimizimi i politikave të trajtimit. Të mësuarit përforcues mund të përdoret gjithashtu për të personalizuar materialin edukativ për studentët.

Përmbledhje e të mësuarit përforcues

Të mësuarit përforcues është një metodë e fuqishme e ndërtimit të agjentëve të AI që mund të çojë në rezultate mbresëlënëse dhe ndonjëherë befasuese. Trajnimi i një agjenti përmes të mësuarit përforcues mund të jetë kompleks dhe i vështirë, pasi kërkon shumë përsëritje trajnimi dhe një ekuilibër delikat të dikotomisë së eksplorimit/shfrytëzimit. Megjithatë, nëse është i suksesshëm, një agjent i krijuar me të mësuarit përforcues mund të kryejë detyra komplekse në një shumëllojshmëri të gjerë mjedisesh të ndryshme.

Bloger dhe programues me specialitete në Mësim Machine Mësim i thellë temave. Daniel shpreson të ndihmojë të tjerët të përdorin fuqinë e AI për të mirën sociale.