AI 101

Wat is versterkingsleer?

Opgedateer on Junie 5, 2021

Wat is versterkingsleer?

Eenvoudig gestel, versterkingsleer is 'n masjienleertegniek wat die opleiding van 'n kunsmatige intelligensie-agent behels deur die herhaling van aksies en gepaardgaande belonings. 'n Versterkingsleeragent eksperimenteer in 'n omgewing, neem aksies en word beloon wanneer die regte aksies geneem word. Met verloop van tyd, die agent leer om die aksies te neem wat sy beloning sal maksimeer. Dit is 'n vinnige definisie van versterkingsleer, maar om die konsepte agter versterkingsleer van nader te bekyk, sal jou help om 'n beter, meer intuïtiewe begrip daarvan te kry.

Die term "versterkingsleer" is aangepas vanaf die konsep van versterking in sielkunde. Om daardie rede, laat ons 'n oomblik neem om die sielkundige konsep van versterking te verstaan. In die sielkundige sin verwys die term versterking na iets wat die waarskynlikheid verhoog dat 'n bepaalde reaksie/aksie sal plaasvind. Hierdie konsep van versterking is 'n sentrale idee van die teorie van operante kondisionering, wat aanvanklik deur die sielkundige BF Skinner voorgestel is. In hierdie konteks is versterking enigiets wat veroorsaak dat die frekwensie van 'n gegewe gedrag toeneem. As ons dink aan moontlike versterking vir mense, kan dit dinge wees soos lof, 'n verhoging by die werk, lekkergoed en prettige aktiwiteite.

In die tradisionele, sielkundige sin is daar twee tipes versterking. Daar is positiewe versterking en negatiewe versterking. Positiewe versterking is die byvoeging van iets om 'n gedrag te verhoog, soos om jou hond 'n bederf te gee wanneer dit goed gedra. Negatiewe versterking behels die verwydering van 'n stimulus om 'n gedrag te ontlok, soos om harde geluide af te skakel om 'n skelm kat uit te lok.

Positiewe & Negatiewe Versterking

Positiewe versterking verhoog die frekwensie van 'n gedrag terwyl negatiewe versterking die frekwensie verlaag. Oor die algemeen is positiewe versterking die mees algemene tipe versterking wat in versterkingsleer gebruik word, aangesien dit modelle help om die prestasie op 'n gegewe taak te maksimeer. Nie net dit nie, maar positiewe versterking lei die model om meer volhoubare veranderinge aan te bring, veranderinge wat konsekwente patrone kan word en vir lang tydperke kan voortduur.

In teenstelling hiermee, terwyl negatiewe versterking ook 'n gedrag meer geneig maak om te voorkom, word dit gebruik om 'n minimum prestasiestandaard te handhaaf eerder as om 'n model se maksimum prestasie te bereik. Negatiewe versterking in versterkingsleer kan help om te verseker dat 'n model weggehou word van ongewenste aksies, maar dit kan nie regtig 'n model die gewenste aksies laat ondersoek nie.

Opleiding van 'n versterkingsagent

Wanneer 'n versterkingsleeragent opgelei word, daar is vier verskillende bestanddele or state gebruik in die opleiding: aanvanklike toestande (Staat 0), nuwe toestand (Staat 1), aksies en belonings.

Stel jou voor dat ons 'n versterkingsagent oplei om 'n platformvideospeletjie te speel waar die KI se doel is om tot die einde van die vlak te kom deur reg oor die skerm te beweeg. Die aanvanklike toestand van die speletjie word uit die omgewing getrek, wat beteken dat die eerste raam van die speletjie ontleed en aan die model gegee word. Op grond van hierdie inligting moet die model op 'n aksie besluit.

Tydens die aanvanklike fases van opleiding is hierdie aksies lukraak, maar soos die model versterk word, sal sekere aksies meer algemeen word. Nadat die aksie geneem is, word die omgewing van die speletjie opgedateer en 'n nuwe toestand of raam word geskep. As die optrede deur die agent 'n gewenste resultaat opgelewer het, kom ons sê in hierdie geval dat die agent nog lewe en nie deur 'n vyand getref is nie, word 'n beloning aan die agent gegee en dit word meer geneig om dieselfde te doen in in die toekoms.

Hierdie basiese stelsel word voortdurend deur 'n lus gemaak, wat weer en weer gebeur, en elke keer probeer die agent 'n bietjie meer leer en sy beloning maksimeer.

Episodiese vs deurlopende take

Versterkingsleertake kan tipies in een van twee verskillende kategorieë geplaas word: episodiese take en voortdurende take.

Episodiese take sal die leer-/opleidingslus uitvoer en hul prestasie verbeter totdat daar aan sekere eindkriteria voldoen word en die opleiding beëindig word. In 'n speletjie kan dit die einde van die vlak bereik of in 'n gevaar soos spykers val. Daarteenoor het voortdurende take geen beëindigingskriteria nie, en gaan in wese voort om vir ewig te oefen totdat die ingenieur kies om die opleiding te beëindig.

Monte Carlo vs tydelike verskil

Daar is twee primêre maniere van leer, of opleiding, 'n versterkende leeragent. In die Monte Carlo-benadering, word belonings slegs aan die einde van die opleidingsepisode aan die agent afgelewer (sy telling word opgedateer). Om dit anders te stel, eers wanneer die beëindigingsvoorwaarde getref word, leer die model hoe goed dit gevaar het. Dit kan dan hierdie inligting gebruik om op te dateer en wanneer die volgende oefenronde begin word, sal dit in ooreenstemming met die nuwe inligting reageer.

Die temporele verskil metode verskil van die Monte Carlo-metode deurdat die waardeskatting, of die tellingskatting, in die loop van die opleidingsepisode opgedateer word. Sodra die model na die volgende tydstap vorder, word die waardes opgedateer.

Verkenning vs Uitbuiting

Opleiding van 'n versterkende leeragent is 'n balanseringshandeling, wat die balansering van twee verskillende maatstawwe behels: eksplorasie en ontginning.

Verkenning is die handeling om meer inligting oor die omliggende omgewing in te samel, terwyl eksplorasie die inligting wat reeds oor die omgewing bekend is, gebruik om beloningspunte te verdien. As 'n agent slegs die omgewing verken en nooit uitbuit nie, sal die gewenste aksies nooit uitgevoer word nie. Aan die ander kant, as die agent net uitbuit en nooit verken nie, sal die agent net leer om een aksie uit te voer en sal hy nie ander moontlike strategieë ontdek om belonings te verdien nie. Daarom is die balansering van eksplorasie en ontginning van kritieke belang wanneer 'n versterkende leeragent geskep word.

Gebruik gevalle vir versterkingsleer

Versterkingsleer kan in 'n wye verskeidenheid rolle gebruik word, en dit is die beste geskik vir toepassings waar take outomatisering vereis.

Outomatisering van take wat deur industriële robotte uitgevoer moet word, is een gebied waar versterkingsleer nuttig blyk. Versterkingsleer kan ook gebruik word vir probleme soos teksontginning, die skep van modelle wat in staat is om lang tekste op te som. Navorsers eksperimenteer ook met die gebruik van versterkingsleer in die gesondheidsorgveld, met versterkingsagente wat werk hanteer soos die optimalisering van behandelingsbeleide. Versterkingsleer kan ook gebruik word om opvoedkundige materiaal vir studente aan te pas.

Opsomming van versterkingsleer

Versterkingsleer is 'n kragtige metode om KI-agente te bou wat tot indrukwekkende en soms verrassende resultate kan lei. Opleiding van 'n agent deur middel van versterkingsleer kan kompleks en moeilik wees, aangesien dit baie opleidingsiterasies en 'n delikate balans van die verken/ontginning-dichotomie verg. As dit egter suksesvol is, kan 'n agent wat met versterkingsleer geskep is, komplekse take onder 'n wye verskeidenheid verskillende omgewings uitvoer.

Verwante onderwerpe:101

Wat is 'n Besluitboom?

Moenie mis nie

Wat is Deep Learning?

Daniel Nelson

Blogger en programmeerder met spesialiteite in masjienleer en Diep leer onderwerpe. Daniel hoop om ander te help om die krag van KI vir sosiale voordeel te gebruik.

Verenig.AI

Wat is versterkingsleer?

AI 101

Wat is versterkingsleer?

INHOUDSOPGAWE

Wat is versterkingsleer?

Positiewe & Negatiewe Versterking

Opleiding van 'n versterkingsagent

Episodiese vs deurlopende take

Monte Carlo vs tydelike verskil

Verkenning vs Uitbuiting

Gebruik gevalle vir versterkingsleer

Opsomming van versterkingsleer

Verenig.AI

Wat is versterkingsleer?

INHOUDSOPGAWE

Wat is versterkingsleer?

Positiewe & Negatiewe Versterking

Opleiding van 'n versterkingsagent

Episodiese vs deurlopende take

Monte Carlo vs tydelike verskil

Verkenning vs Uitbuiting

Gebruik gevalle vir versterkingsleer

Opsomming van versterkingsleer

Jy mag dalk