csonk Mi az a megerősítő tanulás? - Egyesüljetek.AI
Kapcsolatba velünk
AI mesterkurzus:

AI 101

Mi az a megerősítő tanulás?

mm
korszerűsített on

Mi az a megerősítő tanulás?

Leegyszerűsítve, a megerősítő tanulás egy gépi tanulási technika, amely magában foglalja a mesterséges intelligencia ügynökének képzését a műveletek és a kapcsolódó jutalmak megismétlésével. A megerősítő tanulási ügynök egy környezetben kísérletezik, cselekvéseket hajt végre, és jutalmat kap, ha a megfelelő cselekvéseket megteszik. Idővel az ügynök megtanulja megtenni azokat a tevékenységeket, amelyek maximalizálják jutalmát. Ez egy gyors definíciója a megerősítő tanulásnak, de ha közelebbről megvizsgálja a megerősítő tanulás mögött rejlő fogalmakat, akkor jobban és intuitívabban megértheti azt.

A „megerősítő tanulás” kifejezés a fogalmából származik megerősítés a pszichológiában. Emiatt szánjunk egy percet a megerősítés pszichológiai fogalmának megértésére. Pszichológiai értelemben a megerősítés kifejezés olyasmire utal, ami növeli annak valószínűségét, hogy egy adott válasz/akció bekövetkezik. Ez a megerősítés koncepciója az operáns kondicionálás elméletének központi gondolata, amelyet eredetileg BF Skinner pszichológus javasolt. Ebben az összefüggésben a megerősítés minden olyan dolog, ami egy adott viselkedés gyakoriságának növekedését okozza. Ha belegondolunk az emberek lehetséges megerősítésére, ezek lehetnek olyan dolgok, mint a dicséret, a munkahelyi emelés, az édesség és a szórakoztató tevékenységek.

Hagyományos, pszichológiai értelemben kétféle megerősítés létezik. Van pozitív és negatív megerősítés. A pozitív megerősítés az, ha hozzáadunk valamit, ami növeli a viselkedését, például csemegét ad a kutyának, ha jól viselkedik. A negatív megerősítés magában foglalja a viselkedést kiváltó ingerek eltávolítását, például a hangos zajok elzárását, hogy kibékítsenek egy ideges macskát.

Pozitív és negatív megerősítés

A pozitív megerősítés növeli a viselkedés gyakoriságát, míg a negatív megerősítés csökkenti. Általánosságban elmondható, hogy a pozitív megerősítés a megerősítő tanulásban használt megerősítés leggyakoribb típusa, mivel ez segít a modelleknek maximalizálni az adott feladat teljesítményét. Nem csak ez, hanem a pozitív megerősítés arra készteti a modellt, hogy fenntarthatóbb változtatásokat hajtson végre, amelyek állandó mintákká válhatnak, és hosszú ideig fennmaradhatnak.

Ezzel szemben, míg a negatív megerősítés egy viselkedés előfordulásának valószínűségét is növeli, azt a minimális teljesítményszint fenntartására használják, nem pedig a modell maximális teljesítményének eléréséhez. A megerősítő tanulás negatív megerősítése segíthet abban, hogy egy modellt távol tartsanak a nemkívánatos cselekvésektől, de valójában nem képes arra, hogy a modell megvizsgálja a kívánt cselekvéseket.

Megerősítő ügynök képzése

Amikor egy megerősítő tanuló ügynök képzésben részesül, négy különböző összetevő van or államok a képzésben használt: kezdeti állapotok (0. állapot), új állapot (1. állapot), akciók és jutalmak.

Képzeld el, hogy egy megerősítő ügynököt képezünk ki, hogy játsszon egy platformszerű videojátékot, ahol a mesterséges intelligencia célja, hogy a képernyőn áthaladva a szint végére érjen. A játék kezdeti állapotát a környezetből merítik, vagyis a játék első képkockáját elemzik és adják a modellnek. Ezen információk alapján a modellnek döntenie kell egy cselekvésről.

A képzés kezdeti szakaszaiban ezek a tevékenységek véletlenszerűek, de a modell megerősítésével bizonyos tevékenységek egyre gyakoribbá válnak. A művelet végrehajtása után a játék környezete frissül, és új állapot vagy keret jön létre. Ha az ügynök intézkedése kívánatos eredményt hozott, ebben az esetben tegyük fel, hogy az ügynök még életben van, és nem érte el az ellenség, bizonyos jutalmat kap az ügynök, és nagyobb valószínűséggel teszi ugyanezt a jövő.

Ez az alaprendszer folyamatosan hurkolt, újra és újra megtörténik, és minden alkalommal, amikor az ügynök megpróbál egy kicsit többet tanulni és maximalizálni a jutalmát.

Epizodikus vs folyamatos feladatok

A megerősítő tanulási feladatok jellemzően két különböző kategória egyikébe sorolhatók: epizodikus feladatok és folyamatos feladatok.

Az epizodikus feladatok végrehajtják a tanulási/képzési kört, és javítják a teljesítményüket mindaddig, amíg bizonyos végfeltételek nem teljesülnek, és a képzést le nem fejezik. Egy játékban ez a szint végére érhet, vagy olyan veszélybe kerülhet, mint a tüskék. Ezzel szemben a folyamatos feladatoknak nincs befejezési kritériuma, lényegében mindaddig folytatják a képzést, amíg a mérnök úgy dönt, hogy befejezi a képzést.

Monte Carlo vs Időbeli különbség

A megerősítő tanulási ügynök tanulásának vagy képzésének két elsődleges módja van. Ban ben a Monte Carlo-i megközelítés, a jutalmakat csak a képzési epizód végén juttatják el az ügynökhöz (pontszáma frissül). Másképpen fogalmazva, a modell csak akkor tanulja meg, hogy milyen jól teljesített a befejezési feltételnek. Ezt az információt felhasználhatja a frissítéshez, és a következő képzési kör megkezdésekor az új információknak megfelelően reagál.

A időbeli különbség módszer abban különbözik a Monte Carlo módszertől, hogy az értékbecslést vagy a pontszámbecslést a képzési epizód során frissítik. Amint a modell a következő lépésre lép, az értékek frissülnek.

Feltárás vs kizsákmányolás

A megerősítő tanulási ügynök képzése egy egyensúlyozó tevékenység, amely magában foglalja a két különböző mérőszám egyensúlyozását: a feltárást és a kiaknázást.

A feltárás során több információt gyűjtünk a környező környezetről, míg a felfedezés során a környezetről már ismert információkat használjuk fel jutalompontok megszerzésére. Ha egy ügynök csak feltárja a környezetet, és soha nem használja ki, akkor a kívánt műveletek soha nem fognak megvalósulni. Másrészt, ha az ügynök csak kihasznál, és soha nem kutat, az ügynök csak egy cselekvést tanul meg, és nem fedez fel más lehetséges jutalmazási stratégiákat. Ezért a feltárás és a kiaknázás egyensúlya kritikus fontosságú egy megerősítő tanulási ágens létrehozásakor.

Használati esetek megerősítő tanuláshoz

A megerősítő tanulás sokféle szerepkörben használható, és olyan alkalmazásokhoz a legalkalmasabb, ahol a feladatok automatizálást igényelnek.

Az ipari robotok által elvégzendő feladatok automatizálása az egyik olyan terület, ahol a megerősítő tanulás hasznosnak bizonyul. A megerősítő tanulás olyan problémákra is használható, mint a szövegbányászat, olyan modellek létrehozása, amelyek képesek hosszú szövegrészek összegzésére. A kutatók kísérleteznek a megerősítő tanulás alkalmazásával is az egészségügy területén, ahol a megerősítő szerek olyan feladatokat látnak el, mint a kezelési politikák optimalizálása. A megerősítő tanulás felhasználható az oktatási anyagok testreszabására is a diákok számára.

A megerősítési tanulás összefoglalása

A megerősítő tanulás hatékony módszer az AI-ügynökök létrehozására, amely lenyűgöző és néha meglepő eredményekhez vezethet. Egy ügynök képzése megerősítő tanulással bonyolult és nehéz lehet, mivel sok képzési iterációt és a felfedezés/kihasználás dichotómia kényes egyensúlyát igényli. Ha azonban sikeres, egy megerősített tanulással létrehozott ágens összetett feladatokat tud végrehajtani a legkülönfélébb környezetekben.

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.