- Terminologija (A do D)
- Nadzor zmogljivosti AI
- AIOps
- Albumentacije
- Učinkovitost sredstev
- Samodejni kodirnik
- Razmnoževanje
- Bayesov izrek
- Big Podatki
- Chatbot: vodnik za začetnike
- Računalniško razmišljanje
- Računalniška vizija
- Matrica zmede
- Konvolucijsko nevronsko omrežje
- Cybersecurity
- Podatkovna tkanina
- Podatkovno pripovedovanje zgodb
- Znanost podatki
- Skladiščenje podatkov
- Drevo odločitve
- Deepfakes
- Globoko učenje
- Učenje poglobljenega okrepitve
- DevOps
- DevSecOps
- Difuzijski modeli
- Digital Twin
- Zmanjšanje dimenzij
- Terminologija (E do K)
- Edge AI
- AI čustva
- Učenje ansambla
- Etično vdiranje
- ETL
- Razložljiv AI
- Zvezno učenje
- FinOps
- Generativna AI
- Generacijska svetovalna mreža
- Generativno proti diskriminaciji
- Gradient krepitev
- Gradient spust
- Nekajkratno učenje
- Razvrstitev slik
- IT operacije (ITOPs)
- Avtomatizacija incidentov
- Inženiring vpliva
- K-pomeni združevanje v gruče
- K-Najbližji sosedje
- Terminologija (L do Q)
- Terminologija (R do Ž)
- Okrepitveno učenje
- Odgovorni AI
- RLHF
- Robotska procesna avtomatizacija
- Strukturirano proti nestrukturiranemu
- Analiza občutka
- Nadzorovani proti nenadzorovanim
- Podporni vektorski stroji
- Sintetični podatki
- Sintetični mediji
- Razvrstitev besedil
- TinyML
- Prenosno učenje
- Transformatorske nevronske mreže
- Turingov test
- Iskanje podobnosti vektorjev
AI 101
Kaj je okrepitveno učenje?
Kazalo vsebine
Kaj je okrepitveno učenje?
Preprosto povedano, ojačitveno učenje je tehnika strojnega učenja, ki vključuje usposabljanje agenta umetne inteligence s ponavljanjem dejanj in s tem povezanih nagrad. Ojačitveni učni agent eksperimentira v okolju, izvaja dejanja in je nagrajen, ko so izvedeni pravilni ukrepi. Čez čas agent se nauči izvajati dejanja, ki bodo povečala njegovo nagrado. To je kratka definicija učenja s krepitvijo, toda če si podrobneje ogledate koncepte, ki stojijo za učenjem s krepitvijo, boste to lažje in bolj intuitivno razumeli.
Izraz »učenje s krepitvijo« je prirejen iz koncepta okrepitev v psihologiji. Zato si vzemimo trenutek za razumevanje psihološkega koncepta okrepitve. V psihološkem smislu se izraz okrepitev nanaša na nekaj, kar poveča verjetnost, da bo prišlo do določenega odziva/dejanja. Ta koncept ojačitve je osrednja ideja teorije operantnega pogojevanja, ki jo je prvotno predlagal psiholog BF Skinner. V tem kontekstu je okrepitev vse, kar povzroči povečanje pogostosti določenega vedenja. Če pomislimo na možno okrepitev za ljudi, so to lahko stvari, kot so pohvale, povišica v službi, sladkarije in zabavne dejavnosti.
V tradicionalnem, psihološkem smislu obstajata dve vrsti okrepitve. Obstaja pozitivna okrepitev in negativna okrepitev. Pozitivna okrepitev je dodatek nečesa za izboljšanje vedenja, na primer dajanje vašemu psu priboljška, ko se lepo obnaša. Negativna okrepitev vključuje odstranitev dražljaja, da izzovemo vedenje, kot je izključitev glasnih zvokov, da bi pregnali plašljivo mačko.
Pozitivna in negativna okrepitev
Pozitivna okrepitev poveča pogostost vedenja, medtem ko negativna okrepitev zmanjša pogostost. Na splošno je pozitivna okrepitev najpogostejša vrsta okrepitve, ki se uporablja pri učenju s krepitvijo, saj pomaga modelom povečati učinkovitost pri dani nalogi. Ne le to, ampak pozitivna okrepitev vodi model k bolj trajnostnim spremembam, spremembam, ki lahko postanejo dosledni vzorci in trajajo dolgo časa.
V nasprotju s tem, medtem ko negativna okrepitev tudi poveča verjetnost, da se bo neko vedenje pojavilo, se uporablja za vzdrževanje minimalnega standarda uspešnosti, namesto da bi dosegli največjo zmogljivost modela. Negativna okrepitev pri učenju z okrepitvijo lahko pomaga zagotoviti, da se model drži stran od nezaželenih dejanj, vendar ne more zares prisiliti modela, da razišče želena dejanja.
Usposabljanje ojačitvenega agenta
Ko je agent za krepitveno učenje usposobljen, obstajajo štiri različne sestavine or države uporabljeno pri usposabljanju: začetna stanja (Stanje 0), novo stanje (Stanje 1), dejanja in nagrade.
Predstavljajte si, da usposabljamo okrepitvenega agenta za igranje platformske videoigre, kjer je cilj umetne inteligence priti do konca stopnje s premikanjem desno po zaslonu. Začetno stanje igre je črpano iz okolja, kar pomeni, da je prvi okvir igre analiziran in predan modelu. Na podlagi teh informacij se mora model odločiti za dejanje.
V začetnih fazah usposabljanja so ta dejanja naključna, ko pa se model okrepi, bodo nekatera dejanja postala pogostejša. Po izvedbi dejanja se okolje igre posodobi in ustvari se novo stanje ali okvir. Če je dejanje, ki ga je izvedel agent, prineslo želeni rezultat, v tem primeru recimo, da je agent še vedno živ in ga sovražnik ni zadel, agent prejme nekaj nagrade in bolj verjetno je, da bo storil enako v prihodnost.
Ta osnovni sistem je nenehno v zanki, dogaja se znova in znova in vsakič, ko se agent poskuša naučiti malo več in povečati svojo nagrado.
Epizodične v primerjavi z neprekinjenimi nalogami
Naloge za krepitev učenja se običajno lahko uvrstijo v eno od dveh različnih kategorij: epizodne naloge in stalne naloge.
Epizodične naloge bodo izvajale zanko učenja/usposabljanja in izboljševale svojo uspešnost, dokler niso izpolnjena nekatera končna merila in se usposabljanje konča. V igri je to morda doseganje konca ravni ali padec v nevarnost, kot so konice. Nasprotno pa nenehne naloge nimajo meril za prekinitev, v bistvu nadaljujejo z usposabljanjem za vedno, dokler se inženir ne odloči končati z usposabljanjem.
Monte Carlo proti časovni razliki
Obstajata dva primarna načina učenja ali usposabljanja agenta za krepitev učenja. notri pristop Monte Carlo, so nagrade dostavljene agentu (njegov rezultat je posodobljen) šele na koncu epizode usposabljanja. Povedano drugače, šele ko je izpolnjen pogoj za prekinitev, se model nauči, kako dobro je deloval. Te informacije lahko nato uporabi za posodobitev in ko se začne naslednji krog usposabljanja, se bo odzval v skladu z novimi informacijami.
O metoda časovne razlike se od metode Monte Carlo razlikuje po tem, da se ocena vrednosti ali ocena rezultata posodablja med potekom vadbene epizode. Ko model napreduje v naslednji časovni korak, se vrednosti posodobijo.
Raziskovanje proti izkoriščanju
Usposabljanje agenta za krepitev učenja je dejanje uravnoteženja, ki vključuje uravnoteženje dveh različnih metrik: raziskovanja in izkoriščanja.
Raziskovanje je dejanje zbiranja več informacij o okoliškem okolju, medtem ko raziskovanje uporablja že znane informacije o okolju za pridobivanje nagradnih točk. Če agent samo raziskuje in nikoli ne izkorišča okolja, želena dejanja ne bodo nikoli izvedena. Po drugi strani pa, če agent samo izkorišča in nikoli ne raziskuje, se bo agent naučil izvajati le eno dejanje in ne bo odkril drugih možnih strategij pridobivanja nagrad. Zato je ravnotežje med raziskovanjem in izkoriščanjem ključnega pomena pri ustvarjanju agenta za krepitev učenja.
Primeri uporabe za krepitveno učenje
Učenje s krepitvijo se lahko uporablja v najrazličnejših vlogah in je najbolj primerno za aplikacije, kjer naloge zahtevajo avtomatizacijo.
Avtomatizacija nalog, ki jih bodo izvajali industrijski roboti, je eno od področij, kjer se učenje s krepitvijo izkaže za koristno. Okrepljeno učenje se lahko uporablja tudi za težave, kot je rudarjenje besedila, ustvarjanje modelov, ki lahko povzamejo dolga telesa besedila. Raziskovalci prav tako eksperimentirajo z uporabo podpornega učenja na področju zdravstvenega varstva, pri čemer okrepitveni agenti opravljajo dela, kot je optimizacija politik zdravljenja. Učenje s krepitvijo bi lahko uporabili tudi za prilagajanje učnega gradiva za učence.
Povzetek okrepljenega učenja
Okrepljeno učenje je zmogljiva metoda konstruiranja agentov AI, ki lahko vodi do impresivnih in včasih presenetljivih rezultatov. Usposabljanje agenta z učenjem z okrepitvijo je lahko zapleteno in težko, saj zahteva veliko ponovitev usposabljanja in občutljivo ravnovesje dihotomije raziskovanje/izkoriščanje. Če pa je uspešen, lahko agent, ustvarjen z učenjem okrepitve, izvaja kompleksne naloge v najrazličnejših okoljih.
Bloger in programer s posebnostmi v strojno učenje in Globoko učenje teme. Daniel upa, da bo drugim pomagal uporabiti moč umetne inteligence za družbeno dobro.