AI 101

Co to jest głębokie uczenie się przez wzmacnianie?

Zaktualizowano on 2 sierpnia 2021 r.

Co to jest głębokie uczenie się przez wzmacnianie?

Oprócz uczenia maszynowego bez nadzoru i uczenia się pod nadzorem inną powszechną formą tworzenia sztucznej inteligencji jest uczenie się przez wzmacnianie. Poza regularną nauką przez wzmacnianie, nauka głębokiego wzmacniania może prowadzić do zadziwiająco imponujących rezultatów, dzięki temu, że łączy w sobie najlepsze aspekty zarówno głębokiego uczenia się, jak i uczenia się przez wzmacnianie. Przyjrzyjmy się dokładnie, jak działa uczenie się przez głębokie wzmacnianie.

Zanim zagłębimy się w głębokie uczenie się przez wzmacnianie, dobrym pomysłem może być odświeżenie sobie wiedzy na temat regularności uczenie się wzmacniania Pracuje. W uczeniu się przez wzmacnianie algorytmy zorientowane na cel są projektowane metodą prób i błędów, optymalizując działania, które prowadzą do najlepszego wyniku/działania, które zyskuje największą „nagrodę”. Kiedy algorytmy uczenia się przez wzmacnianie są szkolone, otrzymują „nagrody” lub „kary”, które wpływają na to, jakie działania podejmą w przyszłości. Algorytmy próbują znaleźć zestaw działań, które zapewnią systemowi największą nagrodę, równoważąc zarówno nagrody natychmiastowe, jak i przyszłe.

Algorytmy uczenia się przez wzmacnianie są bardzo wydajne, ponieważ można je zastosować do prawie każdego zadania, umożliwiając elastyczne i dynamiczne uczenie się od środowiska i odkrywanie możliwych działań.

Przegląd uczenia się poprzez głębokie wzmacnianie

Zdjęcie: Megajuice przez Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Jeśli chodzi o głębokie uczenie się przez wzmacnianie, środowisko jest zazwyczaj przedstawiane za pomocą obrazów. Obraz jest uchwyceniem środowiska w określonym momencie. Agent musi przeanalizować obrazy i wydobyć z nich odpowiednie informacje, aby na ich podstawie określić, jakie działania powinien podjąć. Uczenie się przez głębokie wzmacnianie jest zazwyczaj przeprowadzane przy użyciu jednej z dwóch różnych technik: uczenia się opartego na wartościach i uczenia się opartego na zasadach.

Techniki uczenia się oparte na wartościach wykorzystują algorytmy i architektury, takie jak splotowe sieci neuronowe i Sieci Deep-Q. Algorytmy te działają poprzez konwersję obrazu do skali szarości i wycinanie niepotrzebnych części obrazu. Następnie obraz poddawany jest różnym splotom i operacjom łączenia, w celu wyodrębnienia najbardziej istotnych fragmentów obrazu. Ważne części obrazu są następnie wykorzystywane do obliczenia wartości Q dla różnych działań, jakie może podjąć agent. Wartości Q służą do określenia najlepszego sposobu działania agenta. Po obliczeniu początkowych wartości Q przeprowadza się propagację wsteczną, aby można było określić najdokładniejsze wartości Q.

Metody oparte na zasadach są stosowane, gdy liczba możliwych działań, jakie może podjąć agent, jest niezwykle duża, co zwykle ma miejsce w rzeczywistych scenariuszach. Takie sytuacje wymagają innego podejścia, ponieważ obliczenie wartości Q dla wszystkich poszczególnych działań nie jest pragmatyczne. Podejścia oparte na zasadach działają bez obliczania wartości funkcji dla poszczególnych działań. Zamiast tego przyjmują zasady, ucząc się ich bezpośrednio, często za pomocą technik zwanych gradientami zasad.

Gradienty polityki działają poprzez odbieranie stanu i obliczanie prawdopodobieństw działań w oparciu o wcześniejsze doświadczenia agenta. Następnie wybierana jest najbardziej prawdopodobna akcja. Proces ten powtarza się aż do końca okresu ewaluacyjnego, a nagrody przekazywane są agentowi. Po rozdaniu nagród agentowi parametry sieci są aktualizowane za pomocą propagacji wstecznej.

Co to jest Q-Learning?

Bo Q-Learning stanowi tak dużą część procesu głębokiego uczenia się przez wzmacnianie, poświęćmy trochę czasu, aby naprawdę zrozumieć, jak działa system Q-learning.

Proces decyzyjny Markowa

Proces decyzyjny Markowa. Zdjęcie: waldoalvarez za pośrednictwem Pixabay, licencja Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Aby agent AI mógł wykonać szereg zadań i osiągnąć cel, agent musi umieć uporać się z sekwencją stanów i zdarzeń. Agent rozpocznie pracę w jednym stanie i musi podjąć szereg działań, aby osiągnąć stan końcowy, a pomiędzy stanem początkowym i końcowym może istnieć ogromna liczba stanów. Przechowywanie informacji dotyczących każdego stanu jest niepraktyczne lub niemożliwe, dlatego system musi znaleźć sposób na zachowanie tylko najbardziej istotnych informacji o stanie. Osiąga się to za pomocą a Proces decyzyjny Markowa, który zachowuje tylko informacje dotyczące stanu bieżącego i stanu poprzedniego. Każdy stan jest zgodny z właściwością Markowa, która śledzi, jak agent zmienia się ze stanu poprzedniego do stanu bieżącego.

Głębokie Q-Learning

Gdy model uzyska dostęp do informacji o stanach środowiska uczenia się, można obliczyć wartości Q. Wartości Q to całkowita nagroda przyznana agentowi na koniec sekwencji działań.

Wartości Q są obliczane z serią nagród. Istnieje natychmiastowa nagroda, obliczona na podstawie aktualnego stanu i zależna od aktualnej akcji. Obliczana jest również wartość Q dla kolejnego stanu, wraz z wartością Q dla stanu następującego po nim i tak dalej, aż zostaną obliczone wszystkie wartości Q dla różnych stanów. Istnieje również parametr Gamma, który służy do kontrolowania wpływu przyszłych nagród na działania agenta. Zasady są zazwyczaj obliczane poprzez losową inicjalizację wartości Q i umożliwienie zbieżności modelu w kierunku optymalnych wartości Q w trakcie szkolenia.

Głębokie sieci Q

Jednym z podstawowych problemów dot wykorzystanie Q-learningu w przypadku uczenia się przez wzmacnianie ilość pamięci wymaganej do przechowywania danych szybko rośnie wraz ze wzrostem liczby stanów. Deep Q Networks rozwiązują ten problem, łącząc modele sieci neuronowych z wartościami Q, umożliwiając agentowi uczenie się na podstawie doświadczenia i wyciąganie rozsądnych wniosków na temat najlepszych działań, jakie należy podjąć. W przypadku głębokiego uczenia Q funkcje wartości Q są szacowane za pomocą sieci neuronowych. Sieć neuronowa przyjmuje stan jako dane wejściowe, a sieć wyprowadza wartość Q dla wszystkich możliwych działań, jakie może podjąć agent.

Głębokie uczenie się Q jest realizowane poprzez przechowywanie w pamięci wszystkich przeszłych doświadczeń, obliczanie maksymalnych wyników dla sieci Q, a następnie użycie funkcji straty do obliczenia różnicy między bieżącymi wartościami a teoretycznymi najwyższymi możliwymi wartościami.

Uczenie się głębokiego wzmacniania a uczenie się głębokie

Jedną z ważnych różnic między głębokim uczeniem się przez wzmacnianie a zwykłym głębokim uczeniem się jest to, że w przypadku tego pierwszego dane wejściowe stale się zmieniają, co nie ma miejsca w tradycyjnym głębokim uczeniu się. W jaki sposób model uczenia się może uwzględniać stale zmieniające się dane wejściowe i wyjściowe?

Zasadniczo, aby uwzględnić rozbieżność między wartościami przewidywanymi a wartościami docelowymi, można zastosować dwie sieci neuronowe zamiast jednej. Jedna sieć szacuje wartości docelowe, druga zaś odpowiada za prognozy. Parametry sieci docelowej są aktualizowane w miarę uczenia się modelu, po upływie wybranej liczby iteracji uczących. Wyjścia odpowiednich sieci są następnie łączone w celu określenia różnicy.

Nauka oparta na zasadach

Nauka oparta na zasadach podejścia działają inaczej niż podejścia oparte na wartości Q. Podczas gdy podejścia oparte na wartości Q tworzą funkcję wartości, która przewiduje nagrody za stany i działania, metody oparte na zasadach określają politykę, która będzie mapować stany na działania. Innymi słowy, funkcja zasad, która wybiera akcje, jest bezpośrednio optymalizowana bez względu na funkcję wartości.

Gradienty polityki

Polityka uczenia się przez głębokie wzmacnianie można podzielić na dwie kategorie: stochastyczną lub deterministyczną. Polityka deterministyczna to taka, w której stany są odwzorowywane na akcje, co oznacza, że gdy polityka otrzymuje informacje o stanie, zwracana jest akcja. Tymczasem zasady stochastyczne zwracają rozkład prawdopodobieństwa działań zamiast pojedynczego, dyskretnego działania.

Polityki deterministyczne stosuje się, gdy nie ma niepewności co do wyników działań, które można podjąć. Innymi słowy, gdy samo środowisko jest deterministyczne. Natomiast wyniki polityki stochastycznej są odpowiednie dla środowisk, w których wynik działań jest niepewny. Zazwyczaj scenariusze uczenia się przez wzmacnianie wiążą się z pewnym stopniem niepewności, dlatego stosuje się zasady stochastyczne.

Podejścia oparte na gradientach polityki mają kilka zalet w porównaniu z podejściami opartymi na Q-learningu, a także pewne wady. Jeśli chodzi o zalety, metody oparte na zasadach pozwalają szybciej i bardziej niezawodnie osiągać optymalne parametry. Gradient polityki można stosować aż do określenia najlepszych parametrów, natomiast w przypadku metod opartych na wartościach niewielkie zmiany w szacowanych wartościach działań mogą prowadzić do dużych zmian w działaniach i powiązanych z nimi parametrach.

Gradienty polityki sprawdzają się lepiej również w wielowymiarowych przestrzeniach akcji. Kiedy istnieje niezwykle duża liczba możliwych działań do wykonania, głębokie Q-learning staje się niepraktyczne, ponieważ musi przypisać punktację do każdej możliwej akcji we wszystkich krokach czasowych, co może być niemożliwe obliczeniowo. Jednakże w przypadku metod opartych na zasadach parametry są dostosowywane w czasie, a liczba możliwych najlepszych parametrów szybko maleje w miarę zbieżności modelu.

Gradienty polityki mogą również wdrażać polityki stochastyczne, w przeciwieństwie do polityk opartych na wartościach. Ponieważ zasady stochastyczne tworzą rozkład prawdopodobieństwa, nie ma potrzeby stosowania kompromisu w zakresie poszukiwań/eksploatacji.

Jeśli chodzi o wady, główną wadą gradientów polityki jest to, że mogą utknąć w poszukiwaniu optymalnych parametrów, skupiając się jedynie na wąskim, lokalnym zestawie wartości optymalnych, zamiast na globalnych wartościach optymalnych.

Funkcja oceny zasad

Zasady stosowane w celu optymalizacji docelowej wydajności modelu maksymalizować funkcję wyniku - J(θ). Jeśli J(θ) jest miarą tego, jak dobra nasza polityka jest w osiąganiu zamierzonego celu, możemy znaleźć wartości „θ”, co daje nam najlepszą politykę. Najpierw musimy obliczyć oczekiwaną nagrodę z tytułu polisy. Szacujemy nagrodę z tytułu polisy, więc mamy cel i coś, pod kątem czego możemy dokonać optymalizacji. Funkcja wyniku polisy służy do obliczania oczekiwanej nagrody za polisę. Istnieją różne powszechnie używane funkcje oceny polityki, takie jak: wartości początkowe dla środowisk epizodycznych, średnia wartość dla środowisk ciągłych i średnia nagroda na krok czasowy.

Wznoszenie gradientu polityki

Wznoszenie gradientowe ma na celu przesunięcie parametrów, aż znajdą się w miejscu, w którym wynik jest najwyższy. Zdjęcie: domena publiczna (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Po użyciu żądanej funkcji wyniku polisy i obliczeniu oczekiwanej nagrody za polisę możemy znaleźć wartość parametru „θ”, co maksymalizuje funkcję wyniku. Aby zmaksymalizować funkcję punktacji J(θ), technikę zwaną „wzniesienie gradientowe" Jest używane. Koncepcja wznoszenia się gradientowego jest podobna do opadania gradientowego w uczeniu głębokim, ale optymalizujemy pod kątem największego wzrostu, a nie spadku. Dzieje się tak dlatego, że nasz wynik nie jest „błędem”, jak w przypadku wielu problemów związanych z głębokim uczeniem się. Nasz wynik to coś, co chcemy zmaksymalizować. Wyrażenie zwane twierdzeniem o gradiencie polityki służy do oszacowania gradientu w odniesieniu do polityki „θ".

Podsumowanie uczenia się poprzez głębokie wzmacnianie

Podsumowując, głębokie uczenie się przez wzmacnianie łączy aspekty uczenia się przez wzmacnianie i głębokich sieci neuronowych. Uczenie się przez głębokie wzmacnianie odbywa się za pomocą dwóch różnych technik: głębokiego uczenia się Q i gradientów polityki.

Metody głębokiego Q-learningu mają na celu przewidywanie, jakie nagrody nastąpią po określonych działaniach podjętych w danym stanie, natomiast podejścia oparte na gradientach polityki mają na celu optymalizację przestrzeni działania, przewidując same działania. Oparte na zasadach podejścia do uczenia się przez głębokie wzmacnianie mają charakter deterministyczny lub stochastyczny. Zasady deterministyczne odwzorowują stany bezpośrednio na działania, podczas gdy zasady stochastyczne tworzą rozkłady prawdopodobieństwa działań.

Powiązane tematy:głęboka nauka nauka głębokiego wzmacniania uczenie się wzmacniania

W przyszłym

Co to jest sfederowane uczenie się?

Nie przegap

Co to jest twierdzenie Bayesa?

Daniela Nelsona

Bloger i programista specjalizujący się w Nauczanie maszynowe i głęboki Learning tematy. Daniel ma nadzieję pomóc innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.