Connect with us

Sztuczna inteligencja

DeepMind i Google Brain mają na celu stworzenie metod poprawy wydajności uczenia ze wzmocnieniem

mm

Systemy uczenia ze wzmocnieniem mogą być potężne i wytrzymałe, zdolne do wykonywania niezwykle złożonych zadań za pomocą tysięcy iteracji szkolenia. Chociaż algorytmy uczenia ze wzmocnieniem są w stanie umożliwić zaawansowane i czasami zaskakujące zachowania, wymagają one długiego czasu szkolenia i ogromnych ilości danych. Te czynniki sprawiają, że techniki uczenia ze wzmocnieniem są dość niewydajne, a niedawno zespoły badawcze z Alphabet DeepMind i Google Brain podjęły się znalezienia bardziej wydajnych metod tworzenia systemów uczenia ze wzmocnieniem.

Jak donosi VentureBeat, połączony zespół badawczy niedawno zaproponował metody poprawy wydajności szkolenia uczenia ze wzmocnieniem. Jednym z proponowanych ulepszeń był algorytm o nazwie Adaptive Behavior Policy Sharing (ABPS), a drugim był framework o nazwie Universal Value Function Approximators (UVFA). ABPS pozwala pulom agentów AI dzielić się ich doświadczeniami wybranymi w sposób adaptacyjny, podczas gdy UVFA pozwala tym agentom jednocześnie badać skierowane polityki eksploracji.

ABPS ma na celu przyspieszyć dostosowanie hiperparametrów podczas szkolenia modelu. ABPS przyspiesza znajdowanie optymalnych hiperparametrów, pozwalając kilku różnym agentom z różnymi hiperparametrami dzielić się doświadczeniami polityki zachowania. Dokładniej, ABPS pozwala agentom uczenia ze wzmocnieniem wybierać działania spośród działań, które polityka uznała za dopuszczalne, a następnie nagradza je i obserwuje na podstawie stanu następnego.

Agenci AI szkoleni są z różnymi kombinacjami możliwych hiperparametrów, takimi jak współczynnik wygaszania i współczynnik uczenia. Podczas szkolenia modelu celem jest to, aby model zbiegał się do kombinacji hiperparametrów, która daje mu najlepszą wydajność, a w tym przypadku również poprawia wydajność danych. Wydajność jest zwiększana przez szkolenie wielu agentów jednocześnie i wybór zachowania tylko jednego agenta do wdrożenia podczas następnego kroku. Polityka, którą ma agent docelowy, jest używana do pobierania działań. Przejścia są następnie rejestrowane w wspólnym miejscu, a to miejsce jest stale oceniane, aby wybór polityki nie musiał się zdarzać tak często. Na końcu szkolenia wybiera się zespół agentów, a najlepsze agenty są wybrane do ostatecznego wdrożenia.

Jeśli chodzi o UVFA, próbuje rozwiązać jeden z powszechnych problemów uczenia ze wzmocnieniem, a mianowicie słabo wzmocnionych agentów, które często nie uczą się zadań. UVFA próbuje rozwiązać ten problem, ucząc agenta odrębnego zestawu polityk eksploatacji i eksploracji w tym samym czasie. Rozdzielenie zadań tworzy framework, który pozwala politykom eksploracji kontynuować eksplorację środowiska, podczas gdy polityki eksploatacji próbują maksymalizować nagrodę dla bieżącego zadania. Polityki eksploracji UVFA służą jako architektura bazowa, która będzie się stale poprawiać, nawet jeśli nie ma naturalnych nagród.

Jak wyjaśnił VentureBeat, gdy framework UVFA jest w użyciu, nagrody wewnętrzne systemu są podawane bezpośrednio do agenta jako dane wejściowe. Agent następnie śledzi reprezentację wszystkich danych wejściowych (takich jak nagrody, działania i stan) podczas danego epizodu. W efekcie nagroda jest zachowana w czasie, a polityka agenta jest co najmniej częściowo poinformowana o niej w każdym momencie.

To jest osiągane za pomocą modułu “epizodycznej nowości” i modułu “całożyciowej nowości”. Funkcja pierwszego modułu polega na przechowywaniu bieżącej, epizodycznej pamięci i mapowaniu bieżących wyników na wspomnianą reprezentację, pozwalając agentowi określić wewnętrzną nagrodę epizodyczną dla każdego kroku szkolenia. Następnie stan związany z bieżącą obserwacją jest dodawany do pamięci. Tymczasem moduł całożyciowej nowości jest odpowiedzialny za wpływanie na to, jak często agent eksploruje w ciągu wielu epizodów.

Według zespołów Alphabet/Google nowe techniki szkolenia już wykazały potencjał dla znaczącej poprawy podczas szkolenia systemu uczenia ze wzmocnieniem. UVFA był w stanie podwoić wydajność niektórych podstawowych agentów, które grały w różne gry Atari. Tymczasem ABPS był w stanie poprawić wydajność w niektórych z tych samych gier Atari, zmniejszając zmienność wśród najlepszych agentów o około 25%. Algorytm szkoleniowy UVFA był w stanie osiągnąć wysoki wynik w grze Pitfall samodzielnie, bez żadnych zaprojektowanych cech demo ludzkich.

Blogger i programista ze specjalnościami w Machine Learning i Deep Learning tematy. Daniel liczy, że pomoże innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.