Sztuczna inteligencja
Badacze AI tworzą model grający w gry wideo, który może pamiętać wydarzenia z przeszłości

Zespół badaczy w laboratorium AI Ubera niedawno rozwinął system algorytmów AI, który przewyższył zarówno ludzkich graczy, jak i inne systemy AI w klasycznych grach wideo Atari. System AI opracowany przez badaczy jest w stanie pamiętać wcześniej udane strategie, tworząc nowe strategie na podstawie tego, co działało w przeszłości. Zespół badawczy studium uważa, że opracowane przez nich algorytmy mają potencjalne zastosowania w innych dziedzinach technicznych, takich jak przetwarzanie języka i robotyka.
Typowy sposób tworzenia systemów AI zdolnych do gry w gry wideo polega na użyciu algorytmu uczenia wzmacniania. Algorytmy uczenia wzmacniania uczą się, jak wykonywać zadanie, eksplorując zakres możliwych działań, a po każdym działaniu są im przyznawane wzmocnienia (nagrody lub kary). Z czasem model AI uczy się, które działania prowadzą do większych nagród i staje się bardziej prawdopodobne, że zostaną one wykonane. Niestety, modele uczenia wzmacniania napotykają trudności, gdy spotykają dane niezgodne z innymi danymi w zbiorze.
Zgodnie z zespołem badawczym, powodem, dla którego ich podejście nie zostało wcześniej rozważone przez innych badaczy AI, jest to, że strategia różni się od typowego podejścia “wewnętrznej motywacji” stosowanego w uczeniu wzmacnianym. Problemem z podejściem wewnętrznej motywacji jest to, że model może być skłonny do “zapominania” o potencjalnie nagradzanych obszarach, które nadal zasługują na eksplorację. Zjawisko to nazywane jest “odłączeniem”. W konsekwencji, gdy model napotyka nieoczekiwane dane, może zapomnieć o obszarach, które powinny nadal być eksplorowane.
Według TechXplore, zespół badawczy postanowił stworzyć model uczenia, który byłby bardziej elastyczny i mógłby reagować na nieoczekiwane dane. Badacze pokonali ten problem, wprowadzając algorytm, który mógłby pamiętać wszystkie działania podejmowane przez poprzednią wersję modelu, gdy próbował rozwiązać problem. Gdy model AI napotyka dane, które nie są spójne z tym, czego się nauczył do tej pory, model sprawdza swoją mapę pamięci. Model identyfikuje, które strategie powiodły się i które nie, i wybiera strategie odpowiednio.
Grając w grę wideo, model gromadzi zrzuty ekranu gry, tworząc log swoich działań. Obrazy są grupowane razem na podstawie podobieństwa, tworząc wyraźne punkty w czasie, do których model może się odwołać. Algorytm może użyć zalogowanych obrazów, aby wrócić do interesującego punktu w czasie i kontynuować eksplorację. Gdy model stwierdzi, że przegrywa, odwoła się do zrobionych zrzutów ekranu i spróbuje innej strategii.
Jak wyjaśnia BBC, istnieje również problem radzenia sobie z niebezpiecznymi sytuacjami dla agenta AI grającego w grę. Jeśli agent napotyka niebezpieczeństwo, które może go zabić, to uniemożliwi mu powrót do obszarów, które zasługują na dalszą eksplorację, co nazywane jest “wykolejeniem”. Model AI radzi sobie z problemami wykolejenia za pomocą oddzielnego procesu od tego, który służy do zachęcania do eksploracji starych obszarów.
Zespół badawczy miał model, który przeszedł przez 55 gier Atari. Gry te są powszechnie używane do oceny wydajności modeli AI, ale badacze dodali nowy element do gier. Badacze wprowadzili dodatkowe reguły do gier, nakazując modelowi nie tylko osiągnąć najwyższy możliwy wynik, ale także spróbować osiągnąć jeszcze wyższy wynik za każdym razem. Gdy wyniki wydajności modelu zostały przeanalizowane, badacze stwierdzili, że ich system AI przewyższył inne AI w grach około 85% czasu. AI wypadł szczególnie dobrze w grze Montezuma’s Revenge, platformowej grze, w której gracz unika niebezpieczeństw i zbiera skarby. Gra pobiła rekord dla ludzkiego gracza i również uzyskała wyższy wynik niż jakikolwiek inny system AI.
Zgodnie z badaczami AI z Ubera, strategie użyte przez zespół badawczy mają zastosowania w branżach takich jak robotyka. Roboty korzystają z możliwości pamiętania, które działania są udane, które nie działały, a które jeszcze nie zostały wypróbowane.












