Umělá inteligence

Výzkumníci v oblasti umělé inteligence vytvořili model pro hraní videoher, který si může pamatovat minulé události

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Tým výzkumníků v laboratoři umělé inteligence společnosti Uber nedávno vyvinul systém algoritmů umělé inteligence, který překonal lidské hráče i jiné systémy umělé inteligence ve hrách klasických her Atari. Systém umělé inteligence vyvinutý výzkumníky je schopen si pamatovat dříve úspěšné strategie a vytvářet nové strategie na základě toho, co fungovalo v minulosti. Tým výzkumníků studie se domnívá, že algoritmy, které vyvinuli, mají potenciální aplikace v dalších technických oborech, jako je zpracování jazyka a robotika.

Typickým způsobem, jak vytvořit systémy umělé inteligence schopné hrát videohry, je použít algoritmus učení s posilováním. Algoritmy učení s posilováním se učí, jak provádět úkoly procházením rozsahu možných akcí, a po každé akci jsou jim poskytovány某 druh posilování (odměna nebo trest). Časem se model umělé inteligence učí, které akce vedou k větší odměně, a stává se více pravděpodobným, že tyto akce provede. Bohužel, modely učení s posilováním narazí na potíže, když narazí na datové body, které jsou nesourodé s ostatními v datové sadě.

Podle výzkumného týmu je důvod, proč jejich přístup nebyl dosud zvažován jinými výzkumníky umělé inteligence, ten, že strategie se liší od “vnitřní motivace” typicky používané v učení s posilováním. Problém s vnitřní motivací spočívá v tom, že model může být náchylný k “zapomínání” potenciálně odměňujících oblastí, které stále vyžadují prozkoumání. Tento jev se nazývá “odpojení”. Jako důsledek, když model narazí na neočekávaná data, může zapomenout na oblasti, které by měly být stále prozkoumány.

Podle TechXplore, výzkumný tým se snažil vytvořit učení model, který je více flexibilní a schopen reagovat na neočekávaná data. Výzkumníci překonali tento problém zavedením algoritmu, který je schopen si pamatovat všechny akce provedené předchozí verzí modelu, když se snažil vyřešit problém. Když model umělé inteligence narazí na datový bod, který není konzistentní s tím, co se naučil doposud, model zkontroluje svou paměťovou mapu. Model pak identifikuje, které strategie byly úspěšné a které ne, a zvolí strategie odpovídajícím způsobem.

Když hraje videohru, model shromažďuje snímky obrazovky hry, jak hraje, a vytváří záznam svých akcí. Obrázky jsou seskupeny dohromady na základě podobnosti, vytvářející jasná časová místa, na která se model může vrátit. Algoritmus může použít zaznamenané obrázky k návratu do zajímavého bodu v čase a pokračovat v prozkoumání odtud. Když model zjistí, že prohrává, vrátí se k snímkům obrazovky a pokusí se o jinou strategii.

Jak vysvětlilo BBC, existuje také problém s řešením nebezpečných scénářů pro agenta umělé inteligence, který hraje hru. Pokud agent narazí na nebezpečí, které ho může zabít, to by mu zabránilo v návratu do oblastí, které vyžadují další prozkoumání, problém nazývaný “vyřazení”. Model umělé inteligence řeší problémy s vyřazením prostřednictvím samostatného procesu od toho, který se používá k podpoře prozkoumání starých oblastí.

Výzkumný tým nechal model projet 55 her Atari. Tyto hry se běžně používají k měření výkonu modelů umělé inteligence, ale výzkumníci přidali do her nový prvek. Výzkumníci zavedli další pravidla do her, která modelu uložila, aby nejen dosáhl nejvyššího skóre, ale aby se také snažil dosáhnout ještě vyššího skóre pokaždé. Když byly výsledky modelu analyzovány, výzkumníci zjistili, že jejich systém umělé inteligence překonal ostatní systémy umělé inteligence ve hrách kolem 85% času. Model umělé inteligence se đặceně osvědčil ve hře Montezuma’s Revenge, platformové hře, ve které hráč vyhýbá se nebezpečím a sbírá poklady. Hra překonala rekord pro lidského hráče a také dosáhla vyššího skóre než jakýkoli jiný systém umělé inteligence.

Podle výzkumníků z Uberu mají strategie, které tým vyvinul, aplikace v odvětvích, jako je robotika. Roboti profitují z možnosti si pamatovat, které akce jsou úspěšné, které nefungovaly, a které ještě nebyly vyzkoušeny.