Connect with us

Umělá inteligence

DeepMind Reports New Method Of Training Reinforcement Learning AI Safely

mm

Učení s posilováním je slibnou cestou vývoje umělé inteligence, která produkuje umělou inteligenci, která může zvládat extrémně komplexní úkoly. Algoritmy učení s posilováním se používají při vytváření mobilních robotických systémů a samořiditelných aut mezi jinými aplikacemi. Nicméně, kvůli tomu, jak je umělá inteligence učení s posilováním trénována, může občas projevovat podivné a neočekávané chování. Toto chování může být nebezpečné a výzkumníci umělé inteligence se na tento problém odkazují jako na “problém bezpečného průzkumu”, kde se umělá inteligence zaplete do průzkumu nebezpečných stavů.

Nedávno laboratoř pro výzkum umělé inteligence Google DeepMind vydala článek, který navrhuje nové metody pro řešení problému bezpečného průzkumu a trénování umělé inteligence učení s posilováním bezpečnějším způsobem. Metoda navržená DeepMind také opravuje odměňovací hackování nebo mezery v odměňovacích kritériích.

Nová metoda DeepMind má dva různé systémy, které jsou určeny k vedení chování umělé inteligence v situacích, kde by mohlo vzniknout nebezpečné chování. Dva systémy použité technikou trénování DeepMind jsou generativní model a model dopředné dynamiky. Oba tyto modely jsou trénovány na různých datech, jako jsou demonstrace bezpečnostními odborníky a zcela náhodné vozidlové trajektorie. Data jsou označena supervizorem s konkrétními odměňovacími hodnotami a agent umělé inteligence se naučí rozpoznávat vzorce chování, které mu umožní získat nejvyšší odměnu. Nebezpečné stavy jsou také označeny a jednou, co model úspěšně předpoví odměny a nebezpečné stavy, je nasazen k provedení cílových akcí.

Výzkumný tým vysvětluje v článku, že nápad spočívá v tom, aby se vytvořily možné chování od začátku, aby se navrhla požadovaná chování a aby tyto hypotetické scénáře byly co nejinformativnější, zatímco současně se vyhnou přímému zásahu do učení prostředí. Tým DeepMind se na tento přístup odkazuje jako ReQueST, nebo odměňovací dotazová syntéza prostřednictvím optimalizace trajektorie.

ReQueST je schopen vést k čtyřem různým typům chování. První typ chování se snaží maximalizovat nejistotu ohledně souboru odměňovacích modelů. Zatímco chování dva a tři se snaží minimalizovat a maximalizovat předpovídané odměny. Předpovídané odměny jsou minimalizovány, aby se vedlo k objevu chování, které model může nesprávně předpovídat. Na druhou stranu je předpovídaná odměna maximalizována, aby se vedlo k popiskům chování s nejvyšší informační hodnotou. Nakonec se čtvrtý typ chování snaží maximalizovat novost trajektorií, aby model pokračoval v průzkumu bez ohledu na projektované odměny.

Jakmile model dosáhne požadované úrovně sběru odměn, používá se plánovací agent k rozhodování na základě naučených odměn. Tento model-prediktivní kontrolní schéma umožňuje agentům naučit se vyhnout nebezpečným stavům pomocí dynamického modelu a předpovídání možných důsledků, na rozdíl od chování algoritmů, které se učí prostřednictvím čistého pokusu a omylu.

Jak uvádí VentureBeat, výzkumníci DeepMind věří, že jejich projekt je prvním systémem učení s posilováním, který je schopen učit se v kontrolovaném, bezpečném způsobem:

„Naše znalosti, ReQueST je první algoritmus modelování odměn, který bezpečně učí o nebezpečných stavech a škáluje na trénování neuronových sítí odměňovacích modelů v prostředích s vysokodimenzionálními, kontinuálními stavy. Dosud jsme prokázali účinnost ReQueST pouze v simulovaných doménách s relativně jednoduchou dynamikou. Jednou z budoucích směrů práce je otestovat ReQueST v 3D doménách s více realistickou fyzikou a dalšími agenty, kteří jednají v prostředí.“

Blogger a programátor se specializací na Machine Learning a Deep Learning témata. Daniel doufá, že pomůže ostatním využít sílu AI pro sociální dobro.