Umělá inteligence

Agenti AI demonstrují emergentní inteligentní vlastnosti ve virtuální hře na schovku

Published September 24, 2019

Updated April 5, 2026

Daniel Nelson

Jedna z interessantních skutečností o výzkumu AI je, že může často provádět akce a sledovat strategie, které překvapují samotné výzkumníky, kteří je navrhují. To se stalo během nedávné virtuální hry na schovku, ve které byli proti sobě postaveni několika agenti AI. Výzkumníci z OpenAI, firmy se sídlem v San Francisku, byli překvapeni, když zjistili, že jejich agenti AI začali využívat strategie ve hře, o kterých výzkumníci nevěděli, že existují.

OpenAI vyškolil skupinu agentů AI, aby hráli hru na schovku jeden proti druhému. Programy AI jsou školeny pomocí učení s posilováním, techniky, při které je požadované chování vyvoláno z algoritmů AI poskytováním algoritmům zpětné vazby. AI začíná náhodnými akcemi a každé akce, které mu přibližuje k jeho cíli, je odměněn. AI chce získat co nejvíce odměn, a proto experimentuje, aby zjistil, které akce mu přinesou nejvíce odměn. Díky pokusu a omylu je AI schopno rozlišit strategie, které mu přinesou vítězství, a ty, které mu přinesou nejvíce odměn.

Učení s posilováním již prokázalo úžasné úspěchy v učení pravidel her. OpenAI nedávno vyškolil tým AI, aby hrál hru DOTA 2, a AI porazil tým světových šampionů lidí minulý rok. Totéž se stalo s hrou StarCraft, kdy byl AI vyškolil DeepMind. Učení s posilováním bylo také použito k učení programů AI hrát Pictionary s lidmi, učení interpretovat obrázky a používat základní rozumové uvažování.

Ve hře na schovku vytvořené výzkumníky byli proti sobě postaveni několik agentů AI. Výsledkem byla soutěž, ve které každý agent chtěl překonat ostatní a získat co nejvíce bodů. Nová strategie přijatá jedním agentem způsobila, že jeho oponent hledal novou strategii, aby ji překonal, a naopak. Igor Mordatch, výzkumník z OpenAI, vysvětlil IEEE Spectrum, že experiment demonstruje, že tento proces pokusu a omylu mezi agenty “je dostatečný pro to, aby agenti sami naučili překvapivé chování – je to jako děti, které hrají spolu.”

Jaká byla přesně tato překvapivá chování? Výzkumníci měli čtyři základní strategie, které očekávali, že agenti AI naučí, a naučili se je poměrně rychle, stali se v nich kompetentními po pouhých 25 milionech simulovaných her. Hra se konala ve 3D prostředí plném ramp, bloků a zdí. Agenti AI naučili se pronásledovat jeden druhého, pohybovat bloky, aby postavili pevnosti, ve kterých se mohli schovat, a pohybovat rampami. Agenti hledači naučili se táhnout rampy, aby se dostali do pevností schovacích, zatímco schovávající se agenti naučili se snažit táhnout rampy do svých pevností, aby je hledači nemohli použít.

Nicméně, kolem 380 milionu her se něco neočekávaného stalo. Agenti AI naučili se používat dvě strategie, které výzkumníci neočekávali. Agenti hledači naučili se, že skokem na bednu a nakloněním/jezdením na bedně směrem k nearby pevnosti, mohli skočit do pevnosti a najít schovávající se agenta. Výzkumníci nevěděli, že to je možné v rámci fyziky herního prostředí. Schovávající se agenti naučili se vyrovnat s touto otázkou tím, že táhli bedny do svého pevnosti.

Zatímco neočekávaná chování agentů školených pomocí algoritmů učení s posilováním jsou v tomto případě neškodná, vyvolává to některé potenciální obavy o tom, jak je učení s posilováním aplikováno v jiných situacích. Člen týmu výzkumníků z OpenAI, Bowen Baker, vysvětlil IEEE Spectrum, že tato neočekávaná chování by mohla být potenciálně nebezpečná. Co kdyby roboti začali chovat neočekávaně?

“Stavění těchto prostředí je obtížné,” vysvětlil Baker. “Agenti budou přicházet s těmito neočekávanými chováními, které budou bezpečnostním problémem v budoucnu, když je budete umisťovat do složitějších prostředí.”

Nicméně, Baker také vysvětlil, že strategie učení s posilováním mohou vést k inovativním řešením současných problémů. Systémy školené pomocí učení s posilováním mohou řešit širokou škálu problémů s řešeními, která možná ani nedokážeme představit.