peň Agenti AI demonštrujú vlastnosti vznikajúcej inteligencie vo virtuálnom skrývaní sa – Unite.AI
Spojte sa s nami

Umelá inteligencia

Agenti AI demonštrujú vlastnosti vznikajúcej inteligencie vo virtuálnom skrývaní sa

mm
Aktualizované on

Jedným zo zaujímavých faktov o výskume AI je, že často dokáže vykonávať akcie a sledovať stratégie, ktoré prekvapia samotných výskumníkov, ktorí ich navrhujú. Stalo sa to počas nedávnej virtuálnej hry na schovávačku, kde sa proti sebe postavilo viacero agentov AI. Výskumníci z OpenAI, spoločnosti AI so sídlom v San Franciscu, boli prekvapení, keď zistili, že ich agenti AI začali využívať stratégie v hernom svete, o ktorom vedci ani nevedeli.

OpenAI vycvičila skupinu agentov AI, aby spolu hrali hru na schovávačku. Programy AI sú trénované pomocou posilňovacieho učenia, čo je technika, pri ktorej je požadované správanie vyvolané z algoritmov AI poskytovaním spätnej väzby algoritmom. Umelá inteligencia začína náhodnými akciami a zakaždým, keď vykoná akciu, ktorá ju priblíži k cieľu, je agent odmenený. Umelá inteligencia chce získať maximálnu možnú odmenu, takže bude experimentovať, aby zistila, ktoré akcie jej získajú väčšiu odmenu. Prostredníctvom pokusu a omylu dokáže AI rozlíšiť stratégie, ktoré ich privedú k víťazstvu, tie, ktoré im dajú najväčšiu odmenu.

Posilňovacie učenieg už preukázal pôsobivý úspech pri učení sa pravidiel hier. OpenAI nedávno vyškolil tím AI zahrajte si MMORPG DOTA 2a AI minulý rok porazila tím majstrov sveta zložený z ľudských hráčov. Podobná vec sa stala s hrou StarCraft, keď bola AI vyškolená v hre DeepMind. Posilňovacie učenie sa používa aj na výučbu programov AI hrať Pictionary s ľuďmi, učiť sa interpretovať obrázky a používať základné logické uvažovanie.

Vo videohre na schovávačku, ktorú vytvorili výskumníci, sa proti sebe postavilo viacero agentov AI. Výsledkom boli akési preteky v zbrojení, kde každý agent chce prekonať toho druhého a získať čo najviac bodov za odmenu. Nová stratégia prijatá jedným agentom spôsobí, že jeho protivník bude hľadať novú stratégiu, aby mu čelil, a naopak. Igor Mordatch, výskumník z OpenAI, vysvetlil pre IEEE Spectrum, že experiment ukazuje, že tento proces pokusov a omylov medzi agentmi „stačí na to, aby sa agenti sami naučili prekvapivému správaniu – je to ako keď sa deti hrajú medzi sebou“.

Čo presne bolo prekvapivé správanie? Výskumníci mali štyri základné stratégie, ktoré sa od agentov AI mali naučiť, a naučili sa ich pomerne rýchlo a stali sa v nich kompetentnými už po 25 miliónoch simulovaných hier. Hra sa odohrávala v 3D prostredí plnom rámp, blokov a stien. Agenti AI sa naučili navzájom sa prenasledovať, presúvať bloky, aby stavali pevnosti, v ktorých by sa mohli ukryť, a presúvať rampy. Hľadači AI sa naučili ťahať rampy, aby sa dostali do pevností ukrývačov, zatiaľ čo ukrývači sa naučili skúšať vziať rampy do svojich pevností, aby ich pátrači nemohli použiť.

Okolo benchmarku 380 miliónov hier sa však stalo niečo nečakané. Agenti AI sa naučili používať dve stratégie, ktoré výskumníci neočakávali. Agenti hľadajúci sa dozvedeli, že skokom na krabicu a naklonením/jazdou na krabici smerom k neďalekej pevnosti môžu skočiť do pevnosti a nájsť skrývača. Výskumníci si ani neuvedomili, že je to možné v rámci fyziky herného prostredia. Schovávači sa naučili riešiť tento problém tak, že vtiahli krabice na miesto vo svojej pevnosti.

Zatiaľ čo neočakávané správanie agentov vyškolených na algoritmoch posilňovacieho učenia je v tomto prípade neškodné, vyvoláva určité potenciálne obavy z toho, ako sa posilňovacie učenie aplikuje v iných situáciách. Člen výskumného tímu OpenAI, Bowen Baker, pre IEEE Spectrum vysvetlil, že toto neočakávané správanie môže byť potenciálne nebezpečné. Koniec koncov, čo keby sa roboti začali správať neočakávaným spôsobom?

„Vybudovanie týchto prostredí je ťažké,“ vysvetlil Baker. "Agenti prídu s týmto neočakávaným správaním, ktoré bude predstavovať bezpečnostný problém, keď ich umiestnite do zložitejších prostredí."

Baker však tiež vysvetlil, že stratégie posilňovania by mohli viesť k inovatívnym riešeniam súčasných problémov. Systémy trénované posilňovaním by mohli vyriešiť širokú škálu problémov s riešeniami, ktoré si možno ani nevieme predstaviť.