ciot Agenții AI demonstrează proprietăți de informații emergente în Hide And Seek virtual - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Agenții AI demonstrează proprietăți de inteligență emergente în Hide And Seek virtual

mm
Actualizat on

Unul dintre faptele interesante despre cercetarea AI este că deseori poate executa acțiuni și urmări strategii care îi surprind pe chiar cercetătorii care le proiectează. Acest lucru s-a întâmplat în timpul unui joc virtual recent de-a v-ați ascunselea, în care mai mulți agenți AI s-au înfruntat unul împotriva celuilalt. Cercetătorii de la OpenAI, o firmă de inteligență artificială cu sediul în San Francisco, au fost surprinși să constate că agenții lor de inteligență artificială a început să exploateze strategii în lumea jocurilor despre care cercetătorii nici măcar nu știau că există.

OpenAI a antrenat un grup de agenți AI să joace un joc de ascunselea între ei. Programele AI sunt antrenate cu învățare prin întărire, o tehnică în care comportamentul dorit este obținut din algoritmii AI prin furnizarea algoritmilor cu feedback. AI începe prin a întreprinde acțiuni aleatorii și de fiecare dată când întreprinde o acțiune care o aduce mai aproape de obiectivul său, agentul este recompensat. AI dorește să obțină cea mai mare recompensă posibilă, așa că va experimenta pentru a vedea ce acțiuni îi câștigă mai multă recompensă. Prin încercare și eroare, IA este capabilă să distingă strategiile care îi vor aduce la victorie, cele care le vor oferi cea mai mare recompensă.

Învățare prin întărireg a demonstrat deja un succes impresionant la învățarea regulilor jocurilor. OpenAI a instruit recent o echipă de AI pentru Joacă MMORPG-ul DOTA 2, iar AI a învins o echipă campioană mondială de jucători umani anul trecut. Un lucru similar s-a întâmplat cu jocul StarCraft când un AI a fost antrenat pe joc de DeepMind. Învățarea prin întărire a fost, de asemenea, folosită pentru a învăța programele AI să joace Pictionary cu oameni, învățând să interpreteze imagini și să folosească raționamentul de bun simț.

În jocul video de-a v-ați ascunselea creat de cercetători, mai mulți agenți AI s-au confruntat unul împotriva celuilalt. Rezultatul a fost un fel de cursă înarmărilor, în care fiecare agent dorește să-l depășească pe celălalt și să obțină cele mai multe puncte de recompensă. O nouă strategie adoptată de un agent va determina adversarul său să caute o nouă strategie pentru a o contracara și invers. Igor Mordatch, cercetător la OpenAI, a explicat pentru IEEE Spectrum că experimentul demonstrează că acest proces de încercare și eroare între agenți „este suficient pentru ca agenții să învețe singuri comportamente surprinzătoare – este ca și cum copiii se joacă unii cu alții”.

Care au fost mai exact comportamentele surprinzătoare? Cercetătorii au avut patru strategii de bază pe care se așteptau ca agenții AI să le învețe și le-au învățat destul de repede, devenind competenți în ele după doar 25 de milioane de jocuri simulate. Jocul a avut loc într-un mediu 3d plin de rampe, blocuri și pereți. Agenții AI au învățat să se urmărească unul pe altul, să mute blocuri pentru a construi forturi în care s-ar putea ascunde și să mute rampe. Căutătorii de inteligență artificială au învățat să tragă rampe pentru a intra în forturile ascunzătorilor, în timp ce ascunzătorii au învățat să încerce să ia rampele în forturile lor, astfel încât căutătorii să nu le poată folosi.

Cu toate acestea, în jurul valorii de referință de 380 de milioane de jocuri, s-a întâmplat ceva neașteptat. Agenții AI au învățat să folosească două strategii la care cercetătorii nu se așteptau. Agenții căutători au aflat că, sărind pe o cutie și înclinând/călărind cutia către un fort din apropiere, ar putea sări în fort și să-l găsească pe ascunzător. Cercetătorii nici măcar nu și-au dat seama că acest lucru este posibil în fizica mediului de joc. Ascunzătorii au învățat să se ocupe de această problemă trăgând cutiile la locul lor în fortul lor.

În timp ce comportamentul neașteptat al agenților instruiți pe algoritmi de învățare prin întărire este inofensiv în acest caz, ridică unele potențiale preocupări cu privire la modul în care învățarea prin întărire este aplicată în alte situații. Un membru al echipei de cercetare OpenAI, Bowen Baker, a explicat pentru IEEE Spectrum că aceste comportamente neașteptate ar putea fi potențial periculoase. La urma urmei, ce se întâmplă dacă roboții ar începe să se comporte în moduri neașteptate?

„Construirea acestor medii este dificilă”, a explicat Baker. „Agenții vor veni cu aceste comportamente neașteptate, care vor fi o problemă de siguranță pe drum atunci când îi vei pune în medii mai complexe.”

Cu toate acestea, Baker a explicat, de asemenea, că strategiile de consolidare ar putea duce la soluții inovatoare la problemele actuale. Sistemele antrenate cu învățare prin întărire ar putea rezolva o gamă largă de probleme cu soluții pe care nici nu le putem imagina.