Inteligență artificială
Agenții AI demonstrează proprietăți de inteligență emergentă într-un joc virtual de ascunselea

Una dintre faptele interesante despre cercetarea IA este că aceasta poate executa acțiuni și urma strategii care îi surprind pe însăși cercetătorii care le proiectează. Acest lucru s-a întâmplat în timpul unui joc virtual recent de ascunselea, în care mai mulți agenți AI au fost puși unul împotriva celuilalt. Cercetătorii de la OpenAI, o firmă de IA cu sediul în San Francisco, au fost surprinși să constate că agenții lor AI au început să exploateze strategii în lumea jocului, pe care cercetătorii nu le cunoșteau nici măcar că există.
OpenAI a instruit un grup de agenți AI să joace un joc de ascunselea unul cu celălalt. Programele AI sunt instruite cu învățare prin întărire, o tehnică în care comportamentul dorit este obținut de la algoritmii AI prin furnizarea de feedback algoritmilor. IA pornește prin a efectua acțiuni aleatorii, și de fiecare dată când efectuează o acțiune care o apropie de obiectivul său, agentul este recompensat. IA dorește să obțină cantitatea maximă de recompensă posibilă, așa că experimentează pentru a vedea care acțiuni îi aduc mai multă recompensă. Prin încercare și eroare, IA este capabilă să distingă strategiile care o vor duce la victorie, cele care îi vor oferi cea mai mare recompensă.
Învățarea prin întărire a demonstrat deja succese impresionante în învățarea regulilor jocurilor. OpenAI a instruit recent o echipă de IA să joace jocul MMORPG DOTA 2, și IA a învins o echipă de jucători umani campioni mondiali anul trecut. Un lucru similar s-a întâmplat cu jocul StarCraft, când o IA a fost instruită pe joc de DeepMind. Învățarea prin întărire a fost folosită și pentru a învăța programele IA să joace Pictionary cu oameni, învățând să interpreteze imagini și să folosească raționamentul comun.
În jocul de ascunselea video creat de cercetători, mai mulți agenți AI au fost puși unul împotriva celuilalt. Rezultatul a fost o cursă a înarmării, în care fiecare agent dorește să performeze mai bine decât celălalt și să obțină cele mai multe puncte de recompensă. O nouă strategie adoptată de un agent va determina adversarul să caute o nouă strategie pentru a o contracara, și viceversa. Igor Mordatch, un cercetător de la OpenAI, a explicat pentru IEEE Spectrum că acest proces de încercare și eroare între agenți “este suficient pentru ca agenții să învețe comportamente surprinzătoare de unii singuri – este ca și cum copiii s-ar juca unii cu alții”.
Ce au fost exact comportamentele surprinzătoare? Cercetătorii aveau patru strategii de bază pe care se așteptau ca agenții IA să le învețe, și acestea au fost învățate destul de repede, devenind competenți în ele după doar 25 de milioane de jocuri simulate. Jocul a avut loc într-un mediu 3D plin de rampe, blocuri și pereți. Agenții IA au învățat să se urmărească unii pe alții, să mute blocuri pentru a construi forturi în care se pot ascunde, și să mute rampe. Căutătorii IA au învățat să tragă rampele pentru a intra în forturile celor care se ascund, în timp ce cei care se ascund au învățat să încerce să ia rampele în forturile lor, astfel încât căutătorii să nu le poată folosi.
Cu toate acestea, în jurul baremului de 380 de milioane de jocuri, s-a întâmplat ceva neașteptat. Agenții IA au învățat să folosească două strategii pe care cercetătorii nu le-au anticipat. Agenții căutători au învățat că, sărind pe o cutie și înclina/condus cutia spre o fortăreață din apropiere, puteau să sară în fortăreață și să găsească pe cel care se ascunde. Cercetătorii nu și-au dat seama nici măcar că acest lucru era posibil în fizica mediului jocului. Cei care se ascund au învățat să rezolve această problemă, trăgând cutiile în interiorul fortăreței lor.
În timp ce comportamentul neașteptat al agenților instruiți cu algoritmi de învățare prin întărire este inofensiv în acest caz, ridică unele preocupări potențiale cu privire la modul în care învățarea prin întărire este aplicată în alte situații. Un membru al echipei de cercetare OpenAI, Bowen Baker, a explicat pentru IEEE Spectrum că aceste comportamente neașteptate ar putea fi potențial periculoase. Ce se întâmplă dacă roboții ar începe să se comporte în moduri neașteptate?
“Construirea acestor medii este dificilă”, a explicat Baker. “Agenții vor găsi aceste comportamente neașteptate, ceea ce va fi o problemă de siguranță pe termen lung, atunci când îi veți pune în medii mai complexe”.
Cu toate acestea, Baker a explicat și că strategiile de învățare prin întărire ar putea duce la soluții inovatoare pentru problemele actuale. Sistemele instruite cu învățare prin întărire ar putea rezolva o gamă largă de probleme cu soluții pe care nu le putem nici măcar imagina.












