Connect with us

Cercetătorii AI creează un model de joc video care poate să-și amintească evenimente trecute

Inteligență artificială

Cercetătorii AI creează un model de joc video care poate să-și amintească evenimente trecute

mm

O echipă de cercetători de la laboratorul de inteligență artificială al companiei Uber a dezvoltat recent un sistem de algoritmi AI care a depășit atât jucătorii umani, cât și alte sisteme AI la jocurile video clasice Atari. Sistemul AI dezvoltat de cercetători este capabil să-și amintească strategiile anterioare cu succes, creând noi strategii pe baza a ceea ce a funcționat în trecut. Echipa de cercetare a studiei consideră că algoritmii pe care i-au dezvoltat au aplicații potențiale în alte domenii tehnice, cum ar fi procesarea limbajului și robotica.

Metoda obișnuită utilizată pentru a crea sisteme AI capabile să joace jocuri video este de a utiliza un algoritm de învățare prin întărire. Algoritmii de învățare prin întărire învață cum să execute o sarcină prin explorarea unei game de acțiuni posibile, iar după fiecare acțiune, li se oferă o formă de întărire (o recompensă sau o pedeapsă). În timp, modelul AI învață care acțiuni duc la recompense mai mari și devine mai probabil să execute aceste acțiuni. Din nefericire, modelele de învățare prin întărire întâmpină dificultăți atunci când se confruntă cu puncte de date incongruente cu altele din setul de date.

Conform echipei de cercetare, motivul pentru care abordarea lor nu a fost luată în considerare de alți cercetători AI este că strategia diferă de abordarea “motivației intrinseci” utilizată în mod obișnuit în învățarea prin întărire. Problema cu abordarea motivației intrinseci este că modelul poate fi predispus la “uitare” despre zonele potențial recompensatoare care încă merită explorare. Acest fenomen se numește “detașare”. Ca urmare, atunci când modelul întâlnesc date neașteptate, poate uita despre zonele care ar trebui încă să fie explorate.

Conform TechXplore, echipa de cercetare a încercat să creeze un model de învățare mai flexibil și capabil să răspundă la date neașteptate. Cercetătorii au depășit această problemă prin introducerea unui algoritm capabil să-și amintească toate acțiunile efectuate de o versiune anterioară a modelului atunci când a încercat să rezolve o problemă. Atunci când modelul AI întâlnesc un punct de date care nu este congruent cu ceea ce a învățat până acum, modelul verifică harta sa de memorie. Modelul va identifica apoi care strategii au reușit și care au eșuat și va alege strategiile corespunzător.

Atunci când joacă un joc video, modelul colectează capturi de ecran ale jocului pe măsură ce joacă, făcând un jurnal al acțiunilor sale. Imaginile sunt grupate împreună pe baza similitudinii, formând puncte clare în timp la care modelul se poate referi. Algoritmul poate utiliza imaginile înregistrate pentru a reveni la un punct interesant în timp și a continua explorarea de acolo. Atunci când modelul constată că pierde, se va referi la capturile de ecran luate și va încerca o strategie diferită.

După cum explică BBC, există și problema gestionării scenariilor periculoase pentru agentul AI care joacă jocul. Dacă agentul se confruntă cu un pericol care îl poate ucide, acest lucru ar împiedica modelul să se întoarcă la zonele care merită explorate, o problemă numită “derailment”. Modelul AI gestionează problemele de derailment prin intermediul unui proces separat de cel utilizat pentru a încuraja explorarea zonelor vechi.

Echipa de cercetare a făcut modelul să joace 55 de jocuri Atari. Aceste jocuri sunt utilizate în mod obișnuit pentru a evalua performanța modelelor AI, dar cercetătorii au adăugat o nouă regulă pentru modelul lor. Cercetătorii au introdus reguli suplimentare pentru jocuri, instruind modelul să nu numai să obțină scorul cel mai ridicat posibil, ci și să încerce să obțină un scor și mai ridicat de fiecare dată. Atunci când s-au analizat rezultatele performanței modelului, cercetătorii au constatat că sistemul lor AI a depășit alte sisteme AI la jocuri în jur de 85% din timp. Modelul a performant în mod special la jocul Montezuma’s Revenge, un joc de platformă în care jucătorul evită pericole și colectează comori. Jocul a bătut recordul pentru un jucător uman și a obținut un scor mai ridicat decât orice alt sistem AI.

Conform cercetătorilor Uber AI, strategiile utilizate de echipa de cercetare au aplicații pentru industrii cum ar fi robotica. Roboții beneficiază de capacitatea de a-și aminti care acțiuni au fost de succes, care nu au funcționat și care nu au fost încercate încă.

Blogger și programator cu specializări în Machine Learning și Deep Learning subiecte. Daniel speră să ajute pe alții să folosească puterea inteligenței artificiale pentru binele social.