taló Els investigadors d'IA creen un model de joc de videojocs que pot recordar esdeveniments passats - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Els investigadors d'IA creen un model de joc de videojocs que pot recordar esdeveniments passats

mm
actualitzat on

Un equip d'investigadors del laboratori d'IA d'Uber ho ha fet recentment desenvolupat un sistema d'algoritmes d'IA que van superar tant als jugadors humans com a altres sistemes d'IA als videojocs clàssics d'Atari. El sistema d'IA desenvolupat pels investigadors és capaç de recordar estratègies anteriorment reeixides, creant noves estratègies basades en el que va funcionar en el passat. El l'estudi L'equip de recerca creu que els algorismes que van desenvolupar tenen aplicacions potencials en altres camps tècnics com el processament del llenguatge i la robòtica.

El mètode típic utilitzat per crear sistemes d'IA capaços de jugar videojocs és utilitzar un algorisme d'aprenentatge de reforç. Els algorismes d'aprenentatge per reforç aprenen a dur a terme una tasca explorant una sèrie d'accions possibles, i després de cada acció, se'ls proporciona un tipus de reforç (una recompensa o un càstig). Amb el pas del temps, el model d'IA aprèn quines accions condueixen a recompenses més grans i és més probable que dugui a terme aquestes accions. Malauradament, els models d'aprenentatge de reforç tenen problemes quan troben punts de dades incongruents amb els altres del conjunt de dades.

Segons l'equip d'investigació, el motiu pel qual el seu enfocament no havia estat considerat per altres investigadors d'IA és que l'estratègia difereix de l'enfocament de "motivació intrínseca" que s'utilitza habitualment en l'aprenentatge de reforç. El problema amb un enfocament de motivació intrínseca és que el model pot ser propens a "oblidar" les àrees potencialment gratificants que encara mereixen ser explorades. Aquest fenomen s'anomena "desvinculació". Com a conseqüència, quan el model troba dades inesperades, pot oblidar-se d'àrees que encara s'han d'explorar.

Segons TechXplore, l'equip de recerca es va proposar crear un model d'aprenentatge que fos més flexible i capaç de respondre a dades inesperades. Els investigadors van superar aquest problema introduint un algorisme capaç de recordar totes les accions realitzades per una versió anterior del model quan intentava resoldre un problema. Quan el model d'IA troba un punt de dades que no és coherent amb el que ha après fins ara, el model comprova el seu mapa de memòria. Aleshores, el model identificarà quines estratègies han tingut èxit i quines han fracassat i triarà les estratègies adequadament.

Quan juga a un videojoc, el model recull captures de pantalla del joc mentre es juga, fent un registre de les seves accions. Les imatges s'agrupen en funció de la similitud, formant moments clars en el temps als quals el model pot fer referència. L'algoritme pot utilitzar les imatges registrades per tornar a un punt interessant en el temps i continuar explorant des d'allà. Quan el model trobi que està perdent, tornarà a fer referència a les captures de pantalla fetes i provarà una estratègia diferent.

Segons explica la BBC, també hi ha el problema de gestionar escenaris perillosos per a l'agent d'IA que juga el joc. Si l'agent es troba amb un perill que pot matar-lo, això impediria que torni a zones que mereixen més exploració, un problema anomenat "descarrilament". El model d'IA gestiona els problemes de descarrilament mitjançant un procés independent del que s'utilitza per fomentar l'exploració de zones antigues.

L'equip d'investigació va tenir el mode de joc a través de 55 jocs Atari. Aquests jocs s'utilitzen habitualment per comparar el rendiment dels models d'IA, però els investigadors van afegir un gir al seu model. Els investigadors van introduir regles addicionals als jocs, indicant al model que no només assoleixi la puntuació més alta possible, sinó que intenti aconseguir una puntuació encara més alta cada vegada. Quan es van analitzar els resultats del rendiment del model, els investigadors van trobar que el seu sistema d'IA superava altres IA als jocs al voltant del 85% del temps. La IA va funcionar especialment bé al joc Montezuma's Revenge, un joc de plataformes on el jugador esquiva perills i recull tresors. El joc va batre el rècord d'un jugador humà i també va obtenir una puntuació més alta que qualsevol altre sistema d'IA.

Segons els investigadors d'Uber AI, les estratègies utilitzades per l'equip d'investigació tenen aplicacions per a indústries com la robòtica. Els robots es beneficien de la capacitat de recordar quines accions han tingut èxit, quines no han funcionat i quines encara no s'han provat.