Inteligență artificială
Noul AI al DeepMind poate învăța regulile unui joc pe măsură ce joacă

Filiala Alphabet, DeepMind, a dezvoltat recent un sistem AI capabil să învețe regulile unui joc pe măsură ce joacă. Deși DeepMind a creat modele AI impresionante care pot stăpâni jocuri precum Șah, Shogi, Go și jocuri video anterior, aceste modele trebuie furnizate cu regulile jocului dinainte. Prin urmare, noul AI al DeepMind reprezintă o îmbunătățire notabilă față de algoritmii AI anteriori care învață să joace jocuri prin învățare prin întărire.
Sistemul AI – MuZero
Într-un articol publicat recent în revista Nature, DeepMind a detaliat modul în care funcționează noul său sistem AI. Noul AI, numit MuZero, poate învăța regulile unui joc pe măsură ce joacă, datorită unui principiu numit „căutare cu anticipare”. Așa cum a raportat Engadget, MuZero utilizează căutarea cu anticipare pentru a determina care mutări ar trebui să fie executate pe baza celor mai probabile răspunsuri ale adversarilor.
Când se iau în considerare toate mutările posibile care pot fi făcute în jocuri precum șahul, MuZero poate prioritiza, reducând mutările la doar cele mai probabile și relevante. MuZero va învăța atât din manevrele reușite, cât și din cele nereușite. În loc să modelizeze toți factorii posibili, el ia în considerare doar factorii care sunt cei mai relevanți pentru decizia în cauză. MuZero ia în esență miriada de variabile potențiale care pot fi luate în considerare și le distilează până la doar caracteristicile cele mai semnificative și cu impact. Aceste caracteristici sunt reprezentate într-un algoritm de căutare bazat pe arbore. Posibilitățile din arbore sunt apoi combinate cu un model învățat pe baza caracteristicilor mediului de test. Căutarea cu anticipare se efectuează după ce au fost identificate aspectele cele mai relevante ale unui mediu.
Pentru a ajunge la o decizie finală, se iau în considerare trei factori.
MuZero ia în considerare rezultatul alegerii anterioare, poziția curentă pe care o ocupă și acțiunile potențiale pe care le poate întreprinde în continuare. Acest abordare bate alte abordări utilizate anterior de DeepMind, inclusiv căutarea cu anticipare de bază și modelele bazate pe arbore. MuZero s-a dovedit a fi cel puțin la fel de bun la șah, shogi și Go ca și AlphaZero, și atunci când a jucat jocul Ms. Pac-Man, MuZero a putut lua în considerare doar aproximativ șase sau șapte mutări odată. În ciuda acestei limitări, AI-ul a reușit să performeze destul de bine. DeepMind a experimentat, de asemenea, cu capacitățile MuZero, limitând numărul de simulări pe care le putea efectua înainte de a trebui să se angajeze într-o mutare. În general, cu cât programul a avut mai mult timp pentru a considera mutările posibile, cu atât a performant mai bine.
Principalul cercetător științific la DeepMind, David Silver, a explicat prin TechXplore că MuZero este primul model AI capabil să genereze propria reprezentare a regulilor unui mediu, utilizând acea reprezentare pentru a planifica acțiuni.
“Pentru prima dată, avem de fapt un sistem care poate construi propria sa înțelegere a modului în care funcționează lumea și să utilizeze acea înțelegere pentru a face acest tip de planificare cu anticipare sofisticată pe care ați văzut-o anterior pentru jocuri precum șahul,” a spus Silver. “(MuZero) poate începe de la zero și, doar prin încercare și eroare, atât să descopere regulile lumii, cât și să utilizeze acele reguli pentru a atinge un fel de performanță supranaturală.”
Apliicații posibile
Un AI care poate învăța cu adevărat constrângerile unei sarcini și să opereze în cadrul acestor constrângeri are o varietate largă de aplicații posibile. MuZero ar putea fi utilizat pentru sarcini precum compresia video, care a fost istoric dificil de automatizat utilizând AI, datorită numeroaselor formate de video și moduri de compresie posibile. MuZero a reușit să obțină o îmbunătățire a compresiei de aproximativ 5%. Acest lucru ar putea avea implicații pentru numărul mare de videoclipuri găzduite de Google și YouTube. Dincolo de videoclipuri, DeepMind examinează, de asemenea, utilizarea aceleiași tehnici MuZero pentru proiectarea arhitecturii proteinelor și programarea robotică.
Conform lui Wendy Hall, profesor de științe computaționale la Universitatea din Southampton, MuZero reprezintă “un pas semnificativ înainte” pentru algoritmii de învățare prin întărire. Cu toate acestea, Hall este îngrijorat că algoritmii ar putea fi utilizați în mod greșit. De exemplu, Forțele Aeriene ale SUA au făcut deja referire la cercetările timpurii care acoperă MuZero pentru a crea un sistem AI care ar putea lansa rachete de la avioanele de spionaj U-2. Acest lucru se întâmplă în ciuda faptului că cercetătorii de la DeepMind și-au exprimat opoziția față de utilizarea algoritmilor lor pentru orice armă letală, semnând Lethal Autonomous Weapons Pledge pentru a argumenta că orice tehnologie letală ar trebui să rămână sub control uman.
Silver a explicat că DeepMind se uită spre viitor, urmărind să dezvolte algoritmi la fel de puternici și versatili ca creierul. Primul pas în crearea unor algoritmi versatili și flexibili este să se înțeleagă ce înseamnă ca un sistem să fie inteligent, iar inteligența este legată de capacitatea de a discerne modelele și regulile unui mediu complex.












