Intelligenza artificiale

Il nuovo AI di DeepMind è in grado di imparare le regole di un gioco mentre lo gioca

Pubblicato il 27 dicembre 2020

Aggiornato il 25 maggio 2026

Daniel Nelson

La società sussidiaria di Alphabet, DeepMind, ha recentemente sviluppato un sistema di intelligenza artificiale in grado di imparare le regole di un gioco mentre lo gioca. Sebbene DeepMind abbia creato modelli di intelligenza artificiale impressionanti che possono padroneggiare giochi come Scacchi, Shogi, Go e videogiochi in precedenza, questi modelli devono essere forniti con le regole del gioco in anticipo. Pertanto, il nuovo AI di DeepMind rappresenta un notevole miglioramento rispetto agli algoritmi di apprendimento precedenti che imparano a giocare ai giochi attraverso l’apprendimento per rinforzo.

Sistema di intelligenza artificiale – MuZero

In un articolo recentemente pubblicato sulla rivista Nature, DeepMind ha descritto come funziona il loro nuovo sistema di intelligenza artificiale. Il nuovo AI, chiamato MuZero, è in grado di imparare le regole di un gioco mentre lo gioca grazie a un principio chiamato “ricerca anticipata”. Come riportato da Engadget, MuZero utilizza la ricerca anticipata per determinare quali mosse devono essere eseguite in base alle risposte più probabili degli avversari.

Quando si considerano tutte le mosse possibili che potrebbero essere fatte in giochi come gli scacchi, MuZero è in grado di dare priorità, riducendo le mosse a solo quelle più probabili e rilevanti. MuZero imparerà poi sia dalle manovre riuscite che da quelle non riuscite. Invece di modellare tutti i fattori possibili, considera solo i fattori più rilevanti per la decisione in questione. MuZero prende essenzialmente la miriade di variabili potenziali che possono essere considerate e le riduce a solo le caratteristiche più salienti e significative. Queste caratteristiche sono rappresentate in un algoritmo di ricerca basato su alberi. Le possibilità all’interno dell’albero sono poi combinate con un modello appreso in base alle caratteristiche dell’ambiente di test. La ricerca anticipata viene eseguita dopo che gli aspetti più rilevanti di un ambiente sono stati identificati.

Per arrivare a una decisione finale, vengono considerati tre fattori.

MuZero considera l’esito della scelta precedente, la posizione attuale che occupa e le azioni potenziali che può intraprendere in seguito. Questo approccio supera gli approcci utilizzati in precedenza da DeepMind, tra cui la ricerca anticipata di base e i modelli basati su alberi. MuZero si è rivelato almeno altrettanto efficace negli scacchi, shogi e Go quanto AlphaZero, e quando ha giocato al gioco Ms. Pac-Man, MuZero è stato in grado di considerare solo sei o sette mosse alla volta. Nonostante questo limite, l’AI è stata in grado di eseguire abbastanza bene. DeepMind ha anche sperimentato le capacità di MuZero limitando il numero di simulazioni che poteva eseguire prima di dover effettuare una mossa. In generale, più tempo il programma aveva per considerare le mosse possibili, meglio si è esibito.

Il principale scienziato ricercatore di DeepMind, David Silver, ha spiegato via TechXplore che MuZero è il primo modello di intelligenza artificiale in grado di generare la propria rappresentazione delle regole di un ambiente, utilizzando quella rappresentazione per pianificare azioni.

“Per la prima volta, abbiamo effettivamente un sistema che è in grado di costruire la propria comprensione di come funziona il mondo e utilizzare quella comprensione per fare questo tipo di pianificazione anticipata sofisticata che hai visto in precedenza per giochi come gli scacchi”, ha detto Silver. “(MuZero) può partire da zero e, solo attraverso prove ed errori, scoprire le regole del mondo e utilizzare quelle regole per raggiungere prestazioni sovrumane.”

Applicazioni possibili

Un’intelligenza artificiale che è realmente in grado di imparare i vincoli di un compito e operare all’interno di quei vincoli ha una vasta gamma di applicazioni possibili. MuZero potrebbe essere utilizzato per compiti come la compressione video, che storicamente è stato difficile automatizzare utilizzando l’intelligenza artificiale, a causa dei molti formati video e modalità di compressione possibili. MuZero è stato in grado di raggiungere un miglioramento della compressione di circa il 5%. Ciò potrebbe avere implicazioni per il grande numero di video ospitati da Google e YouTube. Oltre ai video, DeepMind sta anche esplorando l’uso delle stesse tecniche MuZero per la progettazione dell’architettura delle proteine e la programmazione dei robot.

Secondo Wendy Hall, professoressa di Informatica all’Università di Southampton, MuZero rappresenta “un passo significativo” per gli algoritmi di apprendimento per rinforzo. Tuttavia, Hall è preoccupata che gli algoritmi possano essere utilizzati in modo improprio. Ad esempio, l’aeronautica militare degli Stati Uniti ha già fatto riferimento a ricerche precedenti su MuZero per creare un sistema di intelligenza artificiale che potrebbe lanciare missili da aerei spia U-2. Ciò nonostante i ricercatori di DeepMind abbiano espresso la loro opposizione all’uso dei loro algoritmi per qualsiasi arma letale, firmando il Lethal Autonomous Weapons Pledge per sostenere che qualsiasi tecnologia letale dovrebbe rimanere sotto il controllo umano.

Silver ha spiegato che DeepMind sta guardando al futuro, con l’obiettivo di sviluppare algoritmi altrettanto potenti e versatili come il cervello. Il primo passo per creare algoritmi versatili e flessibili è capire cosa significa per un sistema essere intelligente, e l’intelligenza è legata alla capacità di discernere i modelli e le regole di un ambiente complesso. Guardando avanti al futuro, con l’obiettivo di sviluppare algoritmi altrettanto potenti e versatili come il cervello, il primo passo per creare algoritmi versatili e flessibili è capire cosa significa per un sistema essere intelligente, e l’intelligenza è legata alla capacità di discernere i modelli e le regole di un ambiente complesso.

Daniel Nelson

Blogger e programmatore con specializzazioni in Machine Learning e Deep Learning argomenti. Daniel spera di aiutare gli altri a utilizzare il potere dell'AI per il bene sociale.

Unite.AI

Il nuovo AI di DeepMind è in grado di imparare le regole di un gioco mentre lo gioca

Sistema di intelligenza artificiale – MuZero

Applicazioni possibili

Scopri di più