Connect with us

Leader di pensiero

I dati generati dai giochi potrebbero essere la risorsa più sottovalutata nell’addestramento dell’AI

mm

Le aziende di intelligenza artificiale hanno trascorso gli ultimi cinque anni consumando ogni pezzo di testo, ogni immagine e ogni scarto di dati pubblicamente disponibili su Internet. Quella fornitura è finita, e ci stiamo avvicinando al punto in cui semplicemente non ci sarà abbastanza dati per sostenere il ritmo del progresso a cui è abituata.

Tuttavia, c’è un candidato ovvio che l’industria dell’AI ha largamente trascurato.

Costruisco sistemi di gioco per vivere, e i dati che fluiscono attraverso di essi ogni giorno sono diversi da qualsiasi cosa la maggior parte dei ricercatori di AI abbia mai lavorato. Eppure, quasi nessuno al di fuori del settore dei giochi sembra prestare attenzione a esso.

Le piattaforme di gioco generano terabyte di dati comportamentali ogni giorno, flussi strutturati di decisioni in tempo reale, attività economica e interazione sociale, tutti all’interno di ambienti costruiti su regole fisiche coerenti.

Quasi nessuno di questi dati è stato utilizzato per l’addestramento dell’AI. E le aziende che li hanno utilizzati, da DeepMind a NVIDIA, hanno prodotto alcuni dei più significativi progressi nel settore.

Il problema dei dati dell’AI

Uno studio di Epoch AI prevede che il stock di dati di testo generati dall’uomo e pubblicamente disponibili sarà completamente utilizzato da qualche parte tra il 2026 e il 2032. I modelli dietro ChatGPT, Gemini e Claude hanno già consumato essenzialmente tutto ciò che Internet ha da offrire.

I dati sintetici o il testo che l’AI genera per alimentare se stessa è il workaround dell’industria. Ma i modelli addestrati con la propria produzione peggiorano nel tempo attraverso un fenomeno documentato che i ricercatori chiamano crollo del modello.

Credo che il settore abbia bisogno di informazioni ricche, interattive e multimodali in cui causa ed effetto si verifichino in tempo reale e ogni azione abbia una conseguenza misurabile. I giochi producono esattamente questo, e lo fanno a una scala che quasi nulla altro può eguagliare.

Le piattaforme di gioco spingono terabyte di dati comportamentali attraverso i loro sistemi ogni giorno. I movimenti dei giocatori, le scelte strategiche, i tempi di reazione, le transazioni economiche e le interazioni sociali scorrono tutti attraverso flussi strutturati e contrassegnati dal tempo che la maggior parte dei ricercatori di AI non ha mai toccato.

Un recente articolo accademico sui dati generati dai giochi stabilisce una tassonomia a nove categorie di queste informazioni e sostiene che la stragrande maggioranza di esse rimane completamente inutilizzata dall’industria dell’AI.

Posso confermarlo dalla mia esperienza. La quantità di dati che fluisce attraverso i nostri sistemi di gioco in qualsiasi giorno dato sarebbe considerata una miniera d’oro in qualsiasi altra area di ricerca di AI. Nei giochi, semplicemente viene archiviata o scartata.

Perché i dati dei giochi sono diversi

Quando costruisci all’interno di un motore di gioco per molto tempo, inizi a renderti conto di quanto dati strutturati tu stia seduto su cui nessuno in AI ha ancora chiesto. Ogni sessione produce fisica sincronizzata, comportamento del giocatore e causa ed effetto a livello di sistema a una scala che è difficile trovare da qualsiasi altra parte.

I motori di gioco applicano la fisica. Gli oggetti cadono, collidono e si rompono in base a regole coerenti, il che significa che i dati portano relazioni di causa ed effetto incorporate a livello di sistema piuttosto che modelli che devono indovinare da correlazioni di testo.

Quando un giocatore lancia un proiettile, il motore calcola la traiettoria, la resistenza del vento e l’impatto. L’AI apprende da un ambiente che dimostra la fisica direttamente attraverso ogni interazione, piuttosto che uno che tratta le leggi fisiche come approssimazioni statistiche.

C’è anche il problema di allineamento multimodale. In un gioco, dati visivi, suggerimenti audio, input del giocatore e stato ambientale si verificano tutti contemporaneamente e vengono registrati insieme. Quel tipo di sincronizzazione naturale costa una fortuna per riprodurla in set di dati del mondo reale, dove i ricercatori devono normalmente etichettare e allineare ogni modalità a mano.

I giochi producono casi limite a scala, anche, attraverso la generazione di contenuti procedurali. No Man’s Sky ha 18 quintilioni di pianeti unici, e per l’AI, quella variazione è enormemente importante perché i casi limite determinano se un modello funziona in modo affidabile o fallisce pericolosamente.

E poi c’è la complessità emergente, che potrebbe essere la proprietà più preziosa di tutte. Quando OpenAI ha collocato agenti in un semplice gioco di nascondino, quegli agenti hanno sviluppato sei fasi distinte di strategia sofisticata interamente da soli nel corso di centinaia di milioni di round.

Hanno costruito rifugi da oggetti mobili, utilizzato rampe per violare fortificazioni ed hanno anche sfruttato glitch fisici per surfare scatole oltre i muri. Nessuno di questo è stato programmato. È emerso dalla competizione all’interno dell’ambiente del gioco, senza una sola riga di codice che gli abbia detto di farlo.

Quel tipo di complessità auto-generata è esattamente ciò di cui l’AI ha bisogno a scala, e i giochi sono l’unico ambiente che la produce in modo affidabile senza costosa supervisione umana.

Dai giochi da tavolo ai premi Nobel

La prova più chiara che l’AI addestrata con i giochi si trasferisce nel mondo reale è un sistema che è andato a vincere un premio Nobel, ed è l’esempio a cui continuo a tornare quando la gente mi chiede perché ho costruito la mia carriera intorno ai giochi e all’AI.

DeepMind ha iniziato con AlphaGo nel 2016, poi ha costruito AlphaZero, un sistema che si è insegnato a giocare a scacchi, Go e shogi senza alcuna conoscenza umana. L’architettura di AlphaZero è diventata la base per AlphaFold, che ha risolto il problema di folding delle proteine di 50 anni e ha guadagnato ai suoi creatori il premio Nobel per la chimica del 2024.

Il CEO di DeepMind, Demis Hassabis, è stato aperto su questa pipeline. Ha detto a Scientific American che i giochi non erano mai stati l’obiettivo finale, ma piuttosto il modo più efficiente per sviluppare e testare le tecniche di AI prima di applicarle a problemi scientifici reali.

Ricordo di aver letto questo e di aver sentito come se qualcuno avesse articolato esattamente ciò che avevo visto dall’interno dello sviluppo dei giochi per anni.

Quella traiettoria si è poi ripetuta in tutto il settore. Gli ambienti di apprendimento per rinforzo che OpenAI ha standardizzato per prima attraverso Gymnasium sono ora alla base della ricerca in robotica, veicoli autonomi e automazione industriale.

La struttura da gioco dell’agente, dell’ambiente, dell’azione e della ricompensa è iniziata come una comodità di ricerca e ora è diventata la struttura predefinita per qualsiasi sistema di AI che debba agire nel mondo fisico.

I giochi come il nuovo strato di simulazione

A dicembre 2025, NVIDIA ha rilasciato NitroGen, un modello di base addestrato su 40.000 ore di gioco attraverso più di 1.000 titoli. Il modello guarda video di gioco pubblicamente disponibili, estrae azioni del giocatore da sovrapposizioni del controller e apprende a giocare direttamente da pixel grezzi.

Su giochi non visti che non aveva mai incontrato, NitroGen ha mostrato fino al 52% di miglioramento nel successo delle attività rispetto ai modelli addestrati da zero. Ma la vera importanza risiede nell’architettura sottostante.

NitroGen funziona sul framework di robotica GR00T di NVIDIA, la stessa base che l’azienda utilizza per il trasferimento sim-to-real e l’AI fisica nella sua piattaforma Isaac Sim. L’agente di gioco e il robot di fabbrica condividono lo stesso sistema sottostante.

Jim Fan di NVIDIA ha descritto il progetto come un tentativo di costruire “un GPT per azioni”, un modello generale che apprende a operare in qualsiasi ambiente.

Come persona che costruisce sistemi di gioco che generano esattamente il tipo di dati che questi modelli consumano, trovo difficile esagerare cosa significhi per l’industria in cui lavoro.

E questo non è limitato a NVIDIA. Waymo ha registrato oltre 20 miliardi di miglia simulate per addestrare i suoi veicoli autonomi, tutti in ambienti simili ai giochi che provano scenari troppo pericolosi o troppo rari per testarli su strade reali.

Le piattaforme chirurgiche costruite su motori di gioco hanno mostrato miglioramenti drammatici nelle prestazioni dei tirocinanti. Gli urbanisti utilizzano strumenti simili per l’ottimizzazione del traffico a livello di città.

Le piattaforme chirurgiche costruite su motori di gioco hanno mostrato miglioramenti drammatici nelle prestazioni dei tirocinanti. Gli urbanisti utilizzano strumenti simili per l’ottimizzazione del traffico a livello di città. Il motore di gioco è diventato uno strato di simulazione universale ovunque l’AI debba apprendere attraverso l’interazione con il suo ambiente.

L’infrastruttura di cui nessuno parla

Quando le persone discutono dell’infrastruttura dell’AI, tendono a significare centri di dati, cluster di GPU e calcolo. In tutti gli anni in cui ho lavorato nei giochi, posso contare sulle dita di una mano il numero di volte in cui ho sentito qualcuno nello spazio dell’AI menzionare ambienti di gioco nella stessa frase. Quella disconnessione si chiuderà molto rapidamente.

Ciò diventerà ancora più ovvio man mano che i set di dati tradizionali si esauriranno. Le industrie che producono le informazioni interattive più ricche si muoveranno inevitabilmente verso il centro della ricerca sull’AI, e i giochi, le simulazioni e i mondi virtuali sono meglio posizionati di qualsiasi altra cosa per colmare quel divario.

I soldi stanno già seguendo questa tendenza. L’AI nel settore dei giochi è stata valutata 4,54 miliardi di dollari nel 2025 e si prevede che raggiunga 81 miliardi di dollari entro il 2035.

La maggior parte degli studi di gioco con cui parlo ancora pensa a se stessa come un’azienda di intrattenimento. Ma quando i tuoi sistemi generano esattamente i dati di cui il prossimo modello di AI ha bisogno per l’addestramento, sei nell’industria dell’infrastruttura che tu lo abbia pianificato o no.

Ilman Shazhaev è il fondatore e amministratore delegato di Dizzaract, il più grande studio di giochi nel MENA region. È un ricercatore di intelligenza artificiale e un esperto delle Nazioni Unite nel programma UNODC che lavora all'intersezione dell'intelligenza artificiale e dell'impatto sul mondo reale.