Connect with us

Tankeledere

Spillgenerert data kan være den mest undervurderte ressursen i AI-trening

mm

AI-selskaper har brukt de siste fem årene på å forbruke hver eneste tekst, hver eneste bilde og hver eneste skrap av offentlig tilgjengelig data på internettet. Denne forsyningen er begrenset, og vi nærmer oss punktet der det enkelt og alene ikke er nok data igjen til å opprettholde fremgangen det har kommet til å avhenge av.

Det er imidlertid en åpenbar kandidat som AI-industrien i stor grad har overseen.

Jeg bygger spill-systemer for livets skyld, og dataene som strømmer gjennom dem hver eneste dag er ulike noe de fleste AI-forskere noen gang har arbeidet med. Og likevel synes nesten ingen utenfor spill-verdenen å være oppmerksom på det.

Spillplattformer genererer terabytevis av atferdsdata hver eneste dag, strukturerte strømmer av sanntidsbeslutninger, økonomisk aktivitet og sosial interaksjon, alt innen miljøer bygget på konsistente fysiske regler.

Nesten ingen av disse dataene har blitt brukt til AI-trening. Og selskapene som har brukt dem, fra DeepMind til NVIDIA, har produsert noen av de mest betydelige gjennombruddene i feltet.

AI’s data-problem

En studie fra Epoch AI prognoser at lageret av offentlig tilgjengelig, menneske-generert tekstdata vil være fullstendig brukt opp et sted mellom 2026 og 2032. Modellene bak ChatGPT, Gemini og Claude har allerede forbrukt essensielt alt internettet har å tilby.

Syntetisk data eller tekst som AI genererer for å mate tilbake til AI er bransjens standard-løsning. Men modeller trent på egen utgang degraderer over tid gjennom et dokumentert fenomen forskere kaller modell-kollaps.

Hva jeg tror feltet trenger er en rik, interaktiv, multimodal informasjon hvor årsak og virkning skjer i sanntid og hver handling har en målbart konsekvens. Spill produserer nettopp dette, og de gjør det i en skala som nesten ingenting annet kan matche.

Spillplattformer skyver terabytevis av atferdsdata gjennom systemene sine hver eneste dag. Spill-bevegelser, strategiske valg, reaksjonstider, økonomiske transaksjoner og sosiale interaksjoner flyter alle gjennom strukturerte, tidsstemplede strømmer som de fleste AI-forskere aldri har berørt.

En nylig akademisk artikkel om spill-generert data presenterer en ni-kategorisk taksonomi over denne informasjonen og argumenterer for at det meste av den forblir fullstendig utnyttet av AI-industrien.

Jeg kan bekrefte det fra min egen erfaring. Mengden data som strømmer gjennom våre spill-systemer på en hvilken som helst dag ville bli betraktet som en gullgruve i noen som helst annen del av AI-forskning. I spill-verdenen blir det bare arkivert eller kastet.

Hvorfor spill-data er forskjellig

Når du bygger innenfor et spill-motor i lang tid, begynner du å realisere hvor mye strukturert data du sitter på som ingen i AI har bedt om ennå. Hver sesjon produserer synkronisert fysikk, spill-behavior og system-nivå årsak og virkning i en skala som er vanskelig å finne noen andre steder.

Spill-motorer tvinger fysikk. Objekter faller, kolliderer og brytes i henhold til konsistente regler, noe som betyr at dataene bærer årsaksforhold innbygget på system-nivå snarere enn mønster en modell må gjette på fra tekst-korrelasjoner.

Når en spiller lanserer et prosjektil, beregner motoren banen, luftmotstand og impakt. AI lærer fra et miljø som demonstrerer fysikk direkte gjennom hver interaksjon, snarere enn ett som behandler fysiske lover som statistiske approksimasjoner.

Det er også det multimodale sammenstillings-problemet. I et spill skjer visuell data, lyd-koder, spill-innputt og miljø-tilstand samtidig og blir logget sammen. Den type naturlig sammenstilling koster en formue å replikere i virkelige datasamlinger, der forskere vanligvis må merke og sammenstille hver modalitet for hånd.

Spill produserer edge-cases i skala, også, gjennom prosedyrisk innhold-generering. No Man’s Sky har 18 quintillioner unike planeter, og for AI betyr variasjonen enormt mye fordi edge-cases bestemmer om en modell fungerer pålitelig eller feiler farlig.

Og så er det emergent kompleksitet, som kanskje er den mest verdifulle egenskapen av alle. Når OpenAI plasserte agenter i et enkelt gjemmelse-spill, utviklet disse agentene seks distinkte faser av sofistikert strategi fullstendig på egen hånd over hundre millioner runder.

De bygget skjul av flyttbare objekter, brukte ramper for å bryte gjennom festningsverk og utnyttet fysikk-feil for å surfe bokser over vegger. Ingen av det var programmert. Alt oppstod fra konkurranse innen spill-miljøet, uten en eneste kode-linje som sa til dem å gjøre noen av det.

Den type selv-generert kompleksitet er nettopp hva AI-forskning trenger i skala, og spill er de eneste miljøene som produserer det pålitelig uten dyrekjøpt menneskelig tilsyn.

Fra spill-brett til Nobel-priser

Det tydeligste beviset på at spill-trent AI overfører til den virkelige verden er et system som gikk videre til å vinne en Nobel-pris, og det er eksempelet jeg kommer tilbake til når folk spør meg hvorfor jeg bygget min karriere rundt spill og AI.

DeepMind startet med AlphaGo i 2016, deretter bygget de AlphaZero, et system som lærte seg sjakk, Go og shogi uten noen menneskelig kunnskap. AlphaZeros arkitektur ble grunnlaget for AlphaFold, som løste det 50 år gamle protein-folding-problemet og vant Nobel-prisen i kjemi i 2024.

DeepMind-sjef Demis Hassabis har vært åpen om denne pipeline-en. Han fortalte Scientific American at spill aldri var målet, men snarere den mest effektive måten å utvikle og teste AI-teknikker før han anvendte dem på virkelige vitenskapelige problemer.

Jeg husker å ha lest det og følt at noen hadde formulert nettopp hva jeg hadde sett fra innsiden av spill-utvikling i årevis.

Den banen har siden repetert seg over hele feltet. Forsterkningslærings-miljøene som OpenAI først standardiserte gjennom Gymnasium ligger nå til grunn for forskning i robotikk, autonome kjøretøy og industriell automatisering.

Spill-lignende struktur av agent, miljø, handling og belønning startet som en forsknings-behagelighet og har siden blitt standard-rammeverket for ethvert AI-system som må handle i den fysiske verden.

Spill som det nye simulerings-laget

I desember 2025 utga NVIDIA NitroGen, en grunn-modell trent på 40 000 timer med spill over mer enn 1 000 titler. Modellen ser på offentlig tilgjengelige spill-videoer, trekker ut spill-handlinger fra kontroller-overlappende og lærer å spille spill direkte fra rå piksler.

På usette spill den aldri hadde møtt, viste NitroGen opp til 52 % forbedring i oppgave-suksess sammenlignet med modeller trent fra scratch. Men den virkelige betydningen ligger i arkitekturen under.

NitroGen kjører på NVIDIA-s GR00T-robotikk-rammeverk, samme grunnlag selskapet bruker for fysisk AI og sim-til-virkelig overføring i sin Isaac Sim-plattform. Spill-agenten og fabrikk-roboten deler samme underliggende system.

NVIDIA-s Jim Fan beskrev prosjektet som et forsøk på å bygge “en GPT for handlinger”, en generell modell som lærer å operere i ethvert miljø.

Som noen som bygger spill-systemer som genererer nettopp den type data disse modellene forbruker, finner jeg det vanskelig å overdrive hva det betyr for industrien jeg arbeider i.

Og dette er ikke begrenset til NVIDIA. Waymo har loggert over 20 milliarder simulerings-mil for å trene sine autonome kjøretøy, alt i spill-motor-lignende miljøer som øver scenarioer som er for farlige eller for sjeldne til å teste på virkelige veier.

Kirurgiske plattformer bygget på spill-motorer har vist dramatiske forbedringer i trenings-prestasjon. By-planleggere bruker lignende verktøy for trafikk-optimalisering på by-skala.

Kirurgiske plattformer bygget på spill-motorer har vist dramatiske forbedringer i trenings-prestasjon. By-planleggere bruker lignende verktøy for trafikk-optimalisering på by-skala. Spill-motoren har blitt et universelt simulerings-lag hvor AI må lære gjennom interaksjon med sitt miljø.

Infrastrukturen ingen snakker om

Når folk diskuterer AI-infrastruktur, mener de vanligvis data-sentre, GPU-kluster og beregning. I alle årene jeg har arbeidet i spill, kan jeg telle på én hånd hvor mange ganger jeg har hørt noen i AI-rommet nevne spill-miljøer i samme åndedrag. Denne koblingen vil lukke svært raskt.

Dette vil bare bli mer åpenbart når tradisjonelle datasamlinger tømmes. Industriene som produserer de rikeste interaktive dataene vil uunngåelig bevege seg mot sentrum av AI-forskning, og spill, simulasjoner og virtuelle verdener er bedre posisjonert enn noe annet til å fylle denne gapen.

Pengene følger allerede denne trenden. AI i spill-sektoren ble verdsatt til 4,54 milliarder dollar i 2025 og forventes å 81 milliarder dollar i 2035.

De fleste spill-studioer jeg snakker med, tenker fortsatt på seg selv som underholdningsselskaper. Men når systemene dine genererer nettopp den type data neste generasjons AI-modeller trenger for å trene på, er du i infrastruktur-bransjen uansett om du planla det eller ikke.

Ilman Shazhaev er grunnlegger og administrerende direktør i Dizzaract, det største spillstudioet i MENA-regionen. Han er en AI-forsker og FN-ekspert under UNODC-programmet som arbeider i skjæringspunktet mellom kunstig intelligens og virkelige verdensutfall.