Connect with us

Tankeledere

Spilgenereret data kan være den mest undervurderede ressource i AI-træning

mm

AI-virksomheder har brugt de sidste fem år på at forbruge hver eneste tekst, hver enkelt billed og hver enkelt skræv af offentligt tilgængelige data på internettet. Denne forsyning er endelig, og vi er tæt på at nå det punkt, hvor der simpelthen ikke er nok data tilbage til at opretholde den fremgang, det er kommet til at afhænge af.

Der er dog en åbenlys kandidat, som AI-industrien i stor udstrækning har overset.

Jeg bygger spilsystemer til livets oprethold, og de data, der strømmer gennem dem hver enkelt dag, er noget, som de fleste AI-forskere aldrig har arbejdet med før. Og alligevel synes næsten ingen uden for spilbranchen at være opmærksom på det.

Spilplatforme genererer terabytes af adfærdsdata hver dag, strukturerede strømme af realtidsbeslutninger, økonomisk aktivitet og social interaktion, alt sammen inde i miljøer bygget på konsistente fysiske regler.

Næsten ingen af disse data er blevet brugt til AI-træning. Og de virksomheder, der har brugt dem, fra DeepMind til NVIDIA, har produceret nogle af de mest betydningsfulde gennembrud i feltet.

AI’s data-problem

En undersøgelse fra Epoch AI projicerer, at lageret af offentligt tilgængelige, menneskeskabte tekstdata vil være fuldt udnyttet et sted mellem 2026 og 2032. Modellerne bag ChatGPT, Gemini og Claude har allerede forbrugt næsten alt, hvad internettet har at tilbyde.

Syntetisk data eller tekst, som AI genererer for at føde tilbage i AI, er branchens foretrukne løsning. Men modeller, der er trænet på deres egen output, forringes over tid gennem et dokumenteret fænomen, som forskere kalder model-kollaps.

Hvad jeg mener, at feltet har brug for, er en rig, interaktiv, multimodal information, hvor årsag og virkning sker i realtid, og hvor hver handling har en målbar konsekvens. Spil producerer netop dette, og de gør det i en skala, som næsten intet andet kan matche.

Spilplatforme skyder terabytes af adfærdsdata gennem deres systemer hver dag. Spilleres bevægelser, strategiske valg, reaktionstider, økonomiske transaktioner og sociale interaktioner strømmer alle gennem strukturerede, tidsstemplede strømme, som de fleste AI-forskere aldrig har rørt.

En ny akademisk artikel om spilgenereret data lægger frem en ni-kategorisk taksonomi over denne information og argumenterer for, at det overvejende flertal af den forbliver fuldstændigt urørt af AI-industrien.

Jeg kan bekræfte det fra min egen erfaring. Mængden af data, der strømmer gennem vores spilsystemer på en given dag, ville blive betragtet som en guldmine i enhver anden område af AI-forskning. I spil bliver det bare arkiveret eller smidt væk.

Hvorfor spildata er anderledes

Når du bygger inde i en spilmotor i lang tid, begynder du at realisere, hvor meget struktureret data du sidder på, som ingen i AI har bedt om endnu. Hver session producerer synkroniseret fysik, spilleradfærd og systemniveau-årsag og virkning i en skala, som er svær at finde andre steder.

Spilmotorer tvinger fysik. Objekter falder, kolliderer og bryder efter konsistente regler, hvilket betyder, at data indeholder årsagsforhold indbygget på systemniveau snarere end mønstre, som en model skal gætte på fra tekstkorrelationer.

Når en spiller affyrer et projekt, beregner motoren banen, luftmodstand og påvirkning. AI lærer af et miljø, som demonstrerer fysik direkte gennem hver interaktion, snarere end et, som behandler fysiske love som statistiske approksimationer.

Der er også det multimodale alignmentsproblem. I et spil forekommer visuel data, lydkilder, spillerindtastninger og miljøtilstand samtidigt og bliver logget sammen. Den slags naturlige synkronisering koster en formue at reproducere i virkelige datasæt, hvor forskere typisk skal mærke og alignere hver modalitet for hånd.

Spil producerer også kanttilfælde i stor skala gennem procedurally genereret indhold. No Man’s Sky har 18 quintillion unikke planeter, og for AI betyder den variation enormt, fordi kanttilfælde bestemmer, om en model virker pålideligt eller fejler farligt.

Og så er der den emergente kompleksitet, som måske er den mest værdifulde egenskab af alle. Når OpenAI satte agenter i et simpelt gemmespil, udviklede disse agenter seks distinkte faser af sofistikeret strategi helt på egen hånd over hundredvis af millioner af runder.

De byggede skjulesteder af flytbare objekter, brugte ramper til at bryde igennem befæstninger og udnyttede endda fysikfejl til at surfe kasser over mure. Ingen af det var programmeret. Alt det opstod fra konkurrence inden for spilmiljøet uden en enkelt linje kode, der sagde til dem at gøre noget som helst.

Den slags selvgenereret kompleksitet er netop, hvad AI-forskning har brug for i stor skala, og spil er de eneste miljøer, der producerer det pålideligt uden dyrt menneskeligt tilsyn.

Fra spilbrætter til Nobelpriser

Det klareste bevis på, at spil-trænet AI overføres til den virkelige verden, er et system, der gik videre til at vinde en Nobelpris, og det er eksemplet, jeg altid kommer tilbage til, når folk spørger mig, hvorfor jeg byggede min karriere omkring spil og AI.

DeepMind startede med AlphaGo i 2016, byggede derefter AlphaZero, et system, der lærte sig selv at spille skak, Go og shogi uden nogen menneskelig viden. AlphaZeros arkitektur blev grundlaget for AlphaFold, som løste det 50 år gamle protein-foldningsproblem og fik sine skabere til at vinde Nobelprisen i kemi i 2024.

DeepMind-direktør Demis Hassabis har været åben om denne pipeline. Han fortalte Scientific American, at spil aldrig var det endelige mål, men snarere den mest effektive måde at udvikle og teste AI-teknikker, før han anvendte dem på virkelige videnskabelige problemer.

Jeg husker at have læst det og følt, at nogen havde formuleret præcis, hvad jeg havde set fra indersiden af spiludvikling i år.

Denne vej har siden gentaget sig på tværs af feltet. De forstærkede læringsmiljøer, som OpenAI først standardiserede gennem Gymnasium, ligger nu til grund for forskning i robotteknologi, autonome køretøjer og industriautomatisering.

Det spil-lignende struktur af agent, miljø, handling og belønning startede som en forskningsbevægelighed og er siden blevet det standard framework for enhver AI-system, der skal handle i den fysiske verden.

Spil som det nye simulationslag

I december 2025 frigav NVIDIA NitroGen, et grundlæggende model trænet på 40.000 timers spil på tværs af over 1.000 titler. Modellen ser offentligt tilgængelige spilvideoer, udtrækker spillerhandlinger fra controller-overlæg og lærer at spille spil direkte fra rå pixler.

På usete spil, som den aldrig havde mødt før, viste NitroGen op til 52% forbedring i opgave succes i forhold til modeller trænet fra scratch. Men den virkelige betydning ligger i arkitekturen under.

NitroGen kører på NVIDIAs GR00T-robotikframework, det samme grundlag, som virksomheden bruger til fysisk AI og sim-til-virkelighedsoverføring i sin Isaac Sim-platform. Spilagenten og fabriksrobotten deler det samme underliggende system.

NVIDIAs Jim Fan beskrev projektet som et forsøg på at bygge “en GPT for handlinger”, en generel model, der lærer at operere i enhver miljø.

Som en, der bygger spilsystemer, der genererer netop den slags data, disse modeller forbruger, finder jeg det svært at overdrive, hvad det betyder for den industri, jeg arbejder i.

Og det er ikke begrænset til NVIDIA. Waymo har logget over 20 milliarder simulerede mil til at træne deres autonome køretøjer, alt sammen i spilmotor-lignende miljøer, der øver scenarier, der er for farlige eller for sjældne til at teste på virkelige veje.

Kirurgiske platforme bygget på spilmotorer har vist dramatiske forbedringer i træning af kirurger. Byplanlæggere bruger lignende værktøjer til trafikoptimering på byniveau.

Kirurgiske platforme bygget på spilmotorer har vist dramatiske forbedringer i træning af kirurger. Byplanlæggere bruger lignende værktøjer til trafikoptimering på byniveau. Spilmotoren er blevet et universelt simulationslag, hvor som helst AI skal lære gennem interaktion med sin omverden.

Infrastrukturen, som ingen taler om

Når folk diskuterer AI-infrastruktur, mener de typisk datacentre, GPU-klynger og beregning. I alle de år, jeg har arbejdet med spil, kan jeg tælle på én hånd, hvor mange gange jeg har hørt nogen i AI-rummet nævne spilmiljøer i samme åndedrag. Denne afkopling vil lukke sig meget hurtigt.

Dette vil kun blive mere åbenbart, da traditionelle datasæt løber tør. De industrier, der producerer den rigeste interaktive data, vil uundgåeligt bevæge sig mod center af AI-forskning, og spil, simulationer og virtuelle verdener er bedre positioneret end noget andet til at udfylde denne lukke.

Pengene følger allerede denne trend. AI i spilsektoren blev vurderet til 4,54 milliarder dollars i 2025 og forventes at 81 milliarder dollars i 2035.

De fleste spilstudier, jeg taler med, ser stadig på sig selv som underholdningsvirksomheder. Men når dine systemer genererer præcis den data, som den næste generation af AI-modeller har brug for til træning, er du i infrastrukturbranchen, uanset om du havde planlagt det eller ej.

Ilman Shazhaev er grundlægger og administrerende direktør for Dizzaract, det største spilstudio i MENA-regionen. Han er AI-forsker og FN-ekspert under UNODC-programmet, der arbejder ved skæringen af kunstig intelligens og virkelystisk impact.