Thought leaders
Door het spel gegenereerde gegevens kunnen de meest onderschatte bron in AI-training zijn

AI-bedrijven hebben de afgelopen vijf jaar elke tekst, elk beeld en elk stukje openbaar beschikbare gegevens op internet verbruikt. Die voorraad is eindig en we komen dichter bij het punt waarop er gewoon niet genoeg gegevens over zijn om het tempo van de vooruitgang te ondersteunen waarop het is gaan vertrouwen.
Er is echter een voor de hand liggende kandidaat die de AI-industrie grotendeels heeft genegeerd.
Ik bouw spelystemen voor de kost en de gegevens die elke dag door hen heen stromen, zijn niet te vergelijken met iets waar de meeste AI-onderzoekers ooit mee hebben gewerkt. En toch lijkt bijna niemand buiten de gamewereld aandacht te schenken aan het.
Gamingplatforms genereren elke dag terabytes aan gedragsgegevens, gestructureerde stromen van real-time beslissingen, economische activiteit en sociale interactie, allemaal binnen omgevingen die zijn gebouwd op consistente fysieke regels.
Bijna geen van deze gegevens zijn gebruikt voor AI-training. En de bedrijven die het wel hebben gebruikt, van DeepMind tot NVIDIA, hebben enkele van de belangrijkste doorbraken in het veld behaald.
Het dataprobleem van AI
Een onderzoek van Epoch AI projecteert dat de voorraad openbaar beschikbare, door mensen gegenereerde tekstgegevens tussen 2026 en 2032 volledig zal zijn gebruikt. De modellen achter ChatGPT, Gemini en Claude hebben al bijna alles verbruikt wat het internet te bieden heeft.
Synthetische gegevens of tekst die AI genereert om terug te voeren naar AI, is de tijdelijke oplossing van de industrie. Maar modellen die zijn getraind op hun eigen uitvoer, verslechteren in de loop van de tijd door een gedocumenteerd fenomeen dat onderzoekers modelcollapse noemen.
Wat ik geloof dat het veld nodig heeft, is een rijke, interactieve, multimodale informatie waar oorzaak en gevolg in real-time plaatsvinden en elke actie een meetbare consequentie heeft. Spellen produceren precies dit en doen het op een schaal die bijna niets anders kan evenaren.
Gamingplatforms duwen elke dag terabytes aan gedragsgegevens door hun systemen heen. Spelersbewegingen, strategische keuzes, reactietijden, economische transacties en sociale interacties stromen allemaal door gestructureerde, getijdstemplede stromen die de meeste AI-onderzoekers nooit hebben aangeraakt.
Een recent academisch artikel over door het spel gegenereerde gegevens legt een negencategorieën-taxonomie van deze informatie vast en stelt dat het merendeel ervan nog steeds ongebruikt blijft door de AI-industrie.
Ik kan dat bevestigen uit mijn eigen ervaring. De hoeveelheid gegevens die elke dag door onze spelystemen stroomt, zou in elk ander gebied van AI-onderzoek een goudmijn zijn. In games wordt het gewoon gearchiveerd of weggegooid.
Waarom spelgegevens anders zijn
Wanneer je lang genoeg inside een game-engine bouwt, begin je te realiseren hoeveel gestructureerde gegevens je zit op die niemand in AI heeft gevraagd. Elke sessie produceert gesynchroniseerde fysica, spelersgedrag en systeemniveau-oorzaak en gevolg op een schaal die moeilijk te vinden is elders.
Game-engines dwingen fysica af. Objecten vallen, botsen en breken volgens consistente regels, wat betekent dat de gegevens causale relaties bevatten die zijn ingebakken op systeemniveau in plaats van patronen die een model moet raden uit tekstcorrelaties.
Wanneer een speler een projectiel lanceert, berekent de engine de baan, de luchtwering en de impact. De AI leert van een omgeving die fysica rechtstreeks demonstreert door elke interactie, in plaats van een die fysieke wetten behandelt als statistische benaderingen.
Er is ook het multimodale aligneerprobleem. In een spel vinden visuele gegevens, audiocues, spelerinvoer en omgevingsstatus allemaal tegelijk plaats en worden ze samen gelogd. Dat soort natuurlijke synchronisatie kost een fortuin om te repliceren in real-world datasets, waar onderzoekers typisch elke modaliteit met de hand moeten labelen en aligneren.
Spellen produceren randgevallen op schaal, eveneens, door procedurale contentgeneratie. No Man’s Sky heeft 18 quintillion unieke planeten, en voor AI is die variatie enorm belangrijk omdat randgevallen bepalen of een model betrouwbaar werkt of gevaarlijk faalt.
En dan is er de emergente complexiteit, die misschien wel de meest waardevolle eigenschap van alle is. Toen OpenAI agents in een eenvoudig hide-and-seek-spel plaatste, ontwikkelden die agents zes verschillende fasen van geavanceerde strategie helemaal op eigen kracht over honderden miljoenen rondes.
Ze bouwden schuilplaatsen van verplaatsbare objecten, gebruikten hellingen om versterkingen te doorbreken en zelfs benutten fysieke glitches om dozen over muren te surfen. Niets daarvan was geprogrammeerd. Het kwam allemaal voort uit de concurrentie binnen de spelomgeving, zonder één regel code die ze vertelde om het te doen.
Die soort zelfgegenereerde complexiteit is precies wat AI-onderzoek op grote schaal nodig heeft, en spellen zijn de enige omgevingen die het betrouwbaar produceren zonder dure menselijke toezicht.
Van speelborden tot Nobelprijzen
Het duidelijkste bewijs dat spelgetrainde AI overdraagbaar is naar de echte wereld is een systeem dat een Nobelprijs won, en het is het voorbeeld dat ik steeds weer geef wanneer mensen me vragen waarom ik mijn carrière rond spellen en AI heb opgebouwd.
DeepMind begon met AlphaGo in 2016, bouwde vervolgens AlphaZero, een systeem dat zichzelf schaak, Go en shogi leerde zonder enige menselijke kennis. AlphaZero’s architectuur werd de basis voor AlphaFold, die het 50 jaar oude eiwitvouwprobleem oploste en de makers de Nobelprijs voor Scheikunde 2024 opleverde.
DeepMind-CEO Demis Hassabis is openhartig over deze pijplijn. Hij vertelde Scientific American dat spellen nooit het einddoel waren, maar eerder de meest efficiënte manier om AI-technieken te ontwikkelen en te testen voordat hij ze toepaste op echte wetenschappelijke problemen.
Ik herinner me dat ik dat las en voelde alsof iemand precies had geformuleerd wat ik van binnenuit de spelontwikkeling al jaren zag.
Die traject is sindsdien herhaald over het hele veld. De versterkingsleeromgevingen die OpenAI eerst standaardiseerde via Gymnasium, ondersteunen nu onderzoek in robotica, autonome voertuigen en industriële automatisering.
De spel-achtige structuur van agent, omgeving, actie en beloning begon als een onderzoeksconvenientie en is sindsdien het standaardkader geworden voor elk AI-systeem dat in de fysieke wereld moet handelen.
Spellen als de nieuwe simulatielaag
In december 2025 bracht NVIDIA NitroGen uit, een foundation model getraind op 40.000 uur aan gameplay over meer dan 1.000 titels. Het model kijkt naar openbaar beschikbare gameplay-video’s, haalt speleracties op uit controller-overlays en leert spellen te spelen rechtstreeks vanuit ruwe pixels.
Op ongeziene spellen die het nooit had ontmoet, toonde NitroGen tot 52% verbetering in taakgeslaagdheid ten opzichte van modellen getraind van scratch. Maar de echte betekenis ligt in de architectuur eronder.
NitroGen draait op NVIDIA’s GR00T-roboticsframework, hetzelfde fundament dat het bedrijf gebruikt voor fysieke AI en sim-to-real transfer in zijn Isaac Sim-platform. De gamingagent en de fabrieksrobot delen hetzelfde onderliggende systeem.
NVIDIA’s Jim Fan beschreef het project als een poging om “een GPT voor acties” te bouwen, een algemeen doelmodel dat leert te opereren in elke omgeving.
Als iemand die spelystemen bouwt die precies het soort gegevens produceren die deze modellen verbruiken, vind ik het moeilijk om te overdrijven wat dit voor de industrie betekent waarin ik werk.
En dit is niet beperkt tot NVIDIA. Waymo heeft meer dan 20 miljard gesimuleerde mijlen gereden om zijn autonome voertuigen te trainen, allemaal in game-engine-achtige omgevingen die scenario’s repeteren die te gevaarlijk of te zeldzaam zijn om op echte wegen te testen.
Chirurgische platforms gebouwd op game-engines hebben dramatische verbeteringen getoond in de prestaties van trainees. Stedelijke planners gebruiken soortgelijke tools voor verkeersoptimalisatie op stedelijke schaal.
Chirurgische platforms gebouwd op game-engines hebben dramatische verbeteringen getoond in de prestaties van trainees. Stedelijke planners gebruiken soortgelijke tools voor verkeersoptimalisatie op stedelijke schaal. De game-engine is een universele simulatielaag geworden waar AI moet leren door interactie met zijn omgeving.
De infrastructuur waar niemand over praat
Wanneer mensen over AI-infrastructuur praten, bedoelen ze meestal datacenters, GPU-clusters en compute. In alle jaren dat ik in games heb gewerkt, kan ik op één hand tellen hoe vaak iemand in de AI-ruimte game-omgevingen in dezelfde adem noemt. Die disconnectie gaat heel snel sluiten.
Dit zal alleen maar duidelijker worden als traditionele datasets opdrogen. De industrieën die de rijkste interactieve gegevens produceren, zullen onvermijdelijk naar het centrum van AI-onderzoek bewegen, en games, simulaties en virtuele werelden zijn beter gepositioneerd dan alles anders om die kloof te vullen.
Het geld volgt al deze trend. De AI in de gamingsector werd in 2025 gewaardeerd op 4,54 miljard dollar en wordt verwacht te groeien tot 81 miljard dollar in 2035.
De meeste game-studio’s die ik spreek, denken nog steeds dat ze entertainmentbedrijven zijn. Maar wanneer je systemen de exacte gegevens produceren die de volgende generatie AI-modellen nodig heeft om te trainen, zit je in de infrastructuurbranche, of je dat nu van plan was of niet.












