Myslitelé
Data generovaná hrami může být nejpodceňovanějším zdrojem pro trénování AI

Společnosti zabývající se umělou inteligencí strávily posledních pět let konzumací každého textu, každého obrazu a každého kousku veřejně dostupných dat na internetu. Tento zdroj je však omezený a blížíme se ke konci, kdy prostě nebude dostatek dat, aby udržel tempo pokroku, na kterém závisí.
Existuje však zjevný kandidát, kterého průmysl AI většinou přehlíží.
Živím se stavbou herních systémů a data, která denně protékají těmito systémy, jsou jako nic, s čím se většina výzkumníků AI dosud nesetkala. A přesto se zdá, že nikdo mimo herní průmysl na ně nevěnuje pozornost.
Herní platformy generují terabajty behaviorálních dat každý den, strukturované proudy reálných rozhodnutí, ekonomické aktivity a sociální interakce, vše uvnitř prostředí postavených na konzistentních fyzikálních pravidlech.
Téměř žádná z těchto dat nebyla použita pro trénování AI. A společnosti, které je použily, od DeepMind po NVIDIA, dosáhly některých z nejvýznamnějších průlomů v oboru.
Problém dat AI
Studie od Epoch AI projektuje, že zásoba veřejně dostupných, člověkem generovaných textových dat bude plně využita někde mezi lety 2026 a 2032. Modely za ChatGPT, Gemini a Claude již spotřebovaly prakticky vše, co internet nabízí.
Syntetická data nebo text, který AI generuje, aby se nakrmila sama, je průmyslovým řešením. Ale modely trénované na svém vlastním výstupu se zhoršují over time prostřednictvím dokumentovaného jevu, který výzkumníci nazývají kolaps modelu.
Co si myslím, že pole potřebuje, je bohatá, interaktivní, multimodální informace, kde příčina a následek nastávají v reálném čase a každá akce má měřitelný důsledek. Hry produkují přesně tohle a dělají to v měřítku, které téměř nic jiného nemůže zvládnout.
Herní platformy tlačí terabajty behaviorálních dat skrz své systémy každý den. Pohyby hráčů, strategická rozhodnutí, reakční časy, ekonomické transakce a sociální interakce všechny protékají strukturovanými, časově označenými proudy, se kterými se většina výzkumníků AI dosud nesetkala.
Nedávná akademická práce o datech generovaných hrami vytvořila devítibodovou taxonomii této informace a argumentuje, že většina z ní zůstává zcela nevyužita průmyslem AI.
Mohu to potvrdit ze své vlastní zkušenosti. Množství dat, které protéká našimi herními systémy v kterýkoli den, by bylo považováno za zlatou žílu v jakékoli jiné oblasti výzkumu AI. Ve hrách se to ale pouze archivuje nebo zahazuje.
Proč jsou herní data jiná
Když stavíte uvnitř herního engine po dostatečně dlouhou dobu, začnete si uvědomovat, kolik strukturovaných dat máte k dispozici, o kterých se nikdo z AI dosud nezeptal. Každá relace produkuje synchronizovanou fyziku, chování hráčů a systémové příčiny a účinky v měřítku, které je obtížné najít někde jinde.
Herní enginy vynucují fyziku. Objekty padají, srážejí se a láme se podle konzistentních pravidel, což znamená, že data nesou kauzální vztahy zapékány na systémové úrovni spíše než vzorce, které model musí uhádnout z textových korelací.
Když hráč vypustí projektil, engine vypočítá dráhu, odpor vzduchu a dopad. AI se učí z prostředí, které demonstruje fyziku přímo prostřednictvím každé interakce, spíše než z prostředí, které zachází s fyzikálními zákony jako se statistickými aproximacemi.
Existuje také problém multimodální synchronizace. V hře vizuální data, audio signály, vstupy hráčů a stav prostředí všechny nastávají současně a jsou společně zaznamenány. Taková přirozená synchronizace stojí spoustu peněz na replikaci v reálných datech, kde výzkumníci obvykle musí ručně označovat a synchronizovat každou modalitu.
Hry produkují hraniční případy v měřítku, také, prostřednictvím procedurální generace obsahu. No Man’s Sky má 18 kvintilionů unikátních planet, a pro AI je tato variace enormně důležitá, protože hraniční případy určují, zda model pracuje spolehlivě nebo selhává nebezpečně.
A pak je tu emergentní komplexita, která může být nejcennější vlastností ze všech. Když OpenAI umístila agenty do jednoduché hry na schovávání, tito agenti vyvinuli šest různých fází sofistikované strategie zcela sami během stovek milionů kol.
Vytvořili úkryty z pohyblivých objektů, používali rampy k prolomení opevnění a dokonce využili fyzikálních chyb k surfování na krabicích přes zdi. Nic z toho nebylo naprogramováno. Všechno vyvstalo z konkurence uvnitř herního prostředí, bez jediné řádky kódu, která by jim řekla, aby to dělali.
Taková samovolně generovaná komplexita je přesně to, co výzkum AI potřebuje v měřítku, a hry jsou jediným prostředím, které to produkuje spolehlivě bez drahé lidské kontroly.
Od herních desek k Nobelovým cenám
Nejjasším důkazem, že herní trénovaná AI přenáší se do reálného světa, je systém, který vyhrál Nobelovu cenu, a je to příklad, ke kterému se stále vracím, když lidé ptají, proč jsem si vybral kariéru kolem her a AI.
DeepMind začala s AlphaGo v roce 2016, poté postavila AlphaZero, systém, který se naučil hrát šachy, Go a šogi bez jakéhokoli lidského znalostí. Architektura AlphaZero se stala základem pro AlphaFold, který řešil 50 let starý problém složení proteinů a získal pro své tvůrce Nobelovu cenu za chemii 2024.
CEO DeepMind Demis Hassabis otevřeně hovořil o této pipeline. Řekl vědeckým Američanům, že hry nebyly nikdy konečným cílem, ale spíše nejefektivnějším způsobem, jak vyvinout a otestovat techniky AI, než je aplikoval na skutečné vědecké problémy.
Pamatuji si, že jsem to četl a cítil, jako by někdo přesně vyjádřil to, co jsem viděl z vnitřku herního vývoje po mnoho let.
Tato trajektorie se od té doby opakovala napříč oborem. Prostředí učení podle posilování, které OpenAI poprvé standardizovala prostřednictvím Gymnasium, nyní podpírají výzkum v robotice, autonomních vozidlech a průmyslové automatizaci.
Herní struktura agenta, prostředí, akce a odměny začala jako výzkumná pohodlnost a stala se standardním rámcem pro jakýkoli systém AI, který potřebuje jednat ve fyzickém světě.
Hry jako nová simulační vrstva
V prosinci 2025 NVIDIA vydala NitroGen, základní model trénovaný na 40 000 hodinách herních dat napříč více než 1 000 tituly. Model sleduje veřejně dostupné herní videa, extrahuje hráčské akce z ovladačů a učí se hrát hry přímo z raw pixelů.
Na neznámých hrách, se kterými se nikdy nesetkal, NitroGen ukázal až 52% zlepšení úspěchu úkolu ve srovnání s modely trénovanými od začátku. Ale skutečný význam spočívá v architektuře pod ním.
NitroGen běží na frameworku GR00T pro robotiku od NVIDIA, stejném základě, který společnost používá pro fyzickou AI a sim-to-real transfer v platformě Isaac Sim. Herní agent a robot sdílejí stejný základní systém.
Jim Fan z NVIDIA popsal projekt jako pokus o postavení “GPT pro akce”, obecného modelu, který se učí operovat v jakémkoli prostředí.
Jako někdo, kdo staví herní systémy, které generují přesně ta data, která tyto modely spotřebují, mám pocit, že je těžké přehánět, co to znamená pro průmysl, ve kterém pracuji.
A to není omezeno pouze na NVIDIA. Waymo zaznamenala přes 20 miliard simulovaných mil, aby trénovala svá autonomní vozidla, vše v herním engine stylu prostředí, která zkouší scénáře, které jsou příliš nebezpečné nebo příliš vzácné na to, aby se testovaly na skutečných silnicích.
Chirurgické platformy postavené na herních enginech ukázaly dramatická zlepšení ve výkonu studentů. Městští plánovači používají podobné nástroje pro optimalizaci dopravy na městské úrovni.
Chirurgické platformy postavené na herních enginech ukázaly dramatická zlepšení ve výkonu studentů. Městští plánovači používají podobné nástroje pro optimalizaci dopravy na městské úrovni. Herní engine se stal univerzální simulační vrstvou, kdekoliv AI potřebuje se učit prostřednictvím interakce se svým prostředím.
Infrastruktura, o které nikdo nemluví
Když lidé diskutují o infrastruktuře AI, obvykle míní datové centra, GPU klastry a výpočetní výkon. Za všechny roky, které jsem pracoval v herním průmyslu, mohu spočítat na jedné ruce, kolikrát jsem slyšel někoho z AI prostoru zmínit herní prostředí ve stejném dechu. Tato disproporce se brzy velmi rychle uzavře.
To bude ještě více zřejmé, jakmile tradiční datové sady dojdou. Průmysly, které produkují nejbohatší interaktivní data, se nevyhnutelně přesunou do centra výzkumu AI, a hry, simulace a virtuální světy jsou lépe umístěny než cokoliv jiného, aby zaplnily tuto mezeru.
Peníze již následují tento trend. AI v herním sektoru byla hodnocena na 4,54 miliardy dolarů v roce 2025 a má se dostát 81 miliardám dolarů do roku 2035.
Většina herních studií, se kterými mluvím, se stále považuje za zábavní společnosti. Ale když vaše systémy generují přesně ta data, která další generace modelů AI potřebuje k trénování, jste v infrastrukturním byznysu, ať už jste to plánovali nebo ne.












