AGI
Další měřítkový zákon AI: Ne více dat, ale lepší modely světa

Po letech následoval umělý inteligence průmysl jednoduché, kruté pravidlo: větší je lepší. Školili jsme modely na obrovských datových sadách, zvyšovali jsme počet parametrů a házeli jsme obrovskou výpočetní sílu na problém. Tento recept fungoval většinu času. Od GPT-3 po GPT-4 a od hrubých chatbotů po rozumové motory, “měřítkový zákon” naznačoval, že pokud budeme dál krmit stroj více textem, nakonec se stane inteligentním.
Ale teď narazíme na zeď. Internet je konečný. Vysokokvalitní veřejná data se vyčerpávají a návraty z pouhého zvyšování velikosti modelů jsou se snižují. Vedoucí AI výzkumníci argumentují, že další velký skok v umělé inteligenci nebude pocházet z čtení více textu samotného. Pochází z porozumění realitě za textem. Tento názor signalizuje fundamentální změnu v zaměření AI, která uvádí éru modelu světa.
Omezení předpovědi dalšího tokenu
Abychom pochopili, proč potřebujeme nový přístup, musíme se nejprve podívat na to, co současné AI systémy vlastně dělají. Navzdory jejich působivým schopnostem jsou modely jako ChatGPT nebo Claude fundamentálně statistické motory. Předpovídají další slovo v sekvenci na základě pravděpodobnosti toho, co předcházelo. Nepochopí, že spadlý skleněný pohár se rozbije; prostě vědí, že v milionech příběhů slovo “rozbije” často následuje po frázi “spadlý skleněný pohár.”
Tento přístup, známý jako autoregresivní modelování, má kritickou vadu. Čírně se spoléhá na korelaci, ne na kauzalitu. Pokud budete školit LLM na tisících popisech autonehody, naučí se jazyk nehod. Ale nikdy se nenaučí fyziku hybnosti, tření nebo křehkosti. Je divákem, ne účastníkem.
Toto omezení se stává “datovou zdí“. Téměř jsme vyčerpali celý veřejný internet. Abychom dále škálovali pomocí současné metody, bychom potřebovali exponenciálně více dat, než existuje. Syntetická data (tj. text generovaný AI) nabízí dočasné řešení, ale často vede k “kolapsu modelu“, kde systém zesiluje své vlastní předpojatosti a chyby. Nemůžeme škálovat naši cestu k umělé obecné inteligenci (AGI) pomocí textu samotného, protože text je nízkoproudým komprimovaným světem. Popisuje realitu, ale není realita sama.
Proč modely světa záleží
AI lídři jako Yann LeCun dlouho argumentovali, že současné AI systémy postrádají fundamentální aspekt lidského kognitivního procesu, který i malé děti přirozeně vlastní. Jedná se o naši schopnost udržovat vnitřní model toho, jak svět funguje, který se běžně označuje jako model světa. Model světa nepředpovídá pouze další slovo; vytváří vnitřní mentální mapu toho, jak fyzické prostředí funguje. Když vidíme, jak se míč kutálejí za pohovku, víme, že tam stále je. Víme, že se objeví na druhé straně, pokud nebude zastaven. Nemusíme číst učebnici, abychom tomu porozuměli; spouštíme mentální simulaci na základě našeho vnitřního “modelu světa” fyziky a permanence objektů.
Aby AI pokročila, musí se přesunout ze statistické imitace na tento typ vnitřní simulace. Musí pochopit základní příčiny událostí, ne pouze jejich textové popisy.
Joint Embedding Predictive Architecture (JEPA) je příkladem této paradigmatické změny. Na rozdíl od LLM, které se snaží předpovědět každý jednotlivý pixel nebo slovo (proces, který je výpočetně nákladný a šumový), JEPA předpovídá abstraktní reprezentace. Ignoruje nepředvídatelné detaily, jako je pohyb jednotlivých listů na stromě, a soustředí se na vysoké koncepty, jako je strom, vítr a sezóna. Školí se předpovídat, jak se tyto vysoké stavy mění v čase, AI se učí strukturu světa, ne pouze povrchové detaily.
Od předpovědi k simulaci
Už vidíme první náznaky této přechodu ve video generativních modelech. Když OpenAI vydal Sora, popsali ji nejen jako video nástroj, ale jako “simulátor světa.”
Tento rozdíl je zásadní. Standardní video generátor by mohl vytvořit video osoby, která chodí, předpovídající, které barevné pixely obvykle následují jeden po druhém. Simulátor světa se však snaží udržet 3D konzistenci, osvětlení a permanenci objektů v čase. “Chápe”, že pokud osoba jde za zeď, neměla by zmizet z existence.
Ačkoli současné video modely jsou stále daleko od dokonalosti, reprezentují nové tréninkové místo. Fyzický svět obsahuje podstatně více informací než textový svět. Jeden sekundový video obsahuje miliony vizuálních datových bodů týkajících se fyziky, světla a interakce. Školí-li se modely na této vizuální realitě, můžeme AI naučit “zdravý rozum”, který LLM目前 postrádají.
Toto vytváří nový měřítkový zákon. Úspěch již nebude měřen tím, kolik bilionů tokenů model přečetl. Bude měřen věrností jeho simulace a jeho schopností předpovídat budoucí stavy prostředí. AI, která může přesně simulovat důsledky akce, aniž by musela tuto akci provést, je AI, která může plánovat, rozumět a jednat bezpečně.
Účinnost a cesta k AGI
Tato změna také řeší nesmírné energetické náklady současné AI. LLM jsou neefektivní, protože musí předpovídat každý detail, aby vygenerovaly koherentní výstup. Model světa je účinnější, protože je selektivní. Stejně jako lidský řidič se soustředí na cestu a ignoruje vzor mraků na obloze, model světa se soustředí na relevantní kauzální faktory úkolu.
LeCun argumentoval, že tento přístup umožňuje modelům učit se mnohem rychleji. Systém jako V-JEPA (Video-Joint Embedding Predictive Architecture) ukázal, že může konvergovat na řešení s mnohem méně tréninkovými iteracemi než tradiční metody. Školí se učit “tvar” dat, ne pouze data sama, modely světa vytvářejí robustnější formu inteligence, která se lépe generalizuje na nové, neviděné situace.
Toto je chybějící článek pro AGI. Skutečná inteligence vyžaduje navigaci. Vyžaduje agenta, který se dívá na cíl, simuluje různé cesty k dosažení tohoto cíle pomocí svého vnitřního modelu světa a poté vybírá cestu s nejvyšší pravděpodobností úspěchu. Textové generátory nemohou dělat tohle; mohou pouze napsat plán, nemohou pochopit omezení jeho provedení.
Shrnutí
Průmysl AI je na obratku. Strategie “pouze přidat více dat” dosáhla svého logického konce. Přecházíme z éry chatbotů do éry simulátorů.
Další generace škálování AI nebude o tom číst celý internet. Bude o tom sledovat svět, chápat jeho pravidla a budovat vnitřní architekturu, která odráží realitu. Toto není pouze technické vylepšení; je to fundamentální změna v tom, co považujeme za “učení”.
Pro podniky a výzkumníky se musí zaměřit. Musíme přestat být posedlí počty parametrů a začít vyhodnocovat, jak dobře naše systémy chápou příčinu a účinek. AI budoucnosti nebude říkat pouze, co se stalo; ukáže, co by se mohlo stát, a proč. To je slib modelů světa, a je to jediná cesta vpřed.












