Connect with us

AGI

AI’s Next Scaling Law: Not More Data, but Better World Models

mm

Voor jaren heeft de kunstmatige intelligentie-industrie een eenvoudige, brute regel gevolgd: groter is beter. We trainden modellen op enorme datasets, verhoogden het aantal parameters en gooiden immense rekenkracht in het probleem. Deze formule werkte voor de meeste tijd. Van GPT-3 tot GPT-4, en van primitieve chatbots tot redeneringsmotoren, suggereerde de “scaling law” dat als we de machine alleen maar meer tekst zouden voeren, het uiteindelijk intelligent zou worden.

Maar we zijn nu tegen een muur aan het botsen. Het internet is eindig. Hoge kwaliteit openbare data raakt uitgeput, en de rendementen van het simpelweg groter maken van modellen nemen af. De toonaangevende AI-onderzoekers betogen dat de volgende grote sprong in kunstmatige intelligentie niet zal komen van het alleen maar lezen van meer tekst. Het zal komen van het begrijpen van de realiteit achter de tekst. Deze overtuiging markeert een fundamentele verschuiving in de focus van AI, en kondigt de era van de World Model aan.

De Beperkingen van Next-Token Predictie

Om te begrijpen waarom we een nieuwe aanpak nodig hebben, moeten we eerst kijken naar wat huidige AI-systemen eigenlijk doen. Ondanks hun indrukwekkende mogelijkheden, zijn modellen zoals ChatGPT of Claude fundamenteel statistische motoren. Ze voorspellen het volgende woord in een reeks op basis van de waarschijnlijkheid van wat ervoor kwam. Ze begrijpen niet dat een gevallen glas zal breken; ze weten alleen dat in miljoenen verhalen het woord “breken” vaak volgt op de zin “gevallen glas.”

Deze aanpak, bekend als autoregressief modelleren, heeft een kritieke fout. Het berust geheel op correlatie, niet op oorzakelijkheid. Als je een LLM traint op duizend beschrijvingen van een auto-ongeluk, leert het de taal van ongevallen. Maar het leert nooit de fysica van impuls, wrijving of broosheid. Het is een toeschouwer, geen deelnemer.

Deze beperking wordt de “Data Wall.” We hebben bijna het hele openbare internet afgeschraapt. Om verder te schalen met de huidige methode, zouden we exponentieel meer data nodig hebben dan er bestaat. Synthetische data (d.w.z. tekst gegenereerd door AI) biedt een tijdelijke oplossing, maar leidt vaak tot “model collapse,” waarbij het systeem zijn eigen vooroordelen en fouten versterkt. We kunnen niet schalen naar Artificial General Intelligence (AGI) met alleen tekst, omdat tekst een lage-bandbreedte compressie van de wereld is. Het beschrijft de realiteit, maar het is niet de realiteit zelf.

Waarom World Models Ertoe Doen

AI leiders zoals Yann LeCun hebben lang betoogd dat huidige AI-systemen een fundamenteel aspect van menselijke cognitie missen dat zelfs jonge kinderen van nature bezitten. Dit is onze capaciteit om een interne model van hoe de wereld werkt te onderhouden, wat zij gewoonlijk een World Model noemen. Een World Model voorspelt niet alleen het volgende woord; het bouwt een interne mentale kaart van hoe de fysieke omgeving werkt. Als we een bal zien rollen achter een bank, weten we dat het er nog steeds is. We weten dat het aan de andere kant zal verschijnen, tenzij het wordt gestopt. We hoeven geen leerboek te lezen om dit te begrijpen; we draaien een mentale simulatie op basis van ons interne “world model” van fysica en objectpermanence.

Voor AI om vooruit te komen, moet het overstappen van statistische imitatie naar dit type interne simulatie. Het moet de onderliggende oorzaken van gebeurtenissen begrijpen, niet alleen hun tekstuele beschrijvingen.

De Joint Embedding Predictive Architecture (JEPA) is een voorbeeld van deze paradigma-shift. In tegenstelling tot LLM’s, die proberen elke enkele pixel of woord te voorspellen (een proces dat computationeel duur en lawaaierig is), voorspelt JEPA abstracte representaties. Het negeert onvoorspelbare details zoals de beweging van individuele bladeren op een boom en richt zich op hoog niveau concepten zoals de boom, wind en seizoen. Door te leren hoe deze hoog niveau staten veranderen over tijd, leert AI de structuur van de wereld in plaats van de oppervlakkige details.

Van Voorspelling naar Simulatie

We zien al de eerste glimpen van deze overgang in de video-generatie modellen. Toen OpenAI Sora uitbracht, beschreven ze het niet alleen als een video-tool, maar als een “world simulator.”

Dit onderscheid is essentieel. Een standaard video-generator kan een video maken van een persoon die loopt door te voorspellen welke gekleurde pixels meestal naast elkaar komen. Een world simulator probeert echter 3D-consistentie, licht en objectpermanence over tijd te behouden. Het “begrijpt” dat als de persoon achter een muur loopt, hij niet uit het bestaan zou moeten verdwijnen.

Hoewel de huidige video-modellen nog ver van perfect zijn, vertegenwoordigen ze het nieuwe trainingsgebied. De fysieke wereld bevat aanzienlijk meer informatie dan de tekstuele wereld. Een enkele seconde video bevat miljoenen visuele datapunten met betrekking tot fysica, licht en interactie. Door modellen te trainen op deze visuele realiteit, kunnen we AI het “gezond verstand” leren dat LLM’s momenteel missen.

Dit creëert een nieuwe scaling law. Succes zal niet langer worden gemeten door hoeveel triljoenen tokens een model heeft gelezen. Het zal worden gemeten door de geloofwaardigheid van zijn simulatie en zijn vermogen om toekomstige staten van de omgeving te voorspellen. Een AI die de gevolgen van een actie zonder die actie te hoeven uitvoeren nauwkeurig kan simuleren, is een AI die kan plannen, redeneren en veilig handelen.

Efficiëntie en de Weg naar AGI

Deze verschuiving adresseert ook de onhoudbare energiekosten van de huidige AI. LLM’s zijn inefficiënt omdat ze elk detail moeten voorspellen om een coherente output te genereren. Een World Model is efficiënter omdat het selectief is. Net zoals een menselijke bestuurder zich richt op de weg en de patronen van wolken in de lucht negeert, richt een World Model zich op de relevante oorzakelijke factoren van een taak.

LeCun heeft betoogd dat deze aanpak modellen in staat stelt om veel sneller te leren. Een systeem zoals V-JEPA (Video-Joint Embedding Predictive Architecture) heeft laten zien dat het kan convergeren naar een oplossing met veel minder trainingsiteraties dan traditionele methoden. Door de “vorm” van de data te leren in plaats van de data zelf te memoriseren, bouwen World Models een robuustere vorm van intelligentie die beter generaliseert naar nieuwe, ongeziene situaties.

Dit is de ontbrekende schakel voor AGI. Ware intelligentie vereist navigatie. Het vereist een agent die naar een doel kijkt, verschillende paden naar dat doel simuleert met zijn interne model van de wereld en dan het pad kiest met de hoogste waarschijnlijkheid van succes. Tekstgeneratoren kunnen dit niet doen; ze kunnen alleen een plan schrijven, maar ze kunnen de beperkingen van de uitvoering ervan niet begrijpen.

De Bottom Line

De AI-industrie staat aan een keerpunt. De strategie van “gewoon meer data toevoegen” bereikt zijn logische einde. We gaan van de tijd van de Chatbot naar de tijd van de Simulator.

De volgende generatie AI-scaling zal niet gaan over het lezen van het hele internet. Het zal gaan over het kijken naar de wereld, het begrijpen van zijn regels en het bouwen van een interne architectuur die de realiteit weerspiegelt. Dit is niet alleen een technische upgrade; het is een fundamentele verandering in wat we “leren” noemen.

Voor ondernemingen en onderzoekers moet de focus verschuiven. We moeten stoppen met obsessie over parameter tellingen en beginnen met evalueren hoe goed onze systemen oorzaak en gevolg begrijpen. De AI van de toekomst zal niet alleen vertellen wat er is gebeurd; het zal laten zien wat er kan gebeuren en waarom. Dat is de belofte van World Models, en het is de enige weg vooruit.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.