Verbind je met ons

Algemene kunstmatige intelligentie

De volgende schaalwet van AI: niet meer data, maar betere wereldmodellen.

mm

Jarenlang hanteerde de kunstmatige intelligentie-industrie een simpele, meedogenloze regel: groter is beter. We trainden modellen op enorme datasets, verhoogden het aantal parameters en zetten immense rekenkracht in. Deze formule werkte meestal. Van GPT-3 tot GPT-4, en van primitieve chatbots tot redeneermachines, de "schaalwet" suggereerde dat als we de machine maar steeds meer tekst bleven geven, deze uiteindelijk intelligent zou worden.

Maar we zijn nu tegen een muur aanlopenHet internet heeft een beperkte capaciteit. Hoogwaardige openbare data raken uitgeput en het rendement van het simpelweg vergroten van modellen is gering. verminderingDe toonaangevende AI-onderzoekers argumenteren Dat de volgende grote sprong voorwaarts in kunstmatige intelligentie niet alleen zal voortkomen uit het lezen van meer tekst, maar uit het begrijpen van de realiteit achter de tekst. Deze overtuiging duidt op een fundamentele verschuiving in de focus van AI en luidt het tijdperk van het Wereldmodel in.

De beperkingen van het voorspellen van het volgende token

Om te begrijpen waarom we een nieuwe aanpak nodig hebben, moeten we eerst kijken naar wat de huidige AI-systemen daadwerkelijk doen. Ondanks hun indrukwekkende mogelijkheden zijn modellen zoals ChatGPT of Claude in wezen... statistische machinesZe voorspellen het volgende woord in een reeks op basis van de waarschijnlijkheid van wat eraan voorafging. Ze begrijpen niet dat een gevallen glas zal breken; ze weten alleen dat in miljoenen verhalen het woord 'breken' vaak volgt op de uitdrukking 'gevallen glas'.

Deze aanpak, bekend als autoregressieve modelleringHet model heeft een cruciaal gebrek. Het is volledig gebaseerd op correlatie, niet op causaliteit. Als je een LLM (Letter of Learning Model) traint met duizend beschrijvingen van een auto-ongeluk, leert het de taal van ongelukken. Maar het leert nooit de natuurkunde van impuls, wrijving of kwetsbaarheid. Het is een toeschouwer, geen deelnemer.

Deze beperking wordt de "DatamuurWe hebben vrijwel het hele openbare internet afgespeurd. Om met de huidige methode verder te schalen, zouden we exponentieel meer data nodig hebben dan er beschikbaar is. Synthetische data (oftewel tekst gegenereerd door AI) biedt een tijdelijke oplossing, maar leidt vaak tot "modelinstorting"waarbij het systeem zijn eigen vooroordelen en fouten versterkt. We kunnen kunstmatige algemene intelligentie (AGI) niet opschalen met alleen tekst, omdat tekst een compressie van de wereld met een lage bandbreedte is. Het beschrijft de werkelijkheid, maar het is niet de werkelijkheid zelf."

Waarom wereldmodellen ertoe doen

AI leiders Zoals Yann LeCun al lang betoogt, missen de huidige AI-systemen een fundamenteel aspect van de menselijke cognitie dat zelfs jonge kinderen van nature bezitten. Dit is ons vermogen om een ​​intern model te onderhouden van hoe de wereld werkt, wat zij vaak aanduidden als een WereldmodelEen wereldmodel voorspelt niet alleen het volgende woord; het bouwt een interne mentale kaart op van hoe de fysieke omgeving functioneert. Als we een bal achter een bank zien rollen, weten we dat hij er nog steeds is. We weten dat hij aan de andere kant zal verschijnen, tenzij hij wordt tegengehouden. We hoeven geen leerboek te lezen om dit te begrijpen; we voeren een mentale simulatie uit op basis van ons interne 'wereldmodel' van natuurkunde en objectpermanentie.

Om AI verder te ontwikkelen, moet het overstappen van statistische imitatie naar dit type interne simulatie. Het moet de onderliggende oorzaken van gebeurtenissen begrijpen, niet alleen de tekstuele beschrijvingen ervan.

De Joint Embedding Predictive Architecture (JEPA) is een uitstekend voorbeeld van deze paradigmaverschuiving. In tegenstelling tot LLM's, die proberen elke pixel of elk woord te voorspellen (een proces dat rekenkundig duur en ruisgevoelig is), voorspelt JEPA abstracte representaties. Het negeert onvoorspelbare details zoals de beweging van individuele bladeren aan een boom en concentreert zich op concepten op hoog niveau, zoals de boom, de wind en het seizoen. Door te leren voorspellen hoe deze toestanden op hoog niveau in de loop van de tijd veranderen, leert AI de structuur van de wereld in plaats van de details op het oppervlakkige niveau.

Van voorspelling naar simulatie

We zien de eerste tekenen van deze transitie al terug in de modellen voor videogeneratie. Toen OpenAI Sora uitbracht, beschreven ze het niet alleen als een videotool, maar als een "wereld simulator. '

Dit onderscheid is cruciaal. Een standaard videogenerator kan een video maken van een lopend persoon door te voorspellen welke gekleurde pixels doorgaans naast elkaar liggen. Een wereldsimulator daarentegen probeert de 3D-consistentie, belichting en objectpermanentie in de loop van de tijd te behouden. Het "begrijpt" dat als de persoon achter een muur loopt, hij of zij niet zomaar mag verdwijnen.

Hoewel de huidige videomodellen nog lang niet perfect zijn, vormen ze een nieuw trainingsgebied. De fysieke wereld bevat aanzienlijk meer informatie dan de tekstuele wereld. Een enkele seconde video bevat miljoenen visuele datapunten met betrekking tot natuurkunde, licht en interactie. Door modellen te trainen op deze visuele realiteit, kunnen we AI het 'gezonde verstand' bijbrengen dat LLM's momenteel missen.

Dit creëert een nieuwe schaalwet. Succes zal niet langer worden afgemeten aan het aantal biljoenen tokens dat een model heeft gelezen. Het zal worden afgemeten aan de nauwkeurigheid van de simulatie en het vermogen om toekomstige toestanden van de omgeving te voorspellen. Een AI die de gevolgen van een actie nauwkeurig kan simuleren zonder die actie daadwerkelijk uit te voeren, is een AI die veilig kan plannen, redeneren en handelen.

Efficiëntie en de weg naar AGI

Deze verschuiving pakt ook de onhoudbare aspecten aan. energiekosten van de huidige AI. LLM's zijn inefficiënt omdat ze elk detail moeten voorspellen om een ​​coherent resultaat te genereren. Een wereldmodel is efficiënter omdat het selectief is. Net zoals een menselijke bestuurder zich concentreert op de weg en het wolkenpatroon negeert, concentreert een wereldmodel zich op de relevante oorzakelijke factoren van een taak.

LeCun heeft betoogd dat deze aanpak ervoor zorgt dat modellen veel sneller leren. Een systeem zoals V-JEPA (Video-Joint Embedding Predictive Architecture) heeft aangetoond dat het tot een oplossing kan komen met veel minder trainingsiteraties dan traditionele methoden. Door de "vorm" van de data te leren in plaats van de data zelf te onthouden, bouwen World Models een robuustere vorm van intelligentie op die beter generaliseert naar nieuwe, onbekende situaties.

Dit is de ontbrekende schakel voor AGI. Echte intelligentie vereist navigatie. Het vereist dat een agent naar een doel kijkt, verschillende paden simuleert om dat doel te bereiken met behulp van zijn interne model van de wereld, en vervolgens het pad kiest met de grootste kans op succes. Tekstgeneratoren kunnen dit niet; ze kunnen alleen een plan schrijven, ze begrijpen de beperkingen van de uitvoering ervan niet.

The Bottom Line

De AI-industrie bevindt zich op een keerpunt. De strategie van "gewoon meer data toevoegen" loopt ten einde. We gaan van het tijdperk van de chatbot naar het tijdperk van de simulator.

De volgende generatie van AI-schaalvergroting zal niet gaan over het lezen van het hele internet. Het zal gaan over het observeren van de wereld, het begrijpen van de regels ervan en het bouwen van een interne architectuur die de realiteit weerspiegelt. Dit is niet zomaar een technische upgrade; het is een fundamentele verandering in wat we verstaan ​​onder 'leren'.

Voor bedrijven en onderzoekers moet de focus verschuiven. We moeten stoppen met obsessief bezig te zijn met het tellen van parameters en in plaats daarvan gaan evalueren hoe goed onze systemen oorzaak en gevolg begrijpen. De AI van de toekomst zal je niet alleen vertellen wat er is gebeurd; het zal je laten zien wat er zou kunnen gebeuren, en waarom. Dat is de belofte van World Models, en het is de enige weg vooruit.

Dr. Tehseen Zia is een vaste universitair hoofddocent aan de COMSATS Universiteit Islamabad en heeft een doctoraat in AI behaald aan de Technische Universiteit van Wenen, Oostenrijk. Hij is gespecialiseerd in kunstmatige intelligentie, machinaal leren, datawetenschap en computervisie en heeft belangrijke bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook diverse industriële projecten geleid als hoofdonderzoeker en als AI-consultant.