Artificiell allmÀn intelligens
AI:s nÀsta skalningslag: Inte mer data, utan bÀttre vÀrldsmodeller

I Ă„ratal har artificiell intelligens-industrin följt en enkel, brutal regel: större desto bĂ€ttre. Vi trĂ€nade modeller pĂ„ massiva datamĂ€ngder, ökade antalet parametrar och anvĂ€nde enorm berĂ€kningskraft pĂ„ problemet. Denna formel fungerade för det mesta. FrĂ„n GPT-3 till GPT-4, och frĂ„n enkla chattrobotar till resonemangsmotorer, "skalningslagâ föreslog att om vi bara fortsatte att mata maskinen med mer text, skulle den sĂ„ smĂ„ningom bli intelligent.
Men vi Àr nu slÄr i en vÀggInternet Àr Àndligt. Högkvalitativa offentliga data börjar bli uttömda, och avkastningen pÄ att helt enkelt göra modeller större blir Àndlig. minskandeDe ledande AI-forskarna argumenterar att nÀsta stora sprÄng inom artificiell intelligens inte kommer att komma frÄn att bara lÀsa mer text. Det kommer frÄn att förstÄ verkligheten bakom texten. Denna övertygelse signalerar ett fundamentalt skifte i AI:s fokus, vilket inleder vÀrldsmodellens era.
BegrÀnsningarna för prediktion av nÀsta token
För att förstÄ varför vi behöver en ny metod mÄste vi först titta pÄ vad nuvarande AI-system faktiskt gör. Trots sina imponerande funktioner Àr modeller som ChatGPT eller Claude i grunden statistiska motorerDe förutspÄr nÀsta ord i en sekvens baserat pÄ sannolikheten för det som kom före. De förstÄr inte att ett tappat glas kommer att splittras; de vet helt enkelt att i miljontals berÀttelser följer ordet "splittras" ofta frasen "tappet glas".
Denna metod, kÀnd som autoregressiv modellering, har en kritisk brist. Den förlitar sig helt pÄ korrelation, inte kausalitet. Om man utbildar en juridiklÀrare pÄ tusen beskrivningar av en bilolycka lÀr den sig olyckornas sprÄk. Men den lÀr sig aldrig fysiken bakom rörelsemÀngd, friktion eller skörhet. Den Àr en ÄskÄdare, inte en deltagare.
Denna begrĂ€nsning hĂ„ller pĂ„ att bli den âDatavĂ€ggâVi har nĂ€stan skrapat hela det offentliga internet. För att skala upp ytterligare med den nuvarande metoden skulle vi behöva exponentiellt mer data Ă€n vad som finns. Syntetiska data (dvs. text genererad av AI) erbjuder en tillfĂ€llig lösning, men det leder ofta tillâmodell kollapsâ, dĂ€r systemet förstĂ€rker sina egna fördomar och fel. Vi kan inte skala oss upp till artificiell generell intelligens (AGI) med hjĂ€lp av enbart text eftersom text Ă€r en komprimering av vĂ€rlden med lĂ„g bandbredd. Den beskriver verkligheten, men den Ă€r inte verkligheten i sig.
Varför vÀrldsmodeller Àr viktiga
AI ledare har liksom Yann LeCun lÀnge hÀvdat att nuvarande AI-system saknar en grundlÀggande aspekt av mÀnsklig kognition som Àven smÄ barn besitter naturligt. Detta Àr vÄr förmÄga att upprÀtthÄlla en intern modell av hur vÀrlden fungerar, vilket de vanligtvis kallar en VÀrldsmodellEn vÀrldsmodell förutsÀger inte bara nÀsta ord; den bygger en intern mental karta över hur den fysiska miljön fungerar. NÀr vi ser en boll rulla bakom en soffa vet vi att den fortfarande finns dÀr. Vi vet att den kommer att dyka upp pÄ andra sidan om den inte stoppas. Vi behöver inte lÀsa en lÀrobok för att förstÄ detta; vi kör en mental simulering baserad pÄ vÄr interna "vÀrldsmodell" av fysik och objektpermanens.
För att AI ska kunna utvecklas mÄste den gÄ frÄn statistisk imitation till denna typ av intern simulering. Den behöver förstÄ de bakomliggande orsakerna till hÀndelser, inte bara deras textbeskrivningar.
Ocuco-landskapet Gemensam inbÀddning av prediktiv arkitektur (JEPA) Àr ett utmÀrkt exempel pÄ detta paradigmskifte. Till skillnad frÄn LLM:er, som försöker förutsÀga varje enskild pixel eller ord (en process som Àr berÀkningsmÀssigt dyr och bullrig), förutspÄr JEPA abstrakta representationer. Den ignorerar oförutsÀgbara detaljer som rörelsen hos enskilda löv pÄ ett trÀd och fokuserar pÄ övergripande koncept som trÀd, vind och Ärstid. Genom att lÀra sig att förutsÀga hur dessa övergripande tillstÄnd förÀndras över tid lÀr sig AI vÀrldens struktur snarare Àn detaljer pÄ ytnivÄ.
FrÄn förutsÀgelse till simulering
Vi ser redan de första glimtarna av denna övergĂ„ng i videogenereringsmodellerna. NĂ€r OpenAI slĂ€ppte Sora beskrev de det inte bara som ett videoverktyg, utan som ett âvĂ€rldssimulator. "
Denna distinktion Àr avgörande. En vanlig videogenerator kan skapa en video av en person som gÄr genom att förutsÀga vilka fÀrgade pixlar som vanligtvis hamnar bredvid varandra. En vÀrldssimulator försöker dock bibehÄlla 3D-konsistens, belysning och objektpermanens över tid. Den "förstÄr" att om personen gÄr bakom en vÀgg, ska de inte försvinna ur existensen.
Ăven om nuvarande videomodeller fortfarande Ă€r lĂ„ngt ifrĂ„n perfekta, representerar de den nya trĂ€ningsplatsen. Den fysiska vĂ€rlden innehĂ„ller betydligt mer information Ă€n den textuella vĂ€rlden. En enda sekund av video innehĂ„ller miljontals visuella datapunkter gĂ€llande fysik, ljus och interaktion. Genom att trĂ€na modeller pĂ„ denna visuella verklighet kan vi lĂ€ra AI det "sunda förnuft" som juridikexperter för nĂ€rvarande saknar.
Detta skapar en ny skalningslag. FramgÄng kommer inte lÀngre att mÀtas utifrÄn hur mÄnga biljoner tokens en modell har lÀst. Den kommer att mÀtas utifrÄn simuleringens trovÀrdighet och dess förmÄga att förutsÀga framtida tillstÄnd i miljön. En AI som korrekt kan simulera konsekvenserna av en handling utan att behöva vidta den ÄtgÀrden Àr en AI som kan planera, resonera och agera pÄ ett sÀkert sÀtt.
Effektivitet och vÀgen till AGI
Denna förÀndring tar Àven itu med det ohÄllbara energikostnader av nuvarande AI. LLM:er Àr ineffektiva eftersom de mÄste förutsÀga varje detalj för att generera en sammanhÀngande utdata. En vÀrldsmodell Àr mer effektiv eftersom den Àr selektiv. Precis som en mÀnsklig förare fokuserar pÄ vÀgen och ignorerar molnmönstret pÄ himlen, fokuserar en vÀrldsmodell pÄ de relevanta orsaksfaktorerna för en uppgift.
LeCun har hÀvdat att den hÀr metoden gör att modeller kan lÀra sig mycket snabbare. Ett system som V-JEPA (Video-Joint Embedding Predictive Architecture) har visat att den kan konvergera mot en lösning med betydligt fÀrre trÀningsiterationer Àn traditionella metoder. Genom att lÀra sig datas "form" snarare Àn att memorera sjÀlva datan, bygger World Models en mer robust form av intelligens som generaliserar bÀttre till nya, osedda situationer.
Detta Àr den saknade lÀnken för AGI. Sann intelligens krÀver navigering. Det krÀver att en agent tittar pÄ ett mÄl, simulerar olika vÀgar för att uppnÄ det mÄlet med hjÀlp av sin interna modell av vÀrlden och sedan vÀljer den vÀg som har högst sannolikhet för framgÄng. Textgeneratorer kan inte göra detta; de kan bara skriva en plan, de kan inte förstÄ begrÀnsningarna för att genomföra den.
The Bottom Line
AI-industrin befinner sig vid en vĂ€ndpunkt. Strategin att âbara lĂ€gga till mer dataâ nĂ€rmar sig sitt logiska slut. Vi gĂ„r frĂ„n chatbotens tidsĂ„lder till simulatorns tidsĂ„lder.
NÀsta generations AI-skalning kommer inte att handla om att lÀsa hela internet. Det kommer att handla om att observera vÀrlden, förstÄ dess regler och bygga en intern arkitektur som speglar verkligheten. Detta Àr inte bara en teknisk uppgradering; det Àr en fundamental förÀndring av vad vi anser vara "inlÀrning".
För företag och forskare mÄste fokus flyttas. Vi mÄste sluta besÀtta antalet parametrar och börja utvÀrdera hur vÀl vÄra system förstÄr orsak och verkan. Framtidens AI kommer inte bara att berÀtta vad som hÀnde; den kommer att visa vad som skulle kunna hÀnda och varför. Det Àr löftet med World Models, och det Àr den enda vÀgen framÄt.












