Connect with us

AGI

AI:s nästa skalningslag: Inte mer data, utan bättre världsmodeller

mm

I åratal har den artificiella intelligensindustrin följt en enkel, brutalt effektiv regel: större är bättre. Vi tränade modeller på massiva datamängder, ökade antalet parametrar och kastade enorm beräkningskraft på problemet. Denna formel fungerade under större delen av tiden. Från GPT-3 till GPT-4, och från primitive chattbotar till resonemangsmotorer, tydde “skalningslagen” på att om vi bara fortsatte mata maskinen med mer text, skulle den till slut bli intelligent.

Men vi har nu nått en vägg. Internet är ändligt. Högkvalitativa offentliga data håller på att ta slut, och avkastningen på att enbart göra modellerna större avtar. Ledande AI-forskare hävdar att det nästa stora språnget inom artificiell intelligens inte kommer att ske genom att läsa mer text ensamt. Det kommer att ske genom att förstå verkligheten bakom texten. Denna övertygelse signalerar en grundläggande förändring i AI:s fokus, och inleder eran för världsmodellen.

Gränserna för next-token-prediktion

För att förstå varför vi behöver en ny ansats, måste vi först titta på vad nuvarande AI-system faktiskt gör. Trots deras imponerande förmågor, är modeller som ChatGPT eller Claude i grunden statistiska motorer. De förutser nästa ord i en sekvens baserat på sannolikheten för vad som kom före. De förstår inte att ett droppat glas kommer att gå sönder; de vet bara att i miljontals berättelser, följer ordet “sönder” ofta frasen “droppat glas.”

Denna ansats, känd som autoregressiv modellering, har en kritisk svaghet. Den förlitar sig helt på korrelation, inte orsakssamband. Om du tränar en LLM på tusen beskrivningar av en bilkrasch, lär den sig språket för olyckor. Men den lär sig aldrig fysiken bakom momentum, friktion eller skörhet. Den är en åskådare, inte en deltagare.

Denna begränsning blir “Data-väggen“. Vi har nästan skrapat hela den offentliga internet. För att skala upp ytterligare med den nuvarande metoden, skulle vi behöva exponentiellt mer data än vad som finns. Syntetisk data (dvs. text genererad av AI) erbjuder en tillfällig lösning, men den leder ofta till “modellkollaps“, där systemet förstärker sina egna fördomar och fel. Vi kan inte skala vår väg till Artificiell Allmän Intelligens (AGI) med hjälp av text ensamt, eftersom text är en lågbandviddskomprimering av världen. Den beskriver verkligheten, men den är inte verkligheten själv.

Varför världsmodeller är viktiga

AI ledare som Yann LeCun har länge hävdat att nuvarande AI-system saknar en grundläggande aspekt av mänskligt kognition som till och med små barn besitter naturligt. Detta är vår förmåga att upprätthålla en intern modell av hur världen fungerar, som de vanligtvis kallar en Världsmodell. En Världsmodell förutser inte bara nästa ord; den bygger en intern mental karta över hur den fysiska miljön fungerar. När vi ser en boll rulla bakom en soffa, vet vi att den fortfarande finns där. Vi vet att den kommer att dyka upp på andra sidan, såvida den inte stoppas. Vi behöver inte läsa en lärobok för att förstå detta; vi kör en mental simulering baserad på vår interna “världsmodell” av fysik och objektsbeständighet.

För att AI ska utvecklas, måste den gå från statistisk imitation till denna typ av intern simulering. Den måste förstå de underliggande orsakerna till händelser, inte bara deras textbeskrivningar.

Joint Embedding Predictive Architecture (JEPA) är ett exempel på denna paradigmförändring. Till skillnad från LLM, som försöker förutse varje enskild pixel eller ord (en process som är beräkningsmässigt dyr och bullrig), förutser JEPA abstrakta representationer. Den ignorerar oförutsägbara detaljer som rörelsen av enskilda blad på ett träd och fokuserar på högnivåkoncept som trädet, vinden och årstiden. Genom att lära sig att förutse hur dessa högnivåtillstånd förändras över tiden, lär sig AI världens struktur snarare än ytnivådetaljer.

Från prediktion till simulering

Vi ser redan de första skymningarna av denna övergång i videogenereringsmodellerna. När OpenAI släppte Sora, beskrev de det inte bara som ett videoverktyg, utan som en “världssimulator“.

Denna distinktion är vital. En standardvideogenerator kan skapa en video av en person som går genom att förutse vilka färgpixlar som vanligtvis följer på varandra. En världssimulator försöker dock upprätthålla 3D-konsistens, belysning och objektsbeständighet över tiden. Den “förstår” att om personen går bakom en vägg, bör den inte försvinna från existensen.

Även om nuvarande videomodeller fortfarande är långt ifrån perfekta, representerar de den nya träningsmarken. Den fysiska världen innehåller betydligt mer information än den textbaserade världen. En enda sekund av video innehåller miljontals visuella datapunkter om fysik, ljus och interaktion. Genom att träna modeller på denna visuella verklighet, kan vi lära AI den “allmänna förståelsen” som LLM saknar.

Detta skapar en ny skalningslag. Framgång kommer inte längre att mätas av hur många biljoner token en modell har läst. Den kommer att mätas av simuleringens trohet och dess förmåga att förutse framtida tillstånd i miljön. En AI som kan simulera konsekvenserna av en handling utan att behöva utföra den, är en AI som kan planera, resonera och agera säkert.

Effektivitet och vägen till AGI

Denna förändring adresserar också de ohållbara energikostnaderna för nuvarande AI. LLM är ineffektiva eftersom de måste förutse varje detalj för att generera en sammanhängande utdata. En Världsmodell är mer effektiv eftersom den är selektiv. Liksom en mänsklig förare fokuserar på vägen och ignorerar molnmönstret på himlen, fokuserar en Världsmodell på de relevanta orsaksfaktorerna för en uppgift.

LeCun har hävdat att denna ansats tillåter modeller att lära sig mycket snabbare. Ett system som V-JEPA (Video-Joint Embedding Predictive Architecture) har visat att det kan konvergera till en lösning med betydligt färre träningsiterationer än traditionella metoder. Genom att lära sig “formen” på data snarare än att memorera data själv, bygger Världsmodeller en mer robust form av intelligens som generaliserar bättre till nya, osedda situationer.

Detta är den saknade länken för AGI. Sann intelligens kräver navigation. Den kräver att en agent tittar på ett mål, simulerar olika vägar för att uppnå målet med hjälp av sin interna modell av världen, och sedan väljer den väg med högst sannolikhet för framgång. Textgeneratorer kan inte göra detta; de kan bara skriva en plan, de kan inte förstå begränsningarna för att utföra den.

Sammanfattning

AI-industrin står vid en vändpunkt. Strategin “lägg bara till mer data” når sitt logiska slut. Vi går från eran av Chattboten till eran av Simulatoren.

Nästa generation av AI-skalning kommer inte att handla om att läsa hela internet. Den kommer att handla om att titta på världen, förstå dess regler och bygga en intern arkitektur som speglar verkligheten. Detta är inte bara en teknisk uppgradering; det är en grundläggande förändring i vad vi anser för “inlärning”.

För företag och forskare måste fokus skifta. Vi måste sluta fixera oss på parameterantal och börja utvärdera hur väl våra system förstår orsak och verkan. AI i framtiden kommer inte bara att berätta vad som hände; den kommer att visa vad som kan hända, och varför. Det är löftet om Världsmodeller, och det är den enda vägen framåt.

Dr. Tehseen Zia är en fast anställd biträdande professor vid COMSATS University Islamabad, med en doktorsexamen i AI från Vienna University of Technology, Österrike. Specialiserad på artificiell intelligens, maskinlärning, datavetenskap och datorseende, har han gjort betydande bidrag med publikationer i ansedda vetenskapliga tidskrifter. Dr. Tehseen har också lett olika industriprojekt som huvudutredare och tjänstgjort som AI-konsult.