AGI

AI:s nÀsta skalningslag: Inte mer data, utan bÀttre vÀrldsmodeller

mm

Under många år har den artificiella intelligensindustrin följt en enkel och brutalt effektiv regel: större är bättre. Vi har tränat modeller på enorma datamängder, ökat antalet parametrar och kastat enorm beräkningskraft på problemet. Denna formel har fungerat under större delen av tiden. Från GPT-3 till GPT-4, och från grova chatbots till resonemangsmotorer, har “skalningslagen” föreslagit att om vi bara fortsätter mata maskinen med mer text, kommer den så småningom att bli intelligent.

Men nu stöter vi på ett hinder. Internet är ändligt. Högkvalitativa offentliga data börjar ta slut, och avkastningen på att bara göra modellerna större är avtagande. De ledande AI-forskarna hävdar att det nästa stora språnget i artificiell intelligens inte kommer att komma från att läsa mer text ensamt. Det kommer att komma från att förstå verkligheten bakom texten. Denna övertygelse signalerar en grundläggande förändring i AI:s fokus, och markerar början på eran för världsmodeller.

Gränserna för nästa-token-prediktion

För att förstå varför vi behöver en ny strategi, måste vi först titta på vad nuvarande AI-system faktiskt gör. Trots deras imponerande förmågor, är modeller som ChatGPT eller Claude i grunden statistiska motorer. De förutsäger nästa ord i en sekvens baserat på sannolikheten för vad som kom före. De förstår inte att ett droppat glas kommer att gå sönder; de vet bara att i miljontals berättelser, följer ordet “sönder” ofta frasen “droppat glas.”

Denna strategi, som kallas autoregressiv modellering, har en kritisk brist. Den förlitar sig helt på korrelation, inte orsakssamband. Om du tränar en LLM på tusen beskrivningar av en bilkrasch, lär den sig språket för olyckor. Men den lär sig aldrig fysiken bakom momentum, friktion eller skörhet. Den är en åskådare, inte en deltagare.

Denna begränsning blir “Data-väggen“. Vi har nästan skrapat hela den offentliga internet. För att skala upp ytterligare med den nuvarande metoden, skulle vi behöva exponentiellt mer data än vad som finns. Syntetisk data (dvs. text genererad av AI) erbjuder en tillfällig lösning, men den leder ofta till “modellkollaps“, där systemet förstärker sina egna fördomar och fel. Vi kan inte skala upp till artificiell allmän intelligens (AGI) med hjälp av text ensamt, eftersom text är en lågbandviddskomprimering av världen. Den beskriver verkligheten, men den är inte verkligheten själv.
<h2.Varför världsmodeller är viktiga

AI-ledare som Yann LeCun har länge hävdat att nuvarande AI-system saknar en grundläggande aspekt av mänsklig kognition som sogar små barn besitter naturligt. Detta är vår förmåga att upprätthålla en intern modell av hur världen fungerar, som de vanligtvis kallar en Världsmodell. En Världsmodell förutsäger inte bara nästa ord; den bygger en intern mental karta av hur den fysiska miljön fungerar. När vi ser en boll rulla bakom en soffa, vet vi att den fortfarande finns där. Vi vet att den kommer att dyka upp på andra sidan, såvida den inte stoppas. Vi behöver inte läsa en lärobok för att förstå detta; vi kör en mental simulering baserad på vår interna “världsmodell” av fysik och objektsbeständighet.

För att AI ska utvecklas, måste den gå från statistisk imitation till denna typ av intern simulering. Den behöver förstå de underliggande orsakerna till händelser, inte bara deras textbeskrivningar.

Den Joint Embedding Predictive Architecture (JEPA) är ett exempel på denna paradigmförändring. Till skillnad från LLM:er, som försöker förutsäga varje enskild pixel eller ord (en process som är beräkningskrävande och bullrig), förutsäger JEPA abstrakta representationer. Den ignorerar oförutsägbara detaljer som rörelsen av enskilda blad på ett träd och fokuserar på högnivåkoncept som trädet, vinden och årstiden. Genom att lära sig att förutsäga hur dessa högnivåtillstånd förändras över tid, lär sig AI världens struktur snarare än ytanivådetaljer.

Från prediktion till simulering

Vi ser redan de första glimtarna av denna övergång i videogenereringsmodellerna. När OpenAI släppte Sora, beskrev de den inte bara som ett videoverktyg, utan som en “världssimulator.”

Denna distinktion är avgörande. En standardvideo-generator kan skapa en video av en person som går genom att förutsäga vilka färgade pixlar som vanligtvis följer på varandra. En världssimulator försöker däremot upprätthålla 3D-konsistens, belysning och objektsbeständighet över tid. Den “förstår” att om personen går bakom en vägg, bör den inte försvinna från existensen.

Medan nuvarande videomodeller fortfarande är långt ifrån perfekta, representerar de den nya träningsplatsen. Den fysiska världen innehåller betydligt mer information än den textbaserade världen. En enda sekund av video innehåller miljontals visuella datapunkter om fysik, ljus och interaktion. Genom att träna modeller på denna visuella verklighet kan vi lära AI den “sunda förnuft” som LLM:er för närvarande saknar.

Detta skapar en ny skalningslag. Framgång kommer inte längre att mätas av hur många biljoner token en modell har läst. Den kommer att mätas av simuleringens trohet och dess förmåga att förutsäga framtida tillstånd i miljön. En AI som kan förutsäga konsekvenserna av en handling utan att behöva utföra den, är en AI som kan planera, resonera och agera säkert.

Effektivitet och vägen till AGI

Denna förändring adresserar också de ohållbara energikostnaderna för nuvarande AI. LLM:er är ineffektiva eftersom de måste förutsäga varje detalj för att generera en sammanhängande utdata. En Världsmodell är mer effektiv eftersom den är selektiv. Liksom en mänsklig förare fokuserar på vägen och ignorerar molnmönstret på himlen, fokuserar en Världsmodell på de relevanta orsakssambanden för en uppgift.

LeCun har hävdat att denna strategi tillåter modeller att lära sig mycket snabbare. Ett system som V-JEPA (Video-Joint Embedding Predictive Architecture) har visat att det kan konvergera till en lösning med betydligt färre träningsiterationer än traditionella metoder. Genom att lära sig “formen” på data snarare än att memorera data i sig, bygger Världsmodeller en mer robust form av intelligens som generaliserar bättre till nya, osedda situationer.

Detta är den saknade länken för AGI. Sann intelligens kräver navigation. Den kräver att en agent tittar på ett mål, simulerar olika vägar för att uppnå målet med hjälp av sin interna modell av världen, och sedan väljer den väg med den högsta sannolikheten för framgång. Textgeneratorer kan inte göra detta; de kan bara skriva en plan, men de kan inte förstå begränsningarna för att utföra den.

Slutsatsen

AI-industrin står vid en vändpunkt. Strategin “lägg bara till mer data” når sitt logiska slut. Vi går från eran av chatbots till eran av simulatorer.

Nästa generation av AI-skalning kommer inte att handla om att läsa hela internet. Den kommer att handla om att observera världen, förstå dess regler och bygga en intern arkitektur som speglar verkligheten. Detta är inte bara en teknisk uppgradering; det är en grundläggande förändring av vad vi anser för “inlärning”.

För företag och forskare måste fokus skifta. Vi måste sluta fixera oss vid parameterantal och börja utvärdera hur väl våra system förstår orsak och verkan. AI i framtiden kommer inte bara att berätta vad som hände; den kommer att visa vad som kan hända, och varför. Det är löftet om Världsmodeller, och det är den enda vägen framåt.

Dr. Tehseen Zia Ă€r en fast anstĂ€lld bitrĂ€dande professor vid COMSATS University Islamabad, med en doktorsexamen i AI frĂ„n Vienna University of Technology, Österrike. Specialiserad pĂ„ artificiell intelligens, maskinlĂ€rning, datavetenskap och datorseende, har han gjort betydande bidrag med publikationer i ansedda vetenskapliga tidskrifter. Dr. Tehseen har ocksĂ„ lett olika industriprojekt som huvudutredare och tjĂ€nstgjort som AI-konsult.