AGI
AI sin neste skaleringslov: Ikke mer data, men bedre verdensmodeller

For år har den kunstige intelligensindustrien fulgt en enkel, brutal regel: større er bedre. Vi trente modeller på massive datamengder, økte antallet parametre og kastet enorme beregningskraft på problemet. Denne formelen fungerte for det meste. Fra GPT-3 til GPT-4, og fra grove chatbots til resoneringssystemer, antydet “skaleringsloven” at hvis vi bare fortsatte å mate maskinen med mer tekst, ville den til slutt bli intelligent.
Men nå treffer vi en vegg. Internettet er endelig. Høykvalitets offentlige data blir uttømt, og avkastningen på å gjøre modellene større blir mindre. Ledende AI-forskere hevder at det neste store spranget i kunstig intelligens ikke kommer fra å lese mer tekst alene. Det kommer fra å forstå virkeligheten bak teksten. Dette synspunktet markerer en fundamental endring i AI-fokus, og innleder epoken med verdensmodellen.
Grensene for next-token-prediksjon
For å forstå hvorfor vi trenger en ny tilnærming, må vi først se på hva gjeldende AI-systemer faktisk gjør. Til tross for deres imponerende evner, er modeller som ChatGPT eller Claude fundamentalt statistiske motorer. De predikerer neste ord i en sekvens basert på sannsynligheten for hva som kom før. De forstår ikke at et droppet glass vil sprekke; de vet bare at i millioner av historier, følger ordet “sprekke” ofte etter frasen “droppet glass”.
Denne tilnærmingen, kjent som autoregressiv modellering, har en kritisk feil. Den baserer seg helt på korrelasjon, ikke årsakssammenheng. Hvis du trener en LLM på tusen beskrivelser av en bilulykke, lærer den språket til ulykkene. Men den lærer aldri fysikken til bevegelse, friksjon eller skjønnhet. Den er en tilskuer, ikke en deltaker.
Denne begrensningen blir “Data-veggen“. Vi har nesten skrapet hele det offentlige internettet. For å skale videre med den gjeldende metoden, ville vi trenger eksponentielt mer data enn det som finnes. Syntetisk data (dvs. tekst generert av AI) tilbyr en midlertidig løsning, men den fører ofte til “modell-kollaps“, hvor systemet forsterker sine egne fordommer og feil. Vi kan ikke skale vår vei til kunstig generell intelligens (AGI) ved å bruke tekst alene, fordi tekst er en lav-båndvidde komprimering av verden. Den beskriver virkeligheten, men den er ikke virkeligheten selv.
Hvorfor verdensmodeller betyr noe
AI ledere som Yann LeCun har lenge hevdet at gjeldende AI-systemer mangler en grunnleggende aspekt av menneskelig kognisjon som selv små barn besitter naturlig. Dette er vår evne til å opprettholde en intern modell av hvordan verden fungerer, som de vanligvis omtaler som en Verdensmodell. En Verdensmodell predikerer ikke bare neste ord; den bygger en intern mental kart over hvordan den fysiske omgivelsen opererer. Når vi ser en ball rulle bak en sofa, vet vi at den fortsatt er der. Vi vet at den vil dukke opp på den andre siden, medmindre den stoppes. Vi trenger ikke å lese en lærebok for å forstå dette; vi kjører en mental simulering basert på vår interne “verdensmodell” av fysikk og objektpersistens.
For å fremme AI, må den gå fra statistisk imitasjon til denne type interne simulering. Den må forstå de underliggende årsakene til hendelser, ikke bare deres tekstlige beskrivelser.
Joint Embedding Predictive Architecture (JEPA) er et primært eksempel på denne paradigmeskiftet. I motsetning til LLM-er, som prøver å predikere hvert enkelt bilde eller ord (en prosess som er komputasjonelt kostbar og støyende), predikerer JEPA abstrakte representasjoner. Den ignorerer uprediktable detaljer som bevegelsen av enkeltblad på et tre og fokuserer på høy-nivå-konsepter som treet, vinden og årstiden. Ved å lære å predikere hvordan disse høy-nivå-tilstandene endrer seg over tid, lærer AI strukturen til verden, ikke bare overfladens detaljer.
Fra prediksjon til simulering
Vi ser allerede de første glimtene av denne overgangen i video-genereringsmodellene. Når OpenAI lanserte Sora, beskrev de det ikke bare som et video-verktøy, men som en “verdenssimulator“.
Denne distinksjonen er vital. En standard video-genererator kan lage en video av en person som går ved å predikere hvilke fargede piksler vanligvis kommer etter hverandre. En verdenssimulator, derimot, prøver å opprettholde 3D-konsistens, lys og objektpersistens over tid. Den “forstår” at hvis personen går bak en vegg, skal den ikke forsvinne fra eksistensen.
Selv om gjeldende video-modeller fortsatt er langt fra perfekte, representerer de den nye treningsgrunn. Den fysiske verden inneholder betydelig mer informasjon enn den tekstlige verden. Et enkelt sekund av video inneholder millioner av visuelle datapunkter om fysikk, lys og interaksjon. Ved å trene modeller på denne visuelle virkeligheten, kan vi lære AI den “sunn fornuft” som LLM-er mangler.
Dette skaper en ny skaleringslov. Suksess vil ikke lenger måles av hvor mange billioner token en modell har lest. Den vil måles av simuleringens trofasthet og evnen til å predikere fremtidige tilstander i miljøet. En AI som kan nøyaktig simulere konsekvensene av en handling uten å måtte utføre den, er en AI som kan planlegge, resonere og handle trygt.
Effisiens og veien til AGI
Denne skiftet adresserer også de uholdbare energikostnadene til gjeldende AI. LLM-er er ineffektive fordi de må predikere hver enkelt detalj for å generere en kohrent utgang. En Verdensmodell er mer effektiv fordi den er selektiv. Liksom en menneskelig sjåfør fokuserer på veien og ignorerer mønsteret av skyer på himmelen, fokuserer en Verdensmodell på de relevante årsakssammenhengene til en oppgave.
LeCun har hevdet at denne tilnærmingen tillater modeller å lære mye raskere. Et system som V-JEPA (Video-Joint Embedding Predictive Architecture) har vist at det kan konvergere på en løsning med langt færre treningsiterasjoner enn tradisjonelle metoder. Ved å lære “formen” på dataene i stedet for å memorere dataene selv, bygger Verdensmodeller en mer robust form for intelligens som generaliserer bedre til nye, usette situasjoner.
Dette er den manglende lenken til AGI. Sannt inteligens krever navigasjon. Den krever en agent som ser på et mål, simulerer forskjellige stier for å nå målet ved å bruke sin interne modell av verden, og deretter velger stien med den høyeste sannsynligheten for suksess. Tekst-generatorene kan ikke gjøre dette; de kan bare skrive en plan, de kan ikke forstå begrensningene ved å utføre den.
Botunnslinjen
AI-industrien er på et vendepunkt. Strategien “bare legg til mer data” når sin logiske slutt. Vi går fra chatbot-tiden til simulator-tiden.
Den neste generasjonen av AI-skalerings vil ikke være om å lese hele internettet. Den vil være om å se på verden, forstå dens regler og bygge en intern arkitektur som speiler virkeligheten. Dette er ikke bare en teknisk oppgradering; det er en fundamental endring i hva vi betrakter som “læring”.
For bedrifter og forskere må fokus skifte. Vi må slutte å besette oss med parameter-tellinger og starte å evaluere hvor godt våre systemer forstår årsak og virkning. AI i fremtiden vil ikke bare fortelle deg hva som skjedde; den vil vise deg hva som kan skje, og hvorfor. Det er løftet om Verdensmodeller, og det er den eneste veien fremover.












