Kunstig generell intelligens
AIs neste skaleringslov: Ikke mer data, men bedre verdensmodeller

I Ärevis har kunstig intelligens-industrien fulgt en enkel, brutal regel: stÞrre jo bedre. Vi trente modeller pÄ massive datasett, Þkte antallet parametere og brukte enorm beregningskraft pÄ problemet. Denne formelen fungerte mesteparten av tiden. Fra GPT-3 til GPT-4, og fra enkle chatboter til resonneringsmotorer, «skaleringsloven«antar at hvis vi bare fortsatte Ä mate maskinen med mer tekst, ville den til slutt bli intelligent.»
Men vi er nÄ treffer en veggInternett er begrenset. Offentlige data av hÞy kvalitet er i ferd med Ä bli uttÞmt, og avkastningen pÄ Ä bare gjÞre modeller stÞrre er avtagendeDe ledende AI-forskerne argumentere at det neste store spranget innen kunstig intelligens ikke bare vil komme fra Ä lese mer tekst. Det vil komme fra Ä forstÄ virkeligheten bak teksten. Denne oppfatningen signaliserer et fundamentalt skifte i AIs fokus, og innleder verdensmodellens Êra.
Grensene for prediksjon av neste token
For Ă„ forstĂ„ hvorfor vi trenger en ny tilnĂŠrming, mĂ„ vi fĂžrst se pĂ„ hva dagens AI-systemer faktisk gjĂžr. Til tross for sine imponerende egenskaper, er modeller som ChatGPT eller Claude fundamentalt statistiske motorerDe forutsier det neste ordet i en sekvens basert pĂ„ sannsynligheten for det som kom forut. De forstĂ„r ikke at et mistet glass vil knuse; de ââvet bare at i millioner av historier fĂžlger ofte ordet «knuse» etter uttrykket «tappet glass».
Denne tilnÊrmingen, kjent som autoregressiv modellering, har en kritisk feil. Den er utelukkende avhengig av korrelasjon, ikke Ärsakssammenheng. Hvis du trener en LLM pÄ tusen beskrivelser av en bilulykke, lÊrer den ulykkenes sprÄk. Men den lÊrer aldri fysikken bak momentum, friksjon eller skjÞrhet. Den er en tilskuer, ikke en deltaker.
Denne begrensningen er i ferd med Ä bli «DataveggVi har nesten skrapt ut hele det offentlige internettet. For Ä skalere ytterligere med dagens metode, ville vi trenge eksponentielt mer data enn det som finnes. Syntetiske data (dvs. tekst generert av AI) tilbyr en midlertidig lÞsning, men det fÞrer ofte til «modellkollaps«, der systemet forsterker sine egne skjevheter og feil. Vi kan ikke skalere oss frem til kunstig generell intelligens (AGI) ved Ä bruke tekst alene fordi tekst er en lavbÄndbreddekomprimering av verden. Den beskriver virkeligheten, men den er ikke virkeligheten i seg selv.
Hvorfor verdensmodeller er viktige
AI ledere I likhet med Yann LeCun har de lenge hevdet at dagens AI-systemer mangler et grunnleggende aspekt ved menneskelig kognisjon som selv smÄ barn har naturlig. Dette er vÄr evne til Ä opprettholde en intern modell av hvordan verden fungerer, som de ofte refererer til som en VerdensmodellEn verdensmodell forutsier ikke bare det neste ordet; den bygger et internt mentalt kart over hvordan det fysiske miljÞet fungerer. NÄr vi ser en ball rulle bak en sofa, vet vi at den fortsatt er der. Vi vet at den vil dukke opp pÄ den andre siden med mindre den stoppes. Vi trenger ikke Ä lese en lÊrebok for Ä forstÄ dette; vi kjÞrer en mental simulering basert pÄ vÄr interne «verdensmodell» av fysikk og objektpermanens.
For at AI skal kunne utvikle seg, mÄ den gÄ fra statistisk imitasjon til denne typen intern simulering. Den mÄ forstÄ de underliggende Ärsakene til hendelser, ikke bare deres tekstlige beskrivelser.
Ocuco Felles innebygd prediktiv arkitektur (JEPA) er et godt eksempel pÄ dette paradigmeskiftet. I motsetning til LLM-er, som prÞver Ä forutsi hver eneste piksel eller ord (en prosess som er beregningsmessig dyr og stÞyende), forutsier JEPA abstrakte representasjoner. Den ignorerer uforutsigbare detaljer som bevegelsen til individuelle blader pÄ et tre og fokuserer pÄ overordnede konsepter som treet, vinden og Ärstiden. Ved Ä lÊre Ä forutsi hvordan disse overordnede tilstandene endrer seg over tid, lÊrer AI verdens struktur i stedet for detaljene pÄ overflatenivÄ.
Fra prediksjon til simulering
Vi ser allerede de fÞrste glimtene av denne overgangen i videogenereringsmodellene. Da OpenAI lanserte Sora, beskrev de det ikke bare som et videoverktÞy, men som et «verdenssimulator».
Dette skillet er viktig. En standard videogenerator kan lage en video av en person som gÄr ved Ä forutsi hvilke fargede piksler som vanligvis gÄr ved siden av hverandre. En verdenssimulator forsÞker imidlertid Ä opprettholde 3D-konsistens, belysning og objektpermanens over tid. Den «forstÄr» at hvis personen gÄr bak en vegg, skal de ikke forsvinne fra eksistensen.
Selv om nÄvÊrende videomodeller fortsatt er langt fra perfekte, representerer de den nye treningsarenaen. Den fysiske verden inneholder betydelig mer informasjon enn den tekstlige verden. Et enkelt sekund med video inneholder millioner av visuelle datapunkter angÄende fysikk, lys og interaksjon. Ved Ä trene modeller pÄ denne visuelle virkeligheten, kan vi lÊre AI den «sunne fornuften» som LLM-er for tiden mangler.
Dette skaper en ny skaleringslov. Suksess vil ikke lenger mÄles etter hvor mange billioner tokens en modell har lest. Den vil mÄles etter hvor nÞyaktig simuleringen er og dens evne til Ä forutsi fremtidige tilstander i miljÞet. En AI som nÞyaktig kan simulere konsekvensene av en handling uten Ä mÄtte utfÞre den handlingen, er en AI som kan planlegge, resonnere og handle trygt.
Effektivitet og veien til AGI
Dette skiftet tar ogsÄ for seg det uholdbare energikostnader av dagens AI. LLM-er er ineffektive fordi de mÄ forutsi hver eneste detalj for Ä generere en sammenhengende utdata. En verdensmodell er mer effektiv fordi den er selektiv. Akkurat som en menneskelig sjÄfÞr fokuserer pÄ veien og ignorerer mÞnsteret av skyer pÄ himmelen, fokuserer en verdensmodell pÄ de relevante Ärsaksfaktorene til en oppgave.
LeCun har hevdet at denne tilnÊrmingen lar modeller lÊre mye raskere. Et system som V-JEPA (Video-Joint Embedding Predictive Architecture) har vist at den kan konvergere mot en lÞsning med langt fÊrre treningsiterasjoner enn tradisjonelle metoder. Ved Ä lÊre «formen» pÄ dataene i stedet for Ä memorere selve dataene, bygger World Models en mer robust form for intelligens som generaliserer bedre til nye, usete situasjoner.
Dette er den manglende lenken for AGI. Sann intelligens krever navigasjon. Det krever at en agent ser pĂ„ et mĂ„l, simulerer forskjellige veier for Ă„ oppnĂ„ det mĂ„let ved hjelp av sin interne modell av verden, og deretter velger veien med hĂžyest sannsynlighet for suksess. Tekstgeneratorer kan ikke gjĂžre dette; de ââkan bare skrive en plan, de kan ikke forstĂ„ begrensningene ved Ă„ utfĂžre den.
Bunnlinjen
AI-bransjen er ved et vendepunkt. Strategien om Ä «bare legge til mer data» nÊrmer seg sin logiske slutt. Vi gÄr fra chatbotenes tidsalder til simulatorenes tidsalder.
Den neste generasjonen av AI-skalering vil ikke handle om Ä lese hele internett. Det vil handle om Ä observere verden, forstÄ dens regler og bygge en intern arkitektur som speiler virkeligheten. Dette er ikke bare en teknisk oppgradering; det er en fundamental endring i det vi anser som «lÊring».
For bedrifter og forskere mÄ fokuset endres. Vi mÄ slutte Ä vÊre besatt av parameterantall og begynne Ä evaluere hvor godt systemene vÄre forstÄr Ärsak og virkning. Fremtidens kunstige intelligens vil ikke bare fortelle deg hva som skjedde; den vil vise deg hva som kan skje, og hvorfor. Det er lÞftet til verdensmodeller, og det er den eneste veien videre.












