Følg os

Kunstig generel intelligens

AI's næste skaleringslov: Ikke flere data, men bedre verdensmodeller

mm

I årevis har industrien for kunstig intelligens fulgt en simpel, brutal regel: større jo bedre. Vi trænede modeller på massive datasæt, øgede antallet af parametre og kastede enorm beregningskraft mod problemet. Denne formel virkede det meste af tiden. Fra GPT-3 til GPT-4, og fra primitive chatbots til ræsonnementsmotorer, "skaleringsloven" foreslog, at hvis vi bare fortsatte med at give maskinen mere tekst, ville den med tiden blive intelligent.

Men vi er nu rammer en vægInternettet er begrænset. Offentlige data af høj kvalitet er ved at blive udtømt, og afkastet af blot at gøre modeller større er faldendeDe førende AI-forskere argumentere at det næste store spring inden for kunstig intelligens ikke vil komme fra at læse mere tekst alene. Det vil komme fra at forstå virkeligheden bag teksten. Denne overbevisning signalerer et fundamentalt skift i AI's fokus, der indleder verdensmodellens æra.

Grænserne ved forudsigelse af næste token

For at forstå, hvorfor vi har brug for en ny tilgang, må vi først se på, hvad nuværende AI-systemer rent faktisk gør. Trods deres imponerende muligheder er modeller som ChatGPT eller Claude fundamentalt statistiske motorerDe forudsiger det næste ord i en rækkefølge baseret på sandsynligheden for det foregående. De forstår ikke, at et tabt glas vil knuses; de ved blot, at i millioner af historier følger ordet "knuse" ofte udtrykket "tappet glas".

Denne tilgang, kendt som autoregressiv modellering, har en kritisk fejl. Den er udelukkende afhængig af korrelation, ikke årsagssammenhæng. Hvis man træner en LLM på tusind beskrivelser af et biluheld, lærer den ulykkernes sprog. Men den lærer aldrig fysikken bag momentum, friktion eller skrøbelighed. Den er en tilskuer, ikke en deltager.

Denne begrænsning er ved at blive “Datavæg"Vi har næsten skrabet hele det offentlige internet. For at skalere yderligere ved hjælp af den nuværende metode ville vi have brug for eksponentielt flere data, end der findes. Syntetiske data (dvs. tekst genereret af AI) tilbyder en midlertidig løsning, men det fører ofte til"model kollaps", hvor systemet forstærker sine egne bias og fejl. Vi kan ikke skalere os op til kunstig generel intelligens (AGI) ved kun at bruge tekst, fordi tekst er en komprimering af verden med lav båndbredde. Den beskriver virkeligheden, men den er ikke virkeligheden i sig selv.

Hvorfor verdensmodeller er vigtige

AI ledere ligesom Yann LeCun længe har argumenteret for, at nuværende AI-systemer mangler et grundlæggende aspekt af menneskelig kognition, som selv små børn besidder naturligt. Dette er vores evne til at opretholde en intern model af, hvordan verden fungerer, hvilket de almindeligvis omtaler som en VerdensmodelEn verdensmodel forudsiger ikke blot det næste ord; den opbygger et internt mentalt kort over, hvordan det fysiske miljø fungerer. Når vi ser en bold rulle bag en sofa, ved vi, at den stadig er der. Vi ved, at den vil dukke op på den anden side, medmindre den stoppes. Vi behøver ikke at læse en lærebog for at forstå dette; vi kører en mental simulering baseret på vores interne "verdensmodel" af fysik og objektpermanens.

For at AI kan udvikle sig, skal den bevæge sig fra statistisk imitation til denne type intern simulering. Den skal forstå de underliggende årsager til begivenheder, ikke blot deres tekstuelle beskrivelser.

Fælles indlejring af prædiktiv arkitektur (JEPA) er et godt eksempel på dette paradigmeskift. I modsætning til LLM'er, der forsøger at forudsige hver eneste pixel eller ord (en proces, der er beregningsmæssigt dyr og støjende), forudsiger JEPA abstrakte repræsentationer. Den ignorerer uforudsigelige detaljer som bevægelsen af ​​individuelle blade på et træ og fokuserer på overordnede koncepter såsom træet, vinden og årstiden. Ved at lære at forudsige, hvordan disse overordnede tilstande ændrer sig over tid, lærer AI verdens struktur at kende snarere end detaljerne på overfladen.

Fra forudsigelse til simulering

Vi ser allerede de første glimt af denne overgang i videogenereringsmodellerne. Da OpenAI udgav Sora, beskrev de det ikke blot som et videoværktøj, men som et “verdenssimulator".

Denne sondring er afgørende. En standard videogenerator kan oprette en video af en person, der går, ved at forudsige, hvilke farvede pixels der normalt placeres ved siden af ​​hinanden. En verdenssimulator forsøger imidlertid at opretholde 3D-konsistens, belysning og objektpermanens over tid. Den "forstår", at hvis personen går bag en væg, bør de ikke forsvinde fra eksistensen.

Selvom nuværende videomodeller stadig langt fra er perfekte, repræsenterer de den nye træningsgrund. Den fysiske verden indeholder betydeligt mere information end den tekstuelle verden. Et enkelt sekund af videoen indeholder millioner af visuelle datapunkter vedrørende fysik, lys og interaktion. Ved at træne modeller på denne visuelle virkelighed kan vi lære AI den "sunde fornuft", som LLM'er i øjeblikket mangler.

Dette skaber en ny skaleringslov. Succes vil ikke længere blive målt ud fra, hvor mange billioner tokens en model har læst. Den vil blive målt ud fra simuleringens nøjagtighed og dens evne til at forudsige fremtidige tilstande i miljøet. En AI, der præcist kan simulere konsekvenserne af en handling uden at skulle udføre den handling, er en AI, der kan planlægge, ræsonnere og handle sikkert.

Effektivitet og vejen til AGI

Dette skift adresserer også det uholdbare energikostnader af nuværende AI. LLM'er er ineffektive, fordi de skal forudsige hver eneste detalje for at generere et sammenhængende output. En verdensmodel er mere effektiv, fordi den er selektiv. Ligesom en menneskelig chauffør fokuserer på vejen og ignorerer mønsteret af skyer på himlen, fokuserer en verdensmodel på de relevante årsagsfaktorer i en opgave.

LeCun har argumenteret for, at denne tilgang gør det muligt for modeller at lære meget hurtigere. Et system som V-JEPA (Video-Joint Embedding Predictive Architecture) har vist, at den kan konvergere til en løsning med langt færre træningsiterationer end traditionelle metoder. Ved at lære dataenes "form" i stedet for at huske selve dataene, opbygger World Models en mere robust form for intelligens, der bedre generaliserer til nye, usete situationer.

Dette er det manglende led i AGI. Sand intelligens kræver navigation. Det kræver, at en agent ser på et mål, simulerer forskellige veje til at nå det mål ved hjælp af sin interne model af verden og derefter vælger den vej med den højeste sandsynlighed for succes. Tekstgeneratorer kan ikke gøre dette; de ​​kan kun skrive en plan, de kan ikke forstå begrænsningerne ved at udføre den.

The Bottom Line

AI-industrien står ved et vendepunkt. Strategien om at "bare tilføje mere data" er ved at nå sin logiske ende. Vi bevæger os fra chatbottens tidsalder til simulatorens tidsalder.

Den næste generation af AI-skalering vil ikke handle om at læse hele internettet. Det vil handle om at observere verden, forstå dens regler og opbygge en intern arkitektur, der afspejler virkeligheden. Dette er ikke blot en teknisk opgradering; det er en fundamental ændring i, hvad vi betragter som "læring".

For virksomheder og forskere skal fokus skifte. Vi er nødt til at holde op med at bekymre os om parameterantal og begynde at evaluere, hvor godt vores systemer forstår årsag og virkning. Fremtidens kunstige intelligens vil ikke bare fortælle dig, hvad der skete; den vil vise dig, hvad der kunne ske, og hvorfor. Det er løftet bag verdensmodeller, og det er den eneste vej frem.

Dr. Tehseen Zia er fast lektor ved COMSATS University Islamabad og har en ph.d. i kunstig intelligens fra Wiens teknologiske universitet, Østrig. Med speciale i kunstig intelligens, maskinlæring, datavidenskab og computersyn har han ydet betydelige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som Principal Investigator og fungeret som AI-konsulent.