AGI
AI:n seuraava skaalauslaki: ei enää vain enemmän dataa, vaan paremmat maailmanmallit

Vuosien ajan tekoälyteollisuus on noudattanut yksinkertaista, julmaa sääntöä: suurempi on parempi. Koulutimme malleja massiivisilla tietojoukoilla, kasvattimme parametreja ja heittimme valtavan laskentatehon ongelmaan. Tämä kaava toimi suurimman osan ajasta. GPT-3:sta GPT-4:ään ja karkeista chatboteista päättelymoottoreihin, “skaalauslaki” viittasi siihen, että jos vain jatkoimme koneen ruokkimista enemmän tekstiä, se lopulta tulisi älykkääksi.
Mutta nyt törmäämme seinään. Internet on äärellinen. Laadukas julkinen data on loppumassa, ja pelkästään mallien tekeminen suuremmaksi on vähentymässä. Johtavat tekoälytutkijat väittävät, että seuraava suuri loikka tekoälyssä ei tule pelkästään lukemalla enemmän tekstiä. Se tulee ymmärtämällä tekstin taakse piilevän todellisuuden. Tämä usko merkitsee perustavaa muutosta tekoälyn fokuksessa, ja se merkitsee maailmanmallin aikakauden alkua.
Seuraavan tokenin ennustamisen rajoitukset
Ymmärtääksemme, miksi tarvitsemme uuden lähestymistavan, meidän on ensin katsottava, mitä nykyiset tekoälyjärjestelmät todella tekevät. Vaikka niillä on vaikuttavat kyvyt, mallit kuten ChatGPT tai Claude ovat perustaltaan tilastollisia moottoreita. Ne ennustavat seuraavan sanan jonossa perustuen siihen, mitä edellisessä tapahtui. Ne eivät ymmärrä, että pudotettu lasi hajoaa; ne vain tietävät, että miljoonissa tarinoissa sana “hajoaa” usein seuraa lauseketta “pudotettu lasi.”
Tämä lähestymistapa, jota kutsutaan autoregressiiviseksi mallinnukseksi, on kriittinen virhe. Se perustuu täysin korrelaatioon, ei syy-seuraussuhteeseen. Jos koulutat LLM:n tuhansiin auto-onnettomuuden kuvausten, se oppii onnettomuuden kielen. Mutta se ei koskaan opi liikenteen fysiikkaa, kitkaa tai haurautta. Se on katsoja, ei osallistuja.
Tämä rajoitus on muuttumassa “Data Wall:ksi”. Olemme melkein kokonaan käyneet läpi koko julkinen internet. Jotta voisimme skaalata edelleen nykyisellä menetelmällä, tarvitsisimme eksponentiaalisesti enemmän dataa kuin mitä on olemassa. Synteettinen data (ts. tekoälyllä generoitu teksti) tarjoaa tilapäisen ratkaisun, mutta se usein johtaa “mallin romahdukseen“, jossa järjestelmä vahvistaa omia harhojaan ja virheitään. Emme voi skaalata tekoälyä yksinomaan tekstin avulla, koska teksti on matalan kaistanleveyden pakkaus maailmasta. Se kuvaa todellisuutta, mutta se ei ole itse todellisuus.
Miksi maailmanmallit ovat tärkeitä
Tekoäly johtajat kuten Yann LeCun ovat pitkään väittäneet, että nykyiset tekoälyjärjestelmät puuttuvat perustavasta inhimillisen kognitiivisen prosessin osasta, jota jopa nuoret lapset omistavat luonnostaan. Tämä on kyky ylläpitää sisäistä mallia siitä, miten maailma toimii, jota he yleisesti kutsuvat Maailmanmalliksi. Maailmanmalli ei pelkästään ennusta seuraavaa sanaa; se rakentaa sisäisen mentaalisen kartan siitä, miten fyysinen ympäristö toimii. Kun näemme pallon rullivan sohvan taakse, tiedämme, että se on edelleen siellä. Tiedämme, että se tulee näkyviin toisella puolella, ellei sitä estetä. Emme tarvitse lukemista oppiaksemme tämän; me ajamme mentaalista simulaatiota sisäisen “maailmanmallin” avulla fysiikasta ja objektiivisen pysyvyyden.
Tekoälyn on edettävä tilastollisesta jäljittelystä tähän sisäiseen simulaatioon. Se tarvitsee ymmärtää tapahtumien taustalla olevat syyt, ei vain niiden tekstuaaliset kuvaukset.
Joint Embedding Predictive Architecture (JEPA) on tämän paradigman muutoksen esimerkki. Toisin kuin LLM:t, jotka yrittävät ennustaa jokaisen yksittäisen pikselin tai sanan (prosessi, joka on laskennallisesti kallista ja meluisa), JEPA ennustaa abstrakteja edustuksia. Se jättää huomioimatta arvaamattomat yksityiskohdat, kuten yksittäisten lehtien liikkeen puussa, ja keskittyy korkean tason käsitteisiin, kuten puuhun, tuuleen ja vuodenaikaan. Oppimalla ennustamaan, miten nämä korkean tason tilat muuttuvat ajan myötä, tekoäly oppii maailman rakenteen, ei vain pinnan tason yksityiskohtia.
Ennustamisesta simulaatioon
Olemme jo näkemässä tämän siirtymän ensimmäisiä näkyjä videogeneraattorimalleissa. Kun OpenAI julkaisi Soran, he kuvasivat sen ei pelkästään videotyökaluksi, vaan “maailmansimulaattoriksi“.
Tämä ero on olennainen. Standardi videogeneraattori saattaa luoda videon, jossa henkilö kävelee, ennustaen, mitkä väripikselit yleensä menevät toistensa lähelle. Maailmansimulaattori pyrkii sen sijaan ylläpitämään 3D-yhdenmukaisuutta, valaistusta ja objektiivista pysyvyyttä ajan myötä. Se “ymmärtää”, että jos henkilö kävelee seinän taakse, hän ei häviä olemasta.
Vaikka nykyiset videomallit ovat edelleen kaukana täydellisyydestä, ne edustavat uutta koulutusmaastoa. Fyysinen maailma sisältää merkittävästi enemmän tietoa kuin tekstuaalinen maailma. Yksittäinen videon sekunti sisältää miljoonia visuaalisia tietopisteitä fysiikasta, valosta ja vuorovaikutuksesta. Kouluttamalla malleja tällä visuaalisella todellisuudella voidaan opettaa tekoälylle “yhteinen järki”, jota LLM:t nykyisin puuttuvat.
Tämä luo uuden skaalauslain. Menestyksen mitta ei enää ole, kuinka monta biljoonaa tokenia malli on lukenut. Se mitataan simulaation uskottavuuden ja kyvyn ennustaa tulevia ympäristön tiloja. Tekoäly, joka voi tarkasti simuloida toiminnan seurauksia ilman tarvetta suorittaa toimintaa, on tekoäly, joka voi suunnitella, päättää ja toimia turvallisesti.
Tehokkuus ja tie kohti AGI:a
Tämä siirtymä koskee myös nykyisten tekoälyjärjestelmien kestämättömiä energian kustannuksia. LLM:t ovat tehokkaita, koska ne joutuvat ennustamaan jokaisen yksityiskohdan luodakseen yhdenmukaisen tulosteen. Maailmanmalli on tehokkaampi, koska se on valikoiva. Niin kuin ihmisajaja keskittyy tien ja jättää huomioimatta pilvien kuviot taivaalla, Maailmanmalli keskittyy asiaankuuluvia syy-seuraussuhteita tehtävään.
LeCun on väittänyt, että tämä lähestymistapa sallii mallien oppivan paljon nopeammin. Järjestelmä kuten V-JEPA (Video-Joint Embedding Predictive Architecture) on osoittanut, että se voi saavuttaa ratkaisun paljon vähemmällä koulutusiteraatioilla kuin perinteiset menetelmät. Oppimalla “muodon” datasta itse, eikä muistamalla itse dataa, Maailmanmallit rakentavat vankemman älymystön, joka yleistyy paremmin uusiin, näkemättömiin tilanteisiin.
Tämä on puuttuva lenkki AGI:lle. Totuudenmukainen älyvyys edellyttää navigointia. Se edellyttää agentin tarkastella tavoitetta, simuloida eri polkuja tavoitteen saavuttamiseksi sisäisen maailmanmallin avulla ja valita polku, jolla on korkein todennäköisyys onnistua. Tekstigeneraattorit eivät voi tehdä tätä; ne voivat vain kirjoittaa suunnitelman, mutta eivät ymmärrä sen toteuttamisen rajoituksia.
Pohjimmiltaan
Tekoälyteollisuus on käännekohtassa. “Lisää vain enemmän dataa” -strategia on saavuttamassa loogisen loppupääteensä. Siirrymme chatbottien aikakaudesta simulaattorien aikakauteen.
Seuraava tekoälyskaalaus ei ole enää internetin lukemisesta. Se on maailman katsomisesta, sen sääntöjen ymmärtämisestä ja sisäisen arkkitehtuurin rakentamisesta, joka heijastaa todellisuutta. Tämä ei ole vain tekninen päivitys; se on perustavanlaatuinen muutos siinä, mitä me pidämme “oppimisena”.
Yrityksille ja tutkijoille fokus on muutettava. Meidän on loputtava parametrilaskujen himoamisesta ja aloitettava arviointi siitä, miten hyvin järjestelmämme ymmärtävät syyt ja seuraukset. Tulevaisuuden tekoäly ei kerro vain, mitä tapahtui; se näyttää, mitä voisi tapahtua, ja miksi. Se on Maailmanmallin lupa, ja se on ainoa eteenpäin vievä tie.












