AGI
Tekoälyn seuraava skaalauslaki: ei enää vain enemmän dataa, vaan paremmat maailmanmallit

Viime vuosina tekoälyteollisuus on noudattanut yksinkertaista ja julmaa sääntöä: suurempi on parempi. Olemme kouluttaneet malleja massiivisilla datasarjoilla, lisänneet parametreja ja heittäneet valtavat laskentaresurssit ongelmaan. Tämä kaava on toiminut suurimman osan ajasta. GPT-3:sta GPT-4:ään ja karkeista chatboteista päättelymoottoreihin, “skaalauslaki” on viitannut siihen, että jos vain jatkaamme koneen ruokkimista enemmän tekstiä, se lopulta tulee älykkääksi.
Mutta nyt törmäämme seinään. Internet on äärellinen. Laadukas julkinen data on loppumassa, ja pelkästään mallien tekemisen suuremmaksi tuottamat hyödyt ovat väheneviä. Johtavat tekoälytutkijat väittävät, että seuraava suuri harppaus tekoälyssä ei tule ainoastaan lukemalla enemmän tekstiä. Se tulee ymmärtämällä tekstin taustalla olevaa todellisuutta. Tämä usko merkitsee perustavanlaatuista muutosta tekoälyn fokuksessa ja merkitsee maailmanmallien aikakauden alkua.
Seuraavan tokenin ennustamisen rajoitukset
Jotta ymmärtäisimme, miksi tarvitsemme uuden lähestymistavan, meidän on ensin katsottava, mitä nykyiset tekoälyjärjestelmät todella tekevät. Vaikka heillä on vaikuttavia kykyjä, mallit kuten ChatGPT tai Claude ovat perustaltaan tilastollisia moottoreita. Ne ennustavat seuraavan sanan jonossa perustuen siihen, mitä on tapahtunut aiemmin. Ne eivät ymmärrä, että pudotettu lasi rikkoutuu; ne tietävät vain, että miljoonissa tarinoissa sana “rikkoa” usein seuraa lausetta “pudotettu lasi.”
Tämä lähestymistapa, jota kutsutaan autoregressiiviseksi mallinnukseksi, on kriittinen virhe. Se perustuu kokonaan korrelaatioon, ei syy-seuraussuhteeseen. Jos koulutat LLM:n tuhansiin auto-onnettomuuden kuvausten, se oppii onnettomuuden kielen. Mutta se ei opi fysiikan lakia, kitkaa tai haurautta. Se on katsoja, ei osallistuja.
Tämä rajoitus on muuttumassa “Data-seinäksi“. Olemme melkein kokonaan keränneet koko julkinen internet. Jotta voisimme skaalata edelleen nykyisellä menetelmällä, tarvitsisimme eksponentiaalisesti enemmän dataa kuin mitä on olemassa. Synteettinen data (ts. tekoälyllä generoitu teksti) tarjoaa tilapäisen ratkaisun, mutta se usein johtaa “mallin romahdukseen“, jossa järjestelmä vahvistaa omia harhakäsityksiään ja virheitään. Emme voi skaalata tekoälyä yleiseen älykkyyteen (AGI) pelkästään tekstin avulla, koska teksti on matalan kaistanleveyden pakkaus maailmasta. Se kuvaa todellisuutta, mutta se ei ole itse todellisuus.
Miksi maailmanmallit ovat tärkeitä
Tekoälyjohtajat kuten Yann LeCun ovat pitkään väittäneet, että nykyiset tekoälyjärjestelmät puuttuvat perustavanlaatuinen osa ihmisen kognitiosta, jota jopa nuoret lapset omistavat luonnostaan. Tämä on kyky ylläpitää sisäistä mallia siitä, miten maailma toimii, jota he yleisesti kutsuvat maailmanmalliksi. Maailmanmalli ei pelkästään ennusta seuraavaa sanaa; se rakentaa sisäisen mentaalisen kartan siitä, miten fyysinen ympäristö toimii. Kun näemme pallon rullivan sohvan taakse, tiedämme, että se on edelleen siellä. Tiedämme, että se tulee näkyviin toisella puolella, ellei sitä estetä. Emme tarvitse lukea oppikirjaa ymmärtääksemme tämän; me ajamme mentaalista simulaatiota sisäisen “maailmanmallin” avulla fysiikasta ja objektiivisen pysyvyyden.
Tehtäväksi jää siirtyä tilastollisesta jäljittelystä tähän sisäiseen simulaatioon. Se tarvitsee ymmärtää tapahtumien taustalla olevia syitä, ei vain niiden tekstuaalisia kuvauksia.
Joint Embedding Predictive Architecture (JEPA) on tämän paradigmamuutoksen esimerkki. Toisin kuin LLM:t, jotka yrittävät ennustaa jokaisen yksittäisen pikselin tai sanan (prosessi, joka on laskennallisesti kallista ja meluisa), JEPA ennustaa abstrakteja edustuksia. Se jättää huomiotta ennustamattomat yksityiskohdat, kuten yksittäisten lehtien liikkeen puussa, ja keskittyy korkean tason käsitteisiin, kuten puuhun, tuuleen ja vuodenaikaan. Oppimalla ennustaa, miten nämä korkean tason tilat muuttuvat ajan myötä, tekoäly oppii maailman rakenteen, ei vain pinnan tason yksityiskohtia.
Ennustamisesta simulaatioon
Olemme jo näkemässä tämän siirtymän ensimmäisiä viitteitä videogeneraattorimalleissa. Kun OpenAI julkaisi Soran, he kuvasivat sitä ei pelkästään videotyökaluksi, vaan “maailmansimulaattoriksi.”
Tämä ero on olennainen. Standardi videogeneraattori saattaa luoda videon henkilöstä, joka kävelee, ennustamalla, mitkä väripikselit yleensä tulevat toisiinsa. Maailmansimulaattori pyrkii sen sijaan ylläpitämään 3D-yhdenmukaisuutta, valaistusta ja objektiivista pysyvyyttä ajan myötä. Se “ymmärtää”, että jos henkilö kävelee seinän taakse, hän ei häviä olemasta.
Vaikka nykyiset videomallit ovat edelleen kaukana täydellisyydestä, ne edustavat uutta harjoitusmaata. Fyysinen maailma sisältää merkittävästi enemmän tietoa kuin tekstuaalinen maailma. Yksittäinen videon sekunti sisältää miljoonia visuaalisia data-pisteitä fysiikasta, valosta ja vuorovaikutuksesta. Kouluttamalla malleja tällä visuaalisella todellisuudella voimme opettaa tekoälylle “yhteinen äly”, jota LLM:t nykyisin puuttuvat.
Tämä luo uuden skaalauslain. Menestyksen mitta ei enää ole se, kuinka monta biljoonaa tokenia malli on lukenut. Se mitataan simulaation uskottavuuden ja kyvyn ennustaa tulevia ympäristön tiloja. Tekoäly, joka voi tarkasti simuloida toiminnan seurauksia ilman tarvetta suorittaa toimintaa, on tekoäly, joka voi suunnitella, päättää ja toimia turvallisesti.
Tehokkuus ja tie AGI:hin
Tämä siirtymä myös koskee nykyisten tekoälyjärjestelmien kestämättömiä energian kustannuksia. LLM:t ovat tehokkaita, koska ne joutuvat ennustamaan jokaisen yksityiskohdan tuottaakseen yhdenmukaisen tuloksen. Maailmanmalli on tehokkaampi, koska se on valikoiva. Niin kuin ihmisajuri keskittyy tienpintaan ja jättää huomiotta pilvien kuviot taivaalla, maailmanmalli keskittyy asiaankuuluviin syy-seuraussuhteisiin tehtävään.
LeCun on väittänyt, että tämä lähestymistapa sallii mallien oppivan paljon nopeammin. Järjestelmä kuten V-JEPA (Video-Joint Embedding Predictive Architecture) on osoittanut, että se voi yhdistyä ratkaisuun paljon vähemmällä koulutusiteraatioilla kuin perinteiset menetelmät. Oppimalla “muodon” datasta itse, ei vain muistamalla dataa, maailmanmallit rakentavat vankemman älymystön, joka yleistyy paremmin uusiin, näkemättömiin tilanteisiin.
Tämä on puuttuva lenkki AGI:lle. Totuudenmukainen älykkyys vaatii navigointia. Se vaatii agentin tarkastella tavoitetta, simuloida eri polkuja tavoitteen saavuttamiseksi sisäisen maailmanmallin avulla ja valita polku, jolla on suurin todennäköisyys onnistua. Tekstigeneraattorit eivät voi tehdä tätä; ne voivat vain kirjoittaa suunnitelman, mutta eivät ymmärrä suunnitelman toteuttamisen rajoituksia.
Lopputulos
Tekoälyteollisuus on käännekohteen kohdalla. “Lisää vain enemmän dataa” -strategia on saavuttamassa loogisen loppurajansa. Siirrymme chatbottien aikakaudesta simulaattorien aikakauteen.
Seuraava tekoälyskalaus ei ole enää internetin lukemista. Se on maailman katsomista, ymmärtämistä sen säännöistä ja rakentamista sisäisestä arkkitehtuurista, joka heijastaa todellisuutta. Tämä ei ole ainoastaan tekninen päivitys; se on perustavanlaatuinen muutos siinä, mitä pidämme “oppimisena”.
Yrityksille ja tutkijoille fokus on muuttunut. Meidän on lopetettava obsessio parametrilukumäärästä ja arvioitava, miten hyvin järjestelmämme ymmärtävät syy-seuraussuhteita. Tulevaisuuden tekoäly ei pelkästään kerro, mitä tapahtui; se näyttää, mitä voisi tapahtua, ja miksi. Tämä on maailmanmallien lupa, ja se on ainoa eteenpäin johtava tie.












