TekoÀly
Test-aikaisen skaalautumisen salaisuus: Uuden aallon PhD-tason pÀÀttelymallit

Tekoälyalan on saavuttanut vaiheen, jossa yksinkertaisesti lisäämällä dataa tai kasvattamalla mallin kokoa ei ole paras tapa tehdä siitä älykkäämpää. Viime vuosina uskoimme, että jos rakennamme suurempia neuroverkkoja ja syötämme niille enemmän internetiä, ne lopulta tulevat älykkäämmiksi. Tämä lähestymistapa, jota kutsutaan skaalautumislaeiksi, toimi erinomaisesti. Se antoi meille malleja, jotka voivat kirjoittaa runoa, kääntää kieliä ja läpäistä lakitutkinnon. Näiden mallien on kuitenkin usein vaikea selviytyä syvistä loogisista ongelmista, monimutkaisista matemaattisista ongelmista ja monivaiheisista tieteellisistä ongelmista. Ne ovat olleet erinomaisia kuvioita tunnistamassa, mutta usein epäonnistuneet ongelmissa, jotka vaativat monivaiheista päättelyä.
Viime aikoina on ilmaantunut uusi suuntaus, joka muuttaa tapaa, jolla ajattelemme tekoälykyvyistä. Tämä suuntaus on kutsuttu test-aikaisen skaalautumiseksi. Sen sijaan, että keskittyisimme vain siihen, miten paljon malli oppii koulutusvaiheessa, tutkijat ovat nyt keskittyneet siihen, miten paljon malli “ajattelee”, kun se vastaa kysymykseen. Tämä muutos on salaisuus uusimman aallon päättelymallien takana, kuten OpenAI:n o1-sarja, jotka suorittavat johtavien tutkijoiden tasolla haasteellisissa aiheissa, kuten fysiikassa, kemiassa ja biologiassa.
Siirtyminen koulutuksen skaalautumisesta päättelyn skaalautumiseen
Ymmärtääksemme, miksi tämä on suuri muutos, meidän on tarkasteltava, miten tekoäly on rakennettu tähän asti. Perinteisesti mallin “älykkyys” määriteltiin sen koulutuksen perusteella. Tämä vaati kuukausien ja miljoonien dollarien sijoittamista massiivisten datamäärien kautta tuhansiin GPU:hin. Kun koulutus oli valmis, malli oli käytännössä jäädytetty. Kun kysyit siltä kysymyksen, se antoi vastauksen lähes välittömästi sen perusteella, mitä se oli jo oppinut. Tämä on sitä, mitä kutsutaan päättelyksi tai test-aikaiseksi.
Tämän perinteisen lähestymistavan ongelma on, että mallilla on vain yksi mahdollisuus saada vastaus oikein. Se prosessoi kysymyksen ja luo tokenit yksi toisensa jälkeen ilman mahdollisuutta “ajatella” tai “tarkistaa” loogista ennen kuin se puhuu. Test-aikainen skaalautuminen muuttaa tämän dynamiikkaa. Se sallii mallin käyttää enemmän laskentaresursseja päättelyvaiheessa. Niin kuin ihminen voi ottaa muutaman sekunnin vastata yksinkertaiseen kysymykseen, mutta useita minuutteja tai tunteja ratkaista monimutkaisen matemaattisen ongelman, tekoälymallit on suunniteltu skaalautumaan ponnistelun mukaan tehtävän vaikeuden mukaan.
Test-aikaisen skaalautumisen määrittely
Test-aikainen skaalautuminen viittaa tekniikoihin, jotka sallivat tekoälymallin käyttää lisää laskentaresursseja prosessoida pyyntö toimituksen hetkellä. Yksinkertaisesti sanottuna se tarkoittaa antamista mallille enemmän “ajatteluaikaa”. Tämä ei ole siitä, että malli tehdään suuremmaksi, vaan siitä, että malli tehdään tarkoituksenmukaisemmaksi. Kun malli käyttää test-aikaista skaalautumista, se ei tuota vain ensimmäistä vastausta, joka tulee mieleen. Sen sijaan se voi tutkia eri polkuja, tarkistaa virheitä omassa logiikassaan ja tarkentaa vastausta ennen kuin käyttäjä näkee sen.
Tämä käsite on usein verrattu siihen, miten ihmisen aivot toimivat. Psykologit puhuvat usein “Järjestelmä 1” ja “Järjestelmä 2” -ajattelusta. Järjestelmä 1 on nopea, vaistomainen ja emotionaalinen. Se on sitä, mitä käytät, kun tunnistat kasvon tai ajet tuoreella tiellä. Järjestelmä 2 on hitaampi, tarkoituksenmukaisempi ja loogisempi. Se on sitä, mitä käytät, kun ratkaat monimutkaisen matemaattisen yhtälön tai suunnittelet monimutkaisen projektin. Viime aikoina LLM:t ovat olleet pääasiassa Järjestelmä 1 -ajattelijoita. Test-aikainen skaalautuminen on silta, joka sallii heidän päästä Järjestelmä 2 -ajatteluun.
Päättelyprosessin mekaniikka
On useita tapoja, joilla tutkijat saavuttavat test-aikaisen skaalautumisen. Yksi yleisimmistä menetelmistä on kutsuttu Chain of Thought (CoT) -ohjaukseksi, mutta näissä uusissa malleissa se on rakennettu suoraan järjestelmään eikä ole asia, jota käyttäjän on pyydettävä. Malli on koulutettu jakamaan ongelman pienempiin, loogisiin askeliin. Tekemällä tätä, malli voi vahvistaa jokaisen osan ratkaisusta ennen siirtymistä seuraavaan.
Toinen tärkeä tekniikka liittyy hakualgoritmeihin, kuten Monte Carlo -puuhakujen. Sen sijaan, että se pelkästään ennustaa seuraavan todennäköisimmän sanan, malli luo useita mahdollisia polkuja vastaukseksi. Se arvioi näitä polkuja ja määrittää, kumpi niistä on todennäköisimmin johtava oikeaan ratkaisuun. Jos se osuu umpikujaan tai toteaa, että edellinen askel oli väärä, se voi palata ja kokeilla toista lähestymistapaa. Tämä “etukatselu”-ominaisuus on hyvin samankaltainen siihen, miten shakki-engine arvioi tuhansia mahdollisia siirtoja ennen kuin valitsee parhaimman. Hakemalla useita mahdollisuuksia päättelyvaiheessa malli voi ratkaista monimutkaisempia ongelmia kuin ne, jotka voidaan ratkaista suoraan käyttämällä standardia LLM:ää.
Miksi PhD-tason päättely vaatii enemmän kuin muisti
Syy, miksi tämä on niin tärkeää, on, että korkean tason päättely tieteessä ja matematiikassa ei voida ratkaista pelkästään muistin avulla. PhD-tason fysiikkakokeessa et voi vain toistaa faktan, jonka olet lukenut kirjasta. Sinun on sovellettava monimutkaisia periaatteita uuteen ja yksilölliseen tilanteeseen. Standardimallit usein “hallusinoivat” näissä tilanteissa, koska ne yrittävät ennustaa seuraavan sanan todennäköisyyden perusteella eikä logiikkaa.
Test-aikainen skaalautuminen sallii mallin toimia enemmän kuin tutkija. Se voi testata hypoteeseja sisäisesti. Esimerkiksi, jos malli pyydetään kirjoittamaan monimutkainen koodi, se voi “suorittaa” loogisen ketjun ajatuksissaan, tunnistaa mahdollisen bugin ja korjata sen ennen kuin esittää lopullisen koodin. Tämä kyky itsekorjata on se, mikä sallii uusimman aallon malleja saavuttaa korkeat pisteet kokeissa, kuten American Invitational Mathematics Examination (AIME) tai GPQA (vaikea tieteellinen koe, jonka ovat suunnitelleet asiantuntijat). Ne eivät vain arvaile, vaan vahvistavat.
Tehokkuuden ja laskentakustannusten vaihtoehto
Vaikka test-aikainen skaalautuminen on voimakasta, se tulee merkittävän kustannuksen kera. Vanhassa tapassa tekoälyn tekemistä kallein osa oli koulutus. Kun malli oli otettu käyttöön, sen suorittaminen oli suhteellisen halpaa ja nopeaa. Test-aikaisen skaalautumisen kanssa kustannus siirtyy käyttäjän pyynnön puolelle. Koska malli tekee enemmän työtä luomalla useita polkuja ja tarkistamalla oman työnsä, se vie kauemmin vastata ja vaatii enemmän laitteistorajoituksia.
Tämä luo uudenlaisen talouden tekoälylle. Siirrymme tilanteeseen, jossa “kyselykohtainen kustannus” voi vaihdella suuresti. Yksinkertainen kysymys säästä voi maksaa vain murto-osan sentistä ja kestää sekunnin. Syvä tieteellinen kysymys voi maksaa useita dollareita laskentaaikana ja kestää tunnin käsitellä. Tämä vaihtoehto on välttämätön saavuttaaksemme korkean tason päättelyn, mutta se myös tarkoittaa, että kehittäjien on löydettävä keino tehdä nämä mallit tehokkaammiksi, jotta ne voidaan käyttää laajasti aloilla, kuten lääketieteessä tai insinööritieteessä.
Vaikutus tekoälyn tulevaisuuteen
Test-aikaisen skaalautumisen nousu viittaa siihen, että saattaisimme olla siirtymässä uuteen tekoälykehityksen aikakauteen. Vuosien ajan oli pelko, että lopulta loppuisimme korkealaatuisesta ihmiskohtaisesta datasta kouluttaa malleja. Jos mallit oppivat vain siitä, mitä ihmiset ovat jo kirjoittaneet, ne saattavat osua kattoon. Test-aikainen skaalautuminen näyttää, että mallit voivat parantaa suorituskykyään ajattelemalla kovemmin, eikä vain lukeamalla enemmän.
Tämä avaa oven tekoälylle tehdä omat löytönsä. Jos malli voi päättelyä ongelmasta, jonka se ei ole koskaan nähnyt aiemmin, se voi potentiaalisesti löytää uusia ratkaisuja materiaalitieteessä, lääkekehityksessä tai uusiutuvassa energiassa. Se siirtää tekoälyn olemuksesta avustavasta apulaisesta tieteelliseksi yhteistyökumppaniksi, joka voi auttaa ratkaisemaan maailman haasteellisimmat ongelmat. Näemme siirtymisen “luoja”-tekoälystä “päättely”-tekoälyyn.
Yhteenveto
Test-aikainen skaalautuminen osoittautuu puuttuvaksi renkaaksi edistyneen tekoälyn etsinnässä. Sallimalla malleille käyttää enemmän laskentaa päättelyvaiheessa olemme avaaneet suorituskyvyn tason, joka oli aiemmin ajateltu olevan vuosia eteenpäin. Nämä mallit ovat jo osoittaneet logiikkaa, joka tuntuu paljon lähempänä ihmisen älykkyyttä kuin yksinkertainen kuvion tunnistaminen menneisyydessä.
Kun edetään eteenpäin, haasteena on jalostaa näitä tekniikoita. Meidän on tehostettava päättelyä nopeammaksi ja helpommin saataville samalla etsimällä oikea tasapaino “nopean” ja “hitaiden” ajattelun välillä. Salaisuus on ei ole enää vain mallin koko tai määrä dataa, jonka se on nähnyt. Salaisuus on, miten malli käyttää aikaa ajatellakseen. Kaikille, jotka seuraavat tekoälyn edistymistä, on selvää, että fokus on siirtynyt. Kilpailu ei ole enää vain siitä, kuka on suurin malli, vaan kuka on malli, joka voi päättelyä parhaiten. Tämä siirtyminen määrittää todennäköisesti seuraavan vuosikymmenen innovaatioita tässä alalla.












