Kunstig intelligens
Test-Tid Skalering: Hemmeligheten Bak Den Nye Bølgen Av PhD-Nivå Resonneringsmodeller

Feltet kunstig intelligens har nådd et punkt der bare å legge til mer data eller øke størrelsen på en modell ikke er den beste måten å gjøre den mer intelligent. I de siste årene trodde vi at hvis vi bygget større neurale nettverk og mata dem med mer av internettet, ville de til slutt bli mer intelligente. Denne tilnærmingen, kjent som skaleringslover, fungerte merkelig nok veldig bra. Den ga oss modeller som kan skrive poesi, oversette språk og bestå advokatprøven. Imidlertid hadde disse modellene ofte problemer med dypt logikk, kompleks matematikk og multi-steg vitenskapelige problemer. De var utmerkede til mønstergjenkjenning, men ofte feilet på problemer som krever multi-steg resonnering.
Nylig har en ny trend dukket opp som endrer måten vi tenker om AI-egenskaper. Denne trenden kalles test-tid skalering. I stedet for å fokusere bare på hvor mye en modell lærer under sin treningsfasen, fokuserer forskerne nå på hvor mye modellen “tenker” når den faktisk besvarer et spørsmål. Denne skiftet er hemmeligheten bak den siste bølgen av resonneringsmodeller, som OpenAI’s o1-serie, som nå utfører på niveau med PhD-studenter i vanskelige emner som fysikk, kjemi og biologi.
Skiftet fra å skalerer trening til å skalerer inferens
For å forstå hvorfor dette er en stor endring, må vi se på hvordan AI ble bygget før nå. Tradisjonelt ble “intelligensen” til en modell bestemt basert på dens trening. Dette involverte å bruke måneder og millioner av dollar på å kjøre enorme mengder data gjennom tusenvis av GPU-er. Når treningen var ferdig, var modellen essensielt frosset. Når du stilte den et spørsmål, ville den gi et svar nesten umiddelbart basert på mønstrene den allerede hadde lært. Dette kalles inferens eller test-tid.
Problemet med denne tradisjonelle tilnærmingen er at modellen bare har en sjanse til å få svaret riktig. Den prosesserer spørsmålet og genererer token ett etter ett uten en måte å “tenke” eller “doblekke” sin logikk før den svarer. Test-tid skalering endrer denne dynamikken. Den tillater modellen å bruke mer beregningskraft under inferensfasen. Akkurat som et menneske kan ta noen sekunder til å svare på et enkelt spørsmål, men flere minutter eller timer til å løse et komplekst matematisk problem, blir AI-modellene nå designet til å skalerer sin innsats basert på vanskelighetsgraden til oppgaven.
Definering av begrepet test-tid skalering
Test-tid skalering refererer til teknikkene som tillater en AI-modell å bruke ekstra beregningsressurser for å prosessere en forespørsel i øyeblikket for levering. I enkle termer betyr det å gi modellen mer “tenketid”. Dette handler ikke om å gjøre modellen større, men om å gjøre den mer bevisst. Når en modell bruker test-tid skalering, produserer den ikke bare det første svaret som kommer til mente. I stedet kan den utforske forskjellige stier, sjekke for feil i sin egen logikk og finpusse svaret før brukeren noen gang ser det.
Dette konseptet sammenlignes ofte med måten det menneskelige hjernen fungerer. Psykologer snakker ofte om “System 1” og “System 2” tenkning. System 1 er rask, instinktiv og emosjonell. Det er det du bruker når du gjenkjenner et ansikt eller kjører bil på en kjent vei. System 2 er langsommere, mer bevisst og logisk. Det er det du bruker når du løser et vanskelig matematisk problem eller planlegger et komplekst prosjekt. Før nylig var LLM-er hovedsakelig System 1-tenkere. Test-tid skalering er broen som tillater dem å nå System 2-tenkning.
Mekanismen til resonneringsprosessen
Det finnes flere måter å oppnå test-tid skalering på. En av de vanligste metodene kalles Chain of Thought (CoT) prompting, men i disse nye modellene er det bygget direkte inn i systemet i stedet for å være noe brukeren må be om. Modellen er trent til å bryte et problem ned i mindre, logiske steg. Ved å gjøre dette, kan modellen verifisere hver del av løsningen før den går videre til neste.
En annen viktig teknikk involverer søkealgoritmer, som Monte Carlo Tree Search. I stedet for bare å forutsi neste mest sannsynlige ord, genererer modellen flere mulige stier for et svar. Den vurderer disse stier og bestemmer hvilken som er mest sannsynlig å føre til en korrekt løsning. Hvis den treffer en dødvei eller innser at en tidligere steg var feil, kan den gå tilbake og prøve en annen tilnærming. Denne “look-ahead”-evnen er svært lik hvordan en sjakk-engine vurderer tusenvis av mulige trekk før den velger det beste. Ved å søke gjennom mange muligheter under inferens-stadiet, kan modellen løse mye mer komplekse problemer enn de som kan løses direkte ved hjelp av en standard LLM.
Hvorfor PhD-nivå resonnering krever mer enn minne
Grunnen til at dette er så viktig er at høy-nivå resonnering i vitenskap og matematikk ikke kan løses av minne alene. I en PhD-nivå fysikk-eksamen kan du ikke bare gjenta en faktum du leste i en lærebok. Du må anvende komplekse prinsipper til en ny og unik situasjon. Standardmodeller hallucinerer ofte i disse scenarioer fordi de prøver å forutsi neste ord basert på sannsynlighet i stedet for logikk.
Test-tid skalering tillater modellen å fungere mer som en forsker. Den kan teste hypoteser internt. For eksempel, hvis en modell blir bedt om å skrive en kompleks kode, kan den “kjøre” logikken i sin skjulte tankekedde, identifisere en potensiell feil og fikse den før den presenterer den endelige koden. Denne evnen til selv-korreksjon er det som tillater de nye modellene å nå høye poeng på benchmark-tester som American Invitational Mathematics Examination (AIME) eller GPQA (en vanskelig vitenskapelig test designet av eksperter). De gjettar ikke bare; de verifiserer.
Effisiens-trademoff og beregningskostnader
Mens test-tid skalering er kraftig, kommer det med en betydelig kostnad. I den gamle måten å gjøre ting på, var den dyreste delen av AI treningen. Når modellen var deployet, var å kjøre den relativt billig og rask. Med test-tid skalering skifter kostnaden mot brukerens forespørsel. Fordi modellen gjør mer arbeid ved å generere flere stier og sjekke sin egen arbeid, tar det lengre tid å svare og krever mer maskinvare-resurser.
Dette skaper en ny type økonomi for AI. Vi beveger oss mot en situasjon der “kostnaden per forespørsel” kan variere vilt. Et enkelt spørsmål om været kan koste en brøkdel av en cent og ta et sekund. En dypt vitenskapelig undersøkelse kan koste flere dollar i beregningskostnader og kan ta en time å prosessere. Denne avveiingen er nødvendig for å oppnå høy-nivå resonnering, men det betyr også at utviklere må finne måter å gjøre disse modellene effektive så de kan brukes i stor skala i industrier som medisin eller ingeniørvitenskap.
Påvirkningen på fremtiden til kunstig intelligens
Oppkomsten av test-tid skalering antyder at vi kan være i ferd med å gå inn i en ny æra av AI-utvikling. I årevis var det en bekymring for at vi ville til slutt løpe tom for høykvalitets menneskelig data for å trene modeller. Hvis modeller bare lærer fra hva mennesker allerede har skrevet, kan de kanskje nå et tak. Imidlertid viser test-tid skalering at modeller kan forbedre sin ytelse ved å tenke harder, ikke bare ved å lese mer.
Dette åpner døren for at AI kan gjøre sine egne oppdagelser. Hvis en modell kan resonere gjennom et problem det aldri har sett før, kan det potensielt finne nye løsninger i materialvitenskap, legemiddelforskning eller fornybar energi. Det flytter AI fra å være en hjelpende assistent som summerer tekst til å være en digital samarbeidspartner som kan hjelpe med å løse verdens hardeste problemer. Vi ser en bevegelse bort fra “generativ” AI mot “resonnerende” AI.
Bunnen av saken
Test-tid skalering viser seg å være den manglende lenken i jakten på avansert kunstig intelligens. Ved å tillate modeller å bruke mer beregningskraft i øyeblikket for inferens, har vi låst opp et nivå av ytelse som tidligere ble ansett å være år unna. Disse modellene begynner å demonstrere en type logikk som føles mye nærmere menneskelig intelligens enn den enkle mønstergjenkjenning fra fortiden.
Når vi går videre, vil utfordringen være å finpusse disse teknikkene. Vi må gjøre resonnering raskere og mer tilgjengelig samtidig som vi finner riktig balanse mellom “rask” og “langsom” tenkning. Hemmeligheten er ikke lenger bare størrelsen på modellen eller mengden data den har sett. Hemmeligheten er hvordan modellen bruker sin tid til å tenke. For alle som følger fremgangen i AI, er det klart at fokuset har skiftet. Kappløpet er ikke lenger bare om hvem som har den største modellen, men hvem som har modellen som kan resonere best. Denne skiftet vil sannsynligvis definere de neste ti års innovasjon i feltet.












