Kunstig intelligens
Fra OpenAI’s O3 til DeepSeek’s R1: Hvordan simulert tenkning gjør LLMs til å tenke dyptere
Store språkmodeller (LLMs) har utviklet seg betydelig. Det som startet som enkle tekstgenererings- og oversettelsesverktøy brukes nå i forskning, beslutningstaking og kompleks problemløsing. En nøkelfaktor i denne utviklingen er den økende evnen til LLMs til å tenke mer systematisk ved å bryte ned problemer, evaluere flere muligheter og finjustere sine svar dynamisk. I stedet for bare å forutsi neste ord i en sekvens, kan disse modellene nå utføre strukturert resonnering, noe som gjør dem mer effektive til å håndtere komplekse oppgaver. Ledende modeller som OpenAI’s O3, Google’s Gemini og DeepSeek’s R1 integrerer disse evnene for å forbedre deres evne til å prosessere og analysere informasjon mer effektivt.
Forståelse av simulert tenkning
Mennesker analyserer naturlig ulike alternativer før de tar beslutninger. Uansett om det er å planlegge en ferie eller løse et problem, simulerer vi ofte ulike planer i vårt sinn for å evaluere flere faktorer, veie for- og ulemper og justere våre valg deretter. Forskere integrerer denne evnen i LLMs for å forbedre deres resonneringsevner. Her refererer simulert tenkning essensielt til LLMs’ evne til å utføre systematisk resonnering før de genererer et svar. Dette er i motsetning til å bare hente et svar fra lagret data. En nyttig analogi er å løse et matematisk problem:
- En grundig AI kan gjenkjenne et mønster og raskt generere et svar uten å verifisere det.
- En AI som bruker simulert resonnering vil arbeide gjennom stegene, sjekke for feil og bekrefte sin logikk før den responderer.
Kjede av tanker: Læring av AI til å tenke i steg
Hvis LLMs skal utføre simulert tenkning som mennesker, må de kunne bryte ned komplekse problemer i mindre, sekvensielle steg. Dette er der Chain-of-Thought (CoT)-teknikken spiller en avgjørende rolle.
CoT er en prompt-tilnærming som guider LLMs til å arbeide gjennom problemer metodisk. I stedet for å hoppe til konklusjoner, muliggjør denne strukturerte resonneringsprosessen at LLMs kan dele komplekse problemer inn i enklere, håndterbare steg og løse dem steg for steg.
For eksempel, når det gjelder å løse et ordproblem i matematikk:
- En grundig AI kan forsøke å matche problemet med et tidligere sett eksempel og gi et svar.
- En AI som bruker Chain-of-Thought-resonnering vil skisse hver enkelt steg, logisk arbeide gjennom beregninger før den kommer til en endelig løsning.
Dette tilnærmingen er effektiv i områder som krever logisk deduksjon, fler-stegs problemløsing og kontekstuell forståelse. Mens tidligere modeller krevde menneske-produserte resonneringskjeder, kan avanserte LLMs som OpenAI’s O3 og DeepSeek’s R1 lære og anvende CoT-resonnering adaptivt.
Hvordan ledende LLMs implementerer simulert tenkning
Forskjellige LLMs anvender simulert tenkning på forskjellige måter. Under følger en oversikt over hvordan OpenAI’s O3, Google DeepMind’s modeller og DeepSeek-R1 utfører simulert tenkning, sammen med deres respektive styrker og begrensninger.
OpenAI O3: Tenkende forut som en sjakkspiller
Selv om eksakte detaljer om OpenAI’s O3-modell forblir ukjent, forskere tror det bruker en teknikk som ligner Monte Carlo Tree Search (MCTS), en strategi brukt i AI-drevne spill som AlphaGo. Liksom en sjakkspiller som analyserer flere trekk før avgjørelse, utforsker O3 ulike løsninger, vurderer deres kvalitet og velger den mest lovende.
I motsetning til tidligere modeller som bare baserer seg på mønstergjenkjenning, genererer O3 aktivt og finjusterer resonneringsstier ved hjelp av CoT-teknikker. Under inferens utfører den ekstra beregningssteg for å konstruere flere resonneringskjeder. Disse vurderes deretter av en vurderingsmodell—sannsynligvis en belønningsmodell trent for å sikre logisk kohens og korrekthet. Det endelige svaret velges basert på en poengsystem for å gi et velbegrundet utgangspunkt.
O3 følger en strukturert fler-stegs prosess. Først blir det finjustert på et stort datasett av menneskelig resonneringskjeder, internaliserer logisk tenkningsmønster. Under inferens genererer det flere løsninger for et gitt problem, rangerer dem basert på korrekthet og kohens og finjusterer den beste hvis nødvendig. Mens denne metoden tillater O3 å selv-korrigerende før svar og forbedre nøyaktigheten, er avkastningen beregningskostnaden—å utforske flere muligheter krever betydelig prosesseringskraft, noe som gjør det saktere og mer ressurskrevende. Likevel utmerker O3 seg i dynamisk analyse og problemløsing, og plasserer seg blant dagens mest avanserte AI-modeller.
Google DeepMind: Finjustering av svar som en redaktør
DeepMind har utviklet en ny tilnærming kalt “mind evolution“, som behandler resonnering som en iterativ finjusteringsprosess. I stedet for å analysere flere fremtidige scenarioer, fungerer denne modellen mer som en redaktør som finjusterer flere utkast av en essay. Modellen genererer flere mulige svar, vurderer deres kvalitet og finjusterer den beste.
Inspirert av genetiske algoritmer, sikrer denne prosessen høykvalitets-svar gjennom iterasjon. Den er spesielt effektiv for strukturerte oppgaver som logiske puslespill og programmeringsutfordringer, hvor klare kriterier bestemmer det beste svaret.
Men denne metoden har begrensninger. Ettersom den avhenger av et eksternt poengsystem for å vurdere svarkvalitet, kan den strides med abstrakt resonnering uten et klart riktig eller galt svar. I motsetning til O3, som dynamisk resonnerer i sanntid, fokuserer DeepMinds modell på å finjustere eksisterende svar, noe som gjør den mindre fleksibel for åpne spørsmål.
DeepSeek-R1: Læring til å resonere som en student
DeepSeek-R1 anvender en forsterkingslæringsbasert tilnærming som tillater den å utvikle resonneringsevner over tid, i stedet for å evaluere flere svar i sanntid. I stedet for å avhenge av forhånds-generert resonneringsdata, lærer DeepSeek-R1 ved å løse problemer, motta tilbakemelding og forbedre seg iterativt—tilsvarende hvordan studenter finjusterer problemløsningsevner gjennom praksis.
Modellen følger en strukturert forsterkingslæringsloop. Den starter med en basismodell, som DeepSeek-V3, og blir promptet til å løse matematisk problemer steg for steg. Hvert svar verifiseres gjennom direkte kode-eksekvering, og unngår dermed behovet for en ekstra modell til å validere korrekthet. Hvis løsningen er korrekt, belønnes modellen; hvis den er feil, straffes den. Denne prosessen gjentas omfattende, og tillater DeepSeek-R1 å finjustere sine logiske resonneringsevner og prioritere mer komplekse problemer over tid.
En nøkkel-fordel med denne tilnærmingen er effisiens. I motsetning til O3, som utfører omfattende resonnering under inferens, integrerer DeepSeek-R1 resonneringsevner under trening, noe som gjør den raskere og mer kostnadseffektiv. Den er høyt skalerbar ettersom den ikke krever et stort merket datasett eller en dyrekostet verifiseringsmodell.
Men denne forsterkingslæringsbaserte tilnærmingen har avkastninger. Ettersom den avhenger av oppgaver med verifiserbare resultater, utmerker den seg i matematikk og kode. Likevel kan den strides med abstrakt resonnering i loven, etikk eller kreativ problemløsing. Mens matematisk resonnering kan overføres til andre domener, er dens bredere anvendelighet usikker.
Tabell: Sammenligning mellom OpenAI’s O3, DeepMind’s Mind Evolution og DeepSeek’s R1

Fremtiden for AI-resonnering
Simulert resonnering er et betydelig steg mot å gjøre AI mer pålitelig og intelligent. Mens disse modellene utvikler seg, vil fokuset skifte fra å bare generere tekst til å utvikle robuste problemløsningsevner som ligner menneskelig tenkning. Fremtidige fremgang vil sannsynligvis fokusere på å gjøre AI-modeller i stand til å identifisere og korrigere feil, integrere dem med eksterne verktøy for å verifisere svar og gjenkjenne usikkerhet når de møter tvetydig informasjon. Likevel er en nøkkel-utfordring å balansere resonneringsdybde med beregnings-effisiens. Det ultimate målet er å utvikle AI-systemer som omtenkende vurderer sine svar, sikrer nøyaktighet og pålitelighet, på samme måte som en menneskelig ekspert omsorgsfullt vurderer hver avgjørelse før handling.










