Connect with us

Kunstig intelligens

Gemini 3.1 Pro Opnår Rekordhøje Fornuftsmæssige Gevinster

mm

Google udgav Gemini 3.1 Pro den 19. februar, en opdatering til deres flagskibs AI-model, der mere end fordobler fornuftsmæssig ydeevne, mens prisen holdes identisk med forgængeren.

Det mest slående tal: på ARC-AGI-2, en benchmark, der tester, om modeller kan løse helt nye logiske mønstre i stedet for at huske træningsdata, scorer Gemini 3.1 Pro 77,1%. Gemini 3 Pro scorede 31,1%. Den 46 procentpoints store spring er den største enkelt-generations fornuftsmæssige gevinst i nogen frontmodel-familie.

Modellen er tilgængelig med det samme på tværs af Googles forbruger- og udviklerplatforme. Brugere af Gemini-appen på AI Pro- og AI Ultra-planer får adgang med højere brugsgrænser, mens udviklere kan få adgang til 3.1 Pro gennem Gemini API i AI Studio, Vertex AI, Gemini CLI, Antigravity og Android Studio. NotebookLM får også opgraderingen til Pro- og Ultra-abonnenter.

Prisen holdes på 2 dollar pr. million input-tegn for prompts under 200.000 tegn, stigende til 4 dollar for længere sammenhænge. Output koster 12 dollar pr. million tegn. For alle, der allerede bruger Gemini 3 Pro gennem API’et, er opgraderingen gratis.

Benchmark-ydeevne på tværs af brættet

Den modelkort viser, at Gemini 3.1 Pro kræver førstepladsen på 12 af 18 sporedde benchmarks. Ud over ARC-AGI-2 omfatter højdepunkterne 94,3% på GPQA Diamond, en videregående videnskabsfornuftstest, og 2.887 Elo på LiveCodeBench Pro, den højeste score på tværs af alle frontmodeller for konkurrenceprogrammering.

På Humanity’s Last Exam – en benchmark, der er hentet fra crowdsourced eksperthouse i tværs af akademiske discipliner – når 3.1 Pro 44,4%, op fra 37,5% for Gemini 3 Pro og foran GPT-5.2’s 34,5%. Den multilinguale MMLU-benchmark viser 92,6%, og langkontekstnøjagtighed på 128.000 tegn holder på 84,9%.

Modellen beholder en 1 million tegn inputkontekstvindue og genererer op til 64.000 output-tegn, svarende til specifikationerne for AI-kodeværktøjer, der skal indtage hele kodebaser og producere betydelige kodeblokke i en enkelt session.

Hvor 3.1 Pro ikke leder, er også afslørende. På SWE-Bench Verified, en test af rigtige software-ingeniørmæssige opgaver, scorer den 80,6% – lige bag Anthropic’s Claude Opus 4.6 på 80,8%. Gapet er marginalt, men det viser, at Anthropic stadig har en smal fordel i de praktiske kodningsopgaver, der driver virksomhedsadoption.

Hvad dynamisk tænkning ændrer

Gemini 3.1 Pro bruger dynamisk tænkning som standard, en tilgang, hvor modellen tilpasser, hvor meget intern tænkning den anvender, afhængigt af kompleksiteten af hver prompt. Simple spørgsmål får hurtige svar. Komplekse multi-trinsproblemer udløser dybere proceskæder, før modellen genererer sin respons.

Udviklere kan kontrollere dette adfærd gennem en thinking_level-parameter i API’et, der indstiller den maksimale dybde af intern tænkning. Dette løser en spænding i fornuftsmæssige modeller: forlænget tænkning forbedrer nøjagtigheden på svære problemer, men tilføjer latency og omkostninger for straightforward forespørgsler. Dynamisk tænkning forsøger at automatisere denne afvejning.

Funktionen afspejler en bredere industriel skift. OpenAI’s o-serie-modeller introducerede chain-of-thought-tænkning som en valgbar tilstand. Anthropics Claude bruger forlænget tænkning som en valgfri funktion. Googles tilgang til at gøre det til standard – med variabel intensitet – vædder på, at de fleste brugere hellere vil lade modellen beslutte, hvor hårdt den skal tænke, end selv styre denne beslutning.

Det konkurrerende felt strammes

Gemini 3.1 Pro ankommer på et marked, hvor benchmark-lederskab skifter hænder månedligt. Googles Gemini 3 udløste en “code red” hos OpenAI, der producerede GPT-5.2 på under en måned. Anthropic har været ved at udgive Claude-opdateringer i en accelererende takt. Hver udgivelse indskrænker gapet mellem modellerne, hvilket gør valget mellem platforme mere og mere afhængigt af økosystem og priser snarere end rå kapacitet.

Googles fordel bliver distribution. Gemini 3.1 Pro passer direkte ind i produkter, der bruges af hundredvis af millioner af mennesker: Gmail, Docs, Search og Personal Intelligence-funktionerne, der forbinder modellen med brugernes personlige data. Modellen driver også Gemini Enterprise og Gemini CLI, hvilket giver udviklere og virksomheder adgang gennem værktøjer, de allerede bruger.

For udviklere, der vælger mellem frontmodeller, er priseringsbeslutningen blevet lettere. Til 2 dollar pr. million input-tegn underkutter Gemini 3.1 Pro både OpenAI’s og Anthropics flagskibspriser for sammenlignelig kapacitet. Den gratis opgradering fra 3 Pro fjerner enhver migrationsfriktion for eksisterende brugere.

De fornuftsmæssige gevinster betyder mest for agente-anvendelser – AI-systemer, der planlægger, udfører multi-trinsopgaver og bruger værktøjer autonomt. ARC-AGI-2 tester specifikt den type nyt mønstergenkendelse, som agenterne har brug for, når de møder problemer, deres træningsdata ikke dækkede. En model, der scorer 77,1% på denne test, håndterer ukendte situationer langt mere pålideligt end en model, der scorer 31,1%.

Om disse benchmark-gevinster oversætter til proportionale virkelige forbedringer, er det spørgsmål, Google skal besvare i de kommende uger. Benchmarks fanger bestemte evner under kontrollerede betingelser; den faktiske brugeroplevelse afhænger af, hvordan modellen ydeevner på tværs af det uforudsigelige udvalg af opgaver, mennesker kaster på den. ARC-AGI-2-springet antyder, at 3.1 Pro håndterer nyt bedre end nogen model før det. Hvad brugerne gør med denne kapacitet, vil bestemme, om tallene betyder noget.

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.