Tekoäly
Gemini 3.1 Pro saavuttaa ennätykselliset päättelyedut

Google julkaisi Gemini 3.1 Pro 19. helmikuuta, päivityksen lippulaivamallilleen, joka kaksinkertaistaa päättelysuorituskyvyn säilyttäen saman hinnan kuin edeltäjällään.
Upein luku: ARC-AGI-2: ssä, jonka mittapuulla testataan mallien kykyä ratkaista kokonaan uusia loogisia malleja eikä muista koulutusdataa, Gemini 3.1 Pro saa 77,1 %. Gemini 3 Pro sai 31,1 %. 46 prosenttiyksikön hyppy on suurin yhden sukupolven päättelyparannus millään malliperheellä.
Malli on saatavilla välittömästi Google:n kuluttaja- ja kehittäjäalustoilla. Gemini-sovelluksen käyttäjät AI Pro- ja AI Ultra -suunnitelmissa saavat pääsyn korkeampien käyttörajoitusten kanssa, kun taas kehittäjät voivat käyttää 3.1 Pro: ta Gemini API: n kautta AI Studio, Vertex AI, Gemini CLI, Antigravity ja Android Studio. NotebookLM saa myös päivityksen Pro- ja Ultra-tilaajille.
Hinnat pysyvät 2 dollaria miljoonaa syötekoodia kohti alle 200 000 tokenin pituisissa kysymyksissä, ja nousevat 4 dollariin pidempien asiayhteyksien kohdalla. Tulosteen kustannus on 12 dollaria miljoonaa tokenia kohti. Kuka tahansa, joka jo käyttää Gemini 3 Pro: ta API: n kautta, saa päivityksen ilmaiseksi.
Benchmark-suorituskyky
Mallikortti osoittaa, että Gemini 3.1 Pro on ensimmäinen 12: lla 18 seurattavasta benchmarkista. ARC-AGI-2: n lisäksi huippuluokan tulokset ovat 94,3 % GPQA Diamond -testissä, joka on yliopistotason tieteen päättelytesti, ja 2 887 Elo LiveCodeBench Pro: ssa, joka on korkein tulos kaikilla malliperheillä kilpailukykyisessä ohjelmoinnissa.
Inhimillisen viimeisen tentin -benchmarkissa, joka on koottu joukkorahoitettujen asiantuntijakysymysten kautta akateemisilla aloilla, 3.1 Pro saavuttaa 44,4 %, kun taas Gemini 3 Pro sai 37,5 % ja GPT-5.2 sai 34,5 %. Monikielinen MMLU-benchmark osoittaa 92,6 %, ja pitkän asiayhteyden tarkkuus 128 000 tokenin kohdalla on 84,9 %.
Malli säilyttää 1 miljoonan tokenin syötekontekstin ja tuottaa jopa 64 000 tulostetokenia, mikä vastaa AI-koodigeneraattorien vaatimuksia, jotka tarvitsevat koko koodipohjan ja tuottavat merkittäviä koodiplokkeja yhdessä istunnossa.
Siellä, missä 3.1 Pro ei johda, on myös paljastavaa. SWE-Bench Verified -testissä, joka testaa todellisen ohjelmistosuunnittelutehtävien suorituskykyä, se saa 80,6 % – arvosanan, mikä on vain hieman Anthropicin Claude Opus 4.6: n 80,8 %: n jäljessä. Ero on marginaalinen, mutta se osoittaa, että Anthropicilla on edelleen kapea etu käytännön koodaus-tehtävissä, jotka ohjaavat yritysten omaksumista.
Mitä dynaaminen ajattelu muuttaa
Gemini 3.1 Pro käyttää dynaamista ajattelua oletuksena, jossa malli sopeuttaa sisäistä päättelyään kunkin kysymyksen monimutkaisuuden mukaan. Yksinkertaisiin kysymyksiin annetaan nopeita vastauksia. Monivaiheisiin ongelmiin laukaisee syvemmän prosessointiketjun ennen kuin malli tuottaa vastauksensa.
Kehittäjät voivat hallita tätä käyttäytymistä thinking_level -parametrin kautta API: ssä, asettamalla sisäisen päättelyn enimmäissyvyyden. Tämä koskee jännitettä päättelymalleissa: laajennettu päättely parantaa tarkkuutta haastavissa ongelmissa, mutta lisää viivettä ja kustannuksia suoraviivaisissa kysymyksissä. Dynaaminen ajattelu yrittää automatisoida tämän tasapainon.
Ominaisuus heijastaa laajempaa alan muutosta. OpenAI: n o-sarjan mallit esittivät ketjuajattelun päättelyn valittavana tilana. Anthropicin Claude käyttää laajennettua ajattelua valinnaisena ominaisuutena. Google:n lähestymistapa, jossa se on oletusarvo – vaihtelevalla voimakkuudella – vetoaa siihen, että useimmat käyttäjät haluavat antaa mallin päättää, kuinka paljon se ajattelee, sen sijaan, että he hallitsevat itse tätä päätöstä.
Kilpailukenttä kiristyy
Gemini 3.1 Pro saapuu markkinoille, jossa benchmark-johtajuus vaihtuu käsiin kuukausittain. Google:n Gemini 3 laukaisi “koodipunaisen” OpenAI: ssa, joka tuotti GPT-5.2: n alle kuukaudessa. Anthropic on toimittanut Claude-päivityksiä kiihtyvällä tahdilla. Jokainen julkaisu kapaa välimatkaa mallejen välillä, mikä tekee valinnan alustojen ja hinnoittelun välillä yhä enemmän riippuvaiseksi ekosysteemistä ja hinnoittelusta kuin raakaparannuksesta.
Google:n etu on jakelu. Gemini 3.1 Pro sijoittuu suoraan tuotteisiin, joita käyttää satoja miljoonia ihmisiä: Gmail, Docs, Search ja Henkilökohtainen älykkyys -ominaisuudet, jotka yhdistävät mallin käyttäjän henkilökohtaisiin tietoihin. Malli myös voimaa Gemini Enterprise and Gemini CLI :ää, jolloin kehittäjät ja yritykset pääsevät käsiksi työkaluihin, joita he jo käyttävät.
Kehittäjille, jotka valitsevat frontier-malleja, hinnoittelupäätös on helpottunut. 2 dollaria miljoonaa syötekoodia kohti Gemini 3.1 Pro alittaa sekä OpenAI: n että Anthropicin lippulaivamallien hinnoittelun vertailukelpoisista ominaisuuksista. Ilmainen päivitys 3 Pro: sta poistaa kaiken siirtymisen kitkan olemassa oleville käyttäjille.
Päättelyedut ovat tärkeimmät agenteille, jotka suunnittelevat, suorittavat monivaiheisia tehtäviä ja käyttävät työkaluja autonomisesti. ARC-AGI-2 testaa erityisesti uuden mallintunnistuksen, jota agentit tarvitsevat, kun he kohtaavat ongelmia, joita heidän koulutusdataansa ei ole koskettu. Malli, joka saa 77,1 %: n tässä testissä, käsittelee tuntemattomia tilanteita paljon luotettavammin kuin malli, joka saa 31,1 %.
Onko nämä benchmark-parannukset johtavat todellisiin, suhteellisiin parannuksiin, on se, mitä Googlelle täytyy vastata tulevien viikkojen aikana. Benchmarkit havaitsevat tiettyjä kykyjä kontrolloiduissa olosuhteissa; todellinen käyttäjäkokemus riippuu siitä, miten malli suoriutuu ennustamattomasta tehtävien kirjosta, jonka ihmiset heittävät sille. ARC-AGI-2 -hyppy osoittaa, että 3.1 Pro käsittelee uudet tilanteet paremmin kuin mikään malli aikaisemmin. Mitä käyttäjät tekevät tämän kyvyn kanssa, määrää, onko numerot merkityksellisiä.












