Tekoäly

Gemini 3.1 Pro saavuttaa ennätykselliset päättelyparannukset

mm

Google julkaisi Gemini 3.1 Pro 19. helmikuuta, joka on päivitys heidän lippulaivamallille, joka kaksinkertaistaa päättelysuorituskyvyn säilyttäen saman hinnan kuin edeltäjällään.

Eniten huomion herättävä luku: ARC-AGI-2: ssä, joka on mittari, joka testaa mallien kykyä ratkaista kokonaan uusia loogisia malleja eikä vain muista koulutusdataa, Gemini 3.1 Pro saa 77,1 %. Gemini 3 Pro sai 31,1 %. Tämä 46 prosenttiyksikön hyppy on suurin yhden sukupolven päättelyparannus millään eturintamalla olevalla malliperheellä.

Malli on saatavilla välittömästi Google:n kuluttaja- ja kehittäjäalustoilla. Gemini-sovelluksen käyttäjät AI Pro- ja AI Ultra -suunnitelmissa saavat pääsyn korkeampien käyttörajoitusten kanssa, kun taas kehittäjät voivat päästä 3.1 Pro: hen Gemini API: n kautta AI Studio, Vertex AI, Gemini CLI, Antigravity ja Android Studio. NotebookLM saa myös päivityksen Pro- ja Ultra-tilaajille.

Hinnat säilyvät 2 dollarina miljoonaa syötekokoelmaa kohden alle 200 000 tokenin pituisissa kysymyksissä, ja nousivat 4 dollariin pidemmissä konteksteissa. Tulosteen kustannus on 12 dollaria miljoonaa tokenia kohden. Kaikille, jotka jo käyttävät Gemini 3 Pro: ta API: n kautta, päivitys on ilmainen.

Benchmark-suorituskyky yleensä

Mallikortti osoittaa, että Gemini 3.1 Pro on ensimmäinen 12: lla 18 seurattavalla benchmarkilla. ARC-AGI-2: n lisäksi erottuvat tulokset ovat 94,3 % GPQA Diamond -testissä, joka on tieteellinen päättelykyky, ja 2 887 Elo LiveCodeBench Pro: lla, joka on korkein tulos kaikilla eturintamalla olevilla malleilla kilpailukykyisessä ohjelmoinnissa.

Humanity’s Last Exam -benchmarkissa, joka on koostettu joukkorahoitettujen asiantuntijakysymysten joukosta akateemisilla aloilla, 3.1 Pro saavuttaa 44,4 %, nousussa 37,5 %: sta Gemini 3 Pro: lta ja edellä GPT-5.2: n 34,5 %. Monikielinen MMLU-benchmark osoittaa 92,6 %, ja pitkän kontekstin tarkkuus 128 000 tokenissa säilyy 84,9 %: na.

Malli säilyttää 1 miljoonan tokenin syötekontekstin ja tuottaa jopa 64 000 tokenin tulosteen, mikä vastaa AI-koodigeneraattorien vaatimuksia, jotka tarvitsevat koko koodipohjan syötteen ja tuottavat merkittäviä koodiplokkeja yhdessä istunnossa.

Missä 3.1 Pro ei johda, on myös merkittävää. SWE-Bench Verified -testissä, joka on todellisten ohjelmistokehitystehtävien testi, se saa 80,6 % – arvosanan, vain hieman Anthropicin Claude Opus 4.6: n 80,8 %: n jäljessä. Ero on marginaalinen, mutta se osoittaa, että Anthropic säilyttää kapean etumestaroinnin käytännön koodaustehtävissä, jotka ohjaavat yritysten omaksumista.

Mikä muuttuu dynaamisessa ajattelussa

Gemini 3.1 Pro käyttää dynaamista ajattelua oletuksena, jossa malli sovittaa sisäistä päättelyä kunkin kysymyksen monimutkaisuuden mukaan. Yksinkertaisiin kysymyksiin annetaan nopeita vastauksia. Monimutkaisiin monivaiheisiin ongelmiin liittyy syvempi prosessointi ennen mallin vastausta.

Kehittäjät voivat hallita tätä käyttäytymistä thinking_level -parametrin kautta API: ssä, asettamalla maksimisyvyyden sisäiselle päättelylle. Tämä koskee jännitettä päättelymalleissa: laajennettu päättely parantaa tarkkuutta haastavissa ongelmissa, mutta lisää viivettä ja kustannuksia suoraviivaisissa kysymyksissä. Dynaaminen ajattelu yrittää automatisoida tämän vaihtoehtoon.

Tämä ominaisuus heijastaa laajempaa alan muutosta. OpenAI: n o-sarjan mallit esittivät ketjuajattelun valittavana tilana. Anthropicin Claude käyttää laajennettua ajattelua valinnaisena ominaisuutena. Google:n lähestymistapa, jossa se on oletusarvo – vaihtelevalla voimakkuudella – vetoaa siihen, että useimmat käyttäjät haluavat antaa mallin päättää, kuinka lujaa ajatella, eikä itse hallita tätä päätöstä.

Kilpailukenttä kiristyy

Gemini 3.1 Pro saapuu markkinoille, joilla benchmark-johtajuus vaihtuu kuukausittain. Google:n Gemini 3 laukaisi “koodipunaisen” OpenAI: ssä, joka tuotti GPT-5.2: n alle kuukaudessa. Anthropic on julkaissut Claude-päivityksiä kiihtyvällä tahdilla. Jokainen julkaisu kaventaa mallien välistä kuilua, ja valinta alustoja riippuu yhä enemmän ekosysteemistä ja hinnoittelusta kuin raakaparannuksesta.

Google:n etu on jakelu. Gemini 3.1 Pro sijoittuu suoraan tuotteisiin, joita käyttää satoja miljoonia ihmisiä: Gmail, Docs, Search ja Henkilökohtainen älykkyys -ominaisuudet, jotka yhdistävät mallin käyttäjän henkilökohtaiseen tietoon. Malli myös ohjaa Gemini Enterprise ja Gemini CLI :ä, antaen kehittäjille ja yrityksille pääsyn työkaluihin, joita he jo käyttävät.

Kehittäjille, jotka valitsevat eturintamalla olevia malleja, hinnoittelupäätös on helpottunut. 2 dollarilla miljoonaa syötekokoelmaa kohden Gemini 3.1 Pro alittaa sekä OpenAI: n että Anthropicin lippulaivamallien hinnoittelun verrattavissa oleviin kykyihin. Ilmainen päivitys 3 Pro: sta poistaa kaikki siirtymisen kitkaa olemassa oleville käyttäjille.

Päättelyparannukset ovat tärkeimmät agenteille – AI-järjestelmille, jotka suunnittelevat, suorittavat monivaiheisia tehtäviä ja käyttävät työkaluja autonomisesti. ARC-AGI-2 testaa erityisesti uudenlaista mallintunnistusta, jota agenteille tarvitaan, kun he kohtaavat ongelmia, joita heidän koulutusdata ei kata. Malli, joka saa 77,1 %: n tässä testissä, käsittelee tuntemattomia tilanteita paljon luotettavammin kuin malli, joka saa 31,1 %.

Onko nämä benchmark-parannukset suhteessa todellisiin maailman parannuksiin, on se, mitä Google vastaan tulee vastaamaan tulevien viikkojen aikana. Benchmarkit havaitsevat tiettyjä kykyjä kontrolloiduissa olosuhteissa; varsinaisen käyttäjäkokemuksen määrää, miten malli suoriutuu odottamattomasta tehtävien kirjosta, jonka ihmiset heille antavat. ARC-AGI-2 -hyppy osoittaa, että 3.1 Pro käsittelee uutuuden paremmin kuin mikään malli ennen. Mitä käyttäjät tekevät tämän kyvyn kanssa, määrää, onko luvut merkityksellisiä.

Alex McFarland on AI-toimittaja ja kirjailija, joka tutkii viimeisimpiä kehityksiä tekoälyssä. Hän on tehnyt yhteistyötä useiden AI-startup-yritysten ja julkaisujen kanssa maailmanlaajuisesti.