Connect with us

Inteligență artificială

Gemini 3.1 Pro Atinge Câștiguri Record de Raționament

mm

Google a lansat Gemini 3.1 Pro pe 19 februarie, o actualizare a modelului său de inteligență artificială emblematic, care dublează mai mult decât performanța de raționament, menținând în același timp prețurile identice cu cele ale predecesorului său.

Cifra cea mai izbitoare: pe ARC-AGI-2, un benchmark care testează dacă modelele pot rezolva tipare logice complet noi, mai degrabă decât a-și aminti datele de antrenament, Gemini 3.1 Pro obține 77,1%. Gemini 3 Pro a obținut 31,1%. Saltul de 46 de puncte procentuale este cel mai mare câștig de raționament pe o singură generație în orice familie de modele de frontieră.

Modelul este disponibil imediat pe toate platformele consumatorilor și dezvoltatorilor Google. Utilizatorii aplicației Gemini, pe planurile AI Pro și AI Ultra, au acces cu limite de utilizare mai mari, în timp ce dezvoltatorii pot accesa 3.1 Pro prin API-ul Gemini în AI Studio, Vertex AI, Gemini CLI, Antigravity și Android Studio. NotebookLM obține, de asemenea, upgrade-ul pentru abonații Pro și Ultra.

Prețurile rămân la 2 dolari pe milion de tokeni de intrare pentru prompturi sub 200.000 de tokeni, crescând la 4 dolari pentru contexte mai lungi. Costul de ieșire este de 12 dolari pe milion de tokeni. Pentru oricine utilizează deja Gemini 3 Pro prin API, upgrade-ul este gratuit.

Performanță de Benchmark Pe Tot Parcursul

Cardul modelului model card arată Gemini 3.1 Pro, care revendică locul întâi la 12 din 18 benchmark-uri urmărite. Dincolo de ARC-AGI-2, exemplele notabile includ 94,3% pe GPQA Diamond, un test de raționament științific de nivel universitar, și 2.887 Elo pe LiveCodeBench Pro, cel mai mare scor din toate modelele de frontieră pentru programare competitivă.

La Humanity’s Last Exam – un benchmark desprins din întrebări experte crowdsourcete din discipline academice – 3.1 Pro ajunge la 44,4%, în creștere de la 37,5% pentru Gemini 3 Pro și înaintea lui GPT-5.2, care are 34,5%. Benchmark-ul multilingv MMLU arată 92,6%, iar acuratețea contextului lung la 128.000 de tokeni rămâne la 84,9%.

Modelul păstrează o fereastră de context de intrare de 1 milion de tokeni și generează până la 64.000 de tokeni de ieșire, ceea ce corespunde specificațiilor uneltelor de generare de cod AI care trebuie să ingereze întregi coduri sursă și să producă blocuri de cod substanțiale într-o singură sesiune.

Unde 3.1 Pro nu conduce este, de asemenea, revelator. La SWE-Bench Verified, un test de sarcini de inginerie software din lumea reală, obține 80,6% – doar în spatele lui Anthropic’s Claude Opus 4.6, care are 80,8%. Diferența este marginală, dar arată că Anthropic păstrează o margine îngustă în sarcinile de codare practice care impulsionează adoptarea la nivel de întreprindere.

Ce Schimbări Dinamice de Gândire

Gemini 3.1 Pro utilizează gândirea dinamică în mod implicit, o abordare în care modelul ajustează cantitatea de raționament intern pe care o aplică în funcție de complexitatea fiecărui prompt. Întrebările simple primesc răspunsuri rapide. Problemele complexe cu mai multe etape declanșează lanțuri de procesare mai profunde înainte ca modelul să genereze răspunsul său.

Dezvoltatorii pot controla acest comportament prin intermediul unui parametru thinking_level în API, setând adâncimea maximă a raționamentului intern. Acest lucru abordează o tensiune în modelele de raționament: gândirea prelungită îmbunătățește acuratețea la probleme grele, dar adaugă latență și cost pentru întrebările directe. Gândirea dinamică încearcă să automatizeze acest compromis.

Caracteristica reflectă o schimbare mai largă a industriei. Modelele o-series de la OpenAI au introdus raționamentul în lanț de gândire ca mod selectabil. Anthropic’s Claude utilizează gândirea prelungită ca o funcție opțională. Abordarea Google de a o face implicită – cu intensitate variabilă – pariază că majoritatea utilizatorilor ar prefera să lase modelul să decidă cât de greu să gândească, mai degrabă decât să gestioneze acea decizie singuri.

Competiția Se Întărește

Gemini 3.1 Pro sosește pe o piață în care conducerea benchmark-ului schimbă mâinile lunar. Gemini 3 de la Google a declanșat un “cod roșu” la OpenAI care a produs GPT-5.2 în mai puțin de o lună. Anthropic a fost lansat cu actualizări ale lui Claude la un ritm accelerat. Fiecare lansare îngustează gap-ul dintre modele, făcând alegerea dintre platforme din ce în ce mai dependentă de ecosistem și preț, mai degrabă decât de capacitatea brută.

Avantajul Google rămâne distribuția. Gemini 3.1 Pro se încadrează direct în produse utilizate de sute de milioane de oameni: Gmail, Docs, Search și Personal Intelligence, care conectează modelul la datele personale ale utilizatorilor. Modelul alimentează, de asemenea, Gemini Enterprise și Gemini CLI, oferind dezvoltatorilor și întreprinderilor acces prin instrumentele pe care le utilizează deja.

Pentru dezvoltatorii care aleg între modelele de frontieră, decizia de preț a devenit mai ușoară. La 2 dolari pe milion de tokeni de intrare, Gemini 3.1 Pro subminează atât prețurile de top ale OpenAI, cât și pe cele ale lui Anthropic, pentru o capacitate comparabilă. Upgrade-ul gratuit de la 3 Pro elimină orice fricțiune de migrare pentru utilizatorii existenți.

Câștigurile de raționament contează cel mai mult pentru aplicațiile agenților – sisteme AI care planifică, execută sarcini multi-etapă și utilizează instrumente în mod autonom. ARC-AGI-2 testează în mod specific recunoașterea tiparelor noi de care au nevoie agenții atunci când se confruntă cu probleme pe care datele lor de antrenament nu le-au acoperit. Un model care obține 77,1% la acest test gestionează situații nefamiliare mult mai fiabil decât unul care obține 31,1%.

Dacă aceste câștiguri de benchmark se traduc în îmbunătățiri reale proporționale este întrebarea pe care Google va trebui să o răspundă în următoarele săptămâni. Benchmark-urile capturează capacități specifice în condiții controlate; experiența reală a utilizatorilor depinde de modul în care modelul performează pe gama imprevizibilă de sarcini pe care oamenii le aruncă spre el. Saltul ARC-AGI-2 sugerează că 3.1 Pro gestionează mai bine noutatea decât orice model anterior. Ce fac utilizatorii cu această capacitate va determina dacă numerele contează.

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.