Intelligenza artificiale
Gemini 3.1 Pro raggiunge record di guadagni di ragionamento

Google ha rilasciato Gemini 3.1 Pro il 19 febbraio, un aggiornamento del suo modello AI di bandiera che più che raddoppia le prestazioni di ragionamento mantenendo invariati i prezzi rispetto al suo predecessore.
Il numero più sorprendente: su ARC-AGI-2, un benchmark che testa la capacità dei modelli di risolvere pattern logici completamente nuovi piuttosto che ricordare i dati di training, Gemini 3.1 Pro ottiene il 77,1%. Gemini 3 Pro ha ottenuto il 31,1%. Quel balzo di 46 punti percentuali è il più grande guadagno di ragionamento in una sola generazione in qualsiasi famiglia di modelli di frontiera.
Il modello è disponibile immediatamente su tutte le piattaforme consumer e developer di Google. Gli utenti dell’app Gemini con piani AI Pro e AI Ultra hanno accesso con limiti di utilizzo più alti, mentre gli sviluppatori possono accedere a 3.1 Pro tramite l’API Gemini in AI Studio, Vertex AI, Gemini CLI, Antigravity e Android Studio. NotebookLM guadagna anche l’aggiornamento per gli abbonati Pro e Ultra.
I prezzi rimangono a 2 dollari per milione di token di input per prompt inferiori a 200.000 token, salendo a 4 dollari per contesti più lunghi. Il costo di output è di 12 dollari per milione di token. Per chi già utilizza Gemini 3 Pro tramite l’API, l’aggiornamento è gratuito.
Prestazioni del benchmark in tutta la gamma
La scheda del modello mostra Gemini 3.1 Pro che si aggiudica il primo posto in 12 dei 18 benchmark tracciati. Oltre a ARC-AGI-2, spiccano il 94,3% su GPQA Diamond, un test di ragionamento scientifico di livello universitario, e 2.887 Elo su LiveCodeBench Pro, il punteggio più alto tra tutti i modelli di frontiera per la programmazione competitiva.
Su Humanity’s Last Exam – un benchmark tratto da domande di esperti crowdsourcete in vari ambiti accademici – 3.1 Pro raggiunge il 44,4%, in aumento rispetto al 37,5% di Gemini 3 Pro e superiore al 34,5% di GPT-5.2. Il benchmark multilingue MMLU mostra il 92,6%, e la precisione a lungo contesto a 128.000 token rimane al 84,9%.
Il modello mantiene una finestra di contesto di input di 1 milione di token e genera fino a 64.000 token di output, corrispondente alle specifiche degli strumenti di codifica AI che devono ingerire interi codebase e produrre blocchi di codice sostanziali in una sola sessione.
Dove 3.1 Pro non è in testa è altrettanto indicativo. Su SWE-Bench Verified, un test di attività di ingegneria del software nel mondo reale, ottiene l’80,6% – appena dietro ad Anthropic’s Claude Opus 4.6 all’80,8%. Il divario è marginale, ma mostra come Anthropic mantenga un margine ristretto nelle attività di codifica pratiche che guidano l’adozione aziendale.
Cosa cambia il pensiero dinamico
Gemini 3.1 Pro utilizza il pensiero dinamico per impostazione predefinita, un approccio in cui il modello regola la quantità di ragionamento interno che applica in base alla complessità di ogni prompt. Le domande semplici ottengono risposte rapide. I problemi complessi a più step attivano catene di elaborazione più profonde prima che il modello generi la sua risposta.
Gli sviluppatori possono controllare questo comportamento tramite un parametro thinking_level nell’API, impostando la profondità massima del ragionamento interno. Ciò affronta una tensione nei modelli di ragionamento: un ragionamento prolungato migliora l’accuratezza sui problemi difficili, ma aggiunge latenza e costo per le query semplici. Il pensiero dinamico tenta di automatizzare questo compromesso.
La funzione riflette un più ampio spostamento dell’industria. I modelli o-series di OpenAI hanno introdotto il ragionamento a catena di pensieri come modalità selezionabile. Anthropic’s Claude utilizza il ragionamento prolungato come funzione facoltativa. L’approccio di Google di renderlo predefinito – con intensità variabile – scommette che la maggior parte degli utenti preferirebbe lasciare che il modello decida quanto pensare piuttosto che gestire quella decisione da soli.
Il campo competitivo si stringe
Gemini 3.1 Pro arriva in un mercato in cui la leadership del benchmark cambia di mano mensilmente. Gemini 3 di Google ha scatenato un “code red” in OpenAI che ha prodotto GPT-5.2 in meno di un mese. Anthropic ha stato spedendo aggiornamenti di Claude a un ritmo accelerato. Ogni rilascio riduce il divario tra i modelli, rendendo la scelta tra piattaforme sempre più dipendente dall’ecosistema e dal prezzo piuttosto che dalle capacità grezze.
Il vantaggio di Google rimane la distribuzione. Gemini 3.1 Pro si inserisce direttamente nei prodotti utilizzati da centinaia di milioni di persone: Gmail, Docs, Search e le funzionalità di Intelligenza Personale che collegano il modello ai dati personali degli utenti. Il modello alimenta anche Gemini Enterprise e Gemini CLI, dando agli sviluppatori e alle aziende l’accesso attraverso gli strumenti che già utilizzano.
Per gli sviluppatori che scelgono tra modelli di frontiera, la decisione di prezzo è diventata più semplice. A 2 dollari per milione di token di input, Gemini 3.1 Pro è inferiore ai prezzi di bandiera di OpenAI e Anthropic per capacità comparabili. L’aggiornamento gratuito da 3 Pro rimuove ogni attrito di migrazione per gli utenti esistenti.
I guadagni di ragionamento contano di più per le applicazioni agentiche – i sistemi AI che pianificano, eseguono attività a più step e utilizzano strumenti in modo autonomo. ARC-AGI-2 testa specificamente il tipo di riconoscimento di pattern nuovo che gli agenti necessitano quando si incontrano problemi che i loro dati di training non coprono. Un modello che ottiene il 77,1% su quel test gestisce situazioni sconosciute in modo molto più affidabile di uno che ottiene il 31,1%.
Se questi guadagni di benchmark si traducono in miglioramenti reali proporzionali è la domanda che Google dovrà rispondere nelle prossime settimane. I benchmark catturano capacità specifiche in condizioni controllate; l’esperienza reale degli utenti dipende da come il modello si esegue nell’ambito imprevedibile delle attività che le persone gli chiedono di svolgere. Il balzo di ARC-AGI-2 suggerisce che 3.1 Pro gestisce la novità meglio di qualsiasi modello precedente. Cosa gli utenti faranno con quella capacità determinerà se i numeri hanno importanza.












