Intelligenza artificiale
Gemini 3.1 Pro raggiunge record di guadagni di ragionamento

Google ha rilasciato Gemini 3.1 Pro il 19 febbraio, un aggiornamento del suo modello AI di bandiera che più che raddoppia le prestazioni di ragionamento mantenendo invariati i prezzi rispetto al suo predecessore.
Il numero più impressionante: su ARC-AGI-2, un benchmark che testa la capacità dei modelli di risolvere pattern logici completamente nuovi piuttosto che ricordare i dati di training, Gemini 3.1 Pro ottiene un punteggio del 77,1%. Gemini 3 Pro ha ottenuto un punteggio del 31,1%. Quel balzo di 46 punti percentuali è il più grande guadagno di ragionamento in una singola generazione di modelli di frontiera.
Il modello è disponibile immediatamente su tutte le piattaforme consumer e developer di Google. Gli utenti dell’app Gemini con piani AI Pro e AI Ultra hanno accesso con limiti di utilizzo più elevati, mentre gli sviluppatori possono accedere a 3.1 Pro attraverso l’API Gemini in AI Studio, Vertex AI, Gemini CLI, Antigravity e Android Studio. NotebookLM ottiene anche l’aggiornamento per gli abbonati Pro e Ultra.
I prezzi rimangono a 2 dollari per milione di token di input per prompt di meno di 200.000 token, salendo a 4 dollari per contesti più lunghi. Il costo di output è di 12 dollari per milione di token. Per chi già utilizza Gemini 3 Pro attraverso l’API, l’aggiornamento è gratuito.
Prestazioni del benchmark in tutta la gamma
La scheda del modello mostra Gemini 3.1 Pro che si classifica al primo posto in 12 dei 18 benchmark tracciati. Oltre ad ARC-AGI-2, spiccano il 94,3% su GPQA Diamond, un test di ragionamento scientifico di livello universitario, e 2.887 Elo su LiveCodeBench Pro, il punteggio più alto tra tutti i modelli di frontiera per la programmazione competitiva.
Su Humanity’s Last Exam – un benchmark tratto da domande di esperti crowdsourcete in vari campi accademici – 3.1 Pro raggiunge il 44,4%, in aumento rispetto al 37,5% di Gemini 3 Pro e superiore al 34,5% di GPT-5.2. Il benchmark multilingue MMLU mostra il 92,6%, e la precisione del contesto lungo a 128.000 token rimane al 84,9%.
Il modello mantiene una finestra di contesto di input di 1 milione di token e genera fino a 64.000 token di output, corrispondente alle specifiche degli strumenti di codifica AI che devono ingerire interi codebase e produrre blocchi di codice sostanziali in una singola sessione.
Dove 3.1 Pro non è in testa è altrettanto indicativo. Su SWE-Bench Verified, un test di attività di ingegneria del software nel mondo reale, ottiene un punteggio dell’80,6% – appena dietro ad Anthropic’s Claude Opus 4.6 con l’80,8%. Il divario è marginale, ma mostra come Anthropic mantenga un margine ristretto nelle attività di codifica pratiche che guidano l’adozione aziendale.
Cosa cambia il pensiero dinamico
Gemini 3.1 Pro utilizza il pensiero dinamico per impostazione predefinita, un approccio in cui il modello regola la quantità di ragionamento interno in base alla complessità di ogni prompt. Le domande semplici ottengono risposte rapide. I problemi complessi a più passaggi attivano catene di elaborazione più profonde prima che il modello generi la sua risposta.
Gli sviluppatori possono controllare questo comportamento attraverso un parametro thinking_level nell’API, impostando la profondità massima del ragionamento interno. Ciò affronta una tensione nei modelli di ragionamento: un ragionamento prolungato migliora l’accuratezza sui problemi difficili, ma aggiunge latenza e costo per le query semplici. Il pensiero dinamico tenta di automatizzare questo compromesso.
La funzione riflette un più ampio spostamento dell’industria. I modelli o-series di OpenAI hanno introdotto il ragionamento a catena di pensieri come modalità selezionabile. Anthropic’s Claude utilizza il ragionamento esteso come funzione facoltativa. L’approccio di Google di renderlo predefinito – con intensità variabile – scommette che la maggior parte degli utenti preferirebbe lasciare che il modello decida quanto pensare piuttosto che gestire quella decisione da soli.
Il campo competitivo si stringe
Gemini 3.1 Pro arriva in un mercato in cui la leadership del benchmark cambia di mano mensilmente. Gemini 3 di Google ha scatenato un “code red” in OpenAI che ha prodotto GPT-5.2 in meno di un mese. Anthropic ha stato pubblicando aggiornamenti di Claude a un ritmo accelerato. Ogni rilascio riduce il divario tra i modelli, rendendo la scelta tra piattaforme sempre più dipendente dall’ecosistema e dal prezzo piuttosto che dalle capacità grezze.
Il vantaggio di Google rimane la distribuzione. Gemini 3.1 Pro si inserisce direttamente nei prodotti utilizzati da centinaia di milioni di persone: Gmail, Docs, Search e le funzionalità di Intelligenza Personale che collegano il modello ai dati personali degli utenti. Il modello alimenta anche Gemini Enterprise e Gemini CLI, dando agli sviluppatori e alle aziende l’accesso attraverso gli strumenti che già utilizzano.
Per gli sviluppatori che scelgono tra modelli di frontiera, la decisione di prezzo è diventata più semplice. A 2 dollari per milione di token di input, Gemini 3.1 Pro è inferiore ai prezzi dei modelli di bandiera di OpenAI e Anthropic per capacità comparabili. L’aggiornamento gratuito da 3 Pro rimuove ogni attrito di migrazione per gli utenti esistenti.
I guadagni di ragionamento contano di più per le applicazioni agentiche – sistemi AI che pianificano, eseguono attività multistep e utilizzano strumenti in modo autonomo. ARC-AGI-2 testa specificamente il tipo di riconoscimento di pattern nuovo che gli agenti necessitano quando incontrano problemi che i loro dati di training non coprono. Un modello che ottiene un punteggio del 77,1% su quel test gestisce situazioni sconosciute in modo molto più affidabile di uno che ottiene un punteggio del 31,1%.
Se questi guadagni di benchmark si traducono in miglioramenti reali proporzionali è la domanda che Google dovrà rispondere nelle prossime settimane. I benchmark catturano capacità specifiche in condizioni controllate; l’esperienza reale degli utenti dipende da come il modello si comporta nell’ambito imprevedibile delle attività che le persone gli affidano. Il balzo di ARC-AGI-2 suggerisce che 3.1 Pro gestisce la novità meglio di qualsiasi modello precedente. Cosa gli utenti faranno con quella capacità determinerà se i numeri hanno importanza.












