Connect with us

Inteligência artificial

Gemini 3.1 Pro Atinge Ganho Recorde de Raciocínio

mm

O Google lançou Gemini 3.1 Pro em 19 de fevereiro, uma atualização para seu modelo de IA de bandeira que mais do que dobra o desempenho de raciocínio, mantendo os preços idênticos ao de seu antecessor.

O número mais impressionante: no ARC-AGI-2, um benchmark que testa se os modelos podem resolver padrões lógicos completamente novos em vez de lembrar os dados de treinamento, o Gemini 3.1 Pro pontua 77,1%. O Gemini 3 Pro pontuou 31,1%. Esse salto de 46 pontos percentuais é o maior ganho de raciocínio de uma única geração em qualquer família de modelos de fronteira.

O modelo está disponível imediatamente em todas as plataformas de consumidor e desenvolvedor do Google. Os usuários do aplicativo Gemini nos planos AI Pro e AI Ultra têm acesso com limites de uso mais altos, enquanto os desenvolvedores podem acessar o 3.1 Pro por meio da API Gemini no AI Studio, Vertex AI, Gemini CLI, Antigravity e Android Studio. O NotebookLM também ganha a atualização para assinantes Pro e Ultra.

Os preços permanecem em $2 por milhão de tokens de entrada para prompts com menos de 200.000 tokens, aumentando para $4 para contextos mais longos. O custo de saída é de $12 por milhão de tokens. Para qualquer pessoa que já esteja usando o Gemini 3 Pro por meio da API, a atualização é gratuita.

Desempenho de Benchmark em Todo o Quadro

O cartão do modelo mostra o Gemini 3.1 Pro reivindicando o primeiro lugar em 12 de 18 benchmarks rastreados. Além do ARC-AGI-2, os destaques incluem 94,3% no GPQA Diamond, um teste de raciocínio científico de nível de graduação, e 2.887 Elo no LiveCodeBench Pro, a pontuação mais alta em todos os modelos de fronteira para programação competitiva.

No Humanity’s Last Exam — um benchmark extraído de perguntas de especialistas crowdsourced em várias disciplinas acadêmicas — o 3.1 Pro atinge 44,4%, acima dos 37,5% do Gemini 3 Pro e à frente dos 34,5% do GPT-5.2. O benchmark multilíngue MMLU mostra 92,6%, e a precisão de contexto longo em 128.000 tokens permanece em 84,9%.

O modelo retém uma janela de contexto de entrada de 1 milhão de tokens e gera até 64.000 tokens de saída, correspondendo às especificações das ferramentas de codificação de IA que precisam ingerir toda a base de código e produzir blocos de código substanciais em uma única sessão.

Onde o 3.1 Pro não lidera também é revelador. No SWE-Bench Verified, um teste de tarefas de engenharia de software do mundo real, ele pontua 80,6% — apenas atrás do Claude Opus 4.6 da Anthropic, com 80,8%. A diferença é marginal, mas mostra que a Anthropic mantém uma vantagem estreita nas tarefas de codificação práticas que impulsionam a adoção empresarial.

Quais Mudanças de Pensamento Dinâmico

O Gemini 3.1 Pro usa pensamento dinâmico por padrão, uma abordagem na qual o modelo ajusta a quantidade de raciocínio interno que aplica com base na complexidade de cada prompt. Perguntas simples recebem respostas rápidas. Problemas complexos de múltiplos passos disparam cadeias de processamento mais profundas antes que o modelo gere sua resposta.

Os desenvolvedores podem controlar esse comportamento por meio de um parâmetro thinking_level na API, definindo a profundidade máxima do raciocínio interno. Isso aborda uma tensão nos modelos de raciocínio: o pensamento estendido melhora a precisão em problemas difíceis, mas adiciona latência e custo para consultas diretas. O pensamento dinâmico tenta automatizar essa compensação.

A funcionalidade reflete uma mudança mais ampla na indústria. Os modelos da série o da OpenAI introduziram o raciocínio em cadeia de pensamento como um modo selecionável. O Claude da Anthropic usa o pensamento estendido como uma funcionalidade opt-in. A abordagem do Google de torná-lo o padrão — com intensidade variável — aposta que a maioria dos usuários preferiria deixar o modelo decidir quanto pensar em vez de gerenciar essa decisão eles mesmos.

O Campo Competitivo se Aproxima

O Gemini 3.1 Pro chega a um mercado onde a liderança de benchmark muda de mãos mensalmente. O Gemini 3 do Google desencadeou um “código vermelho” na OpenAI que produziu o GPT-5.2 em menos de um mês. A Anthropic tem lançado atualizações do Claude a um ritmo acelerado. Cada lançamento estreita a lacuna entre os modelos, tornando a escolha entre plataformas cada vez mais dependente do ecossistema e do preço em vez de capacidade bruta.

A vantagem do Google permanece na distribuição. O Gemini 3.1 Pro se encaixa diretamente em produtos usados por centenas de milhões de pessoas: Gmail, Docs, Search e os Recursos de Inteligência Pessoal que conectam o modelo aos dados pessoais do usuário. O modelo também alimenta o Gemini Enterprise e Gemini CLI, dando aos desenvolvedores e às empresas acesso por meio de ferramentas que já usam.

Para os desenvolvedores que escolhem entre modelos de fronteira, a decisão de preço ficou mais fácil. A $2 por milhão de tokens de entrada, o Gemini 3.1 Pro é mais barato do que os preços de bandeira da OpenAI e da Anthropic para capacidade comparável. A atualização gratuita do 3 Pro remove qualquer fricção de migração para os usuários existentes.

Os ganhos de raciocínio importam mais para aplicações agênticas — sistemas de IA que planejam, executam tarefas de múltiplos passos e usam ferramentas de forma autônoma. O ARC-AGI-2 testa especificamente o tipo de reconhecimento de padrões novos que os agentes precisam quando encontram problemas que seus dados de treinamento não cobriam. Um modelo que pontua 77,1% nesse teste lida com situações desconhecidas de forma muito mais confiável do que um que pontua 31,1%.

Se esses ganhos de benchmark se traduzem em melhorias reais no mundo real é a pergunta que o Google precisará responder nas próximas semanas. Os benchmarks capturam capacidades específicas em condições controladas; a experiência real do usuário depende de como o modelo se sai na gama imprevisível de tarefas que as pessoas jogam nele. O salto do ARC-AGI-2 sugere que o 3.1 Pro lida melhor com a novidade do que qualquer modelo antes dele. O que os usuários fazem com essa capacidade determinará se os números importam.

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.