Entre em contato

Gemini 3.1 Pro atinge ganhos recordes em raciocínio.

Inteligência artificial

Gemini 3.1 Pro atinge ganhos recordes em raciocínio.

mm

Google lançado Gêmeos 3.1 Pró Em 19 de fevereiro, foi lançada uma atualização para seu principal modelo de IA que mais que dobra o desempenho de raciocínio, mantendo o preço idêntico ao de seu antecessor.

O número mais impressionante: no ARC-AGI-2, um benchmark que testa se os modelos conseguem resolver padrões lógicos totalmente novos em vez de simplesmente reproduzir dados de treinamento, o Gemini 3.1 Pro alcança 77.1%. Gêmeos 3 Pró alcançou 31.1%. Esse salto de 46 pontos percentuais representa o maior ganho de raciocínio em uma única geração em qualquer família de modelos de fronteira.

O modelo está disponível imediatamente em todas as plataformas do Google, tanto para consumidores quanto para desenvolvedores. Usuários do aplicativo Gemini nos planos AI Pro e AI Ultra têm acesso com limites de uso maiores, enquanto desenvolvedores podem acessar o 3.1 Pro por meio da API Gemini no AI Studio, Vertex AI, Gemini CLI, Antigravity e Android Studio. O NotebookLM também recebe a atualização para assinantes dos planos Pro e Ultra.

O preço se mantém em US$ 2 por milhão de tokens de entrada para solicitações com menos de 200,000 tokens, subindo para US$ 4 para contextos mais longos. O custo de saída é de US$ 12 por milhão de tokens. Para quem já utiliza o Gemini 3 Pro por meio da API, a atualização é gratuita.

Desempenho de referência em todos os setores

O cartão modelo O Gemini 3.1 Pro conquistou o primeiro lugar em 12 dos 18 benchmarks analisados. Além do ARC-AGI-2, os destaques incluem 94.3% no GPQA Diamond, um teste de raciocínio científico de nível de pós-graduação, e 2,887 Elo no LiveCodeBench Pro, a maior pontuação entre todos os modelos de ponta para programação competitiva.

No teste "On Humanity's Last Exam" — um benchmark baseado em perguntas de especialistas de diversas áreas acadêmicas, respondidas por crowdsourcing — o Gemini 3.1 Pro alcança 44.4%, um aumento em relação aos 37.5% do Gemini 3 Pro e à frente dos 34.5% do GPT-5.2. O benchmark multilíngue MMLU mostra 92.6%, e a precisão em contextos longos com 128,000 tokens se mantém em 84.9%.

O modelo mantém uma janela de contexto de entrada de 1 milhão de tokens e gera até 64,000 tokens de saída, atendendo às especificações de Ferramentas de codificação de IA que precisam processar bases de código inteiras e produzir blocos de código substanciais em uma única sessão.

O fato de o 3.1 Pro não liderar também é revelador. No SWE-Bench Verified, um teste de tarefas reais de engenharia de software, ele obteve 80.6% — logo atrás do Claude Opus 4.6 da Anthropic, com 80.8%. A diferença é pequena, mas mostra que a Anthropic mantém uma ligeira vantagem nas tarefas práticas de codificação que impulsionam a adoção corporativa.

O que o pensamento dinâmico muda

O Gemini 3.1 Pro utiliza o pensamento dinâmico por padrão, uma abordagem em que o modelo ajusta a quantidade de raciocínio interno aplicada com base na complexidade de cada estímulo. Perguntas simples recebem respostas rápidas. Problemas complexos com várias etapas acionam cadeias de processamento mais profundas antes que o modelo gere sua resposta.

Os desenvolvedores podem controlar esse comportamento por meio de um parâmetro `thinking_level` na API, definindo a profundidade máxima do raciocínio interno. Isso resolve uma tensão nos modelos de raciocínio: o raciocínio estendido melhora a precisão em problemas complexos, mas adiciona latência e custo para consultas simples. O raciocínio dinâmico tenta automatizar essa compensação.

Essa funcionalidade reflete uma mudança mais ampla no setor. Os modelos da série o da OpenAI introduziram o raciocínio em cadeia como um modo selecionável. O Claude da Anthropic usa o pensamento estendido como um recurso opcional. A abordagem do Google de torná-lo o padrão — com intensidade variável — aposta que a maioria dos usuários prefere deixar o modelo decidir o nível de complexidade do raciocínio em vez de gerenciar essa decisão por conta própria.

A concorrência se acirra.

O Gemini 3.1 Pro chega a um mercado onde a liderança em benchmarks muda de mãos mensalmente. O Gemini 3 do Google desencadeou uma “Código vermelho” na OpenAI que produziu o GPT-5.2 em menos de um mês. A Anthropic tem lançado atualizações do Claude em um ritmo acelerado. Cada versão reduz a diferença entre os modelos, tornando a escolha entre plataformas cada vez mais dependente do ecossistema e do preço, em vez da capacidade bruta.

A vantagem do Google continua sendo a distribuição. O Gemini 3.1 Pro se integra diretamente a produtos usados ​​por centenas de milhões de pessoas: Gmail, Docs, Busca e o Inteligência Pessoal funcionalidades que conectam o modelo aos dados pessoais dos usuários. O modelo também alimenta Gemini Enterprise e Gemini CLI, dando aos desenvolvedores e empresas acesso por meio de ferramentas que eles já utilizam.

Para desenvolvedores que precisam escolher entre modelos de ponta, a decisão de preço ficou mais fácil. Com um custo de US$ 2 por milhão de tokens de entrada, o Gemini 3.1 Pro oferece um preço inferior aos modelos principais da OpenAI e da Anthropic, com recursos comparáveis. A atualização gratuita da versão 3 Pro elimina qualquer dificuldade de migração para usuários existentes.

Os ganhos em raciocínio são mais importantes para aplicações de agentes — sistemas de IA que planejam, executam tarefas complexas e usam ferramentas de forma autônoma. O ARC-AGI-2 testa especificamente o tipo de reconhecimento de padrões inovadores que os agentes precisam ao se depararem com problemas que seus dados de treinamento não abrangiam. Um modelo que obtém 77.1% nesse teste lida com situações desconhecidas de forma muito mais confiável do que um que obtém 31.1%.

A questão que o Google precisará responder nas próximas semanas é se esses ganhos nos benchmarks se traduzirão em melhorias proporcionais no mundo real. Os benchmarks capturam capacidades específicas em condições controladas; a experiência real do usuário depende de como o modelo se comporta na gama imprevisível de tarefas que as pessoas lhe atribuem. O salto no ARC-AGI-2 sugere que o 3.1 Pro lida com novidades melhor do que qualquer modelo anterior. O que os usuários fizerem com essa capacidade determinará se os números importam.

Alex McFarland é um jornalista e escritor de IA que explora os mais recentes desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups e publicações de IA em todo o mundo.