Inteligência artificial

O Tülu 3 da Allen AI Acaba de Se Tornar um Rival Inesperado do DeepSeek

Published February 1, 2025

Updated April 26, 2026

Alex McFarland

As manchetes continuam chegando. Os modelos do DeepSeek vêm desafiando benchmarks, estabelecendo novos padrões e fazendo muito barulho. Mas algo interessante acabou de acontecer na cena de pesquisa de IA que também vale a pena prestar atenção.

Allen AI lançou silenciosamente sua nova família de modelos Tülu 3, e sua versão de 405B parâmetros não está apenas competindo com o DeepSeek – está igualando ou superando-o em benchmarks importantes.

Vamos colocar isso em perspectiva.

O modelo Tülu 3 de 405B está competindo com os principais desempenhos, como DeepSeek V3, em uma variedade de tarefas. Estamos vendo desempenho comparável ou superior em áreas como problemas matemáticos, desafios de codificação e seguimento preciso de instruções. E eles também estão fazendo isso com uma abordagem completamente aberta.

Eles lançaram o pipeline de treinamento completo, o código e até mesmo seu método de aprendizado de reforço inovador chamado Aprendizado de Reforço com Recompensas Verificáveis (RLVR) que tornou isso possível.

Desenvolvimentos como esses nas últimas semanas estão realmente mudando como o desenvolvimento de IA de ponta acontece. Quando um modelo completely open source pode igualar os melhores modelos fechados lá fora, isso abre possibilidades que antes estavam trancadas atrás de paredes corporativas privadas.

A Batalha Técnica

O que fez o Tülu 3 se destacar? Isso se resume a um processo de treinamento de quatro etapas que vai além das abordagens tradicionais.

Vamos olhar como a Allen AI construiu esse modelo:

Etapa 1: Seleção Estratégica de Dados

A equipe sabia que a qualidade do modelo começa com a qualidade dos dados. Eles combinaram conjuntos de dados estabelecidos como WildChat e Open Assistant com conteúdo gerado personalizado. Mas aqui está a chave: eles não apenas agregaram dados – criaram conjuntos de dados direcionados para habilidades específicas, como raciocínio matemático e proficiência em codificação.

Etapa 2: Construindo Melhores Respostas

Na segunda etapa, a Allen AI se concentrou em ensinar ao modelo habilidades específicas. Eles criaram diferentes conjuntos de dados de treinamento – alguns para matemática, outros para codificação e mais para tarefas gerais. Testando essas combinações repetidamente, eles puderam ver exatamente onde o modelo se destacava e onde precisava de melhoria. Esse processo iterativo revelou o verdadeiro potencial do que o Tülu 3 poderia alcançar em cada área.

Etapa 3: Aprendendo com Comparações

Aqui é onde a Allen AI foi criativa. Eles construíram um sistema que podia comparar instantaneamente as respostas do Tülu 3 com as de outros principais modelos. Mas eles também resolveram um problema persistente em IA – a tendência dos modelos de escrever respostas longas apenas por causa do comprimento. Sua abordagem, usando otimização direta de preferência normalizada por comprimento (DPO), significou que o modelo aprendeu a valorizar a qualidade sobre a quantidade. O resultado? Respostas que são ao mesmo tempo precisas e propositadas.

Quando os modelos de IA aprendem com preferências (qual resposta é melhor, A ou B?), eles tendem a desenvolver um viés frustrante: começam a pensar que respostas mais longas são sempre melhores. É como se estivessem tentando vencer dizendo mais em vez de dizer coisas bem.

A DPO normalizada por comprimento resolve isso ajustando como o modelo aprende com preferências. Em vez de apenas olhar para qual resposta foi preferida, leva em conta o comprimento de cada resposta. Pense nisso como julgar respostas pela qualidade por palavra, não apenas pelo impacto total.

Por que isso importa? Porque ajuda o Tülu 3 a aprender a ser preciso e eficiente. Em vez de preencher respostas com palavras extras para parecer mais abrangente, aprende a entregar valor no comprimento que realmente é necessário.

Isso pode parecer um detalhe pequeno, mas é crucial para construir IA que se comunica de forma natural. Os melhores especialistas humanos sabem quando ser concisos e quando elaborar – e é exatamente isso que a DPO normalizada por comprimento ajuda a ensinar ao modelo.

Etapa 4: A Inovação RLVR

Essa é a quebra técnica que merece atenção. O RLVR substitui modelos de recompensa subjetivos por verificações concretas.

A maioria dos modelos de IA aprende por meio de um sistema complexo de modelos de recompensa – basicamente palpites educados sobre o que torna uma boa resposta. Mas a Allen AI tomou um caminho diferente com o RLVR.

Pense sobre como atualmente treinamos modelos de IA. Normalmente precisamos de outros modelos de IA (chamados de modelos de recompensa) para julgar se uma resposta é boa ou não. É subjetivo, complexo e frequentemente inconsistente. Algumas respostas podem parecer boas, mas conter erros sutis que passam despercebidos.

O RLVR vira essa abordagem de cabeça para baixo. Em vez de confiar em julgamentos subjetivos, usa resultados concretos e verificáveis. Quando o modelo tenta resolver um problema matemático, não há área cinzenta – a resposta está certa ou errada. Quando escreve código, esse código funciona corretamente ou não.

Aqui está onde as coisas ficam interessantes:

O modelo recebe feedback imediato e binário: 10 pontos para respostas corretas, 0 para respostas incorretas
Não há espaço para crédito parcial ou avaliação nebulosa
O aprendizado se torna focado e preciso
O modelo aprende a priorizar a precisão sobre respostas plausíveis, mas incorretas

Treinamento RLVR (Allen AI)

Os resultados? O Tülu 3 mostrou melhorias significativas em tarefas onde a correção importa mais. Seu desempenho em raciocínio matemático (benchmark GSM8K) e desafios de codificação saltou notavelmente. Até mesmo seu seguimento de instruções se tornou mais preciso porque o modelo aprendeu a valorizar a precisão concreta sobre respostas aproximadas.

O que torna isso particularmente emocionante é como isso muda o jogo para o desenvolvimento de IA de código aberto. Abordagens anteriores frequentemente lutavam para igualar a precisão dos modelos fechados em tarefas técnicas. O RLVR mostra que, com a abordagem de treinamento certa, os modelos de código aberto podem alcançar esse mesmo nível de confiabilidade.

Um Olhar para os Números

A versão de 405B parâmetros do Tülu 3 compete diretamente com os principais modelos do campo. Vamos examinar onde ele se destaca e o que isso significa para o desenvolvimento de IA de código aberto.

Matemática

O Tülu 3 se destaca em raciocínio matemático complexo. Em benchmarks como GSM8K e MATH, ele iguala o desempenho do DeepSeek. O modelo lida com problemas de múltiplos passos e mostra fortes capacidades de raciocínio matemático.

Código

Os resultados de codificação provam ser igualmente impressionantes. Graças ao treinamento RLVR, o Tülu 3 escreve código que resolve problemas de forma eficaz. Sua força reside em entender instruções de codificação e produzir soluções funcionais.

Seguimento Preciso de Instruções

A capacidade do modelo de seguir instruções se destaca como uma força central. Enquanto muitos modelos aproximam ou generalizam instruções, o Tülu 3 demonstra precisão notável ao executar exatamente o que é solicitado.

Abrindo a Caixa Preta do Desenvolvimento de IA

A Allen AI lançou não apenas um modelo poderoso, mas também seu processo de desenvolvimento completo.

Todos os aspectos do processo de treinamento estão documentados e acessíveis. Desde a abordagem de quatro etapas até os métodos de preparação de dados e a implementação do RLVR – o processo inteiro está aberto para estudo e replicação. Essa transparência estabelece um novo padrão no desenvolvimento de IA de alto desempenho.

Os desenvolvedores recebem recursos abrangentes:

Pipelines de treinamento completos
Ferramentas de processamento de dados
Quadros de avaliação
Especificações de implementação

Isso permite que as equipes:

Modifiquem processos de treinamento
Adaptem métodos para necessidades específicas
Construam sobre abordagens comprovadas
Criem implementações especializadas

Essa abordagem aberta acelera a inovação em todo o campo. Pesquisadores podem construir sobre métodos verificados, enquanto os desenvolvedores podem se concentrar em melhorias em vez de começar do zero.

O Surgimento da Excelência de Código Aberto

O sucesso do Tülu 3 é um grande momento para o desenvolvimento de IA de código aberto. Quando modelos de código aberto igualam ou superam alternativas privadas, isso muda fundamentalmente a indústria. Equipes de pesquisa em todo o mundo ganham acesso a métodos comprovados, acelerando seu trabalho e gerando novas inovações. Laboratórios de IA privados precisarão se adaptar – seja aumentando a transparência ou empurrando as fronteiras técnicas ainda mais.

Olhando para o futuro, as inovações do Tülu 3 em recompensas verificáveis e treinamento em múltiplos estágios dão uma ideia do que está por vir. As equipes podem construir sobre essas fundações, potencialmente empurrando o desempenho ainda mais alto. O código existe, os métodos estão documentados e uma nova onda de desenvolvimento de IA começou. Para os desenvolvedores e pesquisadores, a oportunidade de experimentar e melhorar esses métodos marca o início de um capítulo emocionante no desenvolvimento de IA.

Perguntas Frequentes (FAQ) sobre o Tülu 3

O que é o Tülu 3 e quais são suas principais características?

O Tülu 3 é uma família de LLMs de código aberto desenvolvida pela Allen AI, construída sobre a arquitetura Llama 3.1. Ele vem em vários tamanhos (8B, 70B e 405B parâmetros). O Tülu 3 é projetado para melhorar o desempenho em tarefas diversificadas, incluindo conhecimento, raciocínio, matemática, codificação, seguimento de instruções e segurança.

Qual é o processo de treinamento do Tülu 3 e quais dados são usados?

O treinamento do Tülu 3 envolve várias etapas importantes. Primeiro, a equipe cura um conjunto diversificado de prompts de conjuntos de dados públicos e dados sintéticos direcionados a habilidades específicas, garantindo que os dados estejam descontaminados em relação aos benchmarks. Em seguida, é realizada uma fine-tuning supervisionada (SFT) em uma mistura de dados de seguimento de instruções, matemática e codificação. Em seguida, é utilizada a otimização direta de preferência (DPO) com dados de preferência gerados por meio de feedback humano e LLM. Finalmente, é utilizado o Aprendizado de Reforço com Recompensas Verificáveis (RLVR) para tarefas com correção mensurável. O Tülu 3 usa conjuntos de dados curados para cada etapa, incluindo instruções direcionadas por persona, matemática e dados de codificação.

Como o Tülu 3 aborda a segurança e quais métricas são usadas para avaliá-la?

A segurança é um componente central do desenvolvimento do Tülu 3, abordada ao longo do processo de treinamento. Um conjunto de dados específico de segurança é usado durante a SFT, que se mostrou em grande parte ortogonal a outros dados orientados a tarefas.

O que é o RLVR?

O RLVR é uma técnica na qual o modelo é treinado para otimizar contra uma recompensa verificável, como a correção de uma resposta. Isso difere do RLHF tradicional, que usa um modelo de recompensa.

Related Topics:deepseek LLMs open source