Intelligence artificielle

Allen AI’s Tülu 3 est devenu le rival inattendu de DeepSeek

Published February 1, 2025

Updated April 26, 2026

Alex McFarland

Les gros titres continuent d’arriver. Les modèles de DeepSeek ont remis en question les références, établi de nouvelles normes et fait beaucoup de bruit. Mais quelque chose d’intéressant vient de se produire dans le domaine de la recherche en IA qui vaut également la peine d’être examiné.

Allen AI a publié discrètement sa nouvelle famille de modèles Tülu 3, et leur version à 405 milliards de paramètres ne concourt pas seulement avec DeepSeek – elle l’égale ou le dépasse sur des références clés.

Mettons cela en perspective.

Le modèle Tülu 3 de 405 milliards de paramètres est en concurrence avec les meilleurs performants comme DeepSeek V3 sur une gamme de tâches. Nous voyons des performances comparables ou supérieures dans des domaines tels que les problèmes mathématiques, les défis de codage et le suivi précis des instructions. Et ils le font avec une approche entièrement ouverte.

Ils ont publié la pipeline de formation complète, le code et même leur méthode d’apprentissage par renforcement novatrice appelée Apprentissage par renforcement avec récompenses vérifiables (RLVR) qui a rendu cela possible.

Des développements comme ceux-ci au cours des dernières semaines changent vraiment la façon dont se déroule le développement d’IA de haut niveau. Lorsqu’un modèle open source complet peut égaler les meilleurs modèles fermés, cela ouvre des possibilités qui étaient previously verrouillées derrière des murs d’entreprise privés.

La bataille technique

Qu’est-ce qui a fait que Tülu 3 se démarque ? Cela se résume à un processus de formation en quatre étapes qui va au-delà des approches traditionnelles.

Examinons comment Allen AI a construit ce modèle :

Étape 1 : Sélection stratégique des données

L’équipe savait que la qualité du modèle commence avec la qualité des données. Ils ont combiné des ensembles de données établis comme WildChat et Open Assistant avec du contenu généré personnalisé. Mais voici l’insight clé : ils n’ont pas seulement agrégé des données – ils ont créé des ensembles de données ciblés pour des compétences spécifiques comme la raisonnement mathématique et la compétence en codage.

Étape 2 : Amélioration des réponses

À la deuxième étape, Allen AI s’est concentré sur l’enseignement de compétences spécifiques à son modèle. Ils ont créé différents ensembles de données de formation – certains pour les mathématiques, d’autres pour le codage et plus encore pour les tâches générales. En testant ces combinaisons à plusieurs reprises, ils pouvaient voir exactement où le modèle excellent et où il avait besoin de travail. Ce processus itératif a révélé le véritable potentiel de ce que Tülu 3 pouvait accomplir dans chaque domaine.

Étape 3 : Apprentissage par comparaisons

C’est ici que Allen AI est devenu créatif. Ils ont construit un système qui pouvait comparer instantanément les réponses de Tülu 3 à celles d’autres modèles de pointe. Mais ils ont également résolu un problème persistant dans l’IA – la tendance des modèles à écrire de longues réponses juste pour la longueur. Leur approche, en utilisant l’optimisation de préférence directe normalisée par la longueur (DPO), a signifié que le modèle a appris à valoriser la qualité plutôt que la quantité. Le résultat ? Des réponses à la fois précises et pertinentes.

Lorsque les modèles d’IA apprennent à partir de préférences (quelle réponse est meilleure, A ou B ?), ils ont tendance à développer un biais frustrant : ils commencent à penser que les réponses plus longues sont toujours meilleures. C’est comme s’ils essayaient de gagner en disant plus plutôt qu’en disant bien.

L’optimisation de préférence directe normalisée par la longueur corrige cela en ajustant la façon dont le modèle apprend à partir des préférences. Au lieu de simplement regarder quelle réponse a été préférée, elle prend en compte la longueur de chaque réponse. Pensez-y comme juger les réponses en fonction de leur qualité par mot, et non juste de leur impact total.

Pourquoi est-ce important ? Parce que cela aide Tülu 3 à apprendre à être précis et efficace. Plutôt que de gonfler les réponses avec des mots supplémentaires pour sembler plus complet, il apprend à fournir de la valeur dans la longueur qui est réellement nécessaire.

Cela peut sembler un détail mineur, mais c’est crucial pour construire une IA qui communique de manière naturelle. Les meilleurs experts humains savent quand être concis et quand élaborer – et c’est exactement ce que l’optimisation de préférence directe normalisée par la longueur aide à enseigner au modèle.

Étape 4 : L’innovation RLVR

C’est la percée technique qui mérite l’attention. RLVR remplace les modèles de récompense subjectifs par des résultats concrets vérifiables.

La plupart des modèles d’IA apprennent à travers un système complexe de modèles de récompense – essentiellement des hypothèses éduquées sur ce qui fait une bonne réponse. Mais Allen AI a pris une autre voie avec RLVR.

Pensez à la façon dont nous formons actuellement les modèles d’IA. Nous avons généralement besoin d’autres modèles d’IA (appelés modèles de récompense) pour juger si une réponse est bonne ou non. C’est subjectif, complexe et souvent incohérent. Certaines réponses peuvent sembler bonnes mais contenir des erreurs subtiles qui passent inaperçues.

RLVR renverse cette approche. Au lieu de s’appuyer sur des jugements subjectifs, il utilise des résultats concrets vérifiables. Lorsque le modèle tente un problème mathématique, il n’y a pas de zone grise – la réponse est soit correcte, soit incorrecte. Lorsqu’il écrit du code, ce code fonctionne soit correctement, soit ne fonctionne pas.

Voici où cela devient intéressant :

Le modèle reçoit une rétroaction immédiate et binaire : 10 points pour les réponses correctes, 0 pour les réponses incorrectes
Il n’y a pas de place pour les crédits partiels ou les évaluations floues
L’apprentissage devient ciblé et précis
Le modèle apprend à donner la priorité à la précision par rapport aux réponses qui semblent plausibles mais sont incorrectes

Diagramme de formation RLVR (Allen AI)

Les résultats ? Tülu 3 a montré des améliorations significatives dans les tâches où la correction compte le plus. Ses performances en raisonnement mathématique (benchmark GSM8K) et en défis de codage ont bondi de manière notable. Même son suivi d’instructions est devenu plus précis car le modèle a appris à valoriser l’exactitude concrète plutôt que les réponses approximatives.

Ce qui rend cela particulièrement excitant, c’est la façon dont cela change le jeu pour l’IA open source. Les approches précédentes ont souvent lutté pour égaler la précision des modèles fermés sur les tâches techniques. RLVR montre qu’avec l’approche de formation appropriée, les modèles open source peuvent atteindre le même niveau de fiabilité.

Un regard sur les chiffres

La version à 405 milliards de paramètres de Tülu 3 est en concurrence directe avec les meilleurs modèles du domaine. Examinons où il excellent et ce que cela signifie pour l’IA open source.

Mathématiques

Tülu 3 excellent dans le raisonnement mathématique complexe. Sur des références comme GSM8K et MATH, il égale les performances de DeepSeek. Le modèle gère des problèmes à plusieurs étapes et montre une forte capacité de raisonnement mathématique.

Code

Les résultats de codage sont tout aussi impressionnants. Grâce à la formation RLVR, Tülu 3 écrit du code qui résout efficacement les problèmes. Sa force réside dans la compréhension des instructions de codage et la production de solutions fonctionnelles.

Suivi précis des instructions

La capacité du modèle à suivre les instructions se démarque comme une force de base. Alors que de nombreux modèles approximent ou généralisent les instructions, Tülu 3 démontre une précision remarquable dans l’exécution exacte de ce qui est demandé.

Ouverture de la boîte noire du développement d’IA

Allen AI a publié à la fois un modèle puissant et leur processus de développement complet.

Tous les aspects du processus de formation sont documentés et accessibles. De l’approche en quatre étapes aux méthodes de préparation des données et à la mise en œuvre de RLVR – l’ensemble du processus est ouvert pour étude et réplication. Cette transparence établit une nouvelle norme dans le développement d’IA de haute performance.

Les développeurs reçoivent des ressources complètes :

Pipelines de formation complètes
Outils de traitement de données
Cadres d’évaluation
Spécifications d’implémentation

Cela permet aux équipes de :

Modifier les processus de formation
Adapter les méthodes à des besoins spécifiques
Construire sur des approches éprouvées
Créer des implémentations spécialisées

Cette approche ouverte accélère l’innovation dans tout le domaine. Les chercheurs peuvent s’appuyer sur des méthodes vérifiées, tandis que les développeurs peuvent se concentrer sur les améliorations plutôt que de repartir de zéro.

L’essor de l’excellence open source

Le succès de Tülu 3 est un grand moment pour le développement d’IA open source. Lorsque les modèles open source égalent ou dépassent les alternatives privées, cela change fondamentalement l’industrie. Les équipes de recherche du monde entier ont accès à des méthodes éprouvées, ce qui accélère leur travail et donne naissance à de nouvelles innovations. Les laboratoires d’IA privés devront s’adapter – soit en augmentant la transparence, soit en poussant les limites techniques encore plus loin.

En regardant vers l’avenir, les percées de Tülu 3 en termes de récompenses vérifiables et de formation en plusieurs étapes laissent entrevoir ce qui est à venir. Les équipes peuvent s’appuyer sur ces fondations, potentiellement poussant les performances encore plus haut. Le code existe, les méthodes sont documentées, et une nouvelle vague de développement d’IA a commencé. Pour les développeurs et les chercheurs, l’opportunité d’expérimenter et d’améliorer ces méthodes marque le début d’un chapitre passionnant dans le développement d’IA.

Foire aux questions (FAQ) sur Tülu 3

Qu’est-ce que Tülu 3 et quels sont ses principaux caractéristiques ?

Tülu 3 est une famille de modèles de langage LLM open source développés par Allen AI, basés sur l’architecture Llama 3.1. Il est disponible dans différentes tailles (8B, 70B et 405B de paramètres). Tülu 3 est conçu pour améliorer les performances dans diverses tâches, notamment la connaissance, le raisonnement, les mathématiques, le codage, le suivi des instructions et la sécurité.

Quel est le processus de formation de Tülu 3 et quels données sont utilisées ?

La formation de Tülu 3 implique plusieurs étapes clés. Tout d’abord, l’équipe sélectionne soigneusement un ensemble de invites provenant à la fois de jeux de données publics et de données synthétiques ciblées sur des compétences spécifiques, en veillant à ce que les données soient décontaminées par rapport aux références. Ensuite, une formation supervisée (SFT) est effectuée sur un mélange de données d’instructions, de mathématiques et de codage. Ensuite, l’optimisation de préférence directe (DPO) est utilisée avec des données de préférence générées par des retours humains et LLM. Enfin, l’apprentissage par renforcement avec récompenses vérifiables (RLVR) est utilisé pour les tâches avec une correction mesurable. Tülu 3 utilise des ensembles de données ciblés pour chaque étape, notamment des instructions à personnages, des données mathématiques et des données de codage.

Comment Tülu 3 aborde-t-il la sécurité et quels indicateurs sont utilisés pour l’évaluer ?

La sécurité est un élément essentiel du développement de Tülu 3, abordé tout au long du processus de formation. Un ensemble de données spécifique à la sécurité est utilisé pendant la formation supervisée (SFT), qui s’est avéré être en grande partie orthogonal aux autres données axées sur les tâches.

Qu’est-ce que RLVR ?

RLVR est une technique dans laquelle le modèle est formé pour optimiser une récompense vérifiable, comme la correction d’une réponse. Cela diffère de la formation traditionnelle RLHF qui utilise un modèle de récompense.

Related Topics:deepseek LLMs open source