Intelligence artificielle
Qwen2 – Le dernier modèle de langage multilingue d’Alibaba défie les SOTA comme Llama 3
Après des mois d’attente, l’équipe Qwen d’Alibaba a finalement dévoilé Qwen2 – l’évolution suivante de leur série de modèles de langage puissants. Qwen2 représente un saut significatif en avant, avec des avancées de pointe qui pourraient le positionner comme la meilleure alternative au modèle célébré Llama 3 de Meta. Dans cette plongée technique, nous allons explorer les fonctionnalités clés, les benchmarks de performance et les techniques innovantes qui font de Qwen2 un concurrent redoutable dans le domaine des grands modèles de langage (LLM).
Scaling Up : Présentation de la gamme de modèles Qwen2
Au cœur de Qwen2 se trouve une gamme de modèles diversifiés conçus pour répondre à des exigences de calcul variées. La série comprend cinq tailles de modèles distinctes : Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B, Qwen2-57B-A14B et le modèle phare Qwen2-72B. Cette gamme d’options convient à un large éventail d’utilisateurs, allant de ceux ayant des ressources matérielles modestes à ceux ayant accès à des infrastructures de calcul de pointe.
L’une des fonctionnalités remarquables de Qwen2 est sa capacité multilingue. Alors que le modèle Qwen1.5 précédent excellait en anglais et en chinois, Qwen2 a été formé sur des données couvrant 27 langues supplémentaires. Ce régime de formation multilingue inclut des langues de régions diverses telles que l’Europe occidentale, l’Europe orientale et centrale, le Moyen-Orient, l’Asie orientale et l’Asie méridionale.
En élargissant son répertoire linguistique, Qwen2 démontre une capacité exceptionnelle à comprendre et à générer du contenu dans un large éventail de langues, ce qui en fait un outil inestimable pour les applications mondiales et la communication interculturelle.
Répondre au code-switching : un défi multilingue
Dans les contextes multilingues, le phénomène du code-switching – la pratique de basculer entre différentes langues au sein d’une conversation ou d’une énonciation unique – est une occurrence courante. Qwen2 a été soigneusement formé pour gérer les scénarios de code-switching, réduisant ainsi de manière significative les problèmes associés et assurant des transitions fluides entre les langues.
Les évaluations utilisant des invites qui induisent généralement le code-switching ont confirmé l’amélioration substantielle de Qwen2 dans ce domaine, témoignant de l’engagement d’Alibaba à livrer un véritable modèle de langage multilingue.
Exceller en codage et en mathématiques
Qwen2 possède des capacités remarquables dans les domaines du codage et des mathématiques, domaines qui ont traditionnellement posé des défis aux modèles de langage. En exploitant des ensembles de données de haute qualité et des méthodes de formation optimisées, Qwen2-72B-Instruct, la variante instruite du modèle phare, affiche des performances exceptionnelles dans la résolution de problèmes mathématiques et de tâches de codage dans diverses langages de programmation.
Étendre la compréhension du contexte
L’une des fonctionnalités les plus impressionnantes de Qwen2 est sa capacité à comprendre et à traiter des séquences de contexte étendues. Alors que la plupart des modèles de langage luttent avec les textes longs, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct ont été conçus pour gérer des longueurs de contexte allant jusqu’à 128 K jetons.
Cette capacité remarquable est un facteur de changement de jeu pour les applications qui exigent une compréhension approfondie de documents longs, tels que des contrats juridiques, des articles de recherche ou des manuels techniques denses. En traitant efficacement les contextes étendus, Qwen2 peut fournir des réponses plus précises et plus complètes, ouvrant de nouvelles frontières dans le traitement automatique des langues.

Précision des modèles Qwen2 dans la récupération de faits à partir de documents de différentes longueurs de contexte et profondeurs.
Ce graphique montre la capacité des modèles Qwen2 à récupérer des faits à partir de documents de longueurs de contexte et de profondeurs variées.
Innovations architecturales : Attention de requête de groupe et embeddings optimisés
Sous le capot, Qwen2 intègre plusieurs innovations architecturales qui contribuent à ses performances exceptionnelles. L’une de ces innovations est l’adoption de l’Attention de requête de groupe (GQA) sur tous les tailles de modèles. La GQA offre des vitesses d’inférence plus rapides et une utilisation réduite de la mémoire, rendant Qwen2 plus efficace et accessible à une plus grande variété de configurations matérielles.
En outre, Alibaba a optimisé les embeddings pour les modèles plus petits de la série Qwen2. En reliant les embeddings, l’équipe a réussi à réduire l’empreinte mémoire de ces modèles, permettant leur déploiement sur du matériel moins puissant tout en maintenant des performances de haute qualité.
Benchmarks Qwen2 : surpassant les modèles de l’état de l’art
Qwen2 affiche des performances remarquables sur une gamme variée de benchmarks. Les évaluations comparatives révèlent que Qwen2-72B, le plus grand modèle de la série, surpasse les principaux concurrents tels que Llama-3-70B dans des domaines clés, notamment la compréhension du langage naturel, l’acquisition de connaissances, la compétence en codage, les compétences mathématiques et les capacités multilingues.

Qwen2-72B-Instruct versus Llama3-70B-Instruct en termes de performances en codage et en mathématiques
Malgré le fait qu’il ait moins de paramètres que son prédécesseur, Qwen1.5-110B, Qwen2-72B affiche des performances supérieures, témoignant de l’efficacité des ensembles de données soigneusement sélectionnés et des méthodes de formation optimisées d’Alibaba.
Sécurité et responsabilité : alignement sur les valeurs humaines
Qwen2-72B-Instruct a été rigoureusement évalué pour sa capacité à gérer des requêtes potentiellement nuisibles liées à des activités illégales, à la fraude, à la pornographie et aux violations de la vie privée. Les résultats sont encourageants : Qwen2-72B-Instruct se comporte de manière comparable au modèle GPT-4 très estimé en termes de sécurité, affichant des proportions nettement plus faibles de réponses nuisibles par rapport à d’autres grands modèles comme Mistral-8x22B.
Cette réalisation souligne l’engagement d’Alibaba à développer des systèmes d’IA qui s’alignent sur les valeurs humaines, garantissant que Qwen2 est non seulement puissant mais également digne de confiance et responsable.
Licence et engagement en faveur du code ouvert
Dans un mouvement qui amplifie encore l’impact de Qwen2, Alibaba a adopté une approche de code ouvert pour la licence. Alors que Qwen2-72B et ses modèles instruits conservent la licence Qianwen originale, les modèles restants – Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B et Qwen2-57B-A14B – ont été licenciés sous la licence permissive Apache 2.0.
Cette ouverture accrue devrait accélérer l’application et l’utilisation commerciale des modèles Qwen2 dans le monde entier, favorisant la collaboration et l’innovation au sein de la communauté mondiale de l’IA.
Utilisation et mise en œuvre
L’utilisation des modèles Qwen2 est straightforward, grâce à leur intégration avec des frameworks populaires comme Hugging Face. Voici un exemple d’utilisation de Qwen2-7B-Chat-beta pour l’inférence :
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # le périphérique sur lequel charger le modèle
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Donnez-moi une brève introduction aux grands modèles de langage."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
Ce snippet de code démontre comment configurer et générer du texte en utilisant le modèle Qwen2-7B-Chat. L’intégration avec Hugging Face la rend accessible et facile à expérimenter.
Qwen2 vs. Llama 3 : une analyse comparative
Alors que Qwen2 et le Llama 3 de Meta sont tous deux des modèles de langage formidables, ils présentent des forces et des compromis distincts.

Graphique comparatif des performances de Qwen2-72B, Llama3-70B, Mixtral-8x22B et Qwen1.5-110B sur divers benchmarks.
Voici une analyse comparative pour vous aider à comprendre leurs principales différences :
Capacités multilingues : Qwen2 détient un avantage clair en termes de prise en charge multilingue. Sa formation sur des données couvrant 27 langues supplémentaires, au-delà de l’anglais et du chinois, permet à Qwen2 d’exceller dans la communication interculturelle et les scénarios multilingues. En revanche, les capacités multilingues de Llama 3 sont moins prononcées, ce qui pourrait limiter son efficacité dans des contextes linguistiques divers.
Compétences en codage et en mathématiques : Qwen2 et Llama 3 démontrent toutes deux des capacités impressionnantes en codage et en mathématiques. Cependant, Qwen2-72B-Instruct semble avoir une légère avance, grâce à sa formation rigoureuse sur des ensembles de données de haute qualité dans ces domaines. L’accent mis par Alibaba sur l’amélioration des capacités de Qwen2 dans ces domaines pourrait lui donner un avantage pour des applications spécialisées impliquant du codage ou la résolution de problèmes mathématiques.
Compréhension de longs contextes : Qwen2-7B-Instruct et Qwen2-72B-Instruct se distinguent par leur capacité à gérer des longueurs de contexte allant jusqu’à 128 K jetons. Cette fonctionnalité est particulièrement précieuse pour les applications qui nécessitent une compréhension approfondie de documents longs ou de matériel technique dense. Llama 3, bien qu’elle soit capable de traiter des séquences longues, peut ne pas égaler les performances de Qwen2 dans ce domaine spécifique.
Alors que Qwen2 et Llama 3 affichent toutes deux des performances de l’état de l’art, la gamme de modèles Qwen2, allant de 0,5B à 72B de paramètres, offre une plus grande flexibilité et une meilleure scalabilité. Cette polyvalence permet aux utilisateurs de choisir la taille de modèle qui convient le mieux à leurs ressources de calcul et à leurs exigences de performance. De plus, les efforts constants d’Alibaba pour mettre à l’échelle Qwen2 à des modèles plus grands pourraient encore améliorer ses capacités, potentiellement dépassant Llama 3 à l’avenir.
Déploiement et intégration : faciliter l’adoption de Qwen2
Pour faciliter l’adoption et l’intégration généralisées de Qwen2, Alibaba a pris des mesures proactives pour assurer un déploiement sans heurts sur diverses plateformes et frameworks. L’équipe Qwen a collaboré étroitement avec de nombreux projets et organisations tiers, permettant à Qwen2 d’être utilisé conjointement avec une large gamme d’outils et de frameworks.
Affinage et quantification : Des projets tiers tels qu’Axolotl, Llama-Factory, Firefly, Swift et XTuner ont été optimisés pour prendre en charge l’affinage des modèles Qwen2, permettant aux utilisateurs de personnaliser les modèles pour leurs tâches et ensembles de données spécifiques. De plus, des outils de quantification tels qu’AutoGPTQ, AutoAWQ et Neural Compressor ont été adaptés pour fonctionner avec Qwen2, facilitant ainsi le déploiement efficace sur des appareils à ressources limitées.
Déploiement et inférence : Les modèles Qwen2 peuvent être déployés et servis en utilisant divers frameworks, notamment vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino et TGI. Ces frameworks offrent des pipelines d’inférence optimisés, permettant un déploiement efficace et évolutif de Qwen2 dans les environnements de production.
Plateformes d’API et exécution locale : Pour les développeurs souhaitant intégrer Qwen2 dans leurs applications, des plateformes d’API telles que Together, Fireworks et OpenRouter offrent un accès pratique aux capacités des modèles. Alternativement, l’exécution locale est prise en charge via des frameworks tels que MLX, Llama.cpp, Ollama et LM Studio, permettant aux utilisateurs d’exécuter Qwen2 sur leurs machines locales tout en conservant le contrôle sur la confidentialité et la sécurité des données.
Frameworks d’agent et de RAG : La prise en charge par Qwen2 de l’utilisation d’outils et des capacités d’agent est renforcée par des frameworks tels que LlamaIndex, CrewAI et OpenDevin. Ces frameworks permettent la création d’agents AI spécialisés et l’intégration de Qwen2 dans des pipelines de génération augmentée de récupération (RAG), élargissant ainsi la gamme d’applications et d’utilisation.
Regarder vers l’avenir : développements futurs et opportunités
La vision d’Alibaba pour Qwen2 s’étend bien au-delà de la version actuelle. L’équipe est actuellement en train de former des modèles plus grands pour explorer les frontières de la mise à l’échelle des modèles, complétée par des efforts continus de mise à l’échelle des données. De plus, des plans sont en cours pour étendre Qwen2 au domaine de l’IA multimodale, permettant l’intégration de capacités de compréhension visuelle et audio.
Alors que l’écosystème du code ouvert continue de prospérer, Qwen2 jouera un rôle crucial, servant de ressource puissante pour les chercheurs, les développeurs et les organisations cherchant à faire progresser l’état de l’art dans le traitement automatique des langues et l’intelligence artificielle.














