Intelligence Artificielle
Qwen2 – Le dernier modèle linguistique multilingue d'Alibaba défie SOTA comme Llama 3
Après des mois d'attente, L'équipe Qwen d'Alibaba a finalement dévoilé Qwen2 – la prochaine évolution de leur puissante série de modèles de langage. Qwen2 représente une avancée significative, bénéficiant d'avancées de pointe qui pourraient le positionner comme la meilleure alternative au célèbre Meta. Llama 3 modèle. Dans cette plongée technique approfondie, nous explorerons les fonctionnalités clés, les tests de performance et les techniques innovantes qui font de Qwen2 un concurrent redoutable dans le domaine des grands modèles de langage (LLM).
Mise à l'échelle : présentation de la gamme de modèles Qwen2
Au cœur de Qwen2 se trouve une gamme diversifiée de modèles adaptés pour répondre à diverses demandes de calcul. La série comprend cinq tailles de modèles distinctes : Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B et le produit phare Qwen2-72B. Cette gamme d'options s'adresse à un large éventail d'utilisateurs, depuis ceux disposant de ressources matérielles modestes jusqu'à ceux ayant accès à une infrastructure informatique de pointe.
L'une des fonctionnalités les plus remarquables de Qwen2 est son multilinguisme. Alors que le précédent Qwen1.5 modèle excellait en anglais et en chinois, Qwen2 a été formé sur des données couvrant un nombre impressionnant de 27 langues supplémentaires. Ce programme de formation multilingue comprend des langues de diverses régions telles que l'Europe occidentale, l'Europe orientale et centrale, le Moyen-Orient, l'Asie orientale et l'Asie du Sud.
En élargissant son répertoire linguistique, Qwen2 démontre une capacité exceptionnelle à comprendre et à générer du contenu dans un large éventail de langues, ce qui en fait un outil inestimable pour les applications mondiales et la communication interculturelle.
Aborder le changement de code : un défi multilingue
Dans les contextes multilingues, le phénomène de changement de code – la pratique consistant à alterner entre différentes langues au sein d’une même conversation ou d’un même énoncé – est un phénomène courant. Qwen2 a été méticuleusement formé pour gérer les scénarios de changement de code, réduisant considérablement les problèmes associés et garantissant des transitions fluides entre les langues.
Les évaluations utilisant des invites qui induisent généralement un changement de code ont confirmé l'amélioration substantielle de Qwen2 dans ce domaine, ce qui témoigne de l'engagement d'Alibaba à fournir un modèle linguistique véritablement multilingue.
Exceller en codage et en mathématiques
Qwen2 possède des capacités remarquables dans les domaines du codage et des mathématiques, domaines qui posent traditionnellement des défis aux modèles de langage. En exploitant de nombreux ensembles de données de haute qualité et des méthodologies de formation optimisées, Qwen2-72B-Instruct, la variante optimisée pour les instructions du modèle phare, présente des performances exceptionnelles dans la résolution de problèmes mathématiques et de tâches de codage dans divers langages de programmation.
Étendre la compréhension du contexte
L'une des fonctionnalités les plus impressionnantes de Qwen2 est sa capacité à comprendre et à traiter des séquences contextuelles étendues. Alors que la plupart des modèles de langage ont du mal avec le texte long, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct ont été conçus pour gérer des longueurs de contexte allant jusqu'à 128 XNUMX jetons.
Cette capacité remarquable change la donne pour les applications qui exigent une compréhension approfondie de documents longs, tels que des contrats juridiques, des documents de recherche ou des manuels techniques denses. En traitant efficacement des contextes étendus, Qwen2 peut fournir des réponses plus précises et plus complètes, ouvrant ainsi de nouvelles frontières dans le traitement du langage naturel.

Précision des modèles Qwen2 dans la récupération de faits à partir de documents sur différentes longueurs de contexte et profondeurs de documents.
Ce graphique montre la capacité des modèles Qwen2 à récupérer des faits à partir de documents de différentes longueurs et profondeurs de contexte.
Innovations architecturales : attention aux requêtes de groupe et intégrations optimisées
Sous le capot, Qwen2 intègre plusieurs innovations architecturales qui contribuent à ses performances exceptionnelles. L’une de ces innovations est l’adoption de Group Query Attention (GQA) dans toutes les tailles de modèles. GQA offre des vitesses d'inférence plus rapides et une utilisation réduite de la mémoire, rendant Qwen2 plus efficace et accessible à une gamme plus large de configurations matérielles.
De plus, Alibaba a optimisé les intégrations pour les modèles plus petits de la série Qwen2. En liant les intégrations, l'équipe a réussi à réduire l'empreinte mémoire de ces modèles, permettant leur déploiement sur du matériel moins puissant tout en conservant des performances de haute qualité.
Benchmarking Qwen2 : des modèles de pointe surperformants
Qwen2 affiche des performances remarquables sur un large éventail de critères de référence. Des évaluations comparatives révèlent que le Qwen2-72B, le plus grand modèle de la série, surpasse ses principaux concurrents tels que le Llama-3-70B dans des domaines critiques, notamment la compréhension du langage naturel, l'acquisition de connaissances, la maîtrise du codage, les compétences mathématiques et les capacités multilingues.
Bien qu'il dispose de moins de paramètres que son prédécesseur, Qwen1.5-110B, Qwen2-72B présente des performances supérieures, ce qui témoigne de l'efficacité des ensembles de données méticuleusement organisés et des méthodologies de formation optimisées d'Alibaba.
Sécurité et responsabilité : s'aligner sur les valeurs humaines
Qwen2-72B-Instruct a été rigoureusement évalué pour sa capacité à traiter les requêtes potentiellement dangereuses liées aux activités illégales, à la fraude, à la pornographie et aux violations de la vie privée. Les résultats sont encourageants : Qwen2-72B-Instruct fonctionne de manière comparable au modèle très apprécié GPT-4 en termes de sécurité, présentant des proportions de réponses nocives nettement inférieures à celles d'autres grands modèles comme Mistral-8x22B.
Cette réussite souligne l’engagement d’Alibaba à développer des systèmes d’IA conformes aux valeurs humaines, garantissant que Qwen2 est non seulement puissant, mais également digne de confiance et responsable.
Licences et engagement Open Source
Dans une démarche qui amplifie encore l'impact de Qwen2, Alibaba a adopté une approche open source en matière de licence. Alors que Qwen2-72B et ses modèles optimisés pour les instructions conservent la licence Qianwen d'origine, les modèles restants (Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B et Qwen2-57B-A14B) sont sous licence permissive Apache 2.0. .
Cette ouverture accrue devrait accélérer l’application et l’utilisation commerciale des modèles Qwen2 dans le monde entier, favorisant ainsi la collaboration et l’innovation au sein de la communauté mondiale de l’IA.
Utilisation et mise en œuvre
L'utilisation des modèles Qwen2 est simple, grâce à leur intégration avec des frameworks populaires tels que Étreindre le visage. Voici un exemple d'utilisation de Qwen2-7B-Chat-beta pour l'inférence :
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
Cet extrait de code montre comment configurer et générer du texte à l'aide du modèle Qwen2-7B-Chat. L'intégration avec Étreindre le visage le rend accessible et facile à expérimenter.
Qwen2 vs Llama 3 : une analyse comparative
Alors que Qwen2 et Lama de Meta 3 sont tous deux de formidables modèles linguistiques, ils présentent des atouts et des compromis distincts.

Un tableau comparatif des performances de Qwen2-72B, Llama3-70B, Mixtral-8x22B et Qwen1.5-110B sur divers benchmarks, notamment MMLU, MMLU-Pro, GPQA et autres.
Voici une analyse comparative pour vous aider à comprendre leurs principales différences :
Capacités multilinguesQwen2 présente un avantage certain en termes de support multilingue. Son entraînement sur des données couvrant 27 langues supplémentaires, outre l'anglais et le chinois, lui permet d'exceller dans la communication interculturelle et les scénarios multilingues. En revanche, les capacités multilingues de Llama 2 sont moins prononcées, ce qui limite potentiellement son efficacité dans divers contextes linguistiques.
Maîtrise du codage et des mathématiques: Qwen2 et Llama 3 Les candidats doivent démontrer d'impressionnantes compétences en codage et en mathématiques. Cependant, Qwen2-72B-Instruct semble avoir un léger avantage, grâce à sa formation rigoureuse sur des ensembles de données complets et de haute qualité dans ces domaines. L'accent mis par Alibaba sur l'amélioration des capacités de Qwen2 dans ces domaines pourrait lui donner un avantage pour les applications spécialisées impliquant le codage ou la résolution de problèmes mathématiques.
Compréhension du contexte longLes modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct offrent une capacité impressionnante à gérer des longueurs de contexte allant jusqu'à 128 3 jetons. Cette fonctionnalité est particulièrement utile pour les applications nécessitant une compréhension approfondie de documents volumineux ou de supports techniques denses. Llama 2, bien que capable de traiter de longues séquences, pourrait ne pas égaler les performances de QwenXNUMX dans ce domaine spécifique.
Bien que Qwen2 et Llama 3 affichent des performances de pointe, la gamme diversifiée de modèles de Qwen2, allant de 0.5 milliard à 72 milliards de paramètres, offre une flexibilité et une évolutivité accrues. Cette polyvalence permet aux utilisateurs de choisir la taille de modèle la mieux adaptée à leurs ressources de calcul et à leurs besoins de performance. De plus, les efforts continus d'Alibaba pour adapter Qwen2 à des modèles plus grands pourraient encore améliorer ses capacités, lui permettant potentiellement de dépasser Llama 3 à l'avenir.
Déploiement et intégration : rationaliser l'adoption de Qwen2
Pour faciliter l'adoption et l'intégration généralisées de Qwen2, Alibaba a pris des mesures proactives pour garantir un déploiement transparent sur diverses plates-formes et cadres. L'équipe Qwen a collaboré étroitement avec de nombreux projets et organisations tiers, permettant à Qwen2 d'être exploité en conjonction avec un large éventail d'outils et de frameworks.
Réglage fin et quantification: Des projets tiers tels que Axolotl, Llama-Factory, Firefly, Swift et XTuner ont été optimisés pour prendre en charge le réglage fin des modèles Qwen2, permettant aux utilisateurs d'adapter les modèles à leurs tâches et ensembles de données spécifiques. De plus, des outils de quantification comme AutoGPTQ, AutoAWQ, et Neural Compressor ont été adaptés pour fonctionner avec Qwen2, facilitant ainsi un déploiement efficace sur des appareils aux ressources limitées.
Déploiement et inférence: Les modèles Qwen2 peuvent être déployés et servis à l'aide de divers frameworks, notamment vLLM, SGL, SkyPilot, TensorRT-LLM, OuvrirVino, et TGI. Ces frameworks offrent des pipelines d'inférence optimisés, permettant un déploiement efficace et évolutif de Qwen2 dans les environnements de production.
Plateformes API et exécution localePour les développeurs souhaitant intégrer Qwen2 à leurs applications, des plateformes d'API telles que Together, Fireworks et OpenRouter offrent un accès pratique aux fonctionnalités des modèles. L'exécution locale est également prise en charge par des frameworks comme MLX et Llama.cpp. Ollama, et LM Studio, permettant aux utilisateurs d'exécuter Qwen2 sur leurs machines locales tout en gardant le contrôle sur la confidentialité et la sécurité des données.
Cadres d'agent et RAG:Le support de Qwen2 pour l'utilisation des outils et les capacités des agents est renforcé par des frameworks tels que LamaIndex, CrewAI et OuvrirDevin. Ces frameworks permettent la création d'agents d'IA spécialisés et l'intégration de Qwen2 dans génération augmentée par récupération (RAG) pipelines, élargissant ainsi la gamme d’applications et de cas d’utilisation.
Regard vers l’avenir : développements futurs et opportunités
La vision d'Alibaba pour Qwen2 va bien au-delà de la version actuelle. L'équipe entraîne activement des modèles de plus grande taille afin d'explorer les limites de la mise à l'échelle des modèles, en complément de ses efforts continus de mise à l'échelle des données. Par ailleurs, des projets sont en cours pour étendre Qwen2 à l'IA multimodale, permettant l'intégration de capacités de compréhension visuelle et auditive.
Alors que l'écosystème de l'IA open source continue de prospérer, Qwen2 jouera un rôle central, servant de ressource puissante pour les chercheurs, les développeurs et les organisations cherchant à faire progresser l'état de l'art en matière de traitement du langage naturel et d'intelligence artificielle.















