Yapay Zeka

Qwen2 – Alibaba'nın En Yeni Çok Dilli Dil Modeli, Llama 3 gibi SOTA'ya meydan okuyor

Yayınlanan Haziran 11, 2024

Aayush Mittal Mittal

Aylarca süren beklentinin ardından, Alibaba'nın Qwen ekibi sonunda Qwen2'yi tanıttı – güçlü dil modeli serilerinin bir sonraki evrimi. Qwen2, Meta'nın ünlü dil modeline en iyi alternatif olma potansiyeline sahip, son teknoloji gelişmelerle dolu önemli bir sıçramayı temsil ediyor. Llama 3 model. Bu teknik derinlemesine incelemede, Qwen2'yi büyük dil modelleri (LLM) alanında zorlu bir rakip haline getiren temel özellikleri, performans ölçütlerini ve yenilikçi teknikleri inceleyeceğiz.

Ölçeklendirme: Qwen2 Model Serisiyle Tanışın

Özünde Qwen2 değişen hesaplama taleplerini karşılamak için uyarlanmış çeşitli model yelpazesi bulunmaktadır. Seri beş farklı model boyutunu kapsıyor: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B ve amiral gemisi Qwen2-72B. Bu seçenek yelpazesi, mütevazı donanım kaynaklarına sahip olanlardan en ileri bilgi işlem altyapısına erişimi olanlara kadar geniş bir kullanıcı yelpazesine hitap etmektedir.

Qwen2'nin öne çıkan özelliklerinden biri çok dilli yetenekleridir. Önceki Qwen1.5 Model İngilizce ve Çince'de mükemmel bir performans sergileyen Qwen2, etkileyici 27 ek dili kapsayan veriler üzerinde eğitilmiştir. Bu çok dilli eğitim rejimi Batı Avrupa, Doğu ve Orta Avrupa, Orta Doğu, Doğu Asya ve Güney Asya gibi çeşitli bölgelerdeki dilleri içerir.

Bölgelere göre kategorize edilmiş, Qwen2 modellerinin desteklediği dilleri listeleyen tablo

Coğrafi bölgelere göre kategorize edilmiş, Qwen2 modellerinin desteklediği diller

Qwen2, dil dağarcığını genişleterek, çok çeşitli dillerdeki içeriği anlama ve oluşturma konusunda olağanüstü bir yetenek sergiliyor ve bu da onu küresel uygulamalar ve kültürler arası iletişim için paha biçilmez bir araç haline getiriyor.

Qwen2 modellerini parametrelere, yerleştirmesiz parametrelere, GQA'ya, bağlantı yerleştirmeye ve bağlam uzunluğuna göre karşılaştıran tablo

Parametreler, GQA ve bağlam uzunluğu dahil olmak üzere Qwen2 Modellerinin özellikleri.

Kod Değiştirmeyi Ele Alma: Çok Dilli Bir Zorluk

Çok dilli bağlamlarda, kod değiştirme olgusu (tek bir konuşma veya ifade içinde farklı diller arasında geçiş yapma uygulaması) yaygın bir durumdur. Qwen2, kod değiştirme senaryolarını ele almak, ilgili sorunları önemli ölçüde azaltmak ve diller arasında sorunsuz geçişler sağlamak üzere titizlikle eğitilmiştir.

Genellikle kod değiştirmeyi teşvik eden komutları kullanan değerlendirmeler, Qwen2'nin bu alanda önemli bir gelişme kaydettiğini doğruladı; bu da Alibaba'nın gerçek anlamda çok dilli bir dil modeli sunma konusundaki kararlılığının bir kanıtıdır.

Kodlama ve Matematikte Mükemmeliyet

Qwen2, geleneksel olarak dil modelleri için zorluklar oluşturan kodlama ve matematik alanlarında dikkate değer yeteneklere sahiptir. Kapsamlı yüksek kaliteli veri kümelerinden ve optimize edilmiş eğitim metodolojilerinden yararlanarak, amiral gemisi modelinin talimatlara göre ayarlanmış çeşidi olan Qwen2-72B-Instruct, çeşitli programlama dillerinde matematik problemlerini çözmede ve görevleri kodlamada olağanüstü performans sergiliyor.

Bağlam Anlamayı Genişletme

Qwen2'nin en etkileyici özelliklerinden biri, genişletilmiş bağlam dizilerini anlama ve işleme yeteneğidir. Çoğu dil modeli uzun biçimli metinlerle uğraşırken, Qwen2-7B-Instruct ve Qwen2-72B-Instruct modelleri 128K jetona kadar bağlam uzunluklarını işleyecek şekilde tasarlandı.

Bu olağanüstü yetenek, yasal sözleşmeler, araştırma makaleleri veya yoğun teknik kılavuzlar gibi uzun belgelerin derinlemesine anlaşılmasını gerektiren uygulamalar için ezber bozan bir özelliktir. Qwen2, genişletilmiş bağlamları etkili bir şekilde işleyerek daha doğru ve kapsamlı yanıtlar sunarak doğal dil işlemede yeni ufukların kilidini açabilir.

Farklı bağlam uzunlukları ve belge derinliklerinde Qwen2 modellerinin gerçek alma doğruluğunu gösteren grafik

Farklı bağlam uzunlukları ve belge derinliklerindeki belgelerden gerçekleri almada Qwen2 modellerinin doğruluğu.

Bu grafik, Qwen2 modellerinin çeşitli bağlam uzunlukları ve derinliklerindeki belgelerden gerçekleri alma yeteneğini gösterir.

Mimari Yenilikler: Grup Sorgu Dikkati ve Optimize Edilmiş Yerleştirmeler

Kaputun altında Qwen2, olağanüstü performansına katkıda bulunan çeşitli mimari yenilikleri bünyesinde barındırıyor. Bu tür yeniliklerden biri, Grup Sorgu Dikkatinin (GQA) tüm model boyutlarında benimsenmesidir. GQA, daha yüksek çıkarım hızları ve daha az bellek kullanımı sunarak Qwen2'yi daha verimli ve daha geniş bir donanım yapılandırması yelpazesi için erişilebilir hale getirir.

Ek olarak Alibaba, Qwen2 serisindeki daha küçük modeller için yerleştirmeleri optimize etti. Ekip, yerleştirmeleri bağlayarak bu modellerin bellek ayak izini azaltmayı başardı, böylece yüksek kaliteli performansı korurken daha az güçlü donanımlarda konuşlandırılmalarına olanak sağladı.

Karşılaştırmalı Qwen2: Son Teknoloji Modellerden Daha İyi Performans

Qwen2, çok çeşitli kıyaslamalarda dikkate değer bir performansa sahiptir. Karşılaştırmalı değerlendirmeler, serinin en büyük modeli olan Qwen2-72B'nin, doğal dil anlama, bilgi edinme, kodlama yeterliliği, matematik becerileri ve çok dilli yetenekler gibi kritik alanlarda Llama-3-70B gibi önde gelen rakiplerini geride bıraktığını ortaya koyuyor.

Çeşitli programlama dillerinde kodlamada ve farklı sınavlarda matematikte Qwen2-72B-Instruct ve Llama3-70B-Instruct'ı karşılaştıran grafikler

Qwen2-72B-Instruct'a karşı Llama3-70B-Kodlama ve matematik performansında eğitim

Önceki modeli Qwen1.5-110B'den daha az parametreye sahip olmasına rağmen Qwen2-72B, Alibaba'nın titizlikle hazırlanmış veri kümelerinin ve optimize edilmiş eğitim metodolojilerinin etkinliğinin bir kanıtı olarak üstün bir performans sergiliyor.

Güvenlik ve Sorumluluk: İnsani Değerlere Uyum Sağlamak

Qwen2-72B-Instruct, yasa dışı faaliyetler, dolandırıcılık, pornografi ve gizlilik ihlalleriyle ilgili potansiyel olarak zararlı sorguları ele alma becerisi açısından titizlikle değerlendirildi. Sonuçlar cesaret verici: Qwen2-72B-Instruct, güvenlik açısından son derece saygın GPT-4 modeliyle karşılaştırılabilir bir performans sergiliyor ve Mistral-8x22B gibi diğer büyük modellerle karşılaştırıldığında önemli ölçüde daha düşük zararlı yanıt oranları sergiliyor.

Bu başarı, Alibaba'nın insan değerleriyle uyumlu yapay zeka sistemleri geliştirmeye olan bağlılığını ve Qwen2'nin yalnızca güçlü değil, aynı zamanda güvenilir ve sorumlu olmasını sağlama kararlılığını vurguluyor.

Lisanslama ve Açık Kaynak Taahhüdü

Qwen2'nin etkisini daha da güçlendiren bir hamleyle Alibaba, lisanslamada açık kaynak yaklaşımını benimsedi. Qwen2-72B ve talimat ayarlı modelleri orijinal Qianwen Lisansını korurken, geri kalan modeller (Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B ve Qwen2-57B-A14B) izin verilen Apache 2.0 lisansı kapsamında lisanslanmıştır. .

Bu gelişmiş açıklığın, Qwen2 modellerinin dünya çapında uygulanmasını ve ticari kullanımını hızlandırması, küresel yapay zeka topluluğu içinde işbirliğini ve yeniliği teşvik etmesi bekleniyor.

Kullanım ve Uygulama

Gibi popüler çerçevelerle entegrasyonu sayesinde Qwen2 modellerini kullanmak kolaydır. Sarılma Yüz. Çıkarım için Qwen2-7B-Chat-beta'nın kullanımına bir örnek:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Give me a short introduction to large language models."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Bu kod parçacığı, Qwen2-7B-Chat modelini kullanarak nasıl metin oluşturulacağını ve oluşturulacağını gösterir. Entegrasyon Sarılma Yüz erişilebilir ve deneme yapmayı kolaylaştırır.

Qwen2 ve Llama 3: Karşılaştırmalı Bir Analiz

Qwen2 ve Meta'nın Laması 3 Her ikisi de müthiş dil modelleridir, farklı güçlü yönler ve ödünleşimler sergilerler.

Qwen2-72B, Llama3-70B, Mixtral-8x22B ve Qwen1.5-110B'nin birden fazla kıyaslamada performans karşılaştırma tablosu

MMLU, MMLU-Pro, GPQA ve diğerleri dahil olmak üzere çeşitli kıyaslamalarda Qwen2-72B, Llama3-70B, Mixtral-8x22B ve Qwen1.5-110B'nin karşılaştırmalı performans tablosu.

İşte aralarındaki temel farkları anlamanıza yardımcı olacak karşılaştırmalı bir analiz:

Çok Dilli Yetenekler: Qwen2, çok dilli destek açısından açık bir avantaja sahiptir. İngilizce ve Çince'nin yanı sıra 27 ek dili kapsayan veriler üzerinde sağladığı eğitim, Qwen2'nin kültürlerarası iletişimde ve çok dilli senaryolarda üstünlük sağlamasını mümkün kılar. Buna karşılık, Llama 3'ün çok dilli yetenekleri daha az belirgindir ve bu da çeşitli dil bağlamlarındaki etkinliğini potansiyel olarak sınırlamaktadır.

Kodlama ve Matematik Yeterliliği: Hem Qwen2 hem de Llama 3 Etkileyici kodlama ve matematiksel yetenekler sergileyebilirler. Ancak, Qwen2-72B-Instruct, bu alanlarda kapsamlı ve yüksek kaliteli veri kümeleri üzerinde verdiği titiz eğitim sayesinde küçük bir avantaja sahip gibi görünüyor. Alibaba'nın Qwen2'nin bu alanlardaki yeteneklerini geliştirmeye odaklanması, kodlama veya matematiksel problem çözme içeren özel uygulamalarda ona avantaj sağlayabilir.

Uzun Bağlam AnlamaQwen2-7B-Instruct ve Qwen2-72B-Instruct modelleri, 128 bin token'a kadar bağlam uzunluklarını işleme konusunda etkileyici bir yeteneğe sahiptir. Bu özellik, özellikle uzun belgelerin veya yoğun teknik materyallerin derinlemesine anlaşılmasını gerektiren uygulamalar için değerlidir. Llama 3, uzun dizileri işleyebilmesine rağmen, bu özel alanda Qwen2'nin performansına ulaşamayabilir.

Hem Qwen2 hem de Llama 3 en son teknoloji performans sergilerken, Qwen2'nin 0.5 milyardan 72 milyara kadar parametreye sahip çeşitli model yelpazesi daha fazla esneklik ve ölçeklenebilirlik sunar. Bu çok yönlülük, kullanıcıların hesaplama kaynaklarına ve performans gereksinimlerine en uygun model boyutunu seçmelerine olanak tanır. Ayrıca, Alibaba'nın Qwen2'yi daha büyük modellere ölçeklendirme konusundaki devam eden çalışmaları, yeteneklerini daha da artırabilir ve gelecekte Llama 3'ü geride bırakabilir.

Dağıtım ve Entegrasyon: Qwen2'nin Benimsenmesini Kolaylaştırma

Qwen2'nin yaygın şekilde benimsenmesini ve entegrasyonunu kolaylaştırmak için Alibaba, çeşitli platformlar ve çerçeveler arasında sorunsuz dağıtımı sağlamak için proaktif adımlar attı. Qwen ekibi çok sayıda üçüncü taraf proje ve kuruluşla yakın işbirliği yaparak Qwen2'nin çok çeşitli araç ve çerçevelerle birlikte kullanılmasını sağladı.

İnce Ayar ve Niceleme: Axolotl, Llama-Factory, Firefly, Swift ve XTuner gibi üçüncü taraf projeler, Qwen2 modellerinde ince ayar yapılmasını destekleyecek şekilde optimize edildi ve kullanıcıların modelleri kendi özel görevlerine ve veri kümelerine göre uyarlamalarına olanak tanıdı. Ek olarak, niceleme araçları gibi AutoGPTQ, OtomatikAWQve Neural Compressor, Qwen2 ile çalışacak şekilde uyarlanarak kaynak kısıtlı cihazlarda verimli dağıtımı kolaylaştırıyor.

Dağıtım ve Çıkarım: Qwen2 modelleri, aşağıdakiler de dahil olmak üzere çeşitli çerçeveler kullanılarak dağıtılabilir ve sunulabilir: vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinove TGI. Bu çerçeveler, optimize edilmiş çıkarım hatları sunarak Qwen2'nin üretim ortamlarında verimli ve ölçeklenebilir dağıtımını sağlar.

API Platformları ve Yerel YürütmeQwen2'yi uygulamalarına entegre etmek isteyen geliştiriciler için Together, Fireworks ve OpenRouter gibi API platformları, modellerin özelliklerine kolay erişim sağlar. Alternatif olarak, MLX, Llama.cpp gibi çerçeveler aracılığıyla yerel yürütme desteklenir. Ollamave LM Studio, kullanıcıların veri gizliliği ve güvenliği üzerindeki kontrolünü korurken Qwen2'yi yerel makinelerinde çalıştırmasına olanak tanıyor.

Aracı ve RAG Çerçeveleri: Qwen2'nin araç kullanımı ve aracı yeteneklerine yönelik desteği, aşağıdaki gibi çerçevelerle desteklenmektedir: LamaIndex, CrewAI ve OpenDevin. Bu çerçeveler, özel yapay zeka aracılarının oluşturulmasını ve Qwen2'nin entegre edilmesini sağlar. almayla artırılmış nesil (RAG) boru hatları, uygulama yelpazesini ve kullanım senaryolarını genişletiyor.

İleriye Bakış: Gelecekteki Gelişmeler ve Fırsatlar

Alibaba'nın Qwen2 vizyonu, mevcut sürümün çok ötesine uzanıyor. Ekip, devam eden veri ölçeklendirme çalışmalarıyla desteklenen model ölçeklendirme sınırlarını keşfetmek için daha büyük modelleri aktif olarak eğitiyor. Ayrıca, Qwen2'yi çok modlu yapay zeka alanına genişleterek, görüntü ve ses anlama yeteneklerinin entegrasyonunu sağlama planları da devam ediyor.

Açık kaynaklı yapay zeka ekosistemi gelişmeye devam ettikçe Qwen2, doğal dil işleme ve yapay zeka alanında en son teknolojiyi geliştirmek isteyen araştırmacılar, geliştiriciler ve kuruluşlar için güçlü bir kaynak olarak hizmet ederek çok önemli bir rol oynayacak.

Aayush Mittal

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.