Yapay Zekâ
Meta Llama 3’ü Tanıtıyoruz: Büyük Dil Modellerinde Bir Advantaj
Yaratıcı AI alanında Meta, gelişmiş Büyük Dil Modeli Meta AI (Llama) serisini dünya çapındaki geliştiricilere ve araştırmacılara açık kaynak olarak sunmaya devam ediyor. İlerici girişimlerini pekiştiren Meta, bu serinin üçüncü iterasyonunu Llama 3 olarak sundu. Bu yeni sürüm, Llama 2‘ye kıyasla önemli iyileştirmeler sunuyor ve endüstri rakipleri gibi Google, Mistral ve Anthropic için referans noktaları oluşturuyor. Bu makale, Llama 3’ün önemli ilerlemelerini ve Llama 2’ye kıyasla nasıl bir gelişme gösterdiğini keşfediyor.
Meta’nın Llama Serisi: Özel’den Açık Erişime ve Gelişmiş Performansa
Meta, 2022’de Llama 1 ile Llama serisini başlattı. Bu model, o zamanlar ileri düzey LLM’lerin karakterize ettiği büyük hesaplamalı talepler ve özel doğası nedeniyle yalnızca seçilen araştırma kurumlarına açık olan ticari olmayan kullanım için sınırlıydı. 2023’te Llama 2’nin piyasaya sürülmesiyle Meta AI, daha büyük bir açıklık doğrultusunda hareket etti ve modeli hem araştırma hem de ticari amaçlar için ücretsiz olarak sundu. Bu adım, gelişmiş yaratıcı AI teknolojilerine erişimi demokratikleştirmeyi amaçlıyordu, böylece daha geniş bir kullanıcı kitlesi, genellikle büyük ölçekli modellerle ilişkili yüksek maliyetler olmadan yenilikçi uygulamalar geliştirebiliyordu. Açıklık doğrultusundaki bu eğilimini sürdüren Meta, özellikle endüstri standartlarında küçük modellerin performansını iyileştirmeye odaklanan Llama 3’ü tanıttı.
Llama 3’ü Tanıtıyoruz
Llama 3, Meta’nın açık kaynak büyük dil modellerinin ikinci neslidir ve 8B ve 70B parametreli önceden eğitilmiş ve talimatla ince ayarlanmış modelleri içerir. Öncellerinin izini sürerek, Llama 3 sadece decoder transformer mimarisi kullanır ve metin dizilerindeki sonraki tokenleri öngörme için otoregresif, kendini denetleyen eğitim uygulamasını sürdürür. Llama 3, Llama 2 için kullanılan verilerin yedi katına sahip bir veri setinde önceden eğitilmiştir ve 15 trilyonun üzerinde tokeni barındıran, kamuoyunda erişilebilen yeni bir veri karışımından oluşur. Bu geniş veri seti, 24.000 GPU ile donatılmış iki küme kullanılarak işlenir. Eğitim verilerinin yüksek kalitesini korumak için veri odaklı AI teknikleri gibi çeşitli yöntemler kullanılır; bunlar arasında heuristik ve NSFW filtreleri, anlamsal çoğaltma ve metin kalite sınıflandırması bulunur. Diyalog uygulamalarına yönelik olarak tasarlanan Llama 3 Instruct modeli önemli ölçüde geliştirilmiştir ve 10 milyondan fazla insan tarafından etiketlenmiş veri örneğini içerir ve gözetimli ince ayar, reddetme örnekleme, proximal politika optimizasyonu ve doğrudan politika optimizasyonu gibi gelişmiş bir dizi eğitim yöntemini kullanır.
Llama 3 vs. Llama 2: Ana İyileştirmeler
Llama 3, Llama 2’ye kıyasla several iyileştirmeler sunar, işlevselliğini ve performansını önemli ölçüde artırır:
- Genişletilmiş Sözlük: Llama 3, sözlüğünü 128.256 token’e çıkarmıştır, bu da Llama 2’deki 32.000 token’in üzerine çıkmıştır. Bu iyileştirme, hem girişler hem de çıktılar için daha verimli metin kodlamasını destekler ve çok dilli yeteneklerini güçlendirir.
- Uzatılmış Bağlam Uzunluğu: Llama 3 modelleri, 8.000 token’lik bir bağlam uzunluğu sağlar, bu da Llama 2’deki 4.090 token’in iki katına çıkar. Bu artış, hem kullanıcı promt’lerini hem de model yanıtlarını kapsayan daha geniş içerik işleme olanakları sunar.
- İyileştirilmiş Eğitim Verileri: Llama 3’ün eğitim veri seti, Llama 2’ninkine kıyasla yedi kat daha büyüktür ve dört kat daha fazla kod içerir. Veri seti, 30’dan fazla dilde yüksek kaliteli, İngilizce olmayan verileri içerir ve bu da çok dilli uygulama desteği için önemlidir. Bu veriler, heuristik ve NSFW filtreleri, anlamsal çoğaltma ve metin sınıflandırıcıları gibi gelişmiş tekniklerle sıkı bir kalite kontrolünden geçer.
- İyileştirilmiş Talimat İnce Ayarı ve Değerlendirmesi: Llama 2’den farklı olarak Llama 3, gözetimli ince ayar, reddetme örnekleme, proximal politika optimizasyonu ve doğrudan politika optimizasyonu gibi gelişmiş talimat ince ayar tekniklerini kullanır. Bu süreci tamamlamak için, çeşitli kullanım örneklerini kapsayan 1.800 promt içeren yeni, yüksek kaliteli bir insan değerlendirme seti sunulmuştur; bu, modelin yeteneklerinin kapsamlı bir şekilde değerlendirilmesini ve ince ayarını sağlar.
- İleri AI Güvenliği: Llama 3, Llama 2 gibi, talimat ince ayarı ve kapsamlı kırmızı takım gibi güvenlik önlemlerini içerir, özellikle siber güvenlik ve biyolojik tehditler gibi kritik alanlarda riskleri azaltmak için. Bu çabaların bir parçası olarak Meta, ayrıca Llama Guard 2’yi tanıttı, bu model Llama 3’ün 8B versiyonunda ince ayarlanmıştır. Bu yeni model, Llama Guard serisini geliştirir ve LLM girişlerini ve yanıtlarını sınıflandırarak potansiyel olarak güvenli olmayan içeriği tanımlar, bu da üretim ortamları için ideal olmasını sağlar.
Llama 3’ün Erişilebilirliği
Llama 3 modelleri artık Hugging Face ekosisteminde entegre edilmiştir, bu da geliştiriciler için erişilebilirliği artırır. Modeller ayrıca Perplexity Labs ve Fireworks.ai gibi model-as-a-service platformları aracılığıyla ve AWS SageMaker, Azure ML ve Vertex AI gibi bulut platformlarında mevcuttur. Meta, Llama 3’ün erişilebilirliğini daha da genişletmeyi planlıyor, bu da Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM ve Snowflake gibi platformları içerecektir. Ayrıca, Llama 3 için donanım desteği AMD, AWS, Dell, Intel, NVIDIA ve Qualcomm gibi platformları içerecek şekilde genişletilecektir.
Llama 3’te Gelecek İyileştirmeler
Meta, Llama 3’ün mevcut sürümünün tam sürüm için daha geniş vizyonlarının yalnızca ilk aşaması olduğunu açıkladı. 400 milyardan fazla parametre ile yeni özellikler sunan bir model geliştiriyorlar; bu özellikler arasında çok modellik ve birden fazla dil işleme yeteneği bulunuyor. Bu gelişmiş sürüm ayrıca önemli ölçüde uzatılmış bir bağlam penceresi ve genel performans yetenekleri sunacak.
Sonuç
Meta’nın Llama 3’ü, büyük dil modelleri manzarasında önemli bir evrimi temsil ediyor, bu seriyi yalnızca daha büyük açık kaynak erişilebilirliğine doğru değil, aynı zamanda önemli ölçüde gelişmiş performans yeteneklerine doğru ilerletiyor. Llama 2’ye kıyasla yedi kat daha büyük bir eğitim veri setine ve genişletilmiş sözlük ile artan bağlam uzunluğu gibi özelliklere sahip olan Llama 3, endüstri lideri rakiplerini zorlayacak yeni standartlar belirliyor.






