Yapay Zeka

Meta Llama 3'ün Tanıtılması: Büyük Dil Modellerinde İleriye Doğru Bir Atılım

Güncellenmiş on 21 Nisan 2024

Üretken yapay zeka alanında Meta, gelişmiş Büyük Dil Modeli Meta Yapay Zeka (Llama) serisini küresel olarak geliştiricilere ve araştırmacılara dağıtarak açık kaynak kullanılabilirliğine olan bağlılığıyla liderliğini sürdürüyor. Meta, ilerici girişimlerinden yola çıkarak yakın zamanda bu serinin üçüncü yinelemesini tanıttı. Llama 3. Bu yeni baskı önemli ölçüde geliştirildi Llama 2, çok sayıda iyileştirme sunuyor ve Google, Mistral ve Anthropic gibi sektördeki rakiplere meydan okuyan ölçütler belirliyor. Bu makale, Llama 3'ün önemli ilerlemelerini ve selefi Llama 2 ile nasıl karşılaştırıldığını araştırıyor.

Meta'nın Llama Serisi: Özelden Açık Erişime ve Gelişmiş Performansa

Meta, 2022 yılında Llama serisini piyasaya sürerek başlattı. Llama 1, ticari olmayan kullanımla sınırlı olan ve o zamanın en ileri teknolojiye sahip LLM'lerini karakterize eden muazzam hesaplama talepleri ve tescilli doğası nedeniyle yalnızca seçilmiş araştırma kurumlarının erişebildiği bir model. 2023'te Llama 2'nin piyasaya sürülmesiyle birlikte Meta AI, modeli hem araştırma hem de ticari amaçlarla serbestçe sunarak daha fazla açıklığa yöneldi. Bu hamle, gelişmiş üretken yapay zeka teknolojilerine erişimi demokratikleştirmek ve yeni kurulan şirketler ve daha küçük araştırma ekipleri de dahil olmak üzere daha geniş bir kullanıcı yelpazesinin, genellikle büyük ölçekli modellerle ilişkilendirilen yüksek maliyetler olmadan yenilikler yapmasına ve uygulamalar geliştirmesine olanak sağlamak için tasarlandı. Açıklığa yönelik bu eğilimi sürdüren Meta, çeşitli endüstriyel ölçütlerde daha küçük modellerin performansını artırmaya odaklanan Llama 3'ü tanıttı.

Lama 3'le tanışın

Llama 3, Meta'nın açık kaynaklı büyük dil modellerinin (LLM'ler) ikinci neslidir ve 8B ve 70B parametreleriyle hem önceden eğitilmiş hem de talimatlara göre ince ayarlı modeller içerir. Önceki modellerle aynı çizgide olan Llama 3, yalnızca kod çözücü transformatör mimarisi ve otoregresif uygulamaya devam ediyor, kendi kendini denetleyen eğitim metin dizilerindeki sonraki belirteçleri tahmin etmek için. Llama 3, Llama 2 için kullanılandan yedi kat daha büyük bir veri kümesi üzerinde önceden eğitilmiştir ve halka açık çevrimiçi verilerin yeni seçilmiş bir karışımından alınan 15 trilyondan fazla token içerir. Bu geniş veri kümesi, 24,000 GPU ile donatılmış iki küme kullanılarak işlenir. Bu eğitim verilerinin yüksek kalitesini korumak için çeşitli veri merkezli yapay zeka buluşsal ve NSFW filtreleri dahil olmak üzere teknikler kullanıldı, anlamsal tekilleştirmeve metin kalitesi sınıflandırması. Diyalog uygulamaları için özel olarak tasarlanan Llama 3 Instruct modeli, 10 milyondan fazla insan açıklamalı veri örneğini birleştirerek ve aşağıdaki gibi karmaşık eğitim yöntemleri karışımından yararlanarak önemli ölçüde geliştirildi: denetimli ince ayar (SFT), ret örneklemesi, yakın politika optimizasyonu (PPO), ve doğrudan politika optimizasyonu (DPO).

Llama 3 ve Llama 2: Temel Geliştirmeler

Llama 3, Llama 2'ye göre çeşitli iyileştirmeler sunarak işlevselliğini ve performansını önemli ölçüde artırıyor:

Genişletilmiş Kelime Bilgisi: Llama 3'ün kelime dağarcığı, Llama 128,256'nin 2 jetonundan 32,000 jetona çıkarıldı. Bu geliştirme, hem girişler hem de çıkışlar için daha verimli metin kodlamayı destekler ve çok dilli yeteneklerini güçlendirir.
Genişletilmiş Bağlam Uzunluğu: Llama 3 modelleri, 8,000 jetonluk bağlam uzunluğu sağlayarak, Llama 4,090 tarafından desteklenen 2 jetonun iki katına çıkar. Bu artış, hem kullanıcı istemlerini hem de model yanıtlarını kapsayan daha kapsamlı içerik işlemeye olanak tanır.
Yükseltilmiş Eğitim Verileri: Llama 3'ün eğitim veri seti, dört kat daha fazla kod dahil olmak üzere Llama 2'ninkinden yedi kat daha büyüktür. 5'dan fazla dili kapsayan %30'in üzerinde yüksek kaliteli, İngilizce olmayan veri içerir; bu, çok dilli uygulama desteği için çok önemlidir. Bu veriler buluşsal ve NSFW filtreleri, semantik tekilleştirme ve metin sınıflandırıcıları gibi gelişmiş teknikler kullanılarak sıkı bir kalite kontrolünden geçirilir.
Geliştirilmiş Öğretim-Ayarlama ve Değerlendirme: Llama 2'den farklı olarak Llama 3, denetimli ince ayar (SFT), reddetme örneklemesi, yakın politika optimizasyonu (PPO) ve doğrudan politika optimizasyonu (DPO) dahil olmak üzere gelişmiş talimat ayarlama tekniklerini kullanır. Bu süreci güçlendirmek için, tavsiye, beyin fırtınası, sınıflandırma, kodlama ve daha fazlası gibi çeşitli kullanım durumlarını kapsayan 1,800 ipucundan oluşan, modelin yeteneklerinin kapsamlı bir şekilde değerlendirilmesini ve ince ayarlanmasını sağlayan yeni, yüksek kaliteli bir insan değerlendirme seti tanıtıldı.
Gelişmiş Yapay Zeka Güvenliği: Llama 3 gibi Llama 2 de, özellikle siber güvenlik ve biyolojik tehditler gibi kritik alanlarda riskleri azaltmak için talimatta ince ayar yapma ve kapsamlı kırmızı ekip oluşturma gibi katı güvenlik önlemlerini içeriyor. Meta, bu çabaları desteklemek üzere, Llama 2'ün 8B versiyonuna ince ayar yapılmış Llama Guard 3'yi de tanıttı. Bu yeni model, Lama Muhafız serisi Potansiyel olarak güvenli olmayan içeriği belirlemek için LLM girdilerini ve yanıtlarını sınıflandırarak üretim ortamları için ideal hale getirir.

Llama 3'ün Kullanılabilirliği

Llama 3 modelleri artık Sarılma Yüz ekosistemigeliştiriciler için erişilebilirliği artırıyor. Modeller ayrıca aşağıdakiler gibi hizmet olarak model platformları aracılığıyla da mevcuttur: Şaşkınlık Laboratuvarları ve havai fişek.aive gibi bulut platformlarında AWS SageMaker, Azure makine öğrenimi, ve Vertex AI. Meta, Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM ve Snowflake gibi platformlar da dahil olmak üzere Llama 3'ün kullanılabilirliğini daha da genişletmeyi planlıyor. Ayrıca Llama 3 için donanım desteği, AMD, AWS, Dell, Intel, NVIDIA ve Qualcomm platformlarını kapsayacak şekilde genişletilecek.

Llama 3'te Gelecek Geliştirmeler

Meta, Llama 3'ün mevcut sürümünün, Llama 3'ün tam sürümüne yönelik daha geniş vizyonunun yalnızca başlangıç aşaması olduğunu ortaya çıkardı. Çok modluluk ve kapasite dahil olmak üzere yeni özellikler sunacak, 400 milyarın üzerinde parametreye sahip gelişmiş bir model geliştiriyorlar. birden fazla dili yönetin. Bu geliştirilmiş sürüm aynı zamanda önemli ölçüde genişletilmiş bir bağlam penceresine ve geliştirilmiş genel performans özelliklerine de sahip olacak.

Alt çizgi

Meta'nın Llama 3'ü, büyük dil modelleri manzarasında önemli bir evrime işaret ediyor ve seriyi yalnızca daha fazla açık kaynak erişilebilirliğine doğru itmekle kalmıyor, aynı zamanda performans yeteneklerini de önemli ölçüde artırıyor. Önceki modelden yedi kat daha büyük bir eğitim veri seti ve genişletilmiş kelime dağarcığı ve artırılmış bağlam uzunluğu gibi özelliklerle Llama 3, sektördeki en güçlü rakiplere bile meydan okuyan yeni ölçütler belirliyor.

Bu üçüncü yineleme, üst düzey yetenekleri daha geniş bir geliştirici yelpazesinin kullanımına sunarak yapay zeka teknolojisini demokratikleştirmeye devam etmekle kalmıyor, aynı zamanda güvenlik ve eğitim hassasiyetinde de önemli ilerlemeler sağlıyor. Meta, bu modelleri Hugging Face gibi platformlara entegre ederek ve büyük bulut hizmetleri aracılığıyla kullanılabilirliği genişleterek, Llama 3'ün güçlü olduğu kadar her yerde bulunmasını da sağlıyor.

İleriye bakıldığında, Meta'nın devam eden gelişimi, çok modluluk ve genişletilmiş dil desteği de dahil olmak üzere daha da güçlü yetenekler vaat ediyor ve Llama 3'ün yalnızca pazardaki diğer büyük AI modelleriyle rekabet etmekle kalmayıp potansiyel olarak onları aşmasına da zemin hazırlıyor. Llama 3, Meta'nın yapay zeka devrimine liderlik etme konusundaki kararlılığının bir kanıtıdır ve küresel bir kullanıcı tabanı için yalnızca daha erişilebilir değil, aynı zamanda önemli ölçüde daha gelişmiş ve daha güvenli araçlar sağlar.

İlgili konular:lama Llama 3 Meta'nın Laması 3

Bir sonraki

FrugalGPT: Büyük Dil Modelleri için Maliyet Optimizasyonunda Paradigma Değişimi

Kaçırmayın

Stanford'un 10 Yapay Zeka Endeksi Raporundan En Önemli 2024 Çıkarım

Dr. Tehseen Zia

Dr. Tehseen Zia, İslamabad COMSATS Üniversitesi'nde Kadrolu Doçenttir ve Avusturya'daki Viyana Teknoloji Üniversitesi'nden yapay zeka alanında doktora derecesine sahiptir. Yapay Zeka, Makine Öğrenimi, Veri Bilimi ve Bilgisayarlı Görme konularında uzmanlaşarak saygın bilimsel dergilerdeki yayınlarıyla önemli katkılarda bulunmuştur. Dr. Tehseen ayrıca Baş Araştırmacı olarak çeşitli endüstriyel projelere liderlik etti ve Yapay Zeka Danışmanı olarak görev yaptı.