Yapay Zeka
Lama 3 Hakkında Bilmeniz Gereken Her Şey | Şimdiye Kadarki En Güçlü Açık Kaynak Modeli | Kullanım Kavramları

Meta yakın zamanda yayınlandı Llama 3, son teknolojiye sahip açık kaynaklı büyük dil modelinin (LLM) yeni nesli. Selefi tarafından belirlenen temeller üzerine inşa edilen Llama 3, makaledeki kapsamlı incelemede de belirtildiği gibi, Llama 2'yi ChatGPT'nin önemli bir açık kaynak rakibi olarak konumlandıran yetenekleri geliştirmeyi amaçlıyor. Llama 2: ChatGPT'ye Açık Kaynak Mücadelesine Derin Bir Bakış.
Bu makalede Llama 3'ün arkasındaki temel kavramları tartışacağız, yenilikçi mimarisini ve eğitim sürecini keşfedeceğiz ve bu çığır açan modele sorumlu bir şekilde nasıl erişileceği, kullanılacağı ve dağıtılacağı konusunda pratik rehberlik sağlayacağız. İster araştırmacı, geliştirici veya yapay zeka meraklısı olun, bu yazı sizi projeleriniz ve uygulamalarınız için Llama 3'ün gücünden yararlanmak için gereken bilgi ve kaynaklarla donatacaktır.
Lama'nın Evrimi: Lama 2'den Lama 3'e
Meta'nın CEO'su Mark Zuckerberg, açıkladı Meta AI tarafından geliştirilen en yeni yapay zeka modeli Llama 3'ün tanıtımı. Artık açık kaynaklı olan bu son teknoloji model, Messenger ve Instagram dahil olmak üzere Meta'nın çeşitli ürünlerini geliştirmeye hazırlanıyor. Zuckerberg, Llama 3'ün Meta AI'yı en gelişmiş yapay zeka modeli olarak konumlandırdığını vurguladı. serbestçe kullanılabilen AI asistanı.
Llama 3'ün ayrıntılarına girmeden önce, öncülü Llama 2'ye kısaca bir göz atalım. 2022'de tanıtılan Llama 2, tüketici donanımlarında çalıştırılabilen güçlü ve verimli bir model sunarak açık kaynaklı LLM alanında önemli bir dönüm noktasıydı.
Ancak Llama 2 dikkate değer bir başarı olmasına rağmen sınırlamaları vardı. Kullanıcılar, yanlış retler (modelin iyi niyetli istemlere yanıt vermeyi reddetmesi), sınırlı yardımseverlik ve muhakeme ve kod oluşturma gibi alanlarda iyileştirme olanakları ile ilgili sorunlar bildirdi.
Llama 3'e Giriş: Meta'nın bu zorluklara yanıtı ve topluluğun geri bildirimleri. Meta, Llama 3 ile bugün mevcut en iyi tescilli modellerle aynı seviyede en iyi açık kaynaklı modelleri oluşturmayı ve aynı zamanda sorumlu geliştirme ve dağıtım uygulamalarına öncelik vermeyi hedefliyor.
Lama 3: Mimarlık ve Eğitim
Llama 3'teki en önemli yeniliklerden biri, önemli ölçüde genişletilmiş kelime dağarcığı içeren tokenizer'dır. token arzı ile (Llama 32,000'de 2'den fazla). Bu daha geniş kelime dağarcığı, hem giriş hem de çıkış için metnin daha verimli kodlanmasına olanak tanır ve potansiyel olarak daha güçlü çok dilliliğe ve genel performans iyileştirmelerine yol açar.
Lama 3 ayrıca şunları içerir: Gruplandırılmış Sorgu Dikkati (GQA), ölçeklenebilirliği artıran ve modelin daha uzun bağlamları daha etkili bir şekilde ele almasına yardımcı olan etkili bir temsil tekniğidir. 8B Llama 3'ün sürümü GQA'yı kullanırken, her ikisi de 8B ve 70B modeller şu kadar dizileri işleyebilir: token arzı ile.
Eğitim Verileri ve Ölçeklendirme
Llama 3 için kullanılan eğitim verileri, gelişmiş performansında çok önemli bir faktördür. Meta, devasa bir veri kümesinin küratörlüğünü yaptı 15 trilyon halka açık çevrimiçi kaynaklardan alınan jetonlar, Llama 2 için kullanılan veri kümesinden yedi kat daha büyüktür. Bu veri kümesi aynı zamanda yüksek kaliteli İngilizce olmayan verilerin önemli bir kısmını (%5'in üzerinde) içerir ve birden fazla bilgiyi kapsar. 30 dilGelecekteki çok dilli uygulamalara hazırlık olarak.
Meta, veri kalitesini sağlamak amacıyla buluşsal filtreler, NSFW filtreleri, semantik veri tekilleştirme ve veri kalitesini tahmin etmek amacıyla Llama 2 üzerinde eğitilmiş metin sınıflandırıcıları dahil olmak üzere gelişmiş filtreleme teknikleri kullandı. Ekip ayrıca ön eğitim için veri kaynaklarının en uygun karışımını belirlemek amacıyla kapsamlı deneyler gerçekleştirdi; böylece Llama 3'ün trivia, STEM, kodlama ve tarihsel bilgi de dahil olmak üzere çok çeşitli kullanım durumlarında iyi performans göstermesini sağladı.
Ön eğitimin ölçeklendirilmesi, Llama 3'ün geliştirilmesinin bir diğer kritik yönüydü. Meta, en büyük modellerinin kod oluşturma gibi temel görevlerdeki performansını, onları gerçekten eğitmeden önce tahmin etmelerini sağlayan ölçekleme yasaları geliştirdi. Bu, veri karışımı ve işlem tahsisi kararlarını etkiledi ve nihayetinde daha verimli ve etkili bir eğitime yol açtı.
Llama 3'ün en büyük modelleri, veri paralelleştirme, model paralelleştirme ve işlem hattı paralelleştirme tekniklerinin bir kombinasyonundan yararlanılarak, özel olarak oluşturulmuş iki 24,000 GPU kümesi üzerinde eğitildi. Meta'nın gelişmiş eğitim yığını, hata algılama, işleme ve bakımı otomatikleştirerek GPU çalışma süresini en üst düzeye çıkardı ve eğitim verimliliğini Llama 2'ye kıyasla yaklaşık üç kat artırdı.
Talimat İnce Ayarı ve Performansı
Llama 3'ün sohbet ve diyalog uygulamaları için tüm potansiyelini ortaya çıkarmak amacıyla Meta, talimat ince ayarına yönelik yaklaşımını yeniledi. Yöntemi şunları birleştiriyor: denetimli ince ayar (SFT), ret örneklemesi, proksimal politika optimizasyonu (PPO) ve doğrudan tercih optimizasyonu (DPO).
SFT'de kullanılan komut istemlerinin kalitesi ve PPO ve DPO'da kullanılan tercih sıralamaları, uyumlu modellerin performansında önemli bir rol oynamıştır. Meta ekibi, bu verileri özenle derlemiş ve insan yorumcular tarafından sağlanan açıklamalar üzerinde birden fazla kalite güvencesi turu gerçekleştirmiştir.
PPO ve DPO aracılığıyla tercih sıralamaları üzerine eğitim, Llama 3'ün muhakeme ve kodlama görevlerindeki performansını da önemli ölçüde iyileştirdi. Meta, bir modelin bir muhakeme sorusunu doğrudan cevaplamakta zorlansa bile, yine de doğru muhakeme izini üretebileceğini buldu. Tercih sıralamaları üzerine eğitim, modelin bu izlerden doğru cevabı nasıl seçeceğini öğrenmesini sağladı.
Sonuçlar kendi adına konuşuyor: Llama 3, yaygın endüstri kıyaslamalarında mevcut pek çok açık kaynaklı sohbet modelinden daha iyi performans göstererek, 8B ve 70B parametre ölçeklerinde LLM'ler için yeni ve son teknoloji ürünü performans sağlıyor.
Sorumlu Geliştirme ve Güvenlik Hususları
Meta, en üst düzey performansı hedeflerken aynı zamanda Llama 3 için sorumlu geliştirme ve dağıtım uygulamalarına da öncelik verdi. Şirket, Llama 3 modellerini, geliştiricileri kontrol altına alan ve onların modelleri kendi özel kullanım durumları ve güvenlik gereksinimleri için tasarlayıp özelleştirmelerine olanak tanıyan daha geniş bir ekosistemin parçası olarak öngörerek sistem düzeyinde bir yaklaşım benimsedi.
Meta, talimat ayarlı modellerinde kalan riskleri azaltmak için kapsamlı kırmızı takım çalışmaları yürüttü, karşıt değerlendirmeler gerçekleştirdi ve güvenlik azaltma tekniklerini uyguladı. Ancak şirket, kalan risklerin muhtemelen devam edeceğini kabul ediyor ve geliştiricilerin bu riskleri kendi özel kullanım durumları bağlamında değerlendirmelerini tavsiye ediyor.
Meta, sorumlu dağıtımı desteklemek için Sorumlu Kullanım Kılavuzunu güncelleyerek geliştiricilerin uygulamaları için model ve sistem düzeyinde güvenlik en iyi uygulamalarını uygulamalarına yönelik kapsamlı bir kaynak sağladı. Kılavuz, içerik denetimi, risk değerlendirmesi ve Llama Guard 2 ve Code Shield gibi güvenlik araçlarının kullanımı gibi konuları kapsamaktadır.
MLCommons taksonomisi üzerine inşa edilen Llama Guard 2, LLM girdilerini (komut istemlerini) ve yanıtlarını sınıflandırarak güvenli olmayan veya zararlı olarak değerlendirilebilecek içerikleri tespit etmek üzere tasarlanmıştır. CyberSecEval 2, modelin kod yorumlayıcısının kötüye kullanılmasını, saldırgan siber güvenlik yeteneklerini ve komut enjeksiyonu saldırılarına karşı duyarlılığı önlemek için önlemler ekleyerek öncülünü genişletmektedir.
Llama 3'ün yeni tanıtımı olan Code Shield, LLM'ler tarafından üretilen güvenli olmayan kodlara yönelik çıkarım zamanı filtrelemesi ekleyerek güvenli olmayan kod önerileri, kod yorumlayıcısının kötüye kullanılması ve güvenli komut yürütmeyle ilişkili riskleri azaltır.
Llama 3'e Erişim ve Kullanma
Meta AI'nın Llama 3'ünün piyasaya sürülmesinin ardından, Mac, Windows ve Linux dahil olmak üzere çeşitli işletim sistemlerinde yerel dağıtım için çeşitli açık kaynaklı araçlar kullanıma sunuldu. Bu bölümde, Llama 3'ün yeteneklerinden kişisel cihazlarda yararlanmak için benzersiz özellikler sunan üç önemli araç olan Ollama, Open WebUI ve LM Studio ayrıntılı olarak açıklanmaktadır.
Ollama: Mac, Linux ve Windows için kullanılabilir, Ollama Llama 3 ve diğer büyük dil modellerinin kişisel bilgisayarlarda, hatta daha az sağlam donanıma sahip olsalar bile çalışmasını basitleştirir. Kolay model yönetimi için bir paket yöneticisi içerir ve modelleri indirmek ve çalıştırmak için platformlar arası komutları destekler.
WebUI'yi Docker ile açın: Bu araç kullanıcı dostu, liman işçisiMac, Linux ve Windows ile uyumlu tabanlı arayüz. Ollama kayıt defterindeki modellerle sorunsuz bir şekilde bütünleşerek kullanıcıların yerel bir web arayüzü içinde Llama 3 gibi modelleri dağıtmasına ve bunlarla etkileşime girmesine olanak tanır.
LM Stüdyosu: Mac, Linux ve Windows'taki kullanıcıları hedeflemek, LM Stüdyosu bir dizi modeli destekler ve llama.cpp projesi üzerine kurulmuştur. Bir sohbet arayüzü sağlar ve Llama 3 8B Instruct modeli dahil olmak üzere çeşitli modellerle doğrudan etkileşimi kolaylaştırır.
Bu araçlar, kullanıcıların çeşitli teknik beceri ve gereksinimleri karşılayarak kişisel cihazlarında Llama 3'ü verimli bir şekilde kullanabilmelerini sağlar. Her platform, kurulum ve model etkileşimi için adım adım süreçler sunarak gelişmiş yapay zekayı geliştiriciler ve meraklılar için daha erişilebilir hale getiriyor.