Yapay Zeka
Lama 3 Hakkında Bilmeniz Gereken Her Şey | Şimdiye Kadarki En Güçlü Açık Kaynak Modeli | Kullanım Kavramları
Meta yakın zamanda yayınlandı Llama 3, son teknolojiye sahip açık kaynaklı büyük dil modelinin (LLM) yeni nesli. Selefi tarafından belirlenen temeller üzerine inşa edilen Llama 3, makaledeki kapsamlı incelemede de belirtildiği gibi, Llama 2'yi ChatGPT'nin önemli bir açık kaynak rakibi olarak konumlandıran yetenekleri geliştirmeyi amaçlıyor. Llama 2: ChatGPT'ye Açık Kaynak Mücadelesine Derin Bir Bakış.
Bu makalede Llama 3'ün arkasındaki temel kavramları tartışacağız, yenilikçi mimarisini ve eğitim sürecini keşfedeceğiz ve bu çığır açan modele sorumlu bir şekilde nasıl erişileceği, kullanılacağı ve dağıtılacağı konusunda pratik rehberlik sağlayacağız. İster araştırmacı, geliştirici veya yapay zeka meraklısı olun, bu yazı sizi projeleriniz ve uygulamalarınız için Llama 3'ün gücünden yararlanmak için gereken bilgi ve kaynaklarla donatacaktır.
Lama'nın Evrimi: Lama 2'den Lama 3'e
Meta'nın CEO'su Mark Zuckerberg, açıkladı Meta AI tarafından geliştirilen en son AI modeli olan Llama 3'ün ilk çıkışı. Artık açık kaynaklı olan bu son teknoloji model, Messenger ve Instagram da dahil olmak üzere Meta'nın çeşitli ürünlerini geliştirecek şekilde ayarlandı. Zuckerberg, Llama 3'ün Meta AI'yı en gelişmiş olarak konumlandırdığını vurguladı serbestçe kullanılabilen AI asistanı.
Llama 3'ün özelliklerinden bahsetmeden önce, selefi Llama 2'ye kısaca tekrar bakalım. 2022'de tanıtılan Llama 2, açık kaynak LLM ortamında önemli bir kilometre taşıydı ve tüketici donanımlarında çalıştırılabilecek güçlü ve verimli bir model sunuyordu. .
Ancak Llama 2 dikkate değer bir başarı olmasına rağmen sınırlamaları vardı. Kullanıcılar, yanlış retler (modelin iyi niyetli istemlere yanıt vermeyi reddetmesi), sınırlı yardımseverlik ve muhakeme ve kod oluşturma gibi alanlarda iyileştirme olanakları ile ilgili sorunlar bildirdi.
Llama 3'e girin: Meta'nın bu zorluklara yanıtı ve topluluğun geri bildirimi. Llama 3 ile Meta, sorumlu geliştirme ve dağıtım uygulamalarına öncelik verirken, günümüzün en iyi özel modelleriyle aynı düzeyde en iyi açık kaynak modellerini oluşturmaya başladı.
Lama 3: Mimarlık ve Eğitim
Llama 3'teki en önemli yeniliklerden biri, önemli ölçüde genişletilmiş kelime dağarcığı içeren tokenizer'dır. token arzı ile (Llama 32,000'de 2'den fazla). Bu daha geniş kelime dağarcığı, hem giriş hem de çıkış için metnin daha verimli kodlanmasına olanak tanır ve potansiyel olarak daha güçlü çok dilliliğe ve genel performans iyileştirmelerine yol açar.
Lama 3 ayrıca şunları içerir: Gruplandırılmış Sorgu Dikkati (GQA), ölçeklenebilirliği artıran ve modelin daha uzun bağlamları daha etkili bir şekilde ele almasına yardımcı olan etkili bir temsil tekniğidir. 8B Llama 3'ün sürümü GQA'yı kullanırken, her ikisi de 8B ve 70B modeller şu kadar dizileri işleyebilir: token arzı ile.
Eğitim Verileri ve Ölçeklendirme
Llama 3 için kullanılan eğitim verileri, gelişmiş performansında çok önemli bir faktördür. Meta, devasa bir veri kümesinin küratörlüğünü yaptı 15 trilyon halka açık çevrimiçi kaynaklardan alınan jetonlar, Llama 2 için kullanılan veri kümesinden yedi kat daha büyüktür. Bu veri kümesi aynı zamanda yüksek kaliteli İngilizce olmayan verilerin önemli bir kısmını (%5'in üzerinde) içerir ve birden fazla bilgiyi kapsar. 30 dilGelecekteki çok dilli uygulamalara hazırlık olarak.
Meta, veri kalitesini sağlamak amacıyla buluşsal filtreler, NSFW filtreleri, semantik veri tekilleştirme ve veri kalitesini tahmin etmek amacıyla Llama 2 üzerinde eğitilmiş metin sınıflandırıcıları dahil olmak üzere gelişmiş filtreleme teknikleri kullandı. Ekip ayrıca ön eğitim için veri kaynaklarının en uygun karışımını belirlemek amacıyla kapsamlı deneyler gerçekleştirdi; böylece Llama 3'ün trivia, STEM, kodlama ve tarihsel bilgi de dahil olmak üzere çok çeşitli kullanım durumlarında iyi performans göstermesini sağladı.
Ön eğitimin ölçeğini artırmak, Llama 3'ün gelişiminin bir başka kritik yönüydü. Meta, en büyük modellerinin kod oluşturma gibi temel görevlerdeki performansını, onları gerçekten eğitmeden önce tahmin etmelerine olanak tanıyan ölçeklendirme yasaları geliştirdi. Bu, veri karışımı ve bilgi işlem tahsisine ilişkin kararları bilgilendirdi ve sonuçta daha verimli ve etkili bir eğitime yol açtı.
Llama 3'ün en büyük modelleri, veri paralelleştirme, model paralelleştirme ve işlem hattı paralelleştirme tekniklerinin bir kombinasyonundan yararlanılarak özel olarak oluşturulmuş iki 24,000 GPU kümesi üzerinde eğitildi. Meta'nın gelişmiş eğitim yığını otomatikleştirilmiş hata tespiti, yönetimi ve bakımı ile GPU çalışma süresini en üst düzeye çıkarır ve Llama 2'ye kıyasla eğitim verimliliğini yaklaşık üç kat artırır.
Talimat İnce Ayarı ve Performansı
Llama 3'ün sohbet ve diyalog uygulamalarına yönelik tüm potansiyelini ortaya çıkarmak için Meta, talimat ince ayarı yaklaşımını yeniledi. Yöntemi birleştirir denetimli ince ayar (SFT), ret örneklemesi, proksimal politika optimizasyonu (PPO) ve doğrudan tercih optimizasyonu (DPO).
SFT'de kullanılan istemlerin kalitesi ve PPO ile DPO'da kullanılan tercih sıralamaları, hizalanan modellerin performansında çok önemli bir rol oynadı. Meta'nın ekibi bu verileri dikkatli bir şekilde derledi ve insan açıklamacılar tarafından sağlanan ek açıklamalar üzerinde birden fazla kalite güvence turu gerçekleştirdi.
PPO ve DPO aracılığıyla tercih sıralaması eğitimi de Llama 3'ün akıl yürütme ve kodlama görevlerindeki performansını önemli ölçüde artırdı. Meta, bir modelin bir akıl yürütme sorusunu doğrudan yanıtlamakta zorlansa bile yine de doğru akıl yürütme izini üretebileceğini buldu. Tercih sıralaması eğitimi, modelin bu izlerden doğru cevabı nasıl seçeceğini öğrenmesini sağladı.
Sonuçlar kendi adına konuşuyor: Llama 3, yaygın endüstri kıyaslamalarında mevcut pek çok açık kaynaklı sohbet modelinden daha iyi performans göstererek, 8B ve 70B parametre ölçeklerinde LLM'ler için yeni ve son teknoloji ürünü performans sağlıyor.
Sorumlu Geliştirme ve Güvenlik Hususları
Meta, üstün performans peşinde koşarken aynı zamanda Llama 3 için sorumlu geliştirme ve dağıtım uygulamalarına da öncelik verdi. Şirket, Llama 3 modellerini, geliştiricilerin sürücü koltuğuna oturarak tasarım yapmalarına olanak tanıyan daha geniş bir ekosistemin parçası olarak tasavvur ederek sistem düzeyinde bir yaklaşım benimsedi. ve modelleri kendi özel kullanım örneklerine ve güvenlik gereksinimlerine göre özelleştirin.
Meta, talimat ayarlı modellerinde kalan riskleri azaltmak için kapsamlı kırmızı takım çalışmaları yürüttü, karşıt değerlendirmeler gerçekleştirdi ve güvenlik azaltma tekniklerini uyguladı. Ancak şirket, kalan risklerin muhtemelen devam edeceğini kabul ediyor ve geliştiricilerin bu riskleri kendi özel kullanım durumları bağlamında değerlendirmelerini tavsiye ediyor.
Meta, sorumlu dağıtımı desteklemek için Sorumlu Kullanım Kılavuzunu güncelleyerek geliştiricilerin uygulamaları için model ve sistem düzeyinde güvenlik en iyi uygulamalarını uygulamalarına yönelik kapsamlı bir kaynak sağladı. Kılavuz, içerik denetimi, risk değerlendirmesi ve Llama Guard 2 ve Code Shield gibi güvenlik araçlarının kullanımı gibi konuları kapsamaktadır.
MLCommons taksonomisini temel alan Llama Guard 2, LLM girişlerini (istemlerini) ve yanıtlarını sınıflandırmak, güvenli olmayan veya zararlı olarak değerlendirilebilecek içeriği tespit etmek için tasarlanmıştır. CyberSecEval 2, modelin kod yorumlayıcısının kötüye kullanılmasını, saldırgan siber güvenlik yeteneklerini ve anlık enjeksiyon saldırılarına duyarlılığı önlemek için önlemler ekleyerek öncülünü genişletiyor.
Llama 3'ün yeni tanıtımı olan Code Shield, LLM'ler tarafından üretilen güvenli olmayan kodlara yönelik çıkarım zamanı filtrelemesi ekleyerek güvenli olmayan kod önerileri, kod yorumlayıcısının kötüye kullanılması ve güvenli komut yürütmeyle ilişkili riskleri azaltır.
Llama 3'e Erişim ve Kullanma
Meta AI'nın Llama 3'ünün piyasaya sürülmesinin ardından, Mac, Windows ve Linux dahil olmak üzere çeşitli işletim sistemlerinde yerel dağıtım için çeşitli açık kaynaklı araçlar kullanıma sunuldu. Bu bölümde üç önemli araç ayrıntılarıyla anlatılmaktadır: Ollama, Open WebUI ve LM Studio; bunların her biri, kişisel cihazlarda Llama 3'ün yeteneklerinden yararlanmak için benzersiz özellikler sunar.
Ollama: Mac, Linux ve Windows için kullanılabilir, Ollama Llama 3 ve diğer büyük dil modellerinin kişisel bilgisayarlarda, hatta daha az sağlam donanıma sahip olsalar bile çalışmasını basitleştirir. Kolay model yönetimi için bir paket yöneticisi içerir ve modelleri indirmek ve çalıştırmak için platformlar arası komutları destekler.
WebUI'yi Docker ile açın: Bu araç kullanıcı dostu, liman işçisiMac, Linux ve Windows ile uyumlu tabanlı arayüz. Ollama kayıt defterindeki modellerle sorunsuz bir şekilde bütünleşerek kullanıcıların yerel bir web arayüzü içinde Llama 3 gibi modelleri dağıtmasına ve bunlarla etkileşime girmesine olanak tanır.
LM Stüdyosu: Mac, Linux ve Windows'taki kullanıcıları hedeflemek, LM Stüdyosu bir dizi modeli destekler ve llama.cpp projesi üzerine kurulmuştur. Bir sohbet arayüzü sağlar ve Llama 3 8B Instruct modeli dahil olmak üzere çeşitli modellerle doğrudan etkileşimi kolaylaştırır.
Bu araçlar, kullanıcıların çeşitli teknik beceri ve gereksinimleri karşılayarak kişisel cihazlarında Llama 3'ü verimli bir şekilde kullanabilmelerini sağlar. Her platform, kurulum ve model etkileşimi için adım adım süreçler sunarak gelişmiş yapay zekayı geliştiriciler ve meraklılar için daha erişilebilir hale getiriyor.