Yapay Zeka

Lama 3 Hakkında Bilmeniz Gereken Her Şey | Şimdiye Kadarki En Güçlü Açık Kaynak Modeli | Kullanım Kavramları

Güncellenmiş on 24 Nisan 2024

Meta Llama 3 açık kaynak LLM, GPT 4'ten daha iyi performans gösteriyor

Meta yakın zamanda yayınlandı Llama 3, son teknolojiye sahip açık kaynaklı büyük dil modelinin (LLM) yeni nesli. Selefi tarafından belirlenen temeller üzerine inşa edilen Llama 3, makaledeki kapsamlı incelemede de belirtildiği gibi, Llama 2'yi ChatGPT'nin önemli bir açık kaynak rakibi olarak konumlandıran yetenekleri geliştirmeyi amaçlıyor. Llama 2: ChatGPT'ye Açık Kaynak Mücadelesine Derin Bir Bakış.

Bu makalede Llama 3'ün arkasındaki temel kavramları tartışacağız, yenilikçi mimarisini ve eğitim sürecini keşfedeceğiz ve bu çığır açan modele sorumlu bir şekilde nasıl erişileceği, kullanılacağı ve dağıtılacağı konusunda pratik rehberlik sağlayacağız. İster araştırmacı, geliştirici veya yapay zeka meraklısı olun, bu yazı sizi projeleriniz ve uygulamalarınız için Llama 3'ün gücünden yararlanmak için gereken bilgi ve kaynaklarla donatacaktır.

Lama'nın Evrimi: Lama 2'den Lama 3'e

Meta'nın CEO'su Mark Zuckerberg, açıkladı Meta AI tarafından geliştirilen en son AI modeli olan Llama 3'ün ilk çıkışı. Artık açık kaynaklı olan bu son teknoloji model, Messenger ve Instagram da dahil olmak üzere Meta'nın çeşitli ürünlerini geliştirecek şekilde ayarlandı. Zuckerberg, Llama 3'ün Meta AI'yı en gelişmiş olarak konumlandırdığını vurguladı serbestçe kullanılabilen AI asistanı.

Llama 3'ün özelliklerinden bahsetmeden önce, selefi Llama 2'ye kısaca tekrar bakalım. 2022'de tanıtılan Llama 2, açık kaynak LLM ortamında önemli bir kilometre taşıydı ve tüketici donanımlarında çalıştırılabilecek güçlü ve verimli bir model sunuyordu. .

Ancak Llama 2 dikkate değer bir başarı olmasına rağmen sınırlamaları vardı. Kullanıcılar, yanlış retler (modelin iyi niyetli istemlere yanıt vermeyi reddetmesi), sınırlı yardımseverlik ve muhakeme ve kod oluşturma gibi alanlarda iyileştirme olanakları ile ilgili sorunlar bildirdi.

Llama 3'e girin: Meta'nın bu zorluklara yanıtı ve topluluğun geri bildirimi. Llama 3 ile Meta, sorumlu geliştirme ve dağıtım uygulamalarına öncelik verirken, günümüzün en iyi özel modelleriyle aynı düzeyde en iyi açık kaynak modellerini oluşturmaya başladı.

Lama 3: Mimarlık ve Eğitim

Llama 3'teki en önemli yeniliklerden biri, önemli ölçüde genişletilmiş kelime dağarcığı içeren tokenizer'dır. token arzı ile (Llama 32,000'de 2'den fazla). Bu daha geniş kelime dağarcığı, hem giriş hem de çıkış için metnin daha verimli kodlanmasına olanak tanır ve potansiyel olarak daha güçlü çok dilliliğe ve genel performans iyileştirmelerine yol açar.

Lama 3 ayrıca şunları içerir: Gruplandırılmış Sorgu Dikkati (GQA), ölçeklenebilirliği artıran ve modelin daha uzun bağlamları daha etkili bir şekilde ele almasına yardımcı olan etkili bir temsil tekniğidir. 8B Llama 3'ün sürümü GQA'yı kullanırken, her ikisi de 8B ve 70B modeller şu kadar dizileri işleyebilir: token arzı ile.

Eğitim Verileri ve Ölçeklendirme

Llama 3 için kullanılan eğitim verileri, gelişmiş performansında çok önemli bir faktördür. Meta, devasa bir veri kümesinin küratörlüğünü yaptı 15 trilyon halka açık çevrimiçi kaynaklardan alınan jetonlar, Llama 2 için kullanılan veri kümesinden yedi kat daha büyüktür. Bu veri kümesi aynı zamanda yüksek kaliteli İngilizce olmayan verilerin önemli bir kısmını (%5'in üzerinde) içerir ve birden fazla bilgiyi kapsar. 30 dilGelecekteki çok dilli uygulamalara hazırlık olarak.

Meta, veri kalitesini sağlamak amacıyla buluşsal filtreler, NSFW filtreleri, semantik veri tekilleştirme ve veri kalitesini tahmin etmek amacıyla Llama 2 üzerinde eğitilmiş metin sınıflandırıcıları dahil olmak üzere gelişmiş filtreleme teknikleri kullandı. Ekip ayrıca ön eğitim için veri kaynaklarının en uygun karışımını belirlemek amacıyla kapsamlı deneyler gerçekleştirdi; böylece Llama 3'ün trivia, STEM, kodlama ve tarihsel bilgi de dahil olmak üzere çok çeşitli kullanım durumlarında iyi performans göstermesini sağladı.

Ön eğitimin ölçeğini artırmak, Llama 3'ün gelişiminin bir başka kritik yönüydü. Meta, en büyük modellerinin kod oluşturma gibi temel görevlerdeki performansını, onları gerçekten eğitmeden önce tahmin etmelerine olanak tanıyan ölçeklendirme yasaları geliştirdi. Bu, veri karışımı ve bilgi işlem tahsisine ilişkin kararları bilgilendirdi ve sonuçta daha verimli ve etkili bir eğitime yol açtı.

Llama 3'ün en büyük modelleri, veri paralelleştirme, model paralelleştirme ve işlem hattı paralelleştirme tekniklerinin bir kombinasyonundan yararlanılarak özel olarak oluşturulmuş iki 24,000 GPU kümesi üzerinde eğitildi. Meta'nın gelişmiş eğitim yığını otomatikleştirilmiş hata tespiti, yönetimi ve bakımı ile GPU çalışma süresini en üst düzeye çıkarır ve Llama 2'ye kıyasla eğitim verimliliğini yaklaşık üç kat artırır.

Talimat İnce Ayarı ve Performansı

Llama 3'ün sohbet ve diyalog uygulamalarına yönelik tüm potansiyelini ortaya çıkarmak için Meta, talimat ince ayarı yaklaşımını yeniledi. Yöntemi birleştirir denetimli ince ayar (SFT), ret örneklemesi, proksimal politika optimizasyonu (PPO) ve doğrudan tercih optimizasyonu (DPO).

SFT'de kullanılan istemlerin kalitesi ve PPO ile DPO'da kullanılan tercih sıralamaları, hizalanan modellerin performansında çok önemli bir rol oynadı. Meta'nın ekibi bu verileri dikkatli bir şekilde derledi ve insan açıklamacılar tarafından sağlanan ek açıklamalar üzerinde birden fazla kalite güvence turu gerçekleştirdi.

PPO ve DPO aracılığıyla tercih sıralaması eğitimi de Llama 3'ün akıl yürütme ve kodlama görevlerindeki performansını önemli ölçüde artırdı. Meta, bir modelin bir akıl yürütme sorusunu doğrudan yanıtlamakta zorlansa bile yine de doğru akıl yürütme izini üretebileceğini buldu. Tercih sıralaması eğitimi, modelin bu izlerden doğru cevabı nasıl seçeceğini öğrenmesini sağladı.

Sonuçlar kendi adına konuşuyor: Llama 3, yaygın endüstri kıyaslamalarında mevcut pek çok açık kaynaklı sohbet modelinden daha iyi performans göstererek, 8B ve 70B parametre ölçeklerinde LLM'ler için yeni ve son teknoloji ürünü performans sağlıyor.

Sorumlu Geliştirme ve Güvenlik Hususları

Meta, üstün performans peşinde koşarken aynı zamanda Llama 3 için sorumlu geliştirme ve dağıtım uygulamalarına da öncelik verdi. Şirket, Llama 3 modellerini, geliştiricilerin sürücü koltuğuna oturarak tasarım yapmalarına olanak tanıyan daha geniş bir ekosistemin parçası olarak tasavvur ederek sistem düzeyinde bir yaklaşım benimsedi. ve modelleri kendi özel kullanım örneklerine ve güvenlik gereksinimlerine göre özelleştirin.

Meta, talimat ayarlı modellerinde kalan riskleri azaltmak için kapsamlı kırmızı takım çalışmaları yürüttü, karşıt değerlendirmeler gerçekleştirdi ve güvenlik azaltma tekniklerini uyguladı. Ancak şirket, kalan risklerin muhtemelen devam edeceğini kabul ediyor ve geliştiricilerin bu riskleri kendi özel kullanım durumları bağlamında değerlendirmelerini tavsiye ediyor.

Meta, sorumlu dağıtımı desteklemek için Sorumlu Kullanım Kılavuzunu güncelleyerek geliştiricilerin uygulamaları için model ve sistem düzeyinde güvenlik en iyi uygulamalarını uygulamalarına yönelik kapsamlı bir kaynak sağladı. Kılavuz, içerik denetimi, risk değerlendirmesi ve Llama Guard 2 ve Code Shield gibi güvenlik araçlarının kullanımı gibi konuları kapsamaktadır.

MLCommons taksonomisini temel alan Llama Guard 2, LLM girişlerini (istemlerini) ve yanıtlarını sınıflandırmak, güvenli olmayan veya zararlı olarak değerlendirilebilecek içeriği tespit etmek için tasarlanmıştır. CyberSecEval 2, modelin kod yorumlayıcısının kötüye kullanılmasını, saldırgan siber güvenlik yeteneklerini ve anlık enjeksiyon saldırılarına duyarlılığı önlemek için önlemler ekleyerek öncülünü genişletiyor.

Llama 3'ün yeni tanıtımı olan Code Shield, LLM'ler tarafından üretilen güvenli olmayan kodlara yönelik çıkarım zamanı filtrelemesi ekleyerek güvenli olmayan kod önerileri, kod yorumlayıcısının kötüye kullanılması ve güvenli komut yürütmeyle ilişkili riskleri azaltır.

Llama 3'e Erişim ve Kullanma

Meta AI'nın Llama 3'ünün piyasaya sürülmesinin ardından, Mac, Windows ve Linux dahil olmak üzere çeşitli işletim sistemlerinde yerel dağıtım için çeşitli açık kaynaklı araçlar kullanıma sunuldu. Bu bölümde üç önemli araç ayrıntılarıyla anlatılmaktadır: Ollama, Open WebUI ve LM Studio; bunların her biri, kişisel cihazlarda Llama 3'ün yeteneklerinden yararlanmak için benzersiz özellikler sunar.

Ollama: Mac, Linux ve Windows için kullanılabilir, Ollama Llama 3 ve diğer büyük dil modellerinin kişisel bilgisayarlarda, hatta daha az sağlam donanıma sahip olsalar bile çalışmasını basitleştirir. Kolay model yönetimi için bir paket yöneticisi içerir ve modelleri indirmek ve çalıştırmak için platformlar arası komutları destekler.

WebUI'yi Docker ile açın: Bu araç kullanıcı dostu, liman işçisiMac, Linux ve Windows ile uyumlu tabanlı arayüz. Ollama kayıt defterindeki modellerle sorunsuz bir şekilde bütünleşerek kullanıcıların yerel bir web arayüzü içinde Llama 3 gibi modelleri dağıtmasına ve bunlarla etkileşime girmesine olanak tanır.

LM Stüdyosu: Mac, Linux ve Windows'taki kullanıcıları hedeflemek, LM Stüdyosu bir dizi modeli destekler ve llama.cpp projesi üzerine kurulmuştur. Bir sohbet arayüzü sağlar ve Llama 3 8B Instruct modeli dahil olmak üzere çeşitli modellerle doğrudan etkileşimi kolaylaştırır.

Bu araçlar, kullanıcıların çeşitli teknik beceri ve gereksinimleri karşılayarak kişisel cihazlarında Llama 3'ü verimli bir şekilde kullanabilmelerini sağlar. Her platform, kurulum ve model etkileşimi için adım adım süreçler sunarak gelişmiş yapay zekayı geliştiriciler ve meraklılar için daha erişilebilir hale getiriyor.

Llama 3'ün Geniş Ölçekte Dağıtılması

Model ağırlıklarına doğrudan erişim sağlamanın yanı sıra Meta, Llama 3'ün geniş ölçekte sorunsuz dağıtımını sağlamak için çeşitli bulut sağlayıcıları, model API hizmetleri ve donanım platformlarıyla ortaklık kurdu.

Llama 3'ün en önemli avantajlarından biri, yeni tokenizer sayesinde geliştirilmiş token verimliliğidir. Karşılaştırmalar, Llama 3'ün en fazla %15 daha az jeton Llama 2 ile karşılaştırıldığında daha hızlı ve daha uygun maliyetli çıkarım sağlar.

Gruplandırılmış Sorgu Dikkatinin (GQA) Llama 8'ün 3B sürümüne entegrasyonu, parametre sayısındaki artışa rağmen çıkarım verimliliğinin Llama 7'nin 2B sürümüyle aynı düzeyde tutulmasına katkıda bulunur.

Dağıtım sürecini basitleştirmek için Meta, açık kaynak kodunun yanı sıra ince ayar, dağıtım, model değerlendirmesi ve daha fazlasına yönelik örnekler içeren Llama Recipes deposunu sağladı. Bu depo, uygulamalarında Llama 3'ün yeteneklerinden yararlanmak isteyen geliştiriciler için değerli bir kaynak görevi görüyor.

Llama 3'ün performansını keşfetmek isteyenler için Meta, en son modellerini Llama 3 teknolojisiyle oluşturulmuş lider bir yapay zeka asistanı olan Meta AI'ya entegre etti. Kullanıcılar işleri halletmek, öğrenmek, oluşturmak ve kendileri için önemli olan şeylerle bağlantı kurmak için Facebook, Instagram, WhatsApp, Messenger ve web gibi çeşitli Meta uygulamaları aracılığıyla Meta AI ile etkileşime girebilir.

Lama 3'te Sırada Ne Var?

8B ve 70B modelleri Llama 3 sürümünün başlangıcını işaret ederken, Meta'nın bu çığır açan LLM'nin geleceği için iddialı planları var.

Önümüzdeki aylarda, çok modluluk (görüntüler ve videolar gibi farklı veri yöntemlerini işleme ve oluşturma yeteneği), çok dillilik (birden fazla dili destekleme) ve gelişmiş performans için çok daha uzun bağlam pencereleri dahil olmak üzere yeni özelliklerin tanıtıldığını görmeyi bekleyebiliriz. Kapsamlı bağlam gerektiren görevler.

Ayrıca Meta, şu anda eğitim aşamasında olan ve performans ve yetenekler açısından umut verici eğilimler gösteren, 400 milyarın üzerinde parametreye sahip modeller de dahil olmak üzere daha büyük model boyutlarını piyasaya sürmeyi planlıyor.

Alanı daha da ilerletmek için Meta ayrıca Llama 3 hakkında ayrıntılı bir araştırma makalesi yayınlayacak ve bulgularını ve içgörülerini daha geniş yapay zeka topluluğuyla paylaşacak.

Gelecekte olacakların ön izlemesi olarak Meta, en büyük LLM modelinin çeşitli kıyaslamalardaki performansına ilişkin ilk anlık görüntüleri paylaştı. Her ne kadar bu sonuçlar erken bir kontrol noktasına dayansa da ve değişebilirse de, Llama 3'ün gelecekteki potansiyeline heyecan verici bir bakış sağlıyorlar.

Sonuç

Llama 3, performansın, yeteneklerin ve sorumlu geliştirme uygulamalarının sınırlarını zorlayan açık kaynaklı büyük dil modellerinin gelişiminde önemli bir kilometre taşını temsil ediyor. Yenilikçi mimarisi, devasa eğitim veri seti ve son teknoloji ince ayar teknikleriyle Llama 3, 8B ve 70B parametre ölçeklerinde LLM'ler için yeni, son teknoloji ürünü kriterler oluşturuyor.

Ancak Llama 3 güçlü bir dil modelinden daha fazlasıdır; bu, Meta'nın açık ve sorumlu bir yapay zeka ekosistemini destekleme konusundaki kararlılığının bir kanıtıdır. Meta, kapsamlı kaynaklar, güvenlik araçları ve en iyi uygulamaları sağlayarak geliştiricilere Llama 3'ün tüm potansiyelinden yararlanma gücü verirken, aynı zamanda kendi özel kullanım örneklerine ve hedef kitlelerine göre uyarlanmış sorumlu dağıtımı sağlar.

Ufuktaki yeni yetenekler, model boyutları ve araştırma bulgularıyla Llama 3 yolculuğu devam ederken, yapay zeka topluluğu şüphesiz bu çığır açan LLM'den ortaya çıkacak yenilikçi uygulamaları ve atılımları sabırsızlıkla bekliyor.

İster doğal dil işlemenin sınırlarını zorlayan bir araştırmacı olun, ister yeni nesil akıllı uygulamalar geliştiren bir geliştirici olun, ister en son gelişmeleri merak eden bir yapay zeka meraklısı olun, Llama 3 cephaneliğinizde yeni kapılar açacak ve yeni çözümler açacak güçlü bir araç olmayı vaat ediyor. olasılıklar dünyasının kilidini açıyor.

İlgili konular:lama lamalar 2 Llama 3 Yüksek Lisans LLM'ler meta

Bir sonraki

Microsoft Phi-3'ü Tanıttı: Küçük Boyutlarda En Yüksek Performansı Sağlayan Güçlü Açık Yapay Zeka Modelleri

Kaçırmayın

FrugalGPT: Büyük Dil Modelleri için Maliyet Optimizasyonunda Paradigma Değişimi

Aayush Mittal

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.