Inteligjenca artificiale
Gjithçka që duhet të dini për Llama 3 | Modeli më i fuqishëm me burim të hapur ende | Konceptet e përdorimit
Meta ka publikuar së fundmi flaka 3, gjenerata e ardhshme e modelit të saj më të avancuar të gjuhës me burim të hapur (LLM). Duke u mbështetur në themelet e vendosura nga paraardhësi i tij, Llama 3 synon të përmirësojë aftësitë që e pozicionuan Llama 2 si një konkurrent të rëndësishëm me burim të hapur për ChatGPT, siç përshkruhet në rishikimin gjithëpërfshirës në artikull Llama 2: Një zhytje e thellë në sfiduesin me burim të hapur për ChatGPT.
Në këtë artikull ne do të diskutojmë konceptet thelbësore pas Llama 3, do të eksplorojmë arkitekturën e tij inovative dhe procesin e trajnimit dhe do të ofrojmë udhëzime praktike se si të aksesojmë, përdorim dhe vendosim me përgjegjësi këtë model novator. Pavarësisht nëse jeni studiues, zhvillues ose entuziast i AI, ky postim do t'ju pajisë me njohuritë dhe burimet e nevojshme për të shfrytëzuar fuqinë e Llama 3 për projektet dhe aplikacionet tuaja.
Evolucioni i Llama: Nga Llama 2 në Llama 3
Drejtori i Përgjithshëm i Metës, Mark Zuckerberg, njoftoi debutimi i Llama 3, modeli më i fundit i AI i zhvilluar nga Meta AI. Ky model më i avancuar, tashmë me burim të hapur, është vendosur të përmirësojë produktet e ndryshme të Metës, duke përfshirë Messenger dhe Instagram. Zuckerberg theksoi se Llama 3 e pozicionon Meta AI si më të avancuarin Asistenti i AI-së i disponueshëm lirisht.
Përpara se të flasim për specifikat e Llama 3, le të rishikojmë shkurtimisht paraardhësin e tij, Llama 2. I prezantuar në vitin 2022, Llama 2 ishte një moment historik i rëndësishëm në peizazhin LLM me burim të hapur, duke ofruar një model të fuqishëm dhe efikas që mund të ekzekutohej në harduerin e konsumatorit .
Megjithatë, ndërsa Llama 2 ishte një arritje e dukshme, ajo kishte kufizimet e saj. Përdoruesit raportuan probleme me refuzime të rreme (modeli që refuzon t'u përgjigjet kërkesave të mira), ndihmë të kufizuar dhe hapësirë për përmirësim në fusha si arsyetimi dhe gjenerimi i kodit.
Hyni në Llama 3: Përgjigja e Metës ndaj këtyre sfidave dhe reagimet e komunitetit. Me Llama 3, Meta ka vendosur të ndërtojë modelet më të mira me burim të hapur në të njëjtin nivel me modelet më të mira të pronarit të disponueshëm sot, duke i dhënë prioritet gjithashtu praktikave të zhvillimit dhe vendosjes së përgjegjshme.
Llama 3: Arkitekturë dhe Trajnim
Një nga risitë kryesore në Llama 3 është tokenizuesi i tij, i cili përmban një fjalor të zgjeruar ndjeshëm të Argumentet 128,256 (nga 32,000 në Llama 2). Ky fjalor më i madh lejon kodimin më efikas të tekstit, si për hyrje ashtu edhe për dalje, duke çuar potencialisht në shumëgjuhësi më të fortë dhe përmirësime të përgjithshme të performancës.
Llama 3 gjithashtu përfshin Vëmendje e pyetjeve të grupuara (GQA), një teknikë efikase e përfaqësimit që rrit shkallëzueshmërinë dhe ndihmon modelin të trajtojë në mënyrë më efektive kontekstet më të gjata. Të 8B versioni i Llama 3 përdor GQA, ndërsa të dy 8B 70B modelet mund të përpunojnë sekuenca deri në Argumentet 8,192.
Të dhënat e trajnimit dhe shkallëzimi
Të dhënat e trajnimit të përdorura për Llama 3 janë një faktor vendimtar në performancën e përmirësuar të tij. Meta kuroi një grup të dhënash masive prej mbi 15 trilion argumentet nga burime online të disponueshme publikisht, shtatë herë më të mëdha se grupi i të dhënave të përdorur për Llama 2. Ky grup të dhënash përfshin gjithashtu një pjesë të konsiderueshme (mbi 5%) të të dhënave jo-anglisht me cilësi të lartë, duke mbuluar më shumë se Gjuhët 30, në përgatitje për aplikimet e ardhshme shumëgjuhëshe.
Për të siguruar cilësinë e të dhënave, Meta përdori teknika të avancuara filtrimi, duke përfshirë filtrat heuristikë, filtrat NSFW, dedulikimin semantik dhe klasifikuesit e tekstit të trajnuar në Llama 2 për të parashikuar cilësinë e të dhënave. Ekipi kreu gjithashtu eksperimente të gjera për të përcaktuar përzierjen optimale të burimeve të të dhënave për trajnimin paraprak, duke siguruar që Llama 3 të performojë mirë në një gamë të gjerë rastesh përdorimi, duke përfshirë gjëra të vogla, STEM, kodim dhe njohuri historike.
Rritja e trajnimit paraprak ishte një tjetër aspekt kritik i zhvillimit të Llama 3. Meta zhvilloi ligje të shkallëzimit që u mundësonin atyre të parashikonin performancën e modeleve të saj më të mëdha në detyrat kryesore, të tilla si gjenerimi i kodit, përpara se t'i trajnonte ato. Kjo informoi vendimet për përzierjen e të dhënave dhe shpërndarjen e llogaritjes, duke çuar përfundimisht në trajnime më efikase dhe efektive.
Modelet më të mëdha të Llama 3 u trajnuan në dy grupe GPU të ndërtuara me porosi prej 24,000, duke përdorur një kombinim të teknikave të paralelizimit të të dhënave, paralelizimit të modeleve dhe paralelizimit të tubacionit. Trajnimi i avancuar i Meta zbulon, trajtimin dhe mirëmbajtjen e gabimeve të automatizuara, duke maksimizuar kohën e funksionimit të GPU-së dhe duke rritur efikasitetin e trajnimit me afërsisht tre herë në krahasim me Llama 2.
Instruksioni Rregullimi i imët dhe performanca
Për të zhbllokuar potencialin e plotë të Llama 3 për aplikacionet e bisedës dhe dialogut, Meta inovoi qasjen e saj për rregullimin e saktë të udhëzimeve. Metoda e saj kombinon akordim i mbikëqyrur (SFT), kampionimi i refuzimit, optimizimi i politikave proksimale (PPO), dhe optimizimi i drejtpërdrejtë i preferencës (DPO).
Cilësia e kërkesave të përdorura në SFT dhe renditjet e preferencave të përdorura në PPO dhe DPO luajtën një rol vendimtar në performancën e modeleve të përafruar. Ekipi i Metës kuroi me kujdes këto të dhëna dhe kreu raunde të shumta të sigurimit të cilësisë në shënimet e ofruara nga anotuesit njerëzorë.
Trajnimi mbi renditjen e preferencave nëpërmjet PPO dhe DPO gjithashtu përmirësoi ndjeshëm performancën e Llama 3 në detyrat e arsyetimit dhe kodimit. Meta zbuloi se edhe kur një model përpiqet t'i përgjigjet drejtpërdrejt një pyetjeje arsyetimi, mund të prodhojë përsëri gjurmën e saktë të arsyetimit. Trajnimi për renditjen e preferencave i mundësoi modeles të mësojë se si të zgjedhë përgjigjen e saktë nga këto gjurmë.
Rezultatet flasin vetë: Llama 3 tejkalon shumë modele të disponueshme të bisedave me burim të hapur në standardet e zakonshme të industrisë, duke krijuar performancë të re më të avancuar për LLM në shkallët e parametrave 8B dhe 70B.
Zhvillimi i Përgjegjshëm dhe Konsideratat e Sigurisë
Ndërsa ndiqte performancën më të avancuar, Meta gjithashtu i dha përparësi zhvillimit të përgjegjshëm dhe praktikave të vendosjes për Llama 3. Kompania miratoi një qasje në nivel sistemi, duke parashikuar modelet Llama 3 si pjesë të një ekosistemi më të gjerë që vendos zhvilluesit në vendin e shoferit, duke i lejuar ata të dizajnojnë dhe personalizoni modelet për rastet e tyre specifike të përdorimit dhe kërkesat e sigurisë.
Meta kreu ushtrime të gjera kundër ekipit të kuq, kreu vlerësime kundërshtare dhe zbatoi teknika zbutëse të sigurisë për të ulur rreziqet e mbetura në modelet e saj të akorduara sipas udhëzimeve. Megjithatë, kompania pranon se rreziqet e mbetura ka të ngjarë të mbeten dhe rekomandon që zhvilluesit t'i vlerësojnë këto rreziqe në kontekstin e rasteve të tyre specifike të përdorimit.
Për të mbështetur vendosjen e përgjegjshme, Meta ka përditësuar Udhëzuesin e saj të Përdorimit të Përgjegjshëm, duke ofruar një burim gjithëpërfshirës për zhvilluesit që të zbatojnë praktikat më të mira të sigurisë në nivel modeli dhe sistemi për aplikacionet e tyre. Udhëzuesi mbulon tema të tilla si moderimi i përmbajtjes, vlerësimi i rrezikut dhe përdorimi i mjeteve të sigurisë si Llama Guard 2 dhe Code Shield.
Llama Guard 2, i ndërtuar mbi taksonominë MLCommons, është krijuar për të klasifikuar hyrjet (kërkesat) dhe përgjigjet LLM, duke zbuluar përmbajtje që mund të konsiderohen të pasigurta ose të dëmshme. CyberSecEval 2 zgjerohet me paraardhësin e tij duke shtuar masa për të parandaluar abuzimin e interpretuesit të kodit të modelit, aftësitë fyese të sigurisë kibernetike dhe ndjeshmërinë ndaj sulmeve të menjëhershme të injektimit.
Code Shield, një hyrje e re me Llama 3, shton filtrimin në kohë konkluzion të kodit të pasigurt të prodhuar nga LLM, duke zbutur rreziqet që lidhen me sugjerimet e kodeve të pasigurta, abuzimin e interpretuesit të kodit dhe ekzekutimin e sigurt të komandave.
Qasja dhe përdorimi i Llama 3
Pas lançimit të Llama 3 të Meta AI, disa mjete me burim të hapur janë vënë në dispozicion për vendosje lokale në sisteme të ndryshme operative, duke përfshirë Mac, Windows dhe Linux. Ky seksion detajon tre mjete të dukshme: Ollama, Open WebUI dhe LM Studio, secila ofron veçori unike për shfrytëzimin e aftësive të Llama 3 në pajisjet personale.
Ollama: E disponueshme për Mac, Linux dhe Windows, Ollama thjeshton funksionimin e Llama 3 dhe modeleve të tjera të gjuhëve të mëdha në kompjuterët personalë, madje edhe ata me pajisje më pak të fuqishme. Ai përfshin një menaxher paketash për menaxhim të lehtë të modelit dhe mbështet komandat nëpër platforma për shkarkimin dhe ekzekutimin e modeleve.
Hapni WebUI me Docker: Ky mjet ofron një qasje miqësore për përdoruesit, prerësNdërfaqe e bazuar në përputhje me Mac, Linux dhe Windows. Ai integrohet pa probleme me modelet nga regjistri Ollama, duke i lejuar përdoruesit të vendosen dhe të ndërveprojnë me modele si Llama 3 brenda një ndërfaqeje lokale në internet.
Studio LM: Synimi i përdoruesve në Mac, Linux dhe Windows, Studio LM mbështet një sërë modelesh dhe është ndërtuar mbi projektin llama.cpp. Ai siguron një ndërfaqe bisede dhe lehtëson ndërveprimin e drejtpërdrejtë me modele të ndryshme, duke përfshirë modelin Llama 3 8B Instruct.
Këto mjete sigurojnë që përdoruesit të mund të përdorin në mënyrë efikase Llama 3 në pajisjet e tyre personale, duke akomoduar një sërë aftësish dhe kërkesash teknike. Çdo platformë ofron procese hap pas hapi për konfigurimin dhe ndërveprimin e modeleve, duke e bërë AI të avancuar më të aksesueshme për zhvilluesit dhe entuziastët.