Inteligjenca artificiale

Gjithçka që duhet të dini për Llama 3 | Modeli më i fuqishëm me burim të hapur ende | Konceptet e përdorimit

Përditësuar on Prill 24, 2024

Meta Llama 3 me burim të hapur LLM OUTPERFORM GPT 4

Meta ka publikuar së fundmi flaka 3, gjenerata e ardhshme e modelit të saj më të avancuar të gjuhës me burim të hapur (LLM). Duke u mbështetur në themelet e vendosura nga paraardhësi i tij, Llama 3 synon të përmirësojë aftësitë që e pozicionuan Llama 2 si një konkurrent të rëndësishëm me burim të hapur për ChatGPT, siç përshkruhet në rishikimin gjithëpërfshirës në artikull Llama 2: Një zhytje e thellë në sfiduesin me burim të hapur për ChatGPT.

Në këtë artikull ne do të diskutojmë konceptet thelbësore pas Llama 3, do të eksplorojmë arkitekturën e tij inovative dhe procesin e trajnimit dhe do të ofrojmë udhëzime praktike se si të aksesojmë, përdorim dhe vendosim me përgjegjësi këtë model novator. Pavarësisht nëse jeni studiues, zhvillues ose entuziast i AI, ky postim do t'ju pajisë me njohuritë dhe burimet e nevojshme për të shfrytëzuar fuqinë e Llama 3 për projektet dhe aplikacionet tuaja.

Evolucioni i Llama: Nga Llama 2 në Llama 3

Drejtori i Përgjithshëm i Metës, Mark Zuckerberg, njoftoi debutimi i Llama 3, modeli më i fundit i AI i zhvilluar nga Meta AI. Ky model më i avancuar, tashmë me burim të hapur, është vendosur të përmirësojë produktet e ndryshme të Metës, duke përfshirë Messenger dhe Instagram. Zuckerberg theksoi se Llama 3 e pozicionon Meta AI si më të avancuarin Asistenti i AI-së i disponueshëm lirisht.

Përpara se të flasim për specifikat e Llama 3, le të rishikojmë shkurtimisht paraardhësin e tij, Llama 2. I prezantuar në vitin 2022, Llama 2 ishte një moment historik i rëndësishëm në peizazhin LLM me burim të hapur, duke ofruar një model të fuqishëm dhe efikas që mund të ekzekutohej në harduerin e konsumatorit .

Megjithatë, ndërsa Llama 2 ishte një arritje e dukshme, ajo kishte kufizimet e saj. Përdoruesit raportuan probleme me refuzime të rreme (modeli që refuzon t'u përgjigjet kërkesave të mira), ndihmë të kufizuar dhe hapësirë për përmirësim në fusha si arsyetimi dhe gjenerimi i kodit.

Hyni në Llama 3: Përgjigja e Metës ndaj këtyre sfidave dhe reagimet e komunitetit. Me Llama 3, Meta ka vendosur të ndërtojë modelet më të mira me burim të hapur në të njëjtin nivel me modelet më të mira të pronarit të disponueshëm sot, duke i dhënë prioritet gjithashtu praktikave të zhvillimit dhe vendosjes së përgjegjshme.

Llama 3: Arkitekturë dhe Trajnim

Një nga risitë kryesore në Llama 3 është tokenizuesi i tij, i cili përmban një fjalor të zgjeruar ndjeshëm të Argumentet 128,256 (nga 32,000 në Llama 2). Ky fjalor më i madh lejon kodimin më efikas të tekstit, si për hyrje ashtu edhe për dalje, duke çuar potencialisht në shumëgjuhësi më të fortë dhe përmirësime të përgjithshme të performancës.

Llama 3 gjithashtu përfshin Vëmendje e pyetjeve të grupuara (GQA), një teknikë efikase e përfaqësimit që rrit shkallëzueshmërinë dhe ndihmon modelin të trajtojë në mënyrë më efektive kontekstet më të gjata. Të 8B versioni i Llama 3 përdor GQA, ndërsa të dy 8B 70B modelet mund të përpunojnë sekuenca deri në Argumentet 8,192.

Të dhënat e trajnimit dhe shkallëzimi

Të dhënat e trajnimit të përdorura për Llama 3 janë një faktor vendimtar në performancën e përmirësuar të tij. Meta kuroi një grup të dhënash masive prej mbi 15 trilion argumentet nga burime online të disponueshme publikisht, shtatë herë më të mëdha se grupi i të dhënave të përdorur për Llama 2. Ky grup të dhënash përfshin gjithashtu një pjesë të konsiderueshme (mbi 5%) të të dhënave jo-anglisht me cilësi të lartë, duke mbuluar më shumë se Gjuhët 30, në përgatitje për aplikimet e ardhshme shumëgjuhëshe.

Për të siguruar cilësinë e të dhënave, Meta përdori teknika të avancuara filtrimi, duke përfshirë filtrat heuristikë, filtrat NSFW, dedulikimin semantik dhe klasifikuesit e tekstit të trajnuar në Llama 2 për të parashikuar cilësinë e të dhënave. Ekipi kreu gjithashtu eksperimente të gjera për të përcaktuar përzierjen optimale të burimeve të të dhënave për trajnimin paraprak, duke siguruar që Llama 3 të performojë mirë në një gamë të gjerë rastesh përdorimi, duke përfshirë gjëra të vogla, STEM, kodim dhe njohuri historike.

Rritja e trajnimit paraprak ishte një tjetër aspekt kritik i zhvillimit të Llama 3. Meta zhvilloi ligje të shkallëzimit që u mundësonin atyre të parashikonin performancën e modeleve të saj më të mëdha në detyrat kryesore, të tilla si gjenerimi i kodit, përpara se t'i trajnonte ato. Kjo informoi vendimet për përzierjen e të dhënave dhe shpërndarjen e llogaritjes, duke çuar përfundimisht në trajnime më efikase dhe efektive.

Modelet më të mëdha të Llama 3 u trajnuan në dy grupe GPU të ndërtuara me porosi prej 24,000, duke përdorur një kombinim të teknikave të paralelizimit të të dhënave, paralelizimit të modeleve dhe paralelizimit të tubacionit. Trajnimi i avancuar i Meta zbulon, trajtimin dhe mirëmbajtjen e gabimeve të automatizuara, duke maksimizuar kohën e funksionimit të GPU-së dhe duke rritur efikasitetin e trajnimit me afërsisht tre herë në krahasim me Llama 2.

Instruksioni Rregullimi i imët dhe performanca

Për të zhbllokuar potencialin e plotë të Llama 3 për aplikacionet e bisedës dhe dialogut, Meta inovoi qasjen e saj për rregullimin e saktë të udhëzimeve. Metoda e saj kombinon akordim i mbikëqyrur (SFT), kampionimi i refuzimit, optimizimi i politikave proksimale (PPO), dhe optimizimi i drejtpërdrejtë i preferencës (DPO).

Cilësia e kërkesave të përdorura në SFT dhe renditjet e preferencave të përdorura në PPO dhe DPO luajtën një rol vendimtar në performancën e modeleve të përafruar. Ekipi i Metës kuroi me kujdes këto të dhëna dhe kreu raunde të shumta të sigurimit të cilësisë në shënimet e ofruara nga anotuesit njerëzorë.

Trajnimi mbi renditjen e preferencave nëpërmjet PPO dhe DPO gjithashtu përmirësoi ndjeshëm performancën e Llama 3 në detyrat e arsyetimit dhe kodimit. Meta zbuloi se edhe kur një model përpiqet t'i përgjigjet drejtpërdrejt një pyetjeje arsyetimi, mund të prodhojë përsëri gjurmën e saktë të arsyetimit. Trajnimi për renditjen e preferencave i mundësoi modeles të mësojë se si të zgjedhë përgjigjen e saktë nga këto gjurmë.

Rezultatet flasin vetë: Llama 3 tejkalon shumë modele të disponueshme të bisedave me burim të hapur në standardet e zakonshme të industrisë, duke krijuar performancë të re më të avancuar për LLM në shkallët e parametrave 8B dhe 70B.

Zhvillimi i Përgjegjshëm dhe Konsideratat e Sigurisë

Ndërsa ndiqte performancën më të avancuar, Meta gjithashtu i dha përparësi zhvillimit të përgjegjshëm dhe praktikave të vendosjes për Llama 3. Kompania miratoi një qasje në nivel sistemi, duke parashikuar modelet Llama 3 si pjesë të një ekosistemi më të gjerë që vendos zhvilluesit në vendin e shoferit, duke i lejuar ata të dizajnojnë dhe personalizoni modelet për rastet e tyre specifike të përdorimit dhe kërkesat e sigurisë.

Meta kreu ushtrime të gjera kundër ekipit të kuq, kreu vlerësime kundërshtare dhe zbatoi teknika zbutëse të sigurisë për të ulur rreziqet e mbetura në modelet e saj të akorduara sipas udhëzimeve. Megjithatë, kompania pranon se rreziqet e mbetura ka të ngjarë të mbeten dhe rekomandon që zhvilluesit t'i vlerësojnë këto rreziqe në kontekstin e rasteve të tyre specifike të përdorimit.

Për të mbështetur vendosjen e përgjegjshme, Meta ka përditësuar Udhëzuesin e saj të Përdorimit të Përgjegjshëm, duke ofruar një burim gjithëpërfshirës për zhvilluesit që të zbatojnë praktikat më të mira të sigurisë në nivel modeli dhe sistemi për aplikacionet e tyre. Udhëzuesi mbulon tema të tilla si moderimi i përmbajtjes, vlerësimi i rrezikut dhe përdorimi i mjeteve të sigurisë si Llama Guard 2 dhe Code Shield.

Llama Guard 2, i ndërtuar mbi taksonominë MLCommons, është krijuar për të klasifikuar hyrjet (kërkesat) dhe përgjigjet LLM, duke zbuluar përmbajtje që mund të konsiderohen të pasigurta ose të dëmshme. CyberSecEval 2 zgjerohet me paraardhësin e tij duke shtuar masa për të parandaluar abuzimin e interpretuesit të kodit të modelit, aftësitë fyese të sigurisë kibernetike dhe ndjeshmërinë ndaj sulmeve të menjëhershme të injektimit.

Code Shield, një hyrje e re me Llama 3, shton filtrimin në kohë konkluzion të kodit të pasigurt të prodhuar nga LLM, duke zbutur rreziqet që lidhen me sugjerimet e kodeve të pasigurta, abuzimin e interpretuesit të kodit dhe ekzekutimin e sigurt të komandave.

Qasja dhe përdorimi i Llama 3

Pas lançimit të Llama 3 të Meta AI, disa mjete me burim të hapur janë vënë në dispozicion për vendosje lokale në sisteme të ndryshme operative, duke përfshirë Mac, Windows dhe Linux. Ky seksion detajon tre mjete të dukshme: Ollama, Open WebUI dhe LM Studio, secila ofron veçori unike për shfrytëzimin e aftësive të Llama 3 në pajisjet personale.

Ollama: E disponueshme për Mac, Linux dhe Windows, Ollama thjeshton funksionimin e Llama 3 dhe modeleve të tjera të gjuhëve të mëdha në kompjuterët personalë, madje edhe ata me pajisje më pak të fuqishme. Ai përfshin një menaxher paketash për menaxhim të lehtë të modelit dhe mbështet komandat nëpër platforma për shkarkimin dhe ekzekutimin e modeleve.

Hapni WebUI me Docker: Ky mjet ofron një qasje miqësore për përdoruesit, prerësNdërfaqe e bazuar në përputhje me Mac, Linux dhe Windows. Ai integrohet pa probleme me modelet nga regjistri Ollama, duke i lejuar përdoruesit të vendosen dhe të ndërveprojnë me modele si Llama 3 brenda një ndërfaqeje lokale në internet.

Studio LM: Synimi i përdoruesve në Mac, Linux dhe Windows, Studio LM mbështet një sërë modelesh dhe është ndërtuar mbi projektin llama.cpp. Ai siguron një ndërfaqe bisede dhe lehtëson ndërveprimin e drejtpërdrejtë me modele të ndryshme, duke përfshirë modelin Llama 3 8B Instruct.

Këto mjete sigurojnë që përdoruesit të mund të përdorin në mënyrë efikase Llama 3 në pajisjet e tyre personale, duke akomoduar një sërë aftësish dhe kërkesash teknike. Çdo platformë ofron procese hap pas hapi për konfigurimin dhe ndërveprimin e modeleve, duke e bërë AI të avancuar më të aksesueshme për zhvilluesit dhe entuziastët.

Vendosja e Llama 3 në shkallë

Përveç ofrimit të aksesit të drejtpërdrejtë në peshat e modelit, Meta ka partnerizuar me ofrues të ndryshëm cloud, shërbime modeli API dhe platforma harduerike për të mundësuar vendosjen pa probleme të Llama 3 në shkallë.

Një nga avantazhet kryesore të Llama 3 është përmirësimi i efikasitetit të tokenit, në sajë të tokenizatorit të ri. Standardet tregojnë se Llama 3 kërkon deri në 15% më pak argumente krahasuar me Llama 2, duke rezultuar në përfundime më të shpejta dhe me kosto më efektive.

Integrimi i GQA në versionin 8B të Llama 3 kontribuon në ruajtjen e efikasitetit të konkluzioneve në të njëjtin nivel me versionin 7B të Llama 2, pavarësisht nga rritja e numrit të parametrave.

Për të thjeshtuar procesin e vendosjes, Meta ka ofruar depon e Recetave Llama, e cila përmban kode me burim të hapur dhe shembuj për rregullimin, vendosjen, vlerësimin e modelit dhe më shumë. Ky depo shërben si një burim i vlefshëm për zhvilluesit që kërkojnë të përdorin aftësitë e Llama 3 në aplikacionet e tyre.

Për ata që janë të interesuar të eksplorojnë performancën e Llama 3, Meta ka integruar modelet e saj më të fundit në Meta AI, një asistent kryesor i AI i ndërtuar me teknologjinë Llama 3. Përdoruesit mund të ndërveprojnë me Meta AI përmes aplikacioneve të ndryshme Meta, si Facebook, Instagram, WhatsApp, Messenger dhe ueb, për të kryer gjërat, për të mësuar, krijuar dhe për t'u lidhur me gjërat që kanë rëndësi për ta.

Çfarë është më pas për Llama 3?

Ndërsa modelet 8B dhe 70B shënojnë fillimin e lëshimit të Llama 3, Meta ka plane ambicioze për të ardhmen e këtij LLM novator.

Në muajt e ardhshëm, mund të presim të prezantohen aftësi të reja, duke përfshirë multimodalitetin (aftësinë për të përpunuar dhe gjeneruar modalitete të ndryshme të të dhënave, të tilla si imazhe dhe video), shumëgjuhësi (duke mbështetur shumë gjuhë) dhe dritare shumë më të gjata konteksti për performancë të përmirësuar në detyra që kërkojnë një kontekst të gjerë.

Për më tepër, Meta planifikon të nxjerrë modele më të mëdha, duke përfshirë modele me mbi 400 miliardë parametra, të cilët aktualisht janë në trajnim dhe tregojnë tendenca premtuese për sa i përket performancës dhe aftësive.

Për të avancuar më tej këtë fushë, Meta do të publikojë gjithashtu një punim të detajuar kërkimor mbi Llama 3, duke ndarë gjetjet dhe njohuritë e tij me komunitetin më të gjerë të AI.

Si një pamje paraprake e asaj që do të vijë, Meta ka ndarë disa fotografi të hershme të performancës së modelit të saj më të madh LLM në standarde të ndryshme. Ndërsa këto rezultate bazohen në një pikë kontrolli të hershëm dhe janë subjekt i ndryshimit, ato ofrojnë një vështrim emocionues në potencialin e ardhshëm të Llama 3.

Përfundim

Llama 3 përfaqëson një moment historik të rëndësishëm në evolucionin e modeleve të gjuhëve të mëdha me burim të hapur, duke shtyrë kufijtë e performancës, aftësive dhe praktikave të përgjegjshme të zhvillimit. Me arkitekturën e tij inovative, grupin e të dhënave masive të trajnimit dhe teknikat më të avancuara të rregullimit të imët, Llama 3 vendos standarde të reja më të fundit për LLM-të në shkallët e parametrave 8B dhe 70B.

Megjithatë, Llama 3 është më shumë se thjesht një model i fuqishëm gjuhësor; është një dëshmi e angazhimit të Metës për të nxitur një ekosistem të hapur dhe të përgjegjshëm të AI. Duke ofruar burime gjithëpërfshirëse, mjete sigurie dhe praktika më të mira, Meta fuqizon zhvilluesit të shfrytëzojnë potencialin e plotë të Llama 3, ndërkohë që siguron vendosje të përgjegjshme të përshtatur për rastet e tyre specifike të përdorimit dhe audiencat.

Ndërsa udhëtimi i Llama 3 vazhdon, me aftësi të reja, madhësi modelesh dhe gjetje kërkimore në horizont, komuniteti i AI pret me padurim aplikacionet dhe zbulimet inovative që padyshim do të dalin nga kjo LLM novator.

Pavarësisht nëse jeni një studiues që shtyn kufijtë e përpunimit të gjuhës natyrore, një zhvillues që ndërton gjeneratën e ardhshme të aplikacioneve inteligjente, ose një entuziast i AI kurioz për përparimet më të fundit, Llama 3 premton të jetë një mjet i fuqishëm në arsenalin tuaj, duke hapur dyer të reja dhe duke zhbllokuar një botë me mundësi.

Temat e ngjashme:Llama lama 2 flaka 3 LLM LLM meta

E rradhes

Microsoft zbulon Phi-3: Modele të fuqishme të hapura të AI që ofrojnë performancë të lartë në përmasa të vogla

Mos e humbas

FrugalGPT: Një ndryshim paradigme në optimizimin e kostos për modelet e mëdha gjuhësore

Aayush Mittal

Kam kaluar pesë vitet e fundit duke u zhytur në botën magjepsëse të Mësimit të Makinerisë dhe Mësimit të Thellë. Pasioni dhe ekspertiza ime më kanë shtyrë të kontribuoj në mbi 50 projekte të ndryshme inxhinierike softuerike, me një fokus të veçantë në AI/ML. Kurioziteti im i vazhdueshëm më ka tërhequr gjithashtu drejt Përpunimit të Gjuhëve Natyrore, një fushë që mezi pres ta eksploroj më tej.