Îstîxbaratê ya sûnî

Her tiştê ku divê hûn li ser Llama 3 zanibin | Modela Çavkaniya Vekirî ya Herî Hêzdar | Têgînên Bikaranîna

Demê on April 24, 2024

Meta Llama 3 çavkaniya vekirî LLM OUTPERFORM GPT 4

Meta vê dawiyê serbest berdan Lama 3, nifşa paşîn a modela zimanê mezin a çavkaniya vekirî ya herî pêşkeftî (LLM). Li ser bingehên ku ji hêla selefê xwe ve hatî damezrandin, Llama 3 armanc dike ku kapasîteyên ku Llama 2 wekî hevrikek girîng-çavkaniya vekirî ya ChatGPT-ê destnîşan kiriye, zêde bike, wekî ku di vekolîna berfireh a di gotarê de hatî destnîşan kirin. Llama 2: Kevirek Kûr di ChatGPT de Challenger-Çavkaniya Vekirî.

Di vê gotarê de em ê li ser têgehên bingehîn ên li pişt Llama 3 nîqaş bikin, mîmarî û pêvajoya perwerdehiya wê ya nûjen bigerin, û rêbernameya pratîkî li ser meriv çawa bigihîje, bikar bîne û bi berpirsiyarî vê modela serpêhatî bicîh bike peyda bike. Ma hûn lêkolîner, pêşdebir, an dilkêşek AI-ê bin, ev post dê we bi zanyarî û çavkaniyên ku hewce ne ji bo xebitandina hêza Llama 3 ji bo proje û serîlêdanên xwe ragihîne.

Pêşveçûna Llama: Ji Llama 2 heta Llama 3

CEO ya Meta, Mark Zuckerberg, ragihand destpêka Llama 3, modela herî dawî ya AI-ê ya ku ji hêla Meta AI ve hatî pêşve xistin. Ev modela herî pêşkeftî, ku naha çavkaniya vekirî ye, tê destnîşan kirin ku hilberên cihêreng ên Meta, di nav de Messenger û Instagram, zêde bike. Zuckerberg bal kişand ku Llama 3 Meta AI wekî ya herî pêşkeftî cîh digire arîkarê AI-ê bi serbestî peyda dibe.

Berî ku em li ser taybetmendiyên Llama 3 bipeyivin, em bi kurtî berê xwe bidin Llama 2. Di sala 2022-an de hate destnîşan kirin, Llama 2 di perestgeha LLM-çavkaniya vekirî de qonaxek girîng bû, modelek hêzdar û bikêrhatî pêşkêşî dike ku dikare li ser hardware xerîdar were xebitandin. .

Lêbelê, dema ku Llama 2 serkeftinek berbiçav bû, ew sînorên wê hebûn. Bikarhêner pirsgirêkên bi redkirina derewîn re ragihandin (modela ku bersivê dide daxwazên belengaz), arîkariya tixûbdar, û cîhê ji bo çêtirkirinê di warên wekî sedem û hilberîna kodê de.

Têkeve Llama 3: Bersiva Meta li ser van dijwariyan û bertekên civakê. Bi Llama 3 re, Meta destnîşan kir ku modelên çêtirîn-çavkaniya vekirî li gorî modelên xwedanî yên herî bilind ên ku îro têne peyda kirin ava bike, di heman demê de pêşî li pêşkeftina berpirsiyar û pratîkên bicîhkirinê jî digire.

Llama 3: Mîmarî û Perwerde

Yek ji nûbûnên sereke yên Llama 3 nîşankera wê ye, ku peyvek pir berfireh a 128,256 nîşanên (ji 32,000 di Llama 2 de). Ev ferhenga mezintir rê dide şîfrekirina nivîsê ya bikêrtir, hem ji bo têketinê û hem jî ji bo derketinê, ku dibe sedema pirzimanîbûna bihêztir û baştirkirina performansa giştî.

Llama 3 jî tê de ye Kom-Query Baldarî (GQA), teknolojiyek nûneriya bikêrhatî ya ku mezinbûnê zêde dike û ji modelê re dibe alîkar ku çarçoveyên dirêjtir bi bandortir rêve bibe. Ew 8B guhertoya Llama 3 GQA bikar tîne, dema ku her du jî 8B û 70B model dikarin rêzikên heya 8,192 nîşanên.

Daneyên Perwerdehiyê û Scaling

Daneyên perwerdehiyê yên ku ji bo Llama 3 têne bikar anîn di performansa wê ya çêtir de faktorek girîng e. Meta danûstendinek girseyî ya li ser zêde kir Trîranên 15 nîşanekan ji çavkaniyên serhêl ên berdest ên gelemperî, heft qat ji daneheva ku ji bo Llama 2-ê hatî bikar anîn mezintir e. Ev danehev di heman demê de beşek girîng (zêdeyî 5%) ji daneyên ne-îngilîzî yên qalîteya bilind dihewîne, ku bêtir ji Zimanên 30, di amadekirina serîlêdanên pirzimanî yên pêşerojê de.

Ji bo misogerkirina kalîteya daneyê, Meta teknîkên fîlterkirinê yên pêşkeftî, di nav de fîlterên heurîstîkî, fîlterên NSFW, veqetandina semantîk, û dabeşkerên nivîsê yên ku li ser Llama 2 hatine perwerde kirin bikar anîn da ku kalîteya daneyê pêşbîn bike. Tîm di heman demê de ceribandinên berfereh pêk anî da ku berhevoka çêtirîn a çavkaniyên daneyê ji bo pêşdibistanê destnîşan bike, dabîn bike ku Llama 3 di nav cûrbecûr dozên karanînê de, di nav de trivia, STEM, kodkirin, û zanîna dîrokî de baş tevdigere.

Zêdekirina pêşdibistanê aliyek din a girîng a pêşkeftina Llama 3 bû. Meta qanûnên pîvandinê pêş xist ku ji wan re dihêlin ku performansa modelên wê yên herî mezin li ser karên sereke, wek hilberîna kodê, pêşbîn bikin, berî ku bi rastî wan perwerde bikin. Vê yekê biryarên li ser tevlihevkirina daneyan û dabeşkirina hesaban agahdar kir, di dawiyê de rê li ber perwerdehiya bikêrtir û bibandor vekir.

Modelên herî mezin ên Llama 3 li ser du komikên 24,000 GPU yên ku ji hêla xwerû hatine çêkirin hatine perwerde kirin, ku ji hevoksazkirina daneyan, paralelkirina modelê, û teknîkên paralelkirina lûleyê bikar tînin. Meta-ya pêşkeftî ya perwerdehiya pêşkeftî vedîtina xeletiya otomatîkî, hilanîn û domandin, dema xebata GPU-yê herî zêde dike û karbidestiya perwerdehiyê bi qasî sê caran li gorî Llama 2 zêde dike.

Telîmata Fine-tuning û Performance

Ji bo vekirina potansiyela tevahî ya Llama 3 ya ji bo sepanên chat û diyalogê, Meta nêzîkatiya xwe ya ji bo sererastkirina rêwerzan nû kir. Rêbaza wê li hev dike birêkûpêkkirina hûrgelê (SFT), nimûneya redkirinê, optimization siyaseta nêzîk (PPO), û optimization tercîh rasterast (DPO).

Qalîteya pêşniyarên ku di SFT-ê de têne bikar anîn û rêzikên bijare yên ku di PPO û DPO de têne bikar anîn di performansa modelên rêzkirî de rolek girîng lîstin. Tîma Meta bi baldarî ev dane berhev kir û li ser şîroveyên ku ji hêla şîrovegerên mirovî ve hatî peyda kirin gelek geryanên piştrastkirina kalîteyê pêk anîn.

Perwerdehiya li ser rêzikên tercîhê bi riya PPO û DPO di heman demê de performansa Llama 3 li ser peywirên aqil û kodkirinê jî bi girîngî çêtir kir. Meta dît ku tewra gava ku modelek hewl dide ku rasterast bersiva pirsek aqilmendiyê bide, ew dîsa jî dibe ku şopa ramana rast çêbike. Perwerdehiya li ser rêjeyên tercîhê kir ku model fêr bibe ka meriv çawa bersiva rast ji van şopan hilbijêrin.

Encam bi serê xwe diaxivin: Llama 3 ji gelek modelên danûstendinê yên çavkaniya vekirî yên berdest li ser pîvanên pîşesaziyê yên hevpar derdixe pêş, ji bo LLM-yên di pîvanên parametreyên 8B û 70B de performansa nû ya nûjen ava dike.

Pêşveçûn û Ewlekariya Berpirsiyar

Dema ku Meta li pey performansa herî pêşkeftî bû, Meta di heman demê de pêşî li pêşkeftina berpirsiyar û pratîkên bicîhkirinê ji bo Llama 3 girt. Pargîdanî rêgezek-asta pergalê pejirand, modelên Llama 3 wekî beşek ji ekosîstemek berfireh a ku pêşdebiran dixe cîhê ajokar, dihêle ku sêwiran bikin. û modelan ji bo rewşên karanîna wan ên taybetî û pêdiviyên ewlehiyê xweş bikin.

Meta temrînên tîmê sor ên berfireh pêk anî, nirxandinên dijberî kir, û teknîkên kêmkirina ewlehiyê bicîh anî da ku di modelên xwe yên rêwerzkirî de xetereyên mayî kêm bike. Lêbelê, pargîdanî qebûl dike ku xetereyên mayî dê îhtîmal bimîne û pêşniyar dike ku pêşdebiran van xetereyan di çarçoweya dozên karanîna wan ên taybetî de binirxînin.

Ji bo piştgirîkirina bicîhkirina berpirsiyar, Meta Rêbernameya Karanîna Berpirsiyar nûve kir, çavkaniyek berfireh ji pêşdebiran re peyda dike ku ji bo sepanên xwe pratîkên çêtirîn ewlehiyê yên model û asta pergalê bicîh bikin. Rêber mijarên wekî nermkirina naverokê, nirxandina xetereyê, û karanîna amûrên ewlehiyê yên mîna Llama Guard 2 û Code Shield vedigire.

Llama Guard 2, ku li ser taksonomiya MLCommons hatî çêkirin, ji bo dabeşkirina têketinên LLM (lêgerîn) û bersivan hatî çêkirin, naveroka ku dibe ku ne ewledar an zirardar were hesibandin tespît bike. CyberSecEval 2 bi lêzêdekirina tedbîran ji bo pêşîgirtina li destdirêjiya wergêra kodê ya modelê, kapasîteyên ewlehiya sîber a êrîşkar, û gumanbariya êrîşên bilez ên derzîlêdanê li pêşiyê xwe berfireh dike.

Code Shield, danasînek nû ya bi Llama 3 re, fîlterkirina dema-encamê ya koda neewle ya ku ji hêla LLM-an ve hatî hilberandin zêde dike, xetereyên ku bi pêşniyarên koda neewle ve girêdayî ne, binpêkirina wergêra kodê, û pêkanîna fermana ewledar kêm dike.

Gihîştin û Bikaranîna Llama 3

Piştî destpêkirina Meta AI's Llama 3, gelek amûrên çavkaniya vekirî ji bo bicîhkirina herêmî li ser pergalên xebitandinê yên cihêreng, di nav de Mac, Windows û Linux, hatine peyda kirin. Ev beş sê amûrên girîng eşkere dike: Ollama, Open WebUI, û LM Studio, her yek ji bo karanîna kapasîteyên Llama 3 li ser cîhazên kesane taybetmendiyên bêhempa pêşkêşî dike.

Olama: Ji bo Mac, Linux, û Windows-ê heye, Olama xebata Llama 3 û modelên zimanên din ên mezin li ser komputerên kesane hêsan dike, tewra yên ku xwedan hardware kêmtir xurt in. Ew ji bo rêveberiya modela hêsan rêveberek pakêtê vedigire û ji bo dakêşandin û xebitandina modelan fermanan li seranserê platforman piştgirî dike.

Bi Docker re WebUI vekin: Ev amûrek bikarhêner-heval peyda dike, Docker-navbera bingehîn ku bi Mac, Linux, û Windows-ê re hevaheng e. Ew bêkêmasî bi modelên ji qeyda Ollama re yek dibe, û dihêle bikarhêneran bi modelên mîna Llama 3-ê re di nav navgînek tevnvîsa herêmî de bicîh bikin û têkilî daynin.

LM Studio: Armanckirina bikarhênerên Mac, Linux, û Windows, LM Studio gelek modelan piştgirî dike û li ser projeya llama.cpp hatî çêkirin. Ew navgînek danûstendinê peyda dike û têkiliya rasterast bi modelên cihêreng re, di nav de modela Llama 3 8B Instruct, hêsan dike.

Van amûran piştrast dikin ku bikarhêner dikarin Llama 3-ê li ser cîhazên xwe yên kesane bi bandor bikar bînin, ku rêzek jêhatîbûn û hewcedariyên teknîkî bicîh bînin. Her platform pêvajoyên gav-bi-gav ji bo danûstendina sazkirinê û modelê pêşkêşî dike, ku AI-ya pêşkeftî ji pêşdebiran û dilxwazan re hêsantir dike.

Bicihkirina Llama 3 li Scale

Digel peydakirina rasterast bi giraniyên modelê, Meta bi pêşkêşkerên ewr ên cihêreng, karûbarên modela API, û platformên hardware re hevkarî kiriye da ku bicîhkirina bêkêmasî ya Llama 3-ê di pîvanê de bike.

Yek ji avantajên sereke yên Llama 3, bi saya tokenîzatorê nû, karbidestiya wê ya pêşkeftî ye. Pîvan destnîşan dikin ku Llama 3 hewce dike 15% nîşanek kêmtir li gorî Llama 2-ê, di encamê de encamek zûtir û lêçûntir peyda dike.

Yekbûna Girêdana Pirsîn a Komkirî (GQA) di guhertoya 8B ya Llama 3 de, tevî zêdebûna hejmartina parametreyê, di domandina karîgeriya encamnameyê de li ser hev bi guhertoya 7B ya Llama 2 re dibe alîkar.

Ji bo hêsankirina pêvajoya bicîhkirinê, Meta depoya Recipes Llama peyda kiriye, ku koda çavkaniyek vekirî û nimûneyên ji bo başkirin, bicihkirin, nirxandina modelê, û hêj bêtir vedihewîne. Ev depo ji bo pêşdebiran ku dixwazin kapasîteyên Llama 3-ê di serîlêdanên xwe de bikar bînin wekî çavkaniyek hêja xizmet dike.

Ji bo kesên ku dixwazin performansa Llama 3 bigerin, Meta modelên xwe yên herî paşîn di Meta AI-ê de, arîkarek pêşeng a AI-ê ku bi teknolojiya Llama 3 ve hatî çêkirin, yek kiriye. Bikarhêner dikarin bi Meta AI-ê re bi navgîniya sepanên Meta yên cihêreng, mîna Facebook, Instagram, WhatsApp, Messenger, û tevneyê re têkilî daynin da ku tiştan bikin, fêr bibin, biafirînin û bi tiştên ku ji wan re girîng in re têkildar bin.

Ji bo Llama 3 çi ye?

Dema ku modelên 8B û 70B destpêka serbestberdana Llama 3 destnîşan dikin, Meta ji bo paşeroja vê LLM-ya serpêhatî xwedî planên ambargo ye.

Di mehên pêş de, em dikarin li bendê bin ku kapasîteyên nû werin destnîşan kirin, di nav de pir-modalîtî (qabiliyeta pêvajokirin û hilberandina modalîteyên daneya cihêreng, wek wêne û vîdyoyan), pirzimanî (piştgiriya pir zimanan), û pencereyên pir dirêjtir ên çarçovê yên ji bo performansa pêşkeftî. karên ku hewceyê çarçoveyek berfireh e.

Wekî din, Meta plan dike ku pîvanên modela mezintir derxe, di nav de modelên bi zêdetirî 400 mîlyar parametre, ku niha di perwerdehiyê de ne û di warê performans û jêhatîbûnê de meylên sozdar nîşan didin.

Ji bo pêşdebirina qadê, Meta dê di heman demê de kaxezek lêkolînê ya hûrgulî li ser Llama 3 jî biweşîne, dîtin û nêrînên xwe bi civata berfireh a AI re parve bike.

Wekî pêşdîtinek bi dizî ya tiştê ku tê, Meta hin dîmenên destpêkê yên performansa modela xweya herî mezin LLM li ser pîvanên cihêreng parve kiriye. Digel ku ev encam li ser xalek kontrolê ya destpêkê ne û têne guhertin, ew di potansiyela pêşerojê ya Llama 3 de dîmenek balkêş peyda dikin.

Xelasî

Llama 3 di pêşkeftina modelên zimanên mezin ên çavkaniya vekirî de qonaxek girîng temsîl dike, sînorên performans, jêhatîbûn û pratîkên pêşkeftina berpirsiyar radixe ber çavan. Bi mîmariya xweya nûjen, databasa perwerdehiya girseyî, û teknîkên birêkûpêk ên pêşkeftî, Llama 3 pîvanên nû yên nûjen ên ji bo LLM-an di pîvanên parametreyên 8B û 70B de saz dike.

Lêbelê, Llama 3 ji modelek zimanek hêzdar wêdetir e; ew şahidiyek e ku pabendbûna Meta ya ji bo pêşxistina ekosîstema AI-ya vekirî û berpirsiyar e. Bi peydakirina çavkaniyên berfireh, amûrên ewlehiyê, û pratîkên çêtirîn, Meta hêz dide pêşdebiran ku potansiyela tevahî ya Llama 3 bi kar bînin dema ku bicîhkirina berpirsiyar a ku li gorî dozên karanîna wan û temaşevanên wan ên taybetî hatî peyda kirin piştrast dike.

Her ku rêwîtiya Llama 3 berdewam dike, digel kapasîteyên nû, mezinahiyên modelê, û vedîtinên lêkolînê yên li ser asoyê, civata AI-ê bi dilgermî li benda serîlêdanên nûjen û destkeftiyên ku bê guman dê ji vê LLM-ya serpêhatî derkevin holê.

Ger hûn lêkolînerek bin ku sînorên pêvajokirina zimanê xwezayî dişoxilînin, pêşdebirek ku nifşê din ê sepanên jîr çêdike, an dilxwazek AI-yê ku li ser pêşkeftinên herî dawî meraq dike, Llama 3 soz dide ku di cebilxaneya we de bibe amûrek bihêz, vekirina deriyên nû û vekirina cîhanek ji îmkanan.

Related Topics:Llama lama 2 Lama 3 LLM LLMs armanc

Up Next

Microsoft Phi-3 eşkere dike: Modelên AI-yê vekirî yên Hêzdar ku di Pîvanên Biçûk de Performansa Bilind Radigihînin

Ma Miss

FrugalGPT: Guhertinek Paradîgmayek Di Optimîzasyona Mesrefê de Ji bo Modelên Zimanên Mezin

Aayush Mittal

Min pênc salên paşîn derbas kir ku xwe di cîhana balkêş a Fêrbûna Makîne û Fêrbûna Kûr de derbas kir. Hezbûn û pisporiya min hişt ku ez beşdarî zêdetirî 50 projeyên endezyariya nermalava cihêreng, bi taybetî li ser AI / ML-ê bikim. Meraqa min a domdar di heman demê de ez ber bi Pêvajoya Zimanê Xwezayî ve jî kişandim, qadek ku ez dixwazim bêtir lê vekolim.