Artificial Intelligence
Kila Kitu Unachohitaji Kujua Kuhusu Llama 3 | Muundo Wenye Nguvu Zaidi wa Chanzo Huria Bado | Dhana za Matumizi

Meta imetolewa hivi karibuni moto 3, kizazi kijacho cha modeli yake ya hali ya juu ya chanzo huria ya lugha kubwa (LLM). Kwa kuzingatia misingi iliyowekwa na mtangulizi wake, Llama 3 inalenga kuimarisha uwezo ambao uliweka Llama 2 kama mshindani mkuu wa chanzo huria wa ChatGPT, kama ilivyoainishwa katika uhakiki wa kina katika makala. Llama 2: Kuzama kwa Kina katika Changamoto ya Chanzo-Wazi hadi ChatGPT.
Katika makala haya tutajadili dhana za msingi za Llama 3, kuchunguza usanifu wake wa ubunifu na mchakato wa mafunzo, na kutoa mwongozo wa vitendo kuhusu jinsi ya kufikia, kutumia, na kupeleka mtindo huu wa msingi kwa kuwajibika. Iwe wewe ni mtafiti, msanidi programu, au mpenda AI, chapisho hili litakupa maarifa na nyenzo zinazohitajika kutumia nguvu za Llama 3 kwa miradi na programu zako.
Mageuzi ya Llama: Kutoka Llama 2 hadi Llama 3
Mkurugenzi Mtendaji wa Meta, Mark Zuckerberg, alitangaza mwanzo wa Llama 3, mtindo wa hivi punde wa AI uliotengenezwa na Meta AI. Mwanamitindo huyu wa kisasa, ambaye kwa sasa ni open source, yuko tayari kuboresha bidhaa mbalimbali za Meta, zikiwemo Messenger na Instagram. Zuckerberg alisisitiza kwamba Llama 3 inaweka Meta AI kama ya juu zaidi Msaidizi wa AI anapatikana kwa uhuru.
Kabla hatujazungumza kuhusu maelezo mahususi ya Llama 3, hebu turejee kwa ufupi mtangulizi wake, Llama 2. Iliyoanzishwa mwaka wa 2022, Llama 2 ilikuwa hatua muhimu katika mandhari ya LLM ya chanzo huria, ikitoa muundo wa nguvu na ufanisi ambao unaweza kuendeshwa kwenye maunzi ya watumiaji. .
Walakini, wakati Llama 2 ilikuwa mafanikio mashuhuri, ilikuwa na mapungufu yake. Watumiaji waliripoti masuala kwa kukataa kwa uwongo (mfano unaokataa kujibu vidokezo vyema), usaidizi mdogo, na nafasi ya kuboresha katika maeneo kama vile kutoa hoja na kuunda msimbo.
Ingiza Llama 3: Majibu ya Meta kwa changamoto hizi na maoni ya jamii. Ikiwa na Llama 3, Meta imejipanga kuunda miundo bora ya chanzo huria sambamba na miundo ya juu ya wamiliki inayopatikana leo, huku pia ikiweka kipaumbele katika utayarishaji na mazoea ya kusambaza.
Llama 3: Usanifu na Mafunzo
Moja ya uvumbuzi muhimu katika Llama 3 ni tokenizer yake, ambayo ina msamiati uliopanuliwa kwa kiasi kikubwa. Hati 128,256 (kutoka 32,000 katika Llama 2). Msamiati huu mkubwa huruhusu usimbaji wa maandishi kwa ufanisi zaidi, kwa ingizo na pato, na hivyo kusababisha uboreshaji wa lugha nyingi na utendakazi kwa ujumla.
Llama 3 pia inajumuisha Umakini wa Maswali ya Kikundi (GQA), mbinu bora ya uwakilishi ambayo huongeza kasi na kusaidia kielelezo kushughulikia miktadha mirefu kwa ufanisi zaidi. The 8B toleo la Llama 3 linatumia GQA, wakati zote mbili 8B na 70B mifano inaweza kusindika mlolongo hadi Hati 8,192.
Data ya Mafunzo na Kuongeza
Data ya mafunzo iliyotumiwa kwa Llama 3 ni kipengele muhimu katika utendakazi wake ulioboreshwa. Meta iliratibu mkusanyiko mkubwa wa data Trilioni 15 tokeni kutoka kwa vyanzo vya mtandao vinavyopatikana hadharani, kubwa mara saba kuliko mkusanyiko wa data uliotumiwa kwa Llama 2. Seti hii ya data pia inajumuisha sehemu kubwa (zaidi ya 5%) ya data ya ubora wa juu isiyo ya Kiingereza, inayojumuisha zaidi ya Lugha za 30, katika maandalizi ya matumizi ya baadaye ya lugha nyingi.
Ili kuhakikisha ubora wa data, Meta ilitumia mbinu za hali ya juu za kuchuja, ikiwa ni pamoja na vichujio vya heuristic, vichujio vya NSFW, urudishaji wa kisemantiki, na viainishaji maandishi vilivyofunzwa kwenye Llama 2 ili kutabiri ubora wa data. Timu pia ilifanya majaribio ya kina ili kubaini mchanganyiko bora zaidi wa vyanzo vya data kwa ajili ya mafunzo ya awali, ili kuhakikisha kuwa Llama 3 inafanya kazi vyema katika matukio mbalimbali ya utumiaji, ikiwa ni pamoja na mambo madogomadogo, STEM, usimbaji na maarifa ya kihistoria.
Kuongeza mafunzo ya awali ilikuwa kipengele kingine muhimu cha maendeleo ya Llama 3. Meta ilibuni sheria za kuongeza alama ambazo ziliwawezesha kutabiri utendakazi wa miundo yake mikubwa zaidi kwenye kazi muhimu, kama vile utengenezaji wa msimbo, kabla ya kuzifundisha. Hii ilifahamisha maamuzi juu ya mchanganyiko wa data na mgao wa kukokotoa, hatimaye kusababisha mafunzo yenye ufanisi na ufanisi zaidi.
Miundo mikubwa zaidi ya Llama 3 ilifunzwa kwa makundi mawili ya GPU 24,000 yaliyoundwa kidesturi, yakitumia mchanganyiko wa ulinganishaji wa data, ulinganishaji wa modeli, na mbinu za kusawazisha bomba. Ratiba ya mafunzo ya hali ya juu ya ugunduzi, ushughulikiaji na matengenezo ya kiotomatiki ya Meta, kuongeza muda wa juu wa GPU na kuongeza ufanisi wa mafunzo kwa takriban mara tatu ikilinganishwa na Llama 2.
Urekebishaji na Utendaji wa Maagizo
Ili kufungua uwezo kamili wa Llama 3 wa programu za gumzo na mazungumzo, Meta ilibuni mbinu yake ya urekebishaji mzuri wa maagizo. Mbinu yake inachanganya urekebishaji mzuri unaosimamiwa (SFT), sampuli za kukataliwa, uboreshaji wa sera ya karibu (PPO), na uboreshaji wa upendeleo wa moja kwa moja (DPO).
Ubora wa vidokezo vinavyotumika katika SFT na viwango vya mapendeleo vinavyotumiwa katika PPO na DPO vilichukua jukumu muhimu katika utendakazi wa miundo iliyoainishwa. Timu ya Meta iliratibu data hii kwa uangalifu na kutekeleza duru nyingi za uhakikisho wa ubora kwenye vidokezo vilivyotolewa na wafafanuzi wa kibinadamu.
Mafunzo juu ya viwango vya upendeleo kupitia PPO na DPO pia yaliboresha kwa kiasi kikubwa utendaji wa Llama 3 kwenye kazi za hoja na usimbaji. Meta iligundua kuwa hata wakati mwanamitindo anatatizika kujibu swali la hoja moja kwa moja, bado inaweza kutoa ufuatishaji sahihi wa hoja. Mafunzo juu ya viwango vya mapendeleo yaliwezesha modeli kujifunza jinsi ya kuchagua jibu sahihi kutoka kwa ufuatiliaji huu.
Matokeo yanajieleza yenyewe: Llama 3 inashinda miundo mingi ya gumzo la chanzo huria inayopatikana kwenye viwango vya kawaida vya tasnia, na kuanzisha utendakazi mpya wa hali ya juu kwa LLMs katika mizani ya vigezo vya 8B na 70B.
Mazingatio ya Maendeleo na Usalama yanayowajibika
Ilipokuwa ikifuatilia utendakazi wa hali ya juu, Meta pia ilitanguliza uundaji na mbinu za kusambaza zinazowajibika kwa Llama 3. Kampuni ilipitisha mbinu ya kiwango cha mfumo, ikitoa taswira ya miundo ya Llama 3 kama sehemu ya mfumo mpana wa ikolojia unaoweka wasanidi programu katika kiti cha udereva, na kuwaruhusu kubuni. na kubinafsisha miundo kwa kesi zao mahususi za utumiaji na mahitaji ya usalama.
Meta ilifanya mazoezi ya kina ya timu nyekundu, ilifanya tathmini za wapinzani, na kutekeleza mbinu za kupunguza usalama ili kupunguza hatari zilizosalia katika miundo yake iliyoratibiwa na maagizo. Hata hivyo, kampuni inakubali kwamba hatari zilizosalia zitasalia na inapendekeza kwamba wasanidi programu watathmini hatari hizi katika muktadha wa kesi zao mahususi za utumiaji.
Ili kusaidia uwekaji uwajibikaji, Meta imesasisha Mwongozo wake wa Matumizi ya Kujibika, ikitoa nyenzo pana kwa wasanidi programu kutekeleza mbinu bora za usalama za mfumo na muundo kwa programu zao. Mwongozo huu unashughulikia mada kama vile udhibiti wa maudhui, tathmini ya hatari, na matumizi ya zana za usalama kama vile Llama Guard 2 na Code Shield.
Llama Guard 2, iliyojengwa kwa misingi ya kanuni ya MLCommons, imeundwa kuainisha pembejeo na majibu ya LLM, na kugundua maudhui ambayo yanaweza kuchukuliwa kuwa si salama au hatari. CyberSecEval 2 inapanua mtangulizi wake kwa kuongeza hatua za kuzuia matumizi mabaya ya mkalimani wa msimbo wa mtindo huo, uwezo wa kukera wa usalama wa mtandao, na uwezekano wa kuchochea mashambulizi ya sindano.
Code Shield, utangulizi mpya wa Llama 3, huongeza uchujaji wa muda wa makisio wa msimbo usio salama unaotolewa na LLMs, kupunguza hatari zinazohusiana na mapendekezo ya msimbo usio salama, matumizi mabaya ya mkalimani wa msimbo, na utekelezaji salama wa amri.
Kufikia na Kutumia Llama 3
Kufuatia kuzinduliwa kwa Llama 3 ya Meta AI, zana kadhaa huria zimepatikana kwa matumizi ya ndani kwenye mifumo mbalimbali ya uendeshaji, ikiwa ni pamoja na Mac, Windows, na Linux. Sehemu hii ina maelezo ya zana tatu muhimu: Ollama, Open WebUI, na LM Studio, kila moja inatoa vipengele vya kipekee vya kutumia uwezo wa Llama 3 kwenye vifaa vya kibinafsi.
Ollama: Inapatikana kwa Mac, Linux, na Windows, Ollama hurahisisha utendakazi wa Llama 3 na miundo mingine mikubwa ya lugha kwenye kompyuta za kibinafsi, hata zile zilizo na maunzi thabiti. Inajumuisha kidhibiti kifurushi kwa usimamizi rahisi wa muundo na inaauni amri katika mifumo yote ya kupakua na kuendesha miundo.
Fungua WebUI na Docker: Zana hii hutoa rahisi kwa mtumiaji, Docker-Kiolesura cha msingi kinachoendana na Mac, Linux, na Windows. Inaunganishwa bila mshono na miundo kutoka kwa sajili ya Ollama, ikiruhusu watumiaji kupeleka na kuingiliana na miundo kama Llama 3 ndani ya kiolesura cha tovuti cha ndani.
Studio ya LM: Kulenga watumiaji kwenye Mac, Linux, na Windows, Studio ya LM inasaidia anuwai ya mifano na imejengwa kwenye mradi wa llama.cpp. Inatoa kiolesura cha gumzo na kuwezesha mwingiliano wa moja kwa moja na miundo mbalimbali, ikiwa ni pamoja na muundo wa Llama 3 8B Instruction.
Zana hizi huhakikisha kuwa watumiaji wanaweza kutumia Llama 3 kwa njia ifaayo kwenye vifaa vyao vya kibinafsi, ikichukua ujuzi na mahitaji mbalimbali ya kiufundi. Kila jukwaa hutoa michakato ya hatua kwa hatua ya usanidi na mwingiliano wa mfano, na kufanya AI ya hali ya juu kufikiwa zaidi na watengenezaji na wapendaji.