Kacerdasan buatan
Sagalana nu peryogi kauninga Ngeunaan Llama 3 | Modél Open-Source Paling Kuat Acan | Konsep pikeun Dianggo
Meta nembé dileupaskeun Lemah 3, generasi saterusna model basa ageung open source (LLM) anu canggih. Ngawangun dina yayasan anu ditetepkeun ku miheulaanna, Llama 3 tujuanana pikeun ningkatkeun kamampuan anu nempatkeun Llama 2 salaku pesaing open-source anu signifikan pikeun ChatGPT, sakumaha anu digariskeun dina ulasan komprehensif dina tulisan. Llama 2: Nyilem jero kana Open-Source Challenger pikeun ChatGPT.
Dina artikel ieu kami baris ngabahas konsép inti balik Llama 3, ngajalajah arsitéktur inovatif sarta prosés latihan, sarta nyadiakeun hidayah praktis ngeunaan cara ngakses, ngagunakeun, sarta nyebarkeun model groundbreaking ieu responsibly. Naha anjeun panalungtik, pamekar, atanapi peminat AI, tulisan ieu bakal ngalengkepan anjeun pangaweruh sareng sumber daya anu diperyogikeun pikeun ngamangpaatkeun kakuatan Llama 3 pikeun proyék sareng aplikasi anjeun.
Évolusi Llama: Ti Llama 2 ka Llama 3
CEO Meta, Mark Zuckerberg, ngumumkeun perdana Llama 3, model AI panganyarna dikembangkeun ku Meta AI. Modél state-of-the-art ieu, ayeuna open-sourced, disetel pikeun ningkatkeun rupa-rupa produk Meta, kaasup Messenger sareng Instagram. Zuckerberg nyorot yén Llama 3 nempatkeun Meta AI salaku anu paling maju asisten AI bébas sadia.
Sateuacan urang ngobrol ngeunaan spésifik Llama 3, hayu urang tingali sakedap deui miheulaan na, Llama 2. Diperkenalkeun dina 2022, Llama 2 mangrupikeun tonggak penting dina bentang LLM open-source, nawiskeun modél anu kuat sareng efisien anu tiasa dijalankeun dina hardware konsumen. .
Sanajan kitu, bari Llama 2 éta prestasi kasohor, éta miboga watesan na. Pamaké ngalaporkeun masalah sareng panolakan palsu (model nolak ngawalon ajakan anu saé), bantosan terbatas, sareng rohangan pikeun perbaikan dina daérah sapertos nalar sareng generasi kode.
Lebetkeun Llama 3: réspon Meta kana tantangan ieu sareng tanggapan masarakat. Kalayan Llama 3, Meta parantos badé ngawangun modél open-source anu pangsaéna saimbang sareng modél proprietary luhur anu sayogi ayeuna, bari ogé ngutamakeun prakték pangembangan sareng panyebaran anu tanggung jawab.
Llama 3: Arsitéktur sarta Pelatihan
Salah sahiji inovasi konci dina Llama 3 nyaéta tokenizer na, anu ngagaduhan kosakata anu dimekarkeun sacara signifikan tina 128,256 token (up ti 32,000 di Llama 2). Kosakata anu langkung ageung ieu ngamungkinkeun panyandian téks anu langkung éfisién, boh pikeun input sareng kaluaran, anu berpotensi ngarah kana multibasa anu langkung kuat sareng perbaikan kinerja sacara umum.
Llama 3 ogé incorporates Dikelompokeun-Query Perhatian (GQA), téhnik répréséntasi efisien nu ngaronjatkeun skalabilitas tur mantuan model nanganan konteks panjang leuwih éféktif. The 8B versi Llama 3 utilizes GQA, bari duanana teh 8B jeung 70B model bisa ngolah runtuyan nepi ka 8,192 token.
Data Pelatihan sareng Skala
Data latihan anu dianggo pikeun Llama 3 mangrupikeun faktor anu penting pikeun ningkat prestasina. Meta curated dataset masif leuwih 15 triliun tokens tina sumber online sadia umum, tujuh kali leuwih badag batan dataset dipaké pikeun Llama 2. dataset ieu ogé ngawengku porsi signifikan (leuwih 5%) tina kualitas luhur data non-Inggris, ngawengku leuwih ti basa 30, pikeun nyiapkeun aplikasi multibasa nu bakal datang.
Pikeun mastikeun kualitas data, Meta ngagunakeun téknik panyaring canggih, kalebet saringan heuristik, saringan NSFW, deduplikasi semantik, sareng klasifikasi téks anu dilatih dina Llama 2 pikeun ngaduga kualitas data. Tim ogé ngalaksanakeun ékspérimén éksténsif pikeun nangtukeun campuran optimal sumber data pikeun pretraining, mastikeun yén Llama 3 ngalaksanakeun ogé dina rupa-rupa kasus pamakéan, kaasup trivia, STEM, coding, jeung pangaweruh sajarah.
Scaling up pretraining éta aspék kritis sejen tina ngembangkeun Llama 3 urang. Meta ngembangkeun undang-undang skala anu ngamungkinkeun aranjeunna ngaramalkeun kinerja model panggedéna dina tugas konci, sapertos generasi kode, sateuacan leres-leres ngalatih aranjeunna. Ieu nginpokeun kaputusan ngeunaan campuran data sareng alokasi komputasi, pamustunganana ngarah kana pelatihan anu langkung éfisién sareng efektif.
Modél panggedéna Llama 3 dilatih dina dua kluster 24,000 GPU anu didamel khusus, ngamangpaatkeun kombinasi paralélisasi data, paralélisasi modél, sareng téknik paralélisasi pipa. Tumpukan latihan canggih Meta deteksi kasalahan otomatis, penanganan, sareng pangropéa, maksimalkeun waktos GPU sareng ningkatkeun efisiensi latihan sakitar tilu kali dibandingkeun sareng Llama 2.
Instruksi Fine-tuning jeung Performance
Pikeun muka konci poténsi pinuh Llama 3 pikeun aplikasi obrolan sareng dialog, Meta ngémutan pendekatan na pikeun instruksi fine-tuning. Metoda na ngagabungkeun diawasan fine-tuning (SFT), penolakan sampling, optimasi kawijakan proksimal (PPO), jeung optimasi preferensi langsung (DPO).
Kualitas pituduh anu dianggo dina SFT sareng réngking karesep anu dianggo dina PPO sareng DPO maénkeun peran anu penting dina pagelaran modél anu dijajarkeun. Tim Meta sacara saksama curated data ieu sarta ngalaksanakeun sababaraha rounds jaminan kualitas on annotations disadiakeun ku annotators manusa.
Latihan dina rankings preferensi via PPO na DPO ogé nyata ningkat kinerja Llama 3 urang dina nalar jeung tugas coding. Meta kapanggih yén sanajan model struggles ngajawab patarosan nalar langsung, éta masih bisa ngahasilkeun renik nalar bener. Latihan dina rankings preferensi sangkan modél diajar kumaha carana milih jawaban nu bener tina ngambah ieu.
Hasilna nyarioskeun nyalira: Llama 3 langkung seueur model obrolan open-source anu sayogi dina tolok ukur industri umum, ngadegkeun kinerja canggih anyar pikeun LLM dina skala parameter 8B sareng 70B.
Pangwangunan Tanggung jawab sareng Pertimbangan Kasalametan
Bari pursuing kinerja motong-ujung, Meta ogé prioritized ngembangkeun tanggung jawab sarta deployment prakték pikeun Llama 3. Pausahaan ngadopsi pendekatan sistem-tingkat, envisioning model Llama 3 salaku bagian tina ékosistem lega nu nempatkeun pamekar dina korsi supir urang, sahingga aranjeunna mendesain. jeung ngaropéa model pikeun kasus pamakéan husus maranéhanana sarta syarat kaamanan.
Meta ngalaksanakeun latihan tim beureum éksténsif, ngalaksanakeun evaluasi adversarial, sareng ngalaksanakeun téknik mitigasi kaamanan pikeun nurunkeun résiko sésa-sésa dina modél anu disaluyukeun. Nanging, perusahaan ngakuan yén résiko sésa-sésa kamungkinan bakal tetep sareng nyarankeun yén pamekar ngira-ngira résiko ieu dina konteks kasus pamakean khususna.
Pikeun ngarojong panyebaran anu tanggung jawab, Meta parantos ngamutahirkeun Pituduh Pamakéan Bertanggung jawab na, nyayogikeun sumber daya komprehensif pikeun pamekar pikeun nerapkeun prakték pangsaéna kaamanan modél sareng tingkat sistem pikeun aplikasina. Pituduh nyertakeun topik sapertos moderasi kontén, penilaian résiko, sareng panggunaan alat kaamanan sapertos Llama Guard 2 sareng Code Shield.
Llama Guard 2, diwangun dina taksonomi MLCommons, dirancang pikeun mengklasifikasikan input LLM (ajakan) sareng réspon, ngadeteksi eusi anu tiasa dianggap teu aman atanapi ngabahayakeun. CyberSecEval 2 ngalegaan miheulaan na ku cara nambihan ukuran pikeun nyegah panyalahgunaan juru kode modél, kamampuan kaamanan siber anu karasa, sareng karentanan pikeun ngadorong serangan suntikan.
Code Shield, bubuka anyar kalawan Llama 3, nambahkeun inferensi-waktu nyaring kode aman dihasilkeun LLMs, mitigating resiko pakait sareng saran kode teu aman, nyiksa juru kode, sarta palaksanaan paréntah aman.
Ngaksés sareng Ngagunakeun Llama 3
Saatos peluncuran Meta AI's Llama 3, sababaraha alat open-source parantos sayogi pikeun panyebaran lokal dina sababaraha sistem operasi, kalebet Mac, Windows, sareng Linux. Bagian ieu ngajelaskeun tilu alat anu kasohor: Ollama, Open WebUI, sareng LM Studio, masing-masing nawiskeun fitur unik pikeun ngamangpaatkeun kamampuan Llama 3 dina alat pribadi.
Ollama: Sadia pikeun Mac, Linux, jeung Windows, Ollama simplifies operasi Llama 3 sarta model basa badag lianna dina komputer pribadi, malah maranéhanana jeung hardware kirang mantap. Éta kalebet manajer pakét pikeun manajemén modél anu gampang sareng ngadukung paréntah dina platform pikeun ngundeur sareng ngajalankeun modél.
Buka WebUI sareng Docker: Alat ieu nyadiakeun ramah-pamaké, Dockerantarmuka dumasar-cocog sareng Mac, Linux, sareng Windows. Ieu integrates seamlessly jeung model ti pendaptaran Ollama, sahingga pamaké pikeun nyebarkeun jeung interaksi jeung model kawas Llama 3 dina panganteur web lokal.
LM Studio: Nargétkeun pamaké dina Mac, Linux, jeung Windows, LM Studio ngarojong sauntuyan model sarta diwangun dina proyék llama.cpp. Éta nyayogikeun antarmuka obrolan sareng ngagampangkeun interaksi langsung sareng sababaraha modél, kalebet modél Llama 3 8B Instruct.
Alat-alat ieu mastikeun yén pangguna tiasa ngagunakeun Llama 3 sacara épisién dina alat pribadina, nyumponan sajumlah kaahlian sareng syarat téknis. Unggal platform nawiskeun prosés léngkah-léngkah pikeun setelan sareng interaksi modél, ngajantenkeun AI canggih langkung diaksés ku pamekar sareng peminat.