Kecerdasan Buatan
Semua yang Perlu Anda Ketahui Tentang Llama 3 | Model Sumber Terbuka Paling Kuat | Konsep Penggunaan
Meta baru saja dirilis Lama 3, generasi berikutnya dari model bahasa besar (LLM) sumber terbuka yang canggih. Membangun fondasi yang ditetapkan oleh pendahulunya, Llama 3 bertujuan untuk meningkatkan kemampuan yang memposisikan Llama 2 sebagai pesaing sumber terbuka yang signifikan bagi ChatGPT, sebagaimana diuraikan dalam ulasan komprehensif dalam artikel Llama 2: Mendalami Penantang Open-Source untuk ChatGPT.
Dalam artikel ini kita akan membahas konsep inti di balik Llama 3, mengeksplorasi arsitektur inovatif dan proses pelatihannya, serta memberikan panduan praktis tentang cara mengakses, menggunakan, dan menerapkan model inovatif ini secara bertanggung jawab. Baik Anda seorang peneliti, pengembang, atau penggemar AI, postingan ini akan membekali Anda dengan pengetahuan dan sumber daya yang dibutuhkan untuk memanfaatkan kekuatan Llama 3 untuk proyek dan aplikasi Anda.
Evolusi Llama: Dari Llama 2 ke Llama 3
CEO Meta, Mark Zuckerberg, mengumumkan debut Llama 3, model AI terbaru yang dikembangkan oleh Meta AI. Model canggih ini, yang kini bersumber terbuka, dirancang untuk menyempurnakan berbagai produk Meta, termasuk Messenger dan Instagram. Zuckerberg menyoroti bahwa Llama 3 memposisikan Meta AI sebagai yang paling canggih asisten AI yang tersedia secara gratis.
Sebelum kita membahas secara spesifik Llama 3, mari kita lihat kembali pendahulunya, Llama 2. Diperkenalkan pada tahun 2022, Llama 2 merupakan tonggak penting dalam lanskap LLM sumber terbuka, menawarkan model yang kuat dan efisien yang dapat dijalankan pada perangkat keras konsumen. .
Namun, meskipun Llama 2 merupakan pencapaian yang luar biasa, ia memiliki keterbatasan. Pengguna melaporkan masalah dengan penolakan yang salah (model menolak menjawab pertanyaan yang tidak berbahaya), bantuan yang terbatas, dan ruang untuk perbaikan di berbagai bidang seperti penalaran dan pembuatan kode.
Masuki Llama 3: Respons Meta terhadap tantangan ini dan masukan dari komunitas. Dengan Llama 3, Meta telah bertekad untuk membangun model sumber terbuka terbaik yang setara dengan model kepemilikan teratas yang tersedia saat ini, sekaligus memprioritaskan praktik pengembangan dan penerapan yang bertanggung jawab.
Llama 3: Arsitektur dan Pelatihan
Salah satu inovasi utama dalam Llama 3 adalah tokenizer-nya, yang menampilkan kosakata yang diperluas secara signifikan 128,256 token (naik dari 32,000 di Llama 2). Kosakata yang lebih besar ini memungkinkan pengkodean teks yang lebih efisien, baik untuk masukan maupun keluaran, yang berpotensi menghasilkan multibahasa yang lebih kuat dan peningkatan kinerja secara keseluruhan.
Llama 3 juga menggabungkan Perhatian Kueri yang Dikelompokkan (GQA), teknik representasi efisien yang meningkatkan skalabilitas dan membantu model menangani konteks yang lebih panjang dengan lebih efektif. Itu 8B versi Llama 3 menggunakan GQA, sedangkan keduanya 8B dan 70B model dapat memproses urutan hingga 8,192 token.
Data Pelatihan dan Penskalaan
Data pelatihan yang digunakan untuk Llama 3 merupakan faktor penting dalam peningkatan kinerjanya. Meta mengkurasi kumpulan data yang sangat besar 15 triliun token dari sumber online yang tersedia untuk umum, tujuh kali lebih besar dari kumpulan data yang digunakan untuk Llama 2. Kumpulan data ini juga mencakup sebagian besar (lebih dari 5%) data non-Inggris berkualitas tinggi, yang mencakup lebih dari Bahasa 30, sebagai persiapan untuk aplikasi multibahasa di masa depan.
Untuk memastikan kualitas data, Meta menggunakan teknik pemfilteran tingkat lanjut, termasuk filter heuristik, filter NSFW, deduplikasi semantik, dan pengklasifikasi teks yang dilatih pada Llama 2 untuk memprediksi kualitas data. Tim juga melakukan eksperimen ekstensif untuk menentukan campuran sumber data yang optimal untuk pra-pelatihan, memastikan bahwa Llama 3 berkinerja baik di berbagai kasus penggunaan, termasuk trivia, STEM, pengkodean, dan pengetahuan sejarah.
Meningkatkan pra-pelatihan adalah aspek penting lainnya dalam pengembangan Llama 3. Meta mengembangkan undang-undang penskalaan yang memungkinkan mereka memprediksi performa model terbesarnya pada tugas-tugas utama, seperti pembuatan kode, sebelum benar-benar melatihnya. Hal ini menginformasikan keputusan mengenai campuran data dan alokasi komputasi, yang pada akhirnya menghasilkan pelatihan yang lebih efisien dan efektif.
Model terbesar Llama 3 dilatih pada dua 24,000 cluster GPU yang dibuat khusus, memanfaatkan kombinasi teknik paralelisasi data, paralelisasi model, dan paralelisasi pipeline. Tumpukan pelatihan lanjutan Meta mendeteksi, menangani, dan memelihara kesalahan secara otomatis, memaksimalkan waktu kerja GPU dan meningkatkan efisiensi pelatihan sekitar tiga kali lipat dibandingkan dengan Llama 2.
Instruksi Penyempurnaan dan Kinerja
Untuk membuka potensi penuh Llama 3 untuk aplikasi obrolan dan dialog, Meta menginovasi pendekatannya terhadap penyempurnaan instruksi. Metodenya menggabungkan penyetelan halus yang diawasi (SFT), pengambilan sampel penolakan, pengoptimalan kebijakan proksimal (PPO), dan optimasi preferensi langsung (DPO).
Kualitas perintah yang digunakan dalam SFT dan peringkat preferensi yang digunakan dalam PPO dan DPO memainkan peran penting dalam kinerja model yang selaras. Tim Meta dengan cermat mengumpulkan data ini dan melakukan beberapa putaran penjaminan kualitas pada anotasi yang disediakan oleh anotator manusia.
Pelatihan tentang peringkat preferensi melalui PPO dan DPO juga secara signifikan meningkatkan kinerja Llama 3 dalam tugas penalaran dan pengkodean. Meta menemukan bahwa meskipun model kesulitan menjawab pertanyaan penalaran secara langsung, model tersebut mungkin masih menghasilkan jejak penalaran yang benar. Pelatihan tentang peringkat preferensi memungkinkan model mempelajari cara memilih jawaban yang benar dari jejak ini.
Hasilnya terbukti: Llama 3 mengungguli banyak model obrolan sumber terbuka yang tersedia pada tolok ukur industri umum, menciptakan kinerja canggih baru untuk LLM pada skala parameter 8 miliar dan 70 miliar.
Pertimbangan Pembangunan dan Keselamatan yang Bertanggung Jawab
Sambil mengejar kinerja mutakhir, Meta juga memprioritaskan praktik pengembangan dan penerapan yang bertanggung jawab untuk Llama 3. Perusahaan mengadopsi pendekatan tingkat sistem, membayangkan model Llama 3 sebagai bagian dari ekosistem yang lebih luas yang menempatkan pengembang sebagai pengemudi, memungkinkan mereka merancang dan menyesuaikan model untuk kasus penggunaan spesifik dan persyaratan keselamatannya.
Meta melakukan latihan tim merah yang ekstensif, melakukan evaluasi permusuhan, dan menerapkan teknik mitigasi keselamatan untuk menurunkan risiko sisa dalam model yang disesuaikan dengan instruksinya. Namun, perusahaan mengakui bahwa risiko yang tersisa kemungkinan akan tetap ada dan merekomendasikan agar pengembang menilai risiko ini dalam konteks kasus penggunaan spesifik mereka.
Untuk mendukung penerapan yang bertanggung jawab, Meta telah memperbarui Panduan Penggunaan yang Bertanggung Jawab, yang menyediakan sumber daya komprehensif bagi pengembang untuk menerapkan model dan praktik terbaik keselamatan tingkat sistem untuk aplikasi mereka. Panduan ini mencakup topik-topik seperti moderasi konten, penilaian risiko, dan penggunaan alat keselamatan seperti Llama Guard 2 dan Code Shield.
Llama Guard 2, dibangun berdasarkan taksonomi MLCommons, dirancang untuk mengklasifikasikan input (prompt) dan respons LLM, mendeteksi konten yang mungkin dianggap tidak aman atau berbahaya. CyberSecEval 2 memperluas pendahulunya dengan menambahkan langkah-langkah untuk mencegah penyalahgunaan penerjemah kode model, kemampuan keamanan siber yang ofensif, dan kerentanan terhadap serangan injeksi yang cepat.
Code Shield, pengenalan baru dengan Llama 3, menambahkan pemfilteran waktu inferensi dari kode tidak aman yang dihasilkan oleh LLM, mengurangi risiko yang terkait dengan saran kode tidak aman, penyalahgunaan penerjemah kode, dan eksekusi perintah yang aman.
Mengakses dan Menggunakan Llama 3
Setelah peluncuran Llama 3 Meta AI, beberapa alat sumber terbuka telah tersedia untuk penerapan lokal di berbagai sistem operasi, termasuk Mac, Windows, dan Linux. Bagian ini merinci tiga alat penting: Ollama, Open WebUI, dan LM Studio, masing-masing menawarkan fitur unik untuk memanfaatkan kemampuan Llama 3 pada perangkat pribadi.
Ollama: Tersedia untuk Mac, Linux, dan Windows, Ollama menyederhanakan pengoperasian Llama 3 dan model bahasa besar lainnya pada komputer pribadi, bahkan pada komputer dengan perangkat keras yang kurang kuat. Ini mencakup manajer paket untuk manajemen model yang mudah dan mendukung perintah di seluruh platform untuk mengunduh dan menjalankan model.
Buka WebUI dengan Docker: Alat ini menyediakan cara yang ramah pengguna, Buruh pelabuhanantarmuka berbasis yang kompatibel dengan Mac, Linux, dan Windows. Ini terintegrasi secara mulus dengan model dari registri Ollama, memungkinkan pengguna untuk menyebarkan dan berinteraksi dengan model seperti Llama 3 dalam antarmuka web lokal.
Studio LM: Menargetkan pengguna di Mac, Linux, dan Windows, Studio LM mendukung berbagai model dan dibangun di atas proyek llama.cpp. Ini menyediakan antarmuka obrolan dan memfasilitasi interaksi langsung dengan berbagai model, termasuk model Instruktur Llama 3 8B.
Alat-alat ini memastikan bahwa pengguna dapat menggunakan Llama 3 secara efisien di perangkat pribadi mereka, mengakomodasi berbagai keterampilan dan persyaratan teknis. Setiap platform menawarkan proses langkah demi langkah untuk penyiapan dan interaksi model, menjadikan AI tingkat lanjut lebih mudah diakses oleh pengembang dan penggemar.