Kecerdasan Buatan

Semua yang Perlu Anda Ketahui Tentang Llama 3 | Model Sumber Terbuka Paling Kuat | Konsep Penggunaan

Updated on 24 April, 2024

Meta Llama 3 sumber terbuka LLM OUTPERFORM GPT 4

Meta baru saja dirilis Lama 3, generasi berikutnya dari model bahasa besar (LLM) sumber terbuka yang canggih. Membangun fondasi yang ditetapkan oleh pendahulunya, Llama 3 bertujuan untuk meningkatkan kemampuan yang memposisikan Llama 2 sebagai pesaing sumber terbuka yang signifikan bagi ChatGPT, sebagaimana diuraikan dalam ulasan komprehensif dalam artikel Llama 2: Mendalami Penantang Open-Source untuk ChatGPT.

Dalam artikel ini kita akan membahas konsep inti di balik Llama 3, mengeksplorasi arsitektur inovatif dan proses pelatihannya, serta memberikan panduan praktis tentang cara mengakses, menggunakan, dan menerapkan model inovatif ini secara bertanggung jawab. Baik Anda seorang peneliti, pengembang, atau penggemar AI, postingan ini akan membekali Anda dengan pengetahuan dan sumber daya yang dibutuhkan untuk memanfaatkan kekuatan Llama 3 untuk proyek dan aplikasi Anda.

Evolusi Llama: Dari Llama 2 ke Llama 3

CEO Meta, Mark Zuckerberg, mengumumkan debut Llama 3, model AI terbaru yang dikembangkan oleh Meta AI. Model canggih ini, yang kini bersumber terbuka, dirancang untuk menyempurnakan berbagai produk Meta, termasuk Messenger dan Instagram. Zuckerberg menyoroti bahwa Llama 3 memposisikan Meta AI sebagai yang paling canggih asisten AI yang tersedia secara gratis.

Sebelum kita membahas secara spesifik Llama 3, mari kita lihat kembali pendahulunya, Llama 2. Diperkenalkan pada tahun 2022, Llama 2 merupakan tonggak penting dalam lanskap LLM sumber terbuka, menawarkan model yang kuat dan efisien yang dapat dijalankan pada perangkat keras konsumen. .

Namun, meskipun Llama 2 merupakan pencapaian yang luar biasa, ia memiliki keterbatasan. Pengguna melaporkan masalah dengan penolakan yang salah (model menolak menjawab pertanyaan yang tidak berbahaya), bantuan yang terbatas, dan ruang untuk perbaikan di berbagai bidang seperti penalaran dan pembuatan kode.

Masuki Llama 3: Respons Meta terhadap tantangan ini dan masukan dari komunitas. Dengan Llama 3, Meta telah bertekad untuk membangun model sumber terbuka terbaik yang setara dengan model kepemilikan teratas yang tersedia saat ini, sekaligus memprioritaskan praktik pengembangan dan penerapan yang bertanggung jawab.

Llama 3: Arsitektur dan Pelatihan

Salah satu inovasi utama dalam Llama 3 adalah tokenizer-nya, yang menampilkan kosakata yang diperluas secara signifikan 128,256 token (naik dari 32,000 di Llama 2). Kosakata yang lebih besar ini memungkinkan pengkodean teks yang lebih efisien, baik untuk masukan maupun keluaran, yang berpotensi menghasilkan multibahasa yang lebih kuat dan peningkatan kinerja secara keseluruhan.

Llama 3 juga menggabungkan Perhatian Kueri yang Dikelompokkan (GQA), teknik representasi efisien yang meningkatkan skalabilitas dan membantu model menangani konteks yang lebih panjang dengan lebih efektif. Itu 8B versi Llama 3 menggunakan GQA, sedangkan keduanya 8B dan 70B model dapat memproses urutan hingga 8,192 token.

Data Pelatihan dan Penskalaan

Data pelatihan yang digunakan untuk Llama 3 merupakan faktor penting dalam peningkatan kinerjanya. Meta mengkurasi kumpulan data yang sangat besar 15 triliun token dari sumber online yang tersedia untuk umum, tujuh kali lebih besar dari kumpulan data yang digunakan untuk Llama 2. Kumpulan data ini juga mencakup sebagian besar (lebih dari 5%) data non-Inggris berkualitas tinggi, yang mencakup lebih dari Bahasa 30, sebagai persiapan untuk aplikasi multibahasa di masa depan.

Untuk memastikan kualitas data, Meta menggunakan teknik pemfilteran tingkat lanjut, termasuk filter heuristik, filter NSFW, deduplikasi semantik, dan pengklasifikasi teks yang dilatih pada Llama 2 untuk memprediksi kualitas data. Tim juga melakukan eksperimen ekstensif untuk menentukan campuran sumber data yang optimal untuk pra-pelatihan, memastikan bahwa Llama 3 berkinerja baik di berbagai kasus penggunaan, termasuk trivia, STEM, pengkodean, dan pengetahuan sejarah.

Meningkatkan pra-pelatihan adalah aspek penting lainnya dalam pengembangan Llama 3. Meta mengembangkan undang-undang penskalaan yang memungkinkan mereka memprediksi performa model terbesarnya pada tugas-tugas utama, seperti pembuatan kode, sebelum benar-benar melatihnya. Hal ini menginformasikan keputusan mengenai campuran data dan alokasi komputasi, yang pada akhirnya menghasilkan pelatihan yang lebih efisien dan efektif.

Model terbesar Llama 3 dilatih pada dua 24,000 cluster GPU yang dibuat khusus, memanfaatkan kombinasi teknik paralelisasi data, paralelisasi model, dan paralelisasi pipeline. Tumpukan pelatihan lanjutan Meta mendeteksi, menangani, dan memelihara kesalahan secara otomatis, memaksimalkan waktu kerja GPU dan meningkatkan efisiensi pelatihan sekitar tiga kali lipat dibandingkan dengan Llama 2.

Instruksi Penyempurnaan dan Kinerja

Untuk membuka potensi penuh Llama 3 untuk aplikasi obrolan dan dialog, Meta menginovasi pendekatannya terhadap penyempurnaan instruksi. Metodenya menggabungkan penyetelan halus yang diawasi (SFT), pengambilan sampel penolakan, pengoptimalan kebijakan proksimal (PPO), dan optimasi preferensi langsung (DPO).

Kualitas perintah yang digunakan dalam SFT dan peringkat preferensi yang digunakan dalam PPO dan DPO memainkan peran penting dalam kinerja model yang selaras. Tim Meta dengan cermat mengumpulkan data ini dan melakukan beberapa putaran penjaminan kualitas pada anotasi yang disediakan oleh anotator manusia.

Pelatihan tentang peringkat preferensi melalui PPO dan DPO juga secara signifikan meningkatkan kinerja Llama 3 dalam tugas penalaran dan pengkodean. Meta menemukan bahwa meskipun model kesulitan menjawab pertanyaan penalaran secara langsung, model tersebut mungkin masih menghasilkan jejak penalaran yang benar. Pelatihan tentang peringkat preferensi memungkinkan model mempelajari cara memilih jawaban yang benar dari jejak ini.

Hasilnya terbukti: Llama 3 mengungguli banyak model obrolan sumber terbuka yang tersedia pada tolok ukur industri umum, menciptakan kinerja canggih baru untuk LLM pada skala parameter 8 miliar dan 70 miliar.

Pertimbangan Pembangunan dan Keselamatan yang Bertanggung Jawab

Sambil mengejar kinerja mutakhir, Meta juga memprioritaskan praktik pengembangan dan penerapan yang bertanggung jawab untuk Llama 3. Perusahaan mengadopsi pendekatan tingkat sistem, membayangkan model Llama 3 sebagai bagian dari ekosistem yang lebih luas yang menempatkan pengembang sebagai pengemudi, memungkinkan mereka merancang dan menyesuaikan model untuk kasus penggunaan spesifik dan persyaratan keselamatannya.

Meta melakukan latihan tim merah yang ekstensif, melakukan evaluasi permusuhan, dan menerapkan teknik mitigasi keselamatan untuk menurunkan risiko sisa dalam model yang disesuaikan dengan instruksinya. Namun, perusahaan mengakui bahwa risiko yang tersisa kemungkinan akan tetap ada dan merekomendasikan agar pengembang menilai risiko ini dalam konteks kasus penggunaan spesifik mereka.

Untuk mendukung penerapan yang bertanggung jawab, Meta telah memperbarui Panduan Penggunaan yang Bertanggung Jawab, yang menyediakan sumber daya komprehensif bagi pengembang untuk menerapkan model dan praktik terbaik keselamatan tingkat sistem untuk aplikasi mereka. Panduan ini mencakup topik-topik seperti moderasi konten, penilaian risiko, dan penggunaan alat keselamatan seperti Llama Guard 2 dan Code Shield.

Llama Guard 2, dibangun berdasarkan taksonomi MLCommons, dirancang untuk mengklasifikasikan input (prompt) dan respons LLM, mendeteksi konten yang mungkin dianggap tidak aman atau berbahaya. CyberSecEval 2 memperluas pendahulunya dengan menambahkan langkah-langkah untuk mencegah penyalahgunaan penerjemah kode model, kemampuan keamanan siber yang ofensif, dan kerentanan terhadap serangan injeksi yang cepat.

Code Shield, pengenalan baru dengan Llama 3, menambahkan pemfilteran waktu inferensi dari kode tidak aman yang dihasilkan oleh LLM, mengurangi risiko yang terkait dengan saran kode tidak aman, penyalahgunaan penerjemah kode, dan eksekusi perintah yang aman.

Mengakses dan Menggunakan Llama 3

Setelah peluncuran Llama 3 Meta AI, beberapa alat sumber terbuka telah tersedia untuk penerapan lokal di berbagai sistem operasi, termasuk Mac, Windows, dan Linux. Bagian ini merinci tiga alat penting: Ollama, Open WebUI, dan LM Studio, masing-masing menawarkan fitur unik untuk memanfaatkan kemampuan Llama 3 pada perangkat pribadi.

Ollama: Tersedia untuk Mac, Linux, dan Windows, Ollama menyederhanakan pengoperasian Llama 3 dan model bahasa besar lainnya pada komputer pribadi, bahkan pada komputer dengan perangkat keras yang kurang kuat. Ini mencakup manajer paket untuk manajemen model yang mudah dan mendukung perintah di seluruh platform untuk mengunduh dan menjalankan model.

Buka WebUI dengan Docker: Alat ini menyediakan cara yang ramah pengguna, Buruh pelabuhanantarmuka berbasis yang kompatibel dengan Mac, Linux, dan Windows. Ini terintegrasi secara mulus dengan model dari registri Ollama, memungkinkan pengguna untuk menyebarkan dan berinteraksi dengan model seperti Llama 3 dalam antarmuka web lokal.

Studio LM: Menargetkan pengguna di Mac, Linux, dan Windows, Studio LM mendukung berbagai model dan dibangun di atas proyek llama.cpp. Ini menyediakan antarmuka obrolan dan memfasilitasi interaksi langsung dengan berbagai model, termasuk model Instruktur Llama 3 8B.

Alat-alat ini memastikan bahwa pengguna dapat menggunakan Llama 3 secara efisien di perangkat pribadi mereka, mengakomodasi berbagai keterampilan dan persyaratan teknis. Setiap platform menawarkan proses langkah demi langkah untuk penyiapan dan interaksi model, menjadikan AI tingkat lanjut lebih mudah diakses oleh pengembang dan penggemar.

Menyebarkan Llama 3 dalam Skala Besar

Selain menyediakan akses langsung ke bobot model, Meta telah bermitra dengan berbagai penyedia cloud, layanan API model, dan platform perangkat keras untuk memungkinkan penerapan Llama 3 yang lancar dalam skala besar.

Salah satu keunggulan utama Llama 3 adalah peningkatan efisiensi token berkat tokenizer baru. Tolok ukur menunjukkan bahwa Llama 3 membutuhkan hingga Token 15% lebih sedikit dibandingkan dengan Llama 2, menghasilkan inferensi yang lebih cepat dan hemat biaya.

Integrasi Grouped Query Attention (GQA) dalam Llama 8 versi 3B berkontribusi dalam menjaga efisiensi inferensi setara dengan Llama 7 versi 2B, meskipun terjadi peningkatan jumlah parameter.

Untuk menyederhanakan proses penerapan, Meta telah menyediakan repositori Llama Recipes, yang berisi kode sumber terbuka dan contoh untuk penyesuaian, penerapan, evaluasi model, dan banyak lagi. Repositori ini berfungsi sebagai sumber berharga bagi pengembang yang ingin memanfaatkan kemampuan Llama 3 dalam aplikasi mereka.

Bagi mereka yang tertarik untuk mengeksplorasi performa Llama 3, Meta telah mengintegrasikan model terbarunya ke dalam Meta AI, asisten AI terkemuka yang dibangun dengan teknologi Llama 3. Pengguna dapat berinteraksi dengan Meta AI melalui berbagai aplikasi Meta, seperti Facebook, Instagram, WhatsApp, Messenger, dan web, untuk menyelesaikan sesuatu, belajar, berkreasi, dan terhubung dengan hal-hal yang penting bagi mereka.

Apa Selanjutnya untuk Llama 3?

Sementara model 8B dan 70B menandai awal rilis Llama 3, Meta memiliki rencana ambisius untuk masa depan LLM yang inovatif ini.

Dalam beberapa bulan mendatang, kita dapat melihat kemampuan baru diperkenalkan, termasuk multimodalitas (kemampuan untuk memproses dan menghasilkan modalitas data yang berbeda, seperti gambar dan video), multibahasa (mendukung berbagai bahasa), dan jendela konteks yang lebih panjang untuk meningkatkan kinerja pada tugas yang memerlukan konteks luas.

Selain itu, Meta berencana merilis ukuran model yang lebih besar, termasuk model dengan lebih dari 400 miliar parameter, yang saat ini sedang dalam pelatihan dan menunjukkan tren yang menjanjikan dalam hal performa dan kemampuan.

Untuk lebih memajukan bidang ini, Meta juga akan menerbitkan makalah penelitian terperinci tentang Llama 3, berbagi temuan dan wawasannya dengan komunitas AI yang lebih luas.

Sebagai pratinjau sekilas tentang apa yang akan terjadi, Meta telah membagikan beberapa gambaran awal kinerja model LLM terbesarnya pada berbagai tolok ukur. Meskipun hasil ini didasarkan pada pemeriksaan awal dan dapat berubah, hasil ini memberikan gambaran menarik tentang potensi masa depan Llama 3.

Kesimpulan

Llama 3 mewakili tonggak penting dalam evolusi model bahasa sumber terbuka yang besar, yang mendorong batas-batas kinerja, kemampuan, dan praktik pengembangan yang bertanggung jawab. Dengan arsitekturnya yang inovatif, kumpulan data pelatihan yang masif, dan teknik penyempurnaan yang mutakhir, Llama 3 menetapkan tolok ukur mutakhir untuk LLM pada skala parameter 8B dan 70B.

Namun, Llama 3 lebih dari sekedar model bahasa yang kuat; ini merupakan bukti komitmen Meta dalam mengembangkan ekosistem AI yang terbuka dan bertanggung jawab. Dengan menyediakan sumber daya yang komprehensif, alat keselamatan, dan praktik terbaik, Meta memberdayakan pengembang untuk memanfaatkan potensi penuh Llama 3 sambil memastikan penerapan yang bertanggung jawab yang disesuaikan dengan kasus penggunaan dan audiens spesifik mereka.

Seiring berlanjutnya perjalanan Llama 3, dengan kemampuan baru, ukuran model, dan temuan penelitian yang akan segera terjadi, komunitas AI menantikan aplikasi inovatif dan terobosan yang pasti akan muncul dari LLM inovatif ini.

Baik Anda seorang peneliti yang mendorong batas-batas pemrosesan bahasa alami, pengembang yang membangun aplikasi cerdas generasi berikutnya, atau penggemar AI yang ingin tahu tentang kemajuan terkini, Llama 3 menjanjikan untuk menjadi alat yang ampuh dalam gudang senjata Anda, membuka pintu baru dan membuka dunia penuh kemungkinan.

Topik-topik terkait:Llama lama 2 Lama 3 LLM LLM meta

Berikutnya

Microsoft Meluncurkan Phi-3: Model AI Terbuka yang Kuat Memberikan Performa Terbaik dalam Ukuran Kecil

Jangan Miss

FrugalGPT: Pergeseran Paradigma dalam Optimasi Biaya untuk Model Bahasa Besar

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.