Kecerdasan buatan

Mengungkap Meta Llama 3: Lompatan Besar dalam Model Bahasa Besar

mm

Dalam bidang kecerdasan buatan generatif, Meta terus memimpin dengan komitmennya untuk ketersediaan sumber terbuka, mendistribusikan seri Model Bahasa Besar Meta AI (Llama) secara global kepada pengembang dan peneliti. Membangun pada inisiatif progresifnya, Meta baru-baru ini memperkenalkan iterasi ketiga dari seri ini, Llama 3. Edisi baru ini memperbaiki secara signifikan Llama 2, menawarkan sejumlah peningkatan dan menetapkan standar yang menantang kompetitor industri seperti Google, Mistral, dan Anthropic. Artikel ini menjelajahi kemajuan signifikan dari Llama 3 dan bagaimana ia membandingkan dengan pendahulunya, Llama 2.

Seri Llama Meta: Dari Eksklusif ke Akses Terbuka dan Kinerja Ditingkatkan

Meta memulai seri Llama-nya pada 2022 dengan peluncuran Llama 1, model yang terbatas untuk penggunaan non-komersial dan hanya dapat diakses oleh lembaga penelitian terpilih karena tuntutan komputasi yang besar dan sifat hak milik yang membedakan model LLM canggih pada saat itu. Pada 2023, dengan peluncuran Llama 2, Meta AI bergeser ke arah keterbukaan yang lebih besar, menawarkan model secara gratis untuk tujuan penelitian dan komersial. Langkah ini dirancang untuk mendemokratisasi akses ke teknologi kecerdasan buatan generatif yang canggih, memungkinkan sejumlah pengguna yang lebih luas, termasuk startup dan tim penelitian kecil, untuk berinovasi dan mengembangkan aplikasi tanpa biaya yang terkait dengan model besar. Melanjutkan tren ini, Meta telah memperkenalkan Llama 3, yang fokus pada meningkatkan kinerja model yang lebih kecil di berbagai benchmark industri.

Memperkenalkan Llama 3

Llama 3 adalah generasi kedua dari model bahasa besar sumber terbuka Meta (LLM), menampilkan model pra-dilatih dan instruksi-halus yang dilatih dengan 8B dan 70B parameter. Sejalan dengan pendahulunya, Llama 3 menggunakan arsitektur decoder-only transformer dan melanjutkan praktik pelatihan autoregresif, self-supervised untuk memprediksi token berikutnya dalam urutan teks. Llama 3 pra-dilatih pada dataset yang tujuh kali lebih besar daripada yang digunakan untuk Llama 2, menampilkan lebih dari 15 triliun token yang diambil dari campuran data online yang baru dikurasi. Dataset ini diproses menggunakan dua klaster yang dilengkapi dengan 24.000 GPU. Untuk mempertahankan kualitas tinggi dari data pelatihan ini, berbagai teknik data-centric AI digunakan, termasuk filter heuristik dan NSFW, deduplikasi semantik, dan klasifikasi kualitas teks. Dirancang untuk aplikasi dialog, model Instruksi Llama 3 telah ditingkatkan secara signifikan, mengintegrasikan lebih dari 10 juta sampel data yang dianotasi manusia dan menggunakan campuran metode pelatihan yang canggih seperti supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), dan direct policy optimization (DPO).

Llama 3 vs. Llama 2: Peningkatan Kunci

Llama 3 membawa beberapa perbaikan atas Llama 2, secara signifikan meningkatkan fungsionalitas dan kinerjanya:

  • Vokabuler Diperluas: Llama 3 telah meningkatkan vokabulernya menjadi 128.256 token, naik dari 32.000 token Llama 2. Peningkatan ini mendukung pengkodean teks yang lebih efisien untuk input dan output serta memperkuat kemampuan multibahasa.
  • Panjang Konteks Diperpanjang: Model Llama 3 menawarkan panjang konteks 8.000 token, dua kali lipat dari 4.090 token yang didukung Llama 2. Peningkatan ini memungkinkan penanganan konten yang lebih luas, mencakup baik prompt pengguna dan respons model.
  • Data Pelatihan Ditingkatkan: Dataset pelatihan untuk Llama 3 tujuh kali lebih besar daripada Llama 2, termasuk empat kali lebih banyak kode. Ini berisi lebih dari 5% data non-Inggris berkualitas tinggi yang mencakup lebih dari 30 bahasa, yang penting untuk mendukung aplikasi multibahasa. Data ini menjalani kontrol kualitas yang ketat menggunakan teknik canggih seperti filter heuristik dan NSFW, deduplikasi semantik, dan klasifikasi teks.
  • Pelatihan Instruksi dan Evaluasi yang Diperbarui: Berbeda dari Llama 2, Llama 3 menggunakan teknik pelatihan instruksi yang lebih maju, termasuk supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), dan direct policy optimization (DPO). Untuk melengkapi proses ini, sebuah set evaluasi manusia berkualitas tinggi baru telah diperkenalkan, terdiri dari 1.800 prompt yang mencakup berbagai kasus penggunaan seperti saran, brainstorming, klasifikasi, coding, dan lain-lain, memastikan penilaian dan pelatihan komprehensif dari kemampuan model.
  • Keamanan AI yang Ditingkatkan: Llama 3, seperti Llama 2, mengintegrasikan langkah-langkah keamanan yang ketat seperti pelatihan instruksi dan red-teaming komprehensif untuk memitigasi risiko, terutama di area kritis seperti keamanan siber dan ancaman biologis. Dalam mendukung upaya ini, Meta juga memperkenalkan Llama Guard 2, yang dilatih pada versi 8B dari Llama 3. Model baru ini meningkatkan seri Llama Guard dengan mengklasifikasikan input dan respons LLM untuk mengidentifikasi konten yang berpotensi tidak aman, membuatnya ideal untuk lingkungan produksi.

Ketersediaan Llama 3

Model Llama 3 sekarang terintegrasi ke dalam ekosistem Hugging Face, meningkatkan aksesibilitas untuk pengembang. Model juga tersedia melalui platform model-sebagai-layanan seperti Perplexity Labs dan Fireworks.ai, serta pada platform cloud seperti AWS SageMaker, Azure ML, dan Vertex AI. Meta berencana untuk memperluas ketersediaan Llama 3 lebih lanjut, termasuk platform seperti Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM, dan Snowflake. Selain itu, dukungan perangkat keras untuk Llama 3 akan diperluas untuk mencakup platform dari AMD, AWS, Dell, Intel, NVIDIA, dan Qualcomm.

Peningkatan Mendatang di Llama 3

Meta telah mengungkapkan bahwa rilis saat ini dari Llama 3 hanya fase awal dalam visi mereka yang lebih luas untuk versi penuh Llama 3. Mereka sedang mengembangkan model canggih dengan lebih dari 400 miliar parameter yang akan memperkenalkan fitur baru, termasuk multimodalitas dan kemampuan untuk menangani beberapa bahasa. Versi yang ditingkatkan ini juga akan menampilkan jendela konteks yang secara signifikan diperpanjang dan kemampuan kinerja yang ditingkatkan.

Ringkasan

Llama 3 Meta menandai evolusi signifikan dalam lanskap model bahasa besar, mendorong seri ini tidak hanya menuju ketersediaan sumber terbuka yang lebih besar tetapi juga meningkatkan kemampuan kinerjanya secara substansial. Dengan dataset pelatihan yang tujuh kali lebih besar daripada pendahulunya dan fitur seperti vokabuler yang diperluas dan panjang konteks yang diperpanjang, Llama 3 menetapkan standar baru yang menantang bahkan kompetitor industri yang paling kuat.

Iterasi ketiga ini tidak hanya melanjutkan untuk mendemokratisasi teknologi AI dengan membuat kemampuan tingkat tinggi tersedia untuk spektrum pengembang yang lebih luas tetapi juga memperkenalkan kemajuan signifikan dalam keamanan dan presisi pelatihan. Dengan mengintegrasikan model ini ke dalam platform seperti Hugging Face dan memperluas ketersediaan melalui layanan cloud utama, Meta memastikan bahwa Llama 3 adalah sebanyak ubiquitasnya yang kuat.

Mempandang ke depan, pengembangan berkelanjutan Meta menjanjikan kemampuan yang lebih kuat, termasuk multimodalitas dan dukungan bahasa yang diperluas, menyiapkan panggung untuk Llama 3 untuk tidak hanya bersaing dengan tetapi potensial melebihi model AI utama lainnya di pasar. Llama 3 adalah bukti komitmen Meta untuk memimpin revolusi AI, menyediakan alat yang tidak hanya lebih mudah diakses tetapi juga secara signifikan lebih maju dan lebih aman untuk basis pengguna global.

Dr. Tehseen Zia adalah Profesor Asosiasi Tetap di COMSATS University Islamabad, memegang gelar PhD di AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Penglihatan Komputer, ia telah membuat kontribusi signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga telah memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.