potongan 5 LLM Open Source Terbaik (Mei 2024) - Unite.AI
Terhubung dengan kami
Array ( [ID] => 1 [nama_pengguna] => Antoine [nama_pengguna] => Tardif [nama panggilan] => Antoine Tardif [nama_pengguna] => admin [nama_tampilan] => Antoine Tardif [email_pengguna] => [email dilindungi]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Mitra pendiri unite.AI & anggota dari unite.AI Dewan Teknologi Forbes, anto adalah seorang futuris yang bersemangat tentang masa depan AI & robotika. Dia juga Pendiri Sekuritas.io, situs web yang berfokus pada investasi dalam teknologi disruptif. [avatar_pengguna] => mm
)

Best Of

5 LLM Open Source Terbaik (Mei 2024)

Updated on
LLM Sumber Terbuka

Dalam dunia kecerdasan buatan (AI) yang berkembang pesat, Model Bahasa Besar (LLM) telah muncul sebagai landasan, mendorong inovasi, dan membentuk kembali cara kita berinteraksi dengan teknologi.

Karena model-model ini menjadi semakin canggih, ada penekanan yang semakin besar pada demokratisasi akses ke model-model tersebut. Model open-source, khususnya, memainkan peran penting dalam demokratisasi ini, menawarkan kesempatan kepada para peneliti, pengembang, dan peminat untuk menggali lebih dalam seluk-beluknya, menyempurnakannya untuk tugas tertentu, atau bahkan membangun fondasinya.

Di blog ini, kita akan menjelajahi beberapa LLM sumber terbuka teratas yang membuat gelombang di komunitas AI, masing-masing menghadirkan kekuatan dan kemampuannya yang unik.

1. Lama 2

Meta's Llama 2 adalah tambahan inovatif untuk jajaran model AI mereka. Ini bukan hanya model lain; itu dirancang untuk mendorong berbagai aplikasi canggih. Data pelatihan Llama 2 sangat luas dan beragam, menjadikannya kemajuan yang signifikan dibandingkan pendahulunya. Keragaman dalam pelatihan ini memastikan bahwa Llama 2 bukan hanya peningkatan bertahap tetapi juga langkah monumental menuju masa depan interaksi berbasis AI.

Kolaborasi antara Meta dan Microsoft telah memperluas cakrawala untuk Llama 2. Model sumber terbuka sekarang didukung pada platform seperti Azure dan Windows, yang bertujuan untuk menyediakan alat bagi pengembang dan organisasi untuk menciptakan pengalaman berbasis AI yang generatif. Kemitraan ini menggarisbawahi dedikasi kedua perusahaan untuk membuat AI lebih mudah diakses dan terbuka untuk semua.

Llama 2 bukan hanya penerus model Llama asli; itu merupakan pergeseran paradigma di arena chatbot. Sementara model Llama pertama revolusioner dalam menghasilkan teks dan kode, ketersediaannya terbatas untuk mencegah penyalahgunaan. Llama 2, di sisi lain, diatur untuk menjangkau audiens yang lebih luas. Ini dioptimalkan untuk platform seperti platform hosting model AI AWS, Azure, dan Hugging Face. Selain itu, dengan kolaborasi Meta dengan Microsoft, Llama 2 siap untuk membuat tandanya tidak hanya pada Windows tetapi juga pada perangkat yang ditenagai oleh sistem-on-chip Qualcomm Snapdragon.

Keselamatan adalah inti dari desain Llama 2. Menyadari tantangan yang dihadapi oleh model bahasa besar sebelumnya seperti GPT, yang terkadang menghasilkan konten yang menyesatkan atau berbahaya, Meta telah mengambil tindakan ekstensif untuk memastikan keandalan Llama 2. Model tersebut telah menjalani pelatihan ketat untuk meminimalkan 'halusinasi', informasi yang salah, dan bias.

Fitur Utama LLaMa 2:

  • Beragam Data Pelatihan: Data pelatihan Llama 2 sangat luas dan beragam, memastikan pemahaman dan kinerja yang komprehensif.
  • Kolaborasi dengan Microsoft: Llama 2 didukung pada platform seperti Azure dan Windows, memperluas cakupan aplikasinya.
  • Ketersediaan Terbuka: Tidak seperti pendahulunya, Llama 2 tersedia untuk khalayak yang lebih luas, siap untuk menyempurnakan berbagai platform.
  • Desain yang Berpusat pada Keselamatan: Meta telah menekankan keamanan, memastikan bahwa Llama 2 menghasilkan hasil yang akurat dan andal sambil meminimalkan hasil yang berbahaya.
  • Versi yang Dioptimalkan: Llama 2 hadir dalam dua versi utama – Llama 2 dan Llama 2-Chat, yang terakhir dirancang khusus untuk percakapan dua arah. Kompleksitas versi ini berkisar dari 7 miliar hingga 70 miliar parameter.
  • Pelatihan yang Ditingkatkan: Llama 2 dilatih dengan dua juta token, peningkatan yang signifikan dari 1.4 triliun token asli Llama.

2. Berkembang

Pada tahun 2022, setelah upaya kolaboratif global yang melibatkan relawan dari lebih dari 70 negara dan pakar dari Hugging Face, proyek BLOOM diluncurkan. Model bahasa besar (LLM), yang dibuat melalui inisiatif selama setahun, dirancang untuk pembuatan teks autoregresif, yang mampu memperluas perintah teks tertentu. Itu dilatih pada kumpulan besar data teks yang memanfaatkan kekuatan komputasi yang besar.

Debut BLOOM merupakan langkah signifikan dalam menjadikan teknologi AI generatif lebih mudah diakses. Sebagai LLM sumber terbuka, ia memiliki 176 miliar parameter, menjadikannya salah satu yang paling tangguh di kelasnya. BLOOM memiliki kemampuan untuk menghasilkan teks yang koheren dan tepat dalam 46 bahasa dan 13 bahasa pemrograman.

Proyek ini menekankan transparansi, memungkinkan akses publik terhadap kode sumber dan data pelatihannya. Keterbukaan ini mengundang pemeriksaan, pemanfaatan, dan penyempurnaan model secara berkelanjutan.

Dapat diakses tanpa biaya melalui platform Hugging Face, BLOOM merupakan bukti inovasi kolaboratif dalam AI.

Fitur Utama Bloom:

  • Kemampuan Multibahasa: BLOOM mahir dalam menghasilkan teks dalam 46 bahasa dan 13 bahasa pemrograman, menunjukkan jangkauan linguistiknya yang luas.
  • Akses Sumber Terbuka: Kode sumber model dan data pelatihan tersedia untuk umum, sehingga mendorong transparansi dan peningkatan kolaboratif.
  • Pembuatan Teks Autoregresif: Dirancang untuk melanjutkan teks dari perintah tertentu, BLOOM unggul dalam memperluas dan menyelesaikan urutan teks.
  • Jumlah Parameter Besar: Dengan 176 miliar parameter, BLOOM berdiri sebagai salah satu LLM sumber terbuka terkuat yang pernah ada.
  • Kolaborasi Global: Dikembangkan melalui proyek selama setahun dengan kontribusi dari sukarelawan di lebih dari 70 negara dan peneliti Hugging Face.
  • Aksesibilitas Gratis: Pengguna dapat mengakses dan memanfaatkan BLOOM secara gratis melalui ekosistem Hugging Face, meningkatkan demokratisasi di bidang AI.
  • Pelatihan Skala Industri: Model ini dilatih pada data teks dalam jumlah besar menggunakan sumber daya komputasi yang signifikan, sehingga memastikan performa yang kuat.

3. MPT-7B

MosaicML Foundations telah memberikan kontribusi yang signifikan pada ruang ini dengan memperkenalkan MPT-7B, LLM sumber terbuka terbaru mereka. MPT-7B, singkatan dari MosaicML Pretrained Transformer, adalah model transformator khusus dekoder gaya GPT. Model ini memiliki beberapa penyempurnaan, termasuk penerapan lapisan yang dioptimalkan untuk kinerja dan perubahan arsitektur yang memastikan stabilitas pelatihan yang lebih baik.

Fitur menonjol dari MPT-7B adalah pelatihannya pada kumpulan data ekstensif yang terdiri dari 1 triliun token teks dan kode. Pelatihan yang ketat ini dijalankan pada platform MosaicML selama rentang waktu 9.5 hari.

Sifat open-source MPT-7B memposisikannya sebagai alat yang berharga untuk aplikasi komersial. Ini memiliki potensi untuk secara signifikan memengaruhi analitik prediktif dan proses pengambilan keputusan bisnis dan organisasi.

Selain model dasar, MosaicML Foundations juga merilis model khusus yang disesuaikan untuk tugas tertentu, seperti MPT-7B-Instruct untuk mengikuti instruksi singkat, MPT-7B-Chat untuk pembuatan dialog, dan MPT-7B-StoryWriter-65k+ untuk pembuatan cerita berdurasi panjang.

Perjalanan pengembangan MPT-7B sangat komprehensif, dengan tim MosaicML mengelola semua tahapan mulai dari persiapan data hingga penerapan dalam beberapa minggu. Data tersebut bersumber dari berbagai repositori, dan tim menggunakan alat seperti GPT-NeoX EleutherAI dan tokenizer 20B untuk memastikan perpaduan pelatihan yang bervariasi dan komprehensif.

Fitur Utama Ikhtisar MPT-7B:

  • Perizinan Komersial: MPT-7B dilisensikan untuk penggunaan komersial, menjadikannya aset berharga untuk bisnis.
  • Data Pelatihan Ekstensif: Model ini membanggakan pelatihan tentang kumpulan data besar 1 triliun token.
  • Penanganan Masukan Panjang: MPT-7B dirancang untuk memproses masukan yang sangat panjang tanpa kompromi.
  • Kecepatan dan Efisiensi: Model ini dioptimalkan untuk pelatihan dan inferensi yang cepat, memastikan hasil yang tepat waktu.
  • Kode Sumber Terbuka: MPT-7B hadir dengan kode pelatihan sumber terbuka yang efisien, mempromosikan transparansi dan kemudahan penggunaan.
  • Keunggulan Komparatif: MPT-7B telah menunjukkan keunggulan dibandingkan model open-source lainnya dalam rentang 7B-20B, dengan kualitasnya yang cocok dengan LLaMA-7B.

4. elang

Falcon LLM, adalah model yang dengan cepat naik ke puncak hierarki LLM. Falcon LLM, khususnya Falcon-40B, adalah LLM dasar yang dilengkapi dengan 40 miliar parameter dan telah dilatih dengan satu triliun token yang mengesankan. Ini beroperasi sebagai model decoder-only autoregressive, yang pada dasarnya berarti memprediksi token berikutnya secara berurutan berdasarkan token sebelumnya. Arsitektur ini mengingatkan pada model GPT. Khususnya, arsitektur Falcon telah menunjukkan kinerja yang unggul dibandingkan GPT-3, mencapai prestasi ini hanya dengan 75% anggaran komputasi pelatihan dan membutuhkan komputasi yang jauh lebih sedikit selama inferensi.

Tim di Institut Inovasi Teknologi memberikan penekanan kuat pada kualitas data selama pengembangan Falcon. Menyadari sensitivitas LLM untuk melatih kualitas data, mereka membuat pipa data yang diskalakan hingga puluhan ribu inti CPU. Hal ini memungkinkan pemrosesan yang cepat dan ekstraksi konten berkualitas tinggi dari web, dicapai melalui proses pemfilteran dan deduplikasi yang ekstensif.

Selain Falcon-40B, TII juga memperkenalkan versi lain, termasuk Falcon-7B, yang memiliki 7 miliar parameter dan telah dilatih pada 1,500 miliar token. Ada juga model khusus seperti Falcon-40B-Instruct dan Falcon-7B-Instruct, yang disesuaikan untuk tugas tertentu.

Pelatihan Falcon-40B adalah proses yang ekstensif. Model ini dilatih pada dataset RefinedWeb, sebuah dataset web besar berbahasa Inggris yang dibuat oleh TII. Kumpulan data ini dibangun di atas CommonCrawl dan menjalani pemfilteran ketat untuk memastikan kualitas. Setelah model disiapkan, model tersebut divalidasi terhadap beberapa tolok ukur sumber terbuka, termasuk EAI Harness, HELM, dan BigBench.

Fitur Utama Ikhtisar Falcon LLM:

  • Parameter Ekstensif: Falcon-40B dilengkapi dengan 40 miliar parameter, memastikan pembelajaran dan kinerja yang komprehensif.
  • Model Hanya Dekoder Autoregresif: Arsitektur ini memungkinkan Falcon untuk memprediksi token berikutnya berdasarkan yang sebelumnya, mirip dengan model GPT.
  • Performa Unggul: Falcon mengungguli GPT-3 sementara hanya menggunakan 75% anggaran komputasi pelatihan.
  • Pipeline Data Berkualitas Tinggi: Pipa data TII memastikan ekstraksi konten berkualitas tinggi dari web, penting untuk pelatihan model.
  • Ragam Model: Selain Falcon-40B, TII menawarkan Falcon-7B dan model khusus seperti Falcon-40B-Instruct dan Falcon-7B-Instruct.
  • Ketersediaan Sumber Terbuka: Falcon LLM bersifat open-source, mempromosikan aksesibilitas dan inklusivitas dalam domain AI.

5. Vicuna-13B

LMSYS ORG telah membuat tanda yang signifikan di ranah LLM sumber terbuka dengan diperkenalkannya Vicuna-13B. Chatbot sumber terbuka ini telah dilatih secara cermat dengan menyempurnakan LLaMA pada percakapan yang dibagikan pengguna yang bersumber dari ShareGPT. Evaluasi awal, dengan GPT-4 bertindak sebagai juri, menunjukkan bahwa Vicuna-13B mencapai lebih dari 90% kualitas model terkenal seperti OpenAI ChatGPT dan Google Bard.

Secara mengesankan, Vicuna-13B mengungguli model terkenal lainnya seperti LLaMA dan Stanford Alpaca di lebih dari 90% kasus. Seluruh proses pelatihan untuk Vicuna-13B dilaksanakan dengan biaya sekitar $300. Bagi mereka yang tertarik untuk mengeksplorasi kemampuannya, kode, bobot, dan demo online telah tersedia untuk umum untuk tujuan non-komersial.

Model Vicuna-13B telah disempurnakan dengan 70K percakapan ChatGPT yang dibagikan pengguna, memungkinkannya menghasilkan respons yang lebih detail dan terstruktur dengan baik. Kualitas tanggapan ini sebanding dengan ChatGPT. Mengevaluasi chatbots, bagaimanapun, adalah upaya yang kompleks. Dengan kemajuan di GPT-4, ada rasa ingin tahu yang semakin besar tentang potensinya untuk berfungsi sebagai kerangka kerja evaluasi otomatis untuk pembuatan tolok ukur dan penilaian kinerja. Temuan awal menunjukkan bahwa GPT-4 dapat menghasilkan peringkat yang konsisten dan penilaian terperinci saat membandingkan respons chatbot. Evaluasi awal berdasarkan GPT-4 menunjukkan bahwa Vicuna mencapai 90% kemampuan model seperti Bard/ChatGPT.

Fitur Utama Ikhtisar Vicuna-13B:

  • Sifat Sumber Terbuka: Vicuna-13B tersedia untuk akses publik, mempromosikan transparansi dan keterlibatan masyarakat.
  • Data Pelatihan Ekstensif: Model ini telah dilatih pada 70 ribu percakapan yang dibagikan pengguna, memastikan pemahaman yang komprehensif tentang beragam interaksi.
  • Performa Kompetitif: Performa Vicuna-13B setara dengan pemimpin industri seperti ChatGPT dan Google Bard.
  • Pelatihan Hemat Biaya: Seluruh proses pelatihan untuk Vicuna-13B dilaksanakan dengan biaya rendah sekitar $300.
  • Penyempurnaan pada LLaMA: Model ini telah disempurnakan pada LLaMA, memastikan peningkatan kinerja dan kualitas respons.
  • Ketersediaan Demo Daring: Demo online interaktif tersedia bagi pengguna untuk menguji dan merasakan kemampuan Vicuna-13B.

Ranah Model Bahasa Besar yang Berkembang

Ranah Model Bahasa Besar sangat luas dan terus berkembang, dengan setiap model baru mendorong batas dari apa yang mungkin. Sifat open-source dari LLM yang dibahas di blog ini tidak hanya menampilkan semangat kolaboratif komunitas AI tetapi juga membuka jalan bagi inovasi di masa depan.

Model-model ini, dari kemampuan chatbot Vicuna yang mengesankan hingga metrik kinerja Falcon yang unggul, mewakili puncak teknologi LLM saat ini. Saat kami terus menyaksikan kemajuan pesat di bidang ini, jelas bahwa model sumber terbuka akan memainkan peran penting dalam membentuk masa depan AI.

Apakah Anda seorang peneliti berpengalaman, penggemar AI pemula, atau seseorang yang ingin tahu tentang potensi model ini, tidak ada waktu yang lebih baik untuk menyelami dan menjelajahi kemungkinan besar yang mereka tawarkan.

Alex McFarland adalah jurnalis dan penulis AI yang mengeksplorasi perkembangan terkini dalam kecerdasan buatan. Dia telah berkolaborasi dengan banyak startup dan publikasi AI di seluruh dunia.

Mitra pendiri unite.AI & anggota Dewan Teknologi Forbes, anto adalah seorang futuris yang bersemangat tentang masa depan AI & robotika.

Dia juga Pendiri Sekuritas.io, situs web yang berfokus pada investasi dalam teknologi disruptif.