Kecerdasan Buatan

Di dalam DBRX: Databricks Meluncurkan LLM Sumber Terbuka yang Kuat

Updated on 16 April, 2024

Dalam bidang model bahasa besar (LLM) yang berkembang pesat, model baru yang kuat telah muncul – DBRX, sebuah model sumber terbuka yang dibuat oleh Databricks. LLM ini membuat terobosan dengan kinerjanya yang canggih di berbagai tolok ukur, bahkan menyaingi kemampuan raksasa industri seperti GPT-4 OpenAI.

DBRX mewakili tonggak penting dalam demokratisasi kecerdasan buatan, memberikan para peneliti, pengembang, dan perusahaan akses terbuka terhadap model bahasa tingkat atas. Tapi apa sebenarnya DBRX itu, dan apa yang membuatnya istimewa? Dalam pendalaman teknis ini, kita akan mengeksplorasi arsitektur inovatif, proses pelatihan, dan kemampuan utama yang telah mendorong DBRX ke garis depan lanskap LLM terbuka.

Kelahiran DBRX Penciptaan DBRX didorong oleh misi Databricks untuk menjadikan intelijen data dapat diakses oleh semua perusahaan. Sebagai pemimpin dalam platform analisis data, Databricks menyadari potensi besar LLM dan mulai mengembangkan model yang dapat menandingi atau bahkan melampaui kinerja penawaran eksklusif.

Setelah berbulan-bulan melakukan penelitian intensif, pengembangan, dan investasi jutaan dolar, tim Databricks mencapai terobosan dengan DBRX. Kinerja model yang mengesankan pada berbagai tolok ukur, termasuk pemahaman bahasa, pemrograman, dan matematika, menjadikannya sebagai model baru yang canggih dalam LLM terbuka.

Arsitektur Inovatif

Kekuatan Campuran Ahli Inti dari kinerja luar biasa DBRX terletak pada arsitektur campuran ahli (MoE) yang inovatif. Desain mutakhir ini mewakili perubahan dari model padat tradisional, mengadopsi pendekatan sparse yang meningkatkan efisiensi pra-pelatihan dan kecepatan inferensi.

Dalam kerangka KLH, hanya sekelompok komponen terpilih, yang disebut “ahli”, yang diaktifkan untuk setiap masukan. Spesialisasi ini memungkinkan model untuk menangani beragam tugas dengan kemampuan lebih besar, sekaligus mengoptimalkan sumber daya komputasi.

DBRX membawa konsep ini lebih jauh lagi dengan arsitektur MoE yang terperinci. Berbeda dengan beberapa model Kementerian Lingkungan Hidup lainnya yang menggunakan lebih sedikit pakar dalam jumlah besar, DBRX mempekerjakan 16 pakar, dengan empat pakar aktif untuk setiap masukan yang diberikan. Desain ini memberikan kemungkinan kombinasi ahli 65 kali lebih banyak, yang secara langsung berkontribusi terhadap kinerja superior DBRX.

DBRX membedakan dirinya dengan beberapa fitur inovatif:

Pengkodean Posisi Putar (Tali): Meningkatkan pemahaman tentang posisi token, penting untuk menghasilkan teks yang akurat secara kontekstual.
Unit Linier Berpagar (GLU): Memperkenalkan mekanisme gerbang yang meningkatkan kemampuan model untuk mempelajari pola kompleks dengan lebih efisien.
Perhatian Kueri yang Dikelompokkan (GQA): Meningkatkan efisiensi model dengan mengoptimalkan mekanisme perhatian.
Tokenisasi Tingkat Lanjut: Memanfaatkan tokenizer GPT-4 untuk memproses input dengan lebih efektif.

Arsitektur MoE sangat cocok untuk model bahasa berskala besar, karena memungkinkan penskalaan yang lebih efisien dan pemanfaatan sumber daya komputasi yang lebih baik. Dengan mendistribusikan proses pembelajaran di beberapa subjaringan khusus, DBRX dapat secara efektif mengalokasikan data dan daya komputasi untuk setiap tugas, memastikan keluaran berkualitas tinggi dan efisiensi optimal.

Data Pelatihan yang Luas dan Optimasi yang Efisien Meskipun arsitektur DBRX tidak diragukan lagi mengesankan, kekuatan sebenarnya terletak pada proses pelatihan yang cermat dan banyaknya data yang terpapar. DBRX telah dilatih sebelumnya pada 12 triliun token data teks dan kode, yang dikurasi dengan cermat untuk memastikan kualitas dan keragaman yang tinggi.

Data pelatihan diproses menggunakan rangkaian alat Databricks, termasuk Apache Spark untuk pemrosesan data, Unity Catalog untuk manajemen dan tata kelola data, dan MLflow untuk pelacakan eksperimen. Perangkat komprehensif ini memungkinkan tim Databricks mengelola, mengeksplorasi, dan menyempurnakan kumpulan data besar secara efektif, meletakkan dasar bagi kinerja DBRX yang luar biasa.

Untuk lebih meningkatkan kemampuan model, Databricks menggunakan kurikulum pra-pelatihan yang dinamis, yang secara inovatif memvariasikan campuran data selama pelatihan. Strategi ini memungkinkan setiap token diproses secara efektif menggunakan 36 miliar parameter aktif, sehingga menghasilkan model yang lebih menyeluruh dan mudah beradaptasi.

Selain itu, proses pelatihan DBRX dioptimalkan untuk efisiensi, memanfaatkan rangkaian alat dan perpustakaan milik Databricks, termasuk Komposer, LLM Foundry, MegaBlocks, dan Streaming. Dengan menggunakan teknik seperti pembelajaran kurikulum dan strategi pengoptimalan yang dioptimalkan, tim mencapai peningkatan efisiensi komputasi hampir empat kali lipat dibandingkan model sebelumnya.

Pelatihan dan Arsitektur

DBRX dilatih menggunakan model prediksi token berikutnya pada kumpulan data kolosal sebanyak 12 triliun token, yang menekankan teks dan kode. Rangkaian pelatihan ini diyakini jauh lebih efektif dibandingkan yang digunakan pada model sebelumnya, sehingga memastikan pemahaman yang kaya dan kemampuan merespons berbagai permintaan.

Arsitektur DBRX tidak hanya merupakan bukti kehebatan teknis Databricks tetapi juga menyoroti penerapannya di berbagai sektor. Dari meningkatkan interaksi chatbot hingga menjalankan tugas analisis data yang kompleks, DBRX dapat diintegrasikan ke dalam beragam bidang yang memerlukan pemahaman bahasa yang berbeda.

Hebatnya, DBRX Instruct bahkan menyaingi beberapa model tertutup tercanggih di pasar. Menurut pengukuran Databricks, ini melampaui GPT-3.5 dan bersaing dengan Gemini 1.0 Pro dan Mistral Medium di berbagai tolok ukur, termasuk pengetahuan umum, penalaran akal sehat, pemrograman, dan penalaran matematis.

Misalnya, pada tolok ukur MMLU, yang mengukur pemahaman bahasa, DBRX Instruct memperoleh skor sebesar 73.7%, mengungguli skor yang dilaporkan GPT-3.5 sebesar 70.0%. Pada tolok ukur penalaran HellaSwag yang masuk akal, DBRX Instruct mencetak skor mengesankan sebesar 89.0%, melampaui GPT-3.5 sebesar 85.5%.

DBRX Instruct benar-benar unggul, mencapai akurasi 70.1% yang luar biasa pada benchmark HumanEval, tidak hanya mengungguli GPT-3.5 (48.1%) tetapi juga model khusus CodeLLaMA-70B Instruct (67.8%).

Hasil luar biasa ini menyoroti keserbagunaan DBRX dan kemampuannya untuk unggul dalam beragam tugas, mulai dari pemahaman bahasa alami hingga pemrograman kompleks dan pemecahan masalah matematika.

Inferensi dan Skalabilitas yang Efisien Salah satu keunggulan utama arsitektur MoE DBRX adalah efisiensinya selama inferensi. Berkat aktivasi parameter yang jarang, DBRX dapat mencapai throughput inferensi hingga dua hingga tiga kali lebih cepat dibandingkan model padat dengan jumlah parameter total yang sama.

Dibandingkan dengan LLaMA2-70B, LLM open source yang populer, DBRX tidak hanya menunjukkan kualitas yang lebih tinggi tetapi juga menawarkan kecepatan inferensi hampir dua kali lipat, meskipun memiliki parameter aktif sekitar setengahnya. Efisiensi ini menjadikan DBRX pilihan menarik untuk diterapkan dalam berbagai aplikasi, mulai dari pembuatan konten hingga analisis data dan seterusnya.

Selain itu, Databricks telah mengembangkan tumpukan pelatihan yang kuat yang memungkinkan perusahaan untuk melatih model kelas DBRX mereka sendiri dari awal atau melanjutkan pelatihan di atas pos pemeriksaan yang disediakan. Kemampuan ini memberdayakan dunia usaha untuk memanfaatkan potensi penuh DBRX dan menyesuaikannya dengan kebutuhan spesifik mereka, sehingga semakin mendemokratisasi akses terhadap teknologi LLM yang mutakhir.

Pengembangan model DBRX oleh Databricks menandai kemajuan signifikan dalam bidang pembelajaran mesin, khususnya melalui pemanfaatan alat inovatif dari komunitas sumber terbuka. Perjalanan pengembangan ini secara signifikan dipengaruhi oleh dua teknologi penting: perpustakaan MegaBlocks dan sistem Fully Sharded Data Parallel (FSDP) PyTorch.

MegaBlocks: Meningkatkan Efisiensi Kementerian Lingkungan Hidup

Grafik MegaBlock perpustakaan mengatasi tantangan yang terkait dengan perutean dinamis di lapisan Mixture-of-Experts (MoEs), yang merupakan rintangan umum dalam penskalaan jaringan saraf. Kerangka kerja tradisional sering kali menerapkan batasan yang mengurangi efisiensi model atau mengurangi kualitas model. MegaBlocks, bagaimanapun, mendefinisikan ulang perhitungan MoE melalui operasi block-sparse yang dengan cekatan mengelola dinamisme intrinsik dalam MoE, sehingga menghindari kompromi-kompromi ini.

Pendekatan ini tidak hanya menjaga integritas token tetapi juga selaras dengan kemampuan GPU modern, memfasilitasi waktu pelatihan hingga 40% lebih cepat dibandingkan metode tradisional. Efisiensi tersebut sangat penting untuk pelatihan model seperti DBRX, yang sangat bergantung pada arsitektur MoE tingkat lanjut untuk mengelola kumpulan parameter ekstensifnya secara efisien.

PyTorch FSDP: Menskalakan Model Besar

Paralel Data Pecahan Sepenuhnya PyTorch (FSDP) menghadirkan solusi tangguh untuk melatih model yang sangat besar dengan mengoptimalkan sharding dan distribusi parameter di beberapa perangkat komputasi. Dirancang bersama dengan komponen utama PyTorch, FSDP terintegrasi dengan mulus, menawarkan pengalaman pengguna yang intuitif mirip dengan pengaturan pelatihan lokal tetapi dalam skala yang jauh lebih besar.

Rancangan FSDP secara cerdik mengatasi beberapa permasalahan penting:

Pengguna Pengalaman: Ini menyederhanakan antarmuka pengguna, meskipun proses backendnya rumit, sehingga lebih mudah diakses untuk penggunaan yang lebih luas.
Heterogenitas Perangkat Keras: Ini beradaptasi dengan beragam lingkungan perangkat keras untuk mengoptimalkan pemanfaatan sumber daya secara efisien.
Pemanfaatan Sumber Daya dan Perencanaan Memori: FSDP meningkatkan penggunaan sumber daya komputasi sekaligus meminimalkan overhead memori, yang penting untuk model pelatihan yang beroperasi pada skala DBRX.

FSDP tidak hanya mendukung model yang lebih besar dari sebelumnya di bawah kerangka Data Terdistribusi Paralel tetapi juga mempertahankan skalabilitas mendekati linier dalam hal throughput dan efisiensi. Kemampuan ini terbukti penting untuk DBRX Databricks, memungkinkannya untuk menskalakan beberapa GPU sambil mengelola sejumlah besar parameter secara efektif.

Aksesibilitas dan Integrasi

Sejalan dengan misinya untuk mempromosikan akses terbuka ke AI, Databricks telah membuat DBRX tersedia melalui berbagai saluran. Bobot model dasar (DBRX Base) dan model yang disempurnakan (DBRX Instruct) dihosting di platform Hugging Face yang populer, memungkinkan peneliti dan pengembang mengunduh dan bekerja dengan model tersebut dengan mudah.

Selain itu, Repositori model DBRX tersedia di GitHub, memberikan transparansi dan memungkinkan eksplorasi lebih lanjut dan penyesuaian kode model.

Untuk pelanggan Databricks, DBRX Base dan DBRX Instruct dapat diakses dengan mudah melalui Databricks Foundation Model API, memungkinkan integrasi yang lancar ke dalam alur kerja dan aplikasi yang ada. Hal ini tidak hanya menyederhanakan proses penerapan namun juga memastikan tata kelola dan keamanan data untuk kasus penggunaan sensitif.

Selain itu, DBRX telah diintegrasikan ke dalam beberapa platform dan layanan pihak ketiga, seperti You.com dan Perplexity Labs, sehingga memperluas jangkauan dan aplikasi potensialnya. Integrasi ini menunjukkan meningkatnya minat terhadap DBRX dan kemampuannya, serta meningkatnya adopsi LLM terbuka di berbagai industri dan kasus penggunaan.

Kemampuan Konteks Panjang dan Pengambilan Augmented Generation Salah satu fitur menonjol dari DBRX adalah kemampuannya untuk menangani input konteks panjang, dengan panjang konteks maksimum 32,768 token. Kemampuan ini memungkinkan model untuk memproses dan menghasilkan teks berdasarkan informasi kontekstual yang luas, sehingga cocok untuk tugas-tugas seperti peringkasan dokumen, menjawab pertanyaan, dan pengambilan informasi.

Dalam tolok ukur yang mengevaluasi kinerja konteks panjang, seperti KV-Pairs dan HotpotQAXL, DBRX Instruct mengungguli GPT-3.5 Turbo di berbagai panjang urutan dan posisi konteks.

DBRX mengungguli model sumber terbuka yang sudah ada dalam pemahaman bahasa (MMLU), Pemrograman (HumanEval), dan Matematika (GSM8K).

Keterbatasan dan Pekerjaan Masa Depan

Meskipun DBRX mewakili pencapaian yang signifikan di bidang LLM terbuka, penting untuk mengakui keterbatasannya dan area untuk perbaikan di masa depan. Seperti model AI lainnya, DBRX mungkin menghasilkan respons yang tidak akurat atau bias, bergantung pada kualitas dan keragaman data pelatihannya.

Selain itu, meskipun DBRX unggul dalam tugas-tugas tujuan umum, aplikasi spesifik domain tertentu mungkin memerlukan penyesuaian lebih lanjut atau pelatihan khusus untuk mencapai kinerja optimal. Misalnya, dalam skenario yang mengutamakan akurasi dan fidelitas, Databricks merekomendasikan penggunaan teknik pengambilan augmented generasi (RAG) untuk meningkatkan keluaran model.

Selain itu, kumpulan data pelatihan DBRX saat ini terutama terdiri dari konten berbahasa Inggris, sehingga berpotensi membatasi kinerjanya pada tugas-tugas non-Inggris. Perulangan model ini di masa depan mungkin melibatkan perluasan data pelatihan untuk mencakup bahasa dan konteks budaya yang lebih beragam.

Databricks berkomitmen untuk terus meningkatkan kemampuan DBRX dan mengatasi keterbatasannya. Pekerjaan di masa depan akan fokus pada peningkatan kinerja, skalabilitas, dan kegunaan model di berbagai aplikasi dan kasus penggunaan, serta mengeksplorasi teknik untuk mengurangi potensi bias dan mendorong penggunaan AI yang etis.

Selain itu, perusahaan berencana untuk lebih menyempurnakan proses pelatihan, memanfaatkan teknik-teknik canggih seperti pembelajaran gabungan dan metode pelestarian privasi untuk memastikan privasi dan keamanan data.

Jalan di depan

DBRX mewakili langkah maju yang signifikan dalam demokratisasi pengembangan AI. Hal ini membayangkan masa depan di mana setiap perusahaan memiliki kemampuan untuk mengendalikan data dan nasibnya di dunia AI generatif yang sedang berkembang.

Dengan DBRX bersumber terbuka dan menyediakan akses ke alat dan infrastruktur yang sama yang digunakan untuk membangunnya, Databricks memberdayakan bisnis dan peneliti untuk mengembangkan Databricks mutakhir yang disesuaikan dengan kebutuhan spesifik mereka.

Melalui platform Databricks, pelanggan dapat memanfaatkan rangkaian alat pemrosesan data perusahaan, termasuk Apache Spark, Unity Catalog, dan MLflow, untuk menyusun dan mengelola data pelatihan mereka. Mereka kemudian dapat memanfaatkan perpustakaan pelatihan Databricks yang dioptimalkan, seperti Komposer, LLM Foundry, MegaBlocks, dan Streaming, untuk melatih model kelas DBRX mereka sendiri secara efisien dan dalam skala besar.

Demokratisasi pengembangan AI ini berpotensi membuka gelombang inovasi baru, karena perusahaan memperoleh kemampuan untuk memanfaatkan kekuatan model bahasa besar untuk berbagai aplikasi, mulai dari pembuatan konten dan analisis data hingga dukungan pengambilan keputusan dan seterusnya.

Selain itu, dengan membina ekosistem terbuka dan kolaboratif di sekitar DBRX, Databricks bertujuan untuk mempercepat laju penelitian dan pengembangan di bidang model bahasa besar. Seiring dengan semakin banyaknya organisasi dan individu yang menyumbangkan keahlian dan wawasan mereka, pengetahuan dan pemahaman kolektif tentang sistem AI yang kuat ini akan terus berkembang, sehingga membuka jalan bagi model-model yang lebih canggih dan mumpuni di masa depan.

Kesimpulan

DBRX adalah pengubah permainan dalam dunia model bahasa open source yang besar. Dengan arsitektur gabungan para ahli yang inovatif, data pelatihan yang ekstensif, dan kinerja yang canggih, perusahaan ini telah menetapkan tolok ukur baru tentang apa yang mungkin dilakukan dengan LLM terbuka.

Dengan mendemokratisasi akses terhadap teknologi AI mutakhir, DBRX memberdayakan para peneliti, pengembang, dan perusahaan untuk mengeksplorasi batas-batas baru dalam pemrosesan bahasa alami, pembuatan konten, analisis data, dan seterusnya. Saat Databricks terus menyempurnakan dan menyempurnakan DBRX, potensi penerapan dan dampak dari model canggih ini benar-benar tidak terbatas.

Berikutnya

Arlington, VA: Muncul sebagai Pembangkit Tenaga Listrik Baru dalam Inovasi AI

Jangan Miss

Adobe Mempratinjau Alat AI Generatif Baru untuk Alur Kerja Video

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.