Kecerdasan buatan
Snowflake Arctic: Model LLM Terdepan untuk Enterprise AI
Perusahaan saat ini semakin banyak menjelajahi cara untuk memanfaatkan model bahasa besar (LLM) untuk meningkatkan produktivitas dan menciptakan aplikasi cerdas. Namun, banyak dari opsi LLM yang tersedia adalah model generik yang tidak dirancang khusus untuk kebutuhan perusahaan seperti analisis data, pengkodean, dan otomatisasi tugas. Masuklah ke Snowflake Arctic – sebuah model LLM terdepan yang dirancang dan dioptimalkan khusus untuk penggunaan perusahaan inti.
Dikembangkan oleh tim penelitian AI di Snowflake, Arctic mendorong batas kemungkinan dengan pelatihan yang efisien, biaya yang efektif, dan tingkat keterbukaan yang luar biasa. Model revolusioner ini unggul dalam benchmark perusahaan kunci sambil memerlukan daya komputasi yang jauh lebih sedikit dibandingkan dengan LLM yang ada. Mari kita jelajahi apa yang membuat Arctic menjadi permainan yang berubah untuk AI perusahaan.
Inteligensi Perusahaan Didefinisikan Ulang Pada intinya, Arctic berfokus pada memberikan kinerja luar biasa pada metrik yang benar-benar penting bagi perusahaan – pengkodean, kueri SQL, pengikutan instruksi yang kompleks, dan menghasilkan output yang berbasis fakta. Snowflake telah menggabungkan kemampuan kritis ini menjadi metrik “inteligensi perusahaan” yang baru.
Hasilnya berbicara untuk dirinya sendiri. Arctic memenuhi atau mengungguli model seperti LLAMA 7B dan LLAMA 70B pada benchmark inteligensi perusahaan sambil menggunakan kurang dari setengah anggaran komputasi untuk pelatihan. Mengesankan, meskipun menggunakan 17 kali lebih sedikit sumber daya komputasi daripada LLAMA 70B, Arctic mencapai kesetaraan pada tes khusus seperti pengkodean (HumanEval+, MBPP+), generasi SQL (Spider), dan pengikutan instruksi (IFEval).
Tapi kemampuan Arctic melampaui hanya mengalahkan benchmark perusahaan. Ini mempertahankan kinerja yang kuat di seluruh pemahaman bahasa umum, penalaran, dan kemampuan matematika dibandingkan dengan model yang dilatih dengan anggaran komputasi yang jauh lebih tinggi seperti DBRX. Kemampuan holistik ini membuat Arctic menjadi pilihan yang tak terkalahkan untuk mengatasi kebutuhan AI yang beragam dari sebuah perusahaan.
Inovasi
Dense-MoE Hybrid Transformer Bagaimana tim Snowflake membangun LLM yang sangat mampu dan efisien? Jawabannya terletak pada arsitektur Dense Mixture-of-Experts (MoE) Hybrid Transformer yang terdepan dari Arctic.
Model transformer yang padat tradisional menjadi semakin mahal untuk dilatih saat ukurannya tumbuh, dengan kebutuhan komputasi yang meningkat secara linear. Desain MoE membantu menghindari ini dengan menggunakan beberapa jaringan feed-forward paralel (ahli) dan hanya mengaktifkan subset untuk setiap token input.
Namun, hanya menggunakan arsitektur MoE tidak cukup – Arctic menggabungkan kekuatan dari komponen yang padat dan MoE dengan cerdas. Ini menggabungkan encoder transformer yang padat dengan 10 miliar parameter dengan lapisan MLP residual MoE dengan 128 ahli. Model hibrida dense-MoE ini memiliki total 480 miliar parameter tetapi hanya 17 miliar yang aktif pada waktu tertentu menggunakan gating top-2.
Implikasinya sangat mendalam – Arctic mencapai kualitas model dan kapasitas yang belum pernah terjadi sebelumnya sambil tetap sangat efisien dalam komputasi selama pelatihan dan inferensi. Misalnya, Arctic memiliki 50% parameter aktif yang lebih sedikit daripada model seperti DBRX selama inferensi.
Tapi arsitektur model hanya satu bagian dari cerita. Keunggulan Arctic adalah hasil dari beberapa teknik dan wawasan yang terdepan yang dikembangkan oleh tim penelitian Snowflake:
- Kurikulum Data Pelatihan yang Terfokus pada Perusahaan Melalui eksperimen yang luas, tim menemukan bahwa keterampilan generik seperti penalaran umum harus dipelajari lebih awal, sementara spesialisasi yang lebih kompleks seperti pengkodean dan SQL diperoleh lebih baik kemudian dalam proses pelatihan. Kurikulum data Arctic mengikuti pendekatan tiga tahap yang meniru kemajuan belajar manusia.
Teratoken pertama fokus pada membangun basis umum yang luas. Teratoken berikutnya 1,5 terfokus pada mengembangkan keterampilan perusahaan melalui data yang dirancang untuk SQL, tugas pengkodean, dan lainnya. Teratoken terakhir lebih memperhalus spesialisasi Arctic menggunakan dataset yang diperbarui.
- Pilihan Arsitektur yang Optimal Sementara MoE menjanjikan kualitas yang lebih baik per komputasi, memilih konfigurasi yang tepat sangat penting tetapi kurang dipahami. Melalui penelitian yang rinci, Snowflake mendarat pada arsitektur yang menggunakan 128 ahli dengan gating top-2 setiap lapisan setelah mengevaluasi perdagangan kualitas-efisiensi.
Meningkatkan jumlah ahli menyediakan lebih banyak kombinasi, meningkatkan kapasitas model. Namun, ini juga meningkatkan biaya komunikasi, sehingga Snowflake mendarat pada 128 ahli “terkondensasi” yang diaktifkan melalui gating top-2 sebagai keseimbangan optimal.
- Perancangan Sistem Bersama Tapi bahkan arsitektur model yang optimal dapat diancam oleh bottleneck sistem. Jadi tim Snowflake berinovasi di sini juga – merancang arsitektur model secara bersamaan dengan sistem pelatihan dan inferensi yang mendasarinya.
Untuk pelatihan yang efisien, komponen yang padat dan MoE dirancang untuk memungkinkan tumpang tindih komunikasi dan komputasi, menyembunyikan overhead komunikasi yang substansial. Pada sisi inferensi, tim memanfaatkan inovasi NVIDIA untuk memungkinkan penerapan yang sangat efisien meskipun skala Arctic.
Teknik seperti kuantisasi FP8 memungkinkan memasang model lengkap pada satu node GPU untuk inferensi interaktif. Batch yang lebih besar memanfaatkan kemampuan paralelisme Arctic di seluruh node sambil tetap sangat efisien dalam komputasi berkat parameter aktif yang kompak 17B.
Dengan lisensi Apache 2.0, bobot dan kode Arctic tersedia tanpa penghalang untuk penggunaan pribadi, penelitian, atau komersial. Tapi Snowflake telah melangkah lebih jauh, membuka sumber lengkap resep data, implementasi model, tips, dan wawasan penelitian yang mendalam yang memungkinkan Arctic.
“Buku Masak Arctic” adalah basis pengetahuan komprehensif yang mencakup setiap aspek membangun dan mengoptimalkan model MoE skala besar seperti Arctic. Ini menyaring pembelajaran kunci di seluruh sumber data, desain arsitektur model, perancangan sistem, skema pelatihan/inferensi yang dioptimalkan, dan banyak lagi.
Dari mengidentifikasi kurikulum data yang optimal hingga merancang MoE sambil mengoptimalkan kompilator, penjadwal, dan perangkat keras – basis pengetahuan ini yang luas mendemokratisasikan keterampilan yang sebelumnya terbatas pada laboratorium AI elit. Buku Masak Arctic mempercepat kurva belajar dan memberdayakan bisnis, peneliti, dan pengembang di seluruh dunia untuk menciptakan model LLM yang efektif biaya dan disesuaikan untuk hampir semua kasus penggunaan.
Memulai dengan Arctic
Untuk perusahaan yang ingin memanfaatkan Arctic, Snowflake menawarkan beberapa jalur untuk memulai dengan cepat:
Inferensi Tanpa Server: Pelanggan Snowflake dapat mengakses model Arctic secara gratis di Snowflake Cortex, platform AI yang sepenuhnya dikelola oleh perusahaan. Di luar itu, Arctic tersedia di semua katalog model utama seperti AWS, Microsoft Azure, NVIDIA, dan lainnya.
Mulai dari Awal: Bobot model dan implementasi sumber terbuka memungkinkan pengembang untuk langsung mengintegrasikan Arctic ke dalam aplikasi dan layanan mereka. Repositori Arctic menyediakan contoh kode, tutorial penerapan, resep fine-tuning, dan lainnya.
Membangun Model Kustom: Berkat panduan yang sangat lengkap dari Buku Masak Arctic, pengembang dapat membangun model MoE kustom mereka sendiri dari awal yang dioptimalkan untuk kasus penggunaan khusus menggunakan pembelajaran dari pengembangan Arctic.
Era Baru AI Perusahaan Terbuka Arctic lebih dari sekadar model bahasa yang kuat – ini menandai era baru kemampuan AI yang terbuka, efektif biaya, dan khusus yang dirancang khusus untuk perusahaan.
Dari merevolusi analisis data dan produktivitas pengkodean hingga memungkinkan otomatisasi tugas dan aplikasi yang lebih pintar, DNA perusahaan pertama Arctic membuatnya menjadi pilihan yang tak terkalahkan dibandingkan dengan LLM generik. Dan dengan membuka sumber tidak hanya model tetapi juga proses R&D di baliknya, Snowflake memupuk budaya kolaborasi yang akan meningkatkan seluruh ekosistem AI.
Ketika perusahaan semakin memadukan AI generatif, Arctic menawarkan cetakan biru yang berani untuk mengembangkan model yang secara objektif unggul untuk beban kerja produksi dan lingkungan perusahaan. Konvergensi penelitian terdepan, efisiensi yang tak tertandingi, dan etos keterbukaan yang teguh menetapkan standar baru dalam mendemokratisasikan potensi transformasional AI.
Berikut adalah bagian dengan contoh kode tentang cara menggunakan model Snowflake Arctic:
Hands-On dengan Arctic
Sekarang kita telah membahas apa yang membuat Arctic benar-benar revolusioner, mari kita jelajahi bagaimana pengembang dan ilmuwan data dapat mulai menggunakan model ini yang sangat kuat.
Out of the box, Arctic tersedia pra-dilatih dan siap diterapkan melalui pusat model utama seperti Hugging Face dan platform AI mitra. Tapi kekuatan sebenarnya muncul ketika mengkustomisasi dan fine-tuning untuk kasus penggunaan khusus.
Arctic memiliki lisensi Apache 2.0 yang memberikan kebebasan penuh untuk mengintegrasikannya ke dalam aplikasi, layanan, atau alur kerja AI kustom. Mari kita jalankan beberapa contoh kode menggunakan perpustakaan transformers untuk memulai:
Contoh Inferensi Dasar dengan Arctic
Untuk kasus penggunaan generasi teks dasar, kita dapat memuat Arctic dan menjalankan inferensi dasar dengan sangat mudah:
<p>from transformers import AutoTokenizer, AutoModelForCausalLM</p>
<p># Muat tokenizer dan model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")</p>
<p># Buat input sederhana dan generasikan teks
input_text = "Ini adalah pertanyaan dasar: Apa ibukota Perancis?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")</p>
<p># Generasikan respons dengan Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)</p>
print(generated_text)
Ini seharusnya mengeluarkan sesuatu seperti:
“Ibukota Perancis adalah Paris. Paris adalah kota terbesar di Perancis dan pusat ekonomi, politik, dan budaya negara ini. Ini adalah rumah bagi landmark terkenal seperti Menara Eiffel, museum Louvre, dan Katedral Notre-Dame.”
Kita dapat melihat bahwa Arctic dengan mudah memahami kueri dan memberikan respons yang terperinci dan berbasis fakta dengan menggunakan kemampuan pemahaman bahasa yang kuat.
Fine-tuning untuk Tugas Khusus
Sementara impresif out-of-the-box, Arctic benar-benar bersinar ketika dikustomisasi dan fine-tuned pada data khusus untuk tugas yang spesifik. Snowflake telah menyediakan resep yang sangat luas yang mencakup:
- Mengkurasi data pelatihan berkualitas tinggi yang dirancang untuk kasus penggunaan Anda
- Mengimplementasikan kurikulum pelatihan multi-tahap yang disesuaikan
- Memanfaatkan pendekatan fine-tuning LoRA, P-Tuning, atau FactorizedFusion yang efisien
- Optimasi untuk membedakan keterampilan SQL, pengkodean, atau keterampilan perusahaan kunci lainnya
Berikut adalah contoh tentang cara fine-tuning Arctic pada dataset pengkodean kustom menggunakan LoRA dan resep Snowflake:
<p>from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training</p>
<p># Muat model Arctic dasar
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)</p>
<p># Inisialisasi konfigurasi LoRA
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)</p>
<p># Siapkan model untuk fine-tuning LoRA
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)</p>
<p># Dataset pengkodean kustom
data = load_coding_datasets()</p>
<p># Fine-tune dengan resep Snowflake
train(model, data, ...)</p>
Contoh kode ini menggambarkan bagaimana Anda dapat dengan mudah memuat Arctic, menginisialisasi konfigurasi LoRA yang disesuaikan untuk generasi kode, dan kemudian fine-tuning model pada dataset pengkodean kustom menggunakan bimbingan Snowflake.
Dengan dikustomisasi dan fine-tuned, Arctic menjadi kekuatan pribadi yang disesuaikan untuk memberikan kinerja yang tak terkalahkan pada alur kerja dan kebutuhan pemangku kepentingan inti perusahaan.
Siklus Inovasi Arctic yang Cepat
Salah satu aspek paling mengesankan dari Arctic adalah kecepatan yang luar biasa di mana tim penelitian AI Snowflake merancang, mengembangkan, dan merilis model terdepan ini ke dunia. Dari konsepsi hingga rilis sumber terbuka, proyek Arctic seluruhnya memakan waktu kurang dari tiga bulan dan hanya menggunakan sekitar satu per delapan dari anggaran komputasi yang biasa untuk melatih model LLM besar yang serupa.
Kemampuan untuk berinovasi, mengembangkan, dan memproduksi penelitian AI terdepan dengan cepat benar-benar luar biasa. Ini menunjukkan kemampuan teknis yang mendalam dari Snowflake dan memposisikan perusahaan untuk terus mendorong batas-batas dalam mengembangkan kemampuan AI yang baru dan dioptimalkan untuk perusahaan.
Keluarga Arctic dan Embedding
Arctic hanyalah awal dari ambisi Snowflake di ruang LLM perusahaan. Perusahaan telah membuka sumber keluarga model embedding teks terdepan yang dioptimalkan untuk kinerja pengambilan di berbagai profil ukuran.
Seperti yang ditunjukkan di bawah, model Embedding Arctic mencapai akurasi pengambilan terdepan pada benchmark MTEB (pengambilan teks) yang dihormati, mengungguli model embedding lainnya termasuk penawaran tertutup dari raksasa teknologi utama.
[Sisipkan gambar yang menunjukkan hasil benchmark pengambilan MTEB untuk model Embedding Arctic]
Model embedding ini melengkapi LLM Arctic dan memungkinkan perusahaan membangun solusi pertanyaan-jawaban dan generasi yang ditingkatkan dengan pengambilan yang kuat dari tumpukan sumber terbuka yang terintegrasi.
Tapi jalan Snowflake meluas jauh melampaui Arctic dan embedding. Peneliti AI perusahaan sedang mengerjakan perluasan keluarga Arctic dengan model baru yang dirancang untuk tugas multi-modal, ucapan, video, dan kemampuan frontier lainnya – semuanya dibangun menggunakan prinsip spesialisasi, efisiensi, dan keterbukaan.
Mitra untuk Ekosistem AI Terbuka Snowflake memahami bahwa mewujudkan potensi penuh AI perusahaan terbuka memerlukan mengembangkan ekosistem kemitraan yang kaya di seluruh komunitas AI. Rilis Arctic telah menggalvanisir kolaborasi dengan platform dan penyedia utama:
NVIDIA telah bermitra erat dengan Snowflake untuk mengoptimalkan Arctic untuk penerapan yang efisien menggunakan tumpukan inferensi AI terdepan NVIDIA, termasuk TensorRT, Triton, dan lainnya. Ini memungkinkan perusahaan untuk melayani Arctic dengan biaya yang efektif.
Hugging Face, pusat model sumber terbuka yang terkemuka, telah menyambut Arctic ke dalam perpustakaan dan repositori modelnya. Ini memungkinkan integrasi yang mulus dari Arctic ke dalam alur kerja dan aplikasi AI yang ada berbasis Hugging Face.
Platform seperti Replicate, SageMaker, dan lainnya telah bergerak cepat untuk menawarkan demo yang dihosting, API, dan jalur integrasi yang mulus untuk Arctic, mempercepat adopsinya.
Sumber terbuka memandu pengembangan Arctic, dan ekosistem terbuka tetap sentral bagi evolusinya. Snowflake berkomitmen untuk memupuk kolaborasi yang kaya dengan peneliti, pengembang, mitra, dan perusahaan di seluruh dunia untuk mendorong batas-batas apa yang mungkin dilakukan dengan model AI terbuka dan khusus.












