Kecerdasan buatan

Snowflake Arctic: Model LLM Terdepan untuk AI Perusahaan

Published April 25, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Perusahaan saat ini semakin banyak menjelajahi cara untuk memanfaatkan model bahasa besar (LLM) untuk meningkatkan produktivitas dan menciptakan aplikasi cerdas. Namun, banyak dari opsi LLM yang tersedia adalah model generik yang tidak dirancang untuk kebutuhan perusahaan khusus seperti analisis data, pengkodean, dan otomatisasi tugas. Masuklah Snowflake Arctic – model LLM terdepan yang dirancang dan dioptimalkan untuk kasus penggunaan inti perusahaan.

Dikembangkan oleh tim penelitian AI di Snowflake, Arctic mendorong batas apa yang mungkin dilakukan dengan pelatihan yang efisien, biaya yang efektif, dan tingkat keterbukaan yang tak tertandingi. Model revolusioner ini unggul dalam benchmark perusahaan kunci sambil memerlukan daya komputasi yang jauh lebih sedikit dibandingkan dengan LLM yang ada. Mari kita jelajahi apa yang membuat Arctic menjadi permainan yang berubah untuk AI perusahaan.

Inteligensi Perusahaan Didefinisikan Ulang Pada intinya, Arctic berfokus pada menyampaikan kinerja luar biasa pada metrik yang benar-benar penting untuk perusahaan – pengkodean, pengqueryan SQL, mengikuti instruksi yang kompleks, dan menghasilkan output yang berbasis fakta. Snowflake telah menggabungkan kemampuan kritis ini menjadi metrik “inteligensi perusahaan” yang baru.

Hasilnya berbicara untuk dirinya sendiri. Arctic memenuhi atau mengungguli model seperti LLAMA 7B dan LLAMA 70B pada benchmark inteligensi perusahaan sambil menggunakan kurang dari setengah anggaran komputasi untuk pelatihan. Mengesankan, meskipun menggunakan 17 kali lebih sedikit sumber daya komputasi daripada LLAMA 70B, Arctic mencapai kesetaraan pada tes khusus seperti pengkodean (HumanEval+, MBPP+), generasi SQL (Spider), dan mengikuti instruksi (IFEval).

Tapi kehebatan Arctic melampaui hanya mengalahkan benchmark perusahaan. Ini mempertahankan kinerja yang kuat di seluruh pemahaman bahasa umum, penalaran, dan kemampuan matematika dibandingkan dengan model yang dilatih dengan anggaran komputasi yang jauh lebih tinggi seperti DBRX. Kemampuan holistik ini membuat Arctic menjadi pilihan yang tak terkalahkan untuk menangani kebutuhan AI yang beragam dari sebuah perusahaan.

Inovasi

Dense-MoE Hybrid Transformer Bagaimana tim Snowflake membangun LLM yang sangat mampu namun efisien? Jawabannya terletak pada arsitektur Dense Mixture-of-Experts (MoE) Hybrid Transformer Arctic.

Model transformer yang padat tradisional menjadi semakin mahal untuk dilatih saat ukurannya tumbuh, dengan persyaratan komputasi yang meningkat secara linear. Desain MoE membantu menghindari ini dengan menggunakan beberapa jaringan feed-forward paralel (ahli) dan hanya mengaktifkan subset untuk setiap token input.

Namun, hanya menggunakan arsitektur MoE tidak cukup – Arctic menggabungkan kekuatan dari komponen yang padat dan MoE dengan cerdas. Ini menggabungkan encoder transformer yang padat dengan 10 miliar parameter dengan lapisan MoE residual multi-layer perceptron (MLP) dengan 128 ahli. Model hibrida ini memiliki total 480 miliar parameter tetapi hanya 17 miliar yang aktif pada waktu tertentu menggunakan top-2 gating.

Implikasinya sangat mendalam – Arctic mencapai kualitas model dan kapasitas yang belum pernah terjadi sebelumnya sambil tetap sangat efisien dalam komputasi selama pelatihan dan inferensi. Misalnya, Arctic memiliki 50% fewer parameter aktif daripada model seperti DBRX selama inferensi.

Tapi arsitektur model hanya satu bagian dari cerita. Keunggulan Arctic adalah hasil dari beberapa teknik dan wawasan perintis yang dikembangkan oleh tim penelitian Snowflake:

Kurikulum Data yang Berfokus pada Perusahaan Melalui eksperimen yang luas, tim menemukan bahwa keterampilan umum seperti penalaran umum sebaiknya dipelajari awal, sementara spesialisasi yang lebih kompleks seperti pengkodean dan SQL lebih baik diperoleh kemudian dalam proses pelatihan. Kurikulum data Arctic mengikuti pendekatan tiga tahap yang meniru kemajuan belajar manusia.

Teratoken pertama fokus pada membangun basis umum yang luas. 1,5 teratoken berikutnya berkonsentrasi pada mengembangkan keterampilan perusahaan melalui data yang dirancang untuk SQL, tugas pengkodean, dan lainnya. Teratoken terakhir lebih memperhalus spesialisasi Arctic menggunakan dataset yang dirancang.

Pilihan Arsitektur yang Optimal Sementara MoE menjanjikan kualitas yang lebih baik per komputasi, memilih konfigurasi yang tepat sangat penting tetapi kurang dipahami. Melalui penelitian yang rinci, Snowflake mendarat pada arsitektur yang menggunakan 128 ahli dengan top-2 gating setiap lapisan setelah mengevaluasi perdagangan kualitas-efisiensi.

Meningkatkan jumlah ahli menyediakan lebih banyak kombinasi, meningkatkan kapasitas model. Namun, ini juga meningkatkan biaya komunikasi, sehingga Snowflake mendarat pada 128 ahli yang dirancang dengan hati-hati yang diaktifkan melalui top-2 gating sebagai keseimbangan optimal.

Desain Sistem Bersama Tapi bahkan arsitektur model yang optimal dapat diancam oleh bottleneck sistem. Jadi tim Snowflake berinovasi di sini juga – merancang arsitektur model secara bersamaan dengan sistem pelatihan dan inferensi yang mendasarinya.

Untuk pelatihan yang efisien, komponen yang padat dan MoE dirancang untuk memungkinkan tumpang tindih komunikasi dan komputasi, menyembunyikan overhead komunikasi yang substansial. Pada sisi inferensi, tim memanfaatkan inovasi NVIDIA untuk memungkinkan penerapan yang sangat efisien meskipun skala Arctic.

Teknik seperti kuantisasi FP8 memungkinkan memasang model lengkap pada satu node GPU untuk inferensi interaktif. Batch yang lebih besar mengaktifkan kemampuan paralelisme Arctic di seluruh node sambil tetap sangat efisien dalam komputasi berkat parameter aktif yang kompak 17B.

Dengan lisensi Apache 2.0, bobot dan kode Arctic tersedia tanpa gate untuk penggunaan pribadi, penelitian, atau komersial. Tapi Snowflake telah melangkah lebih jauh, membuka sumber lengkap resep data, implementasi model, tips, dan wawasan penelitian yang mendalam yang memungkinkan Arctic.

“Arctic Cookbook” adalah basis pengetahuan komprehensif yang mencakup setiap aspek membangun dan mengoptimalkan model MoE besar seperti Arctic. Ini menyaring pengetahuan kunci di seluruh sumber data, desain arsitektur model, desain sistem, skema pelatihan/inferensi yang dioptimalkan, dan lainnya.

Dari mengidentifikasi kurikulum data yang optimal hingga merancang MoE sambil mengoptimalkan compiler, scheduler, dan perangkat keras – basis pengetahuan yang luas ini mendemokratisasikan keterampilan yang sebelumnya terbatas pada laboratorium AI elit. Arctic Cookbook mempercepat kurva belajar dan memberdayakan bisnis, peneliti, dan pengembang di seluruh dunia untuk menciptakan model LLM yang efektif biaya dan disesuaikan untuk hampir semua kasus penggunaan.

Memulai dengan Arctic

Untuk perusahaan yang ingin memanfaatkan Arctic, Snowflake menawarkan beberapa jalur untuk memulai dengan cepat:

Inferensi Serverless: Pelanggan Snowflake dapat mengakses model Arctic secara gratis di Snowflake Cortex, platform AI yang sepenuhnya dikelola oleh perusahaan. Di luar itu, Arctic tersedia di seluruh katalog model utama seperti AWS, Microsoft Azure, NVIDIA, dan lainnya.

Mulai dari Awal: Bobot model dan implementasi sumber terbuka memungkinkan pengembang untuk langsung mengintegrasikan Arctic ke dalam aplikasi dan layanan mereka. Repositori Arctic menyediakan contoh kode, tutorial penerapan, resep penyetelan, dan lainnya.

Membangun Model Kustom: Berkat panduan yang sangat rinci dari Arctic Cookbook, pengembang dapat membangun model MoE kustom mereka sendiri dari awal yang dioptimalkan untuk kasus penggunaan khusus menggunakan pembelajaran dari pengembangan Arctic.

Era Baru AI Perusahaan Terbuka Arctic lebih dari sekadar model bahasa yang kuat – ini menandai era baru kemampuan AI yang terbuka, efektif biaya, dan disesuaikan untuk perusahaan.

Dari merevolusi analisis data dan produktivitas pengkodean hingga memberdayakan otomatisasi tugas dan aplikasi yang lebih pintar, DNA perusahaan Arctic membuatnya menjadi pilihan yang tak terkalahkan dibandingkan dengan LLM generik. Dan dengan membuka sumber tidak hanya model tetapi juga proses R&D di baliknya, Snowflake memupuk budaya kolaborasi yang akan meningkatkan seluruh ekosistem AI.

Ketika perusahaan semakin memeluk AI generatif, Arctic menawarkan cetakan biru yang berani untuk mengembangkan model yang secara objektif superior untuk beban kerja produksi dan lingkungan perusahaan. Konvergensi penelitian terdepan, efisiensi yang tak tertandingi, dan etos keterbukaan yang teguh menetapkan standar baru dalam mendemokratisasikan potensi transformasional AI.

Sebagai perusahaan semakin memanfaatkan AI, Arctic menawarkan kemampuan yang kuat untuk memenuhi kebutuhan perusahaan yang beragam, dari analisis data hingga pengembangan aplikasi yang lebih pintar.

Hands-On dengan Arctic

Sekarang kita telah membahas apa yang membuat Arctic benar-benar revolusioner, mari kita jelajahi bagaimana pengembang dan ilmuwan data dapat mulai menggunakan model ini yang kuat.
Keluar dari kotak, Arctic tersedia pra-dilatih dan siap diterapkan melalui pusat model utama seperti Hugging Face dan platform AI mitra. Tapi kekuatan sebenarnya muncul ketika mengkustomisasi dan menyetelnya untuk kasus penggunaan khusus Anda.

Bobot Arctic dan kode tersedia dengan lisensi Apache 2.0, memberikan kebebasan penuh untuk mengintegrasikannya ke dalam aplikasi, layanan, atau alur kerja AI kustom. Mari kita jalankan contoh kode menggunakan perpustakaan transformers untuk memulai:
Inferensi Dasar dengan Arctic

Untuk kasus penggunaan generasi teks cepat, kita dapat memuat Arctic dan menjalankan inferensi dasar dengan sangat mudah:


from transformers import AutoTokenizer, AutoModelForCausalLM

# Muat tokenizer dan model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")

# Buat input sederhana dan generasikan teks
input_text = "Berikut adalah pertanyaan dasar: Apa ibukota Perancis?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Generasikan respons dengan Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

Ini seharusnya mengeluarkan sesuatu seperti:

“Ibukota Perancis adalah Paris. Paris adalah kota terbesar di Perancis dan pusat ekonomi, politik, dan budaya negara ini. Ini adalah rumah bagi landmark terkenal seperti Menara Eiffel, museum Louvre, dan Katedral Notre-Dame.”

Seperti yang Anda lihat, Arctic dengan mudah memahami kueri dan menyediakan respons yang terperinci, berbasis fakta, dengan menggunakan kemampuan pemahaman bahasa yang kuat.

Penyetelan untuk Tugas Khusus

Sementara impresif langsung dari kotak, Arctic benar-benar bersinar ketika dikustomisasi dan disesuaikan pada dataset khusus Anda untuk tugas yang spesifik. Snowflake telah menyediakan resep yang luas yang mencakup:

Mengkurasi data pelatihan berkualitas tinggi yang dirancang untuk kasus penggunaan Anda
Mengimplementasikan kurikulum pelatihan multi-tahap yang disesuaikan
Memanfaatkan pendekatan penyetelan LoRA, P-Tuning, atau FactorizedFusion yang efisien
Optimasi untuk keterampilan perusahaan kunci seperti SQL, pengkodean, atau lainnya

Berikut adalah contoh tentang bagaimana menyetel Arctic pada dataset pengkodean kustom Anda menggunakan LoRA dan resep Snowflake:


from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training

# Muat model Arctic dasar
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)

# Inisialisasi konfigurasi LoRA
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# Siapkan model untuk penyetelan LoRA
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)

# Dataset pengkodean Anda
data = load_coding_datasets()

# Penyetelan dengan resep Snowflake
train(model, data, ...)

Kode ini mengilustrasikan bagaimana Anda dapat dengan mudah memuat Arctic, menginisialisasi konfigurasi LoRA yang disesuaikan untuk generasi kode, dan kemudian menyetel model pada dataset pengkodean kustom Anda dengan menggunakan panduan Snowflake.

Dengan dikustomisasi dan disesuaikan, Arctic menjadi kekuatan pribadi yang disesuaikan untuk menghasilkan kinerja yang tak terkalahkan pada alur kerja perusahaan inti dan kebutuhan pemangku kepentingan.

Siklus Inovasi Arctic yang Cepat

Salah satu aspek paling mengesankan dari Arctic adalah kecepatan luar biasa di mana tim penelitian AI Snowflake merancang, mengembangkan, dan merilis model ini yang terdepan ke dunia. Dari konsepsi hingga rilis sumber terbuka, proyek Arctic seluruhnya memakan waktu kurang dari tiga bulan dan menggunakan hanya sekitar seperdelapan dari anggaran komputasi yang biasa untuk melatih model LLM besar yang serupa.

Kemampuan untuk berinovasi, mengembangkan, dan memproduksikan penelitian AI terdepan dengan cepat benar-benar luar biasa. Ini menunjukkan kemampuan teknis yang mendalam dari Snowflake dan memposisikan perusahaan untuk terus mendorong batas dalam mengembangkan kemampuan AI yang baru dan dioptimalkan untuk perusahaan.

Keluarga Arctic dan Embedding

Arctic hanyalah awal dari ambisi Snowflake di ruang LLM perusahaan. Perusahaan telah membuka sumber keluarga model embedding teks terdepan, Snowflake Arctic Embed, yang dioptimalkan untuk kinerja pengambilan di berbagai profil ukuran.

Seperti yang ditunjukkan di bawah, model embedding Arctic mencapai akurasi pengambilan terdepan pada benchmark MTEB (pengambilan teks) yang dihormati, mengungguli model embedding lain yang terkemuka, termasuk penawaran tertutup dari raksasa teknologi utama.

[Sisipkan gambar yang menunjukkan hasil benchmark MTEB untuk model embedding Arctic]

Model embedding ini melengkapi LLM Arctic dan memungkinkan perusahaan membangun solusi pertanyaan-jawaban dan generasi yang ditingkatkan yang kuat dari tumpukan sumber terbuka yang terintegrasi.

Tapi jalan Snowflake melampaui hanya Arctic dan embedding. Peneliti AI perusahaan saat ini bekerja pada memperluas keluarga Arctic dengan model baru yang disesuaikan untuk tugas multi-modal, ucapan, video, dan kemampuan perintis lainnya – semua dibangun menggunakan prinsip spesialisasi, efisiensi, dan keterbukaan yang sama.

Mitra untuk Ekosistem AI Terbuka Snowflake memahami bahwa mewujudkan potensi penuh AI perusahaan terbuka memerlukan mengembangkan ekosistem kaya mitra di seluruh komunitas AI. Rilis Arctic telah menggalvanisir kolaborasi dengan platform dan penyedia utama:

NVIDIA telah bermitra erat dengan Snowflake untuk mengoptimalkan Arctic untuk penerapan yang efisien menggunakan tumpukan inferensi AI NVIDIA yang canggih, termasuk TensorRT, Triton, dan lainnya. Ini memungkinkan perusahaan untuk melayani Arctic dengan skala yang efektif biaya.

Hugging Face, pusat model sumber terbuka terkemuka, telah menyambut Arctic ke dalam perpustakaan dan repositori modelnya. Ini memungkinkan integrasi yang mudah dari Arctic ke dalam alur kerja AI yang ada dan aplikasi berbasis Hugging Face.

Platform seperti Replicate, SageMaker, dan lainnya telah bergerak cepat untuk menawarkan demo yang dihosting, API, dan jalur integrasi yang lancar untuk Arctic, mempercepat adopsinya.

Sumber terbuka memandu pengembangan Arctic, dan ekosistem terbuka tetap sentral untuk evolusinya. Snowflake berkomitmen untuk memupuk kolaborasi yang kaya dengan peneliti, pengembang, mitra, dan perusahaan di seluruh dunia untuk mendorong batas apa yang mungkin dilakukan dengan model AI terbuka yang disesuaikan.

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.