Kecerdasan Buatan

Snowflake Arctic: LLM Mutakhir untuk AI Perusahaan

Diterbitkan

minggu 2 lalu

25 April, 2024

Snowflake Arctic: LLM Mutakhir untuk AI Perusahaan

Perusahaan-perusahaan saat ini semakin mencari cara untuk memanfaatkan model bahasa besar (LLM) untuk meningkatkan produktivitas dan menciptakan aplikasi cerdas. Namun, banyak opsi LLM yang tersedia adalah model umum yang tidak dirancang untuk kebutuhan khusus perusahaan seperti analisis data, pengkodean, dan otomatisasi tugas. Memasuki Kepingan salju Arktik – LLM canggih yang sengaja dirancang dan dioptimalkan untuk kasus penggunaan perusahaan inti.

Dikembangkan oleh tim peneliti AI di Snowflake, Arctic mendobrak batasan yang mungkin dicapai melalui pelatihan yang efisien, efektivitas biaya, dan tingkat keterbukaan yang tiada tandingannya. Model revolusioner ini unggul dalam tolok ukur utama perusahaan dan memerlukan daya komputasi yang jauh lebih sedikit dibandingkan dengan LLM yang ada. Mari selami apa yang menjadikan Arktik sebagai terobosan baru bagi AI perusahaan.

Kecerdasan Perusahaan Didefinisikan Ulang Pada intinya, Arctic berfokus pada memberikan kinerja luar biasa pada metrik yang benar-benar penting bagi perusahaan – pengkodean, kueri SQL, mengikuti instruksi yang kompleks, dan menghasilkan keluaran yang berdasarkan fakta. Snowflake telah menggabungkan kemampuan penting ini menjadi sebuah novel “intelijen perusahaan” metrik.

Hasilnya berbicara sendiri. Arctic memenuhi atau mengungguli model seperti LLAMA 7B dan LLAMA 70B pada tolok ukur intelijen perusahaan dengan menggunakan kurang dari setengah anggaran komputasi untuk pelatihan. Hebatnya, meski memanfaatkan Sumber daya komputasi 17 kali lebih sedikit dibandingkan LLAMA 70B, Arctic mencapai paritas pada pengujian khusus seperti pengkodean (HumanEval+, MBPP+), pembuatan SQL (Spider), dan mengikuti instruksi (IFEval).

Namun kehebatan Arctic lebih dari sekadar melampaui standar perusahaan. Model ini mempertahankan performa yang kuat dalam pemahaman bahasa umum, penalaran, dan kemampuan matematika dibandingkan dengan model yang dilatih dengan anggaran komputasi yang jauh lebih tinggi seperti DBRX. Kemampuan holistik ini menjadikan Arctic pilihan yang tidak ada duanya untuk mengatasi beragam kebutuhan AI suatu perusahaan.

Inovasi

Transformator Hibrid Padat-MoE Jadi bagaimana tim Snowflake membangun LLM yang sangat mumpuni namun efisien? Jawabannya terletak pada arsitektur Transformator Hibrid Dense Mixture-of-Experts (MoE) yang mutakhir di Arktik.

Model trafo padat tradisional menjadi semakin mahal untuk dilatih seiring bertambahnya ukuran, dengan kebutuhan komputasi yang meningkat secara linear. Desain MoE membantu menghindari hal ini dengan memanfaatkan beberapa jaringan feed-forward paralel (ahli) dan hanya mengaktifkan subset untuk setiap token masukan.

Namun, menggunakan arsitektur MoE saja tidak cukup – Arktik menggabungkan kekuatan komponen padat dan MoE dengan cerdik. Ini memasangkan encoder transformator padat 10 miliar parameter dengan lapisan multi-layer perceptron (MLP) sisa 128 ahli. Model hibrida MoE padat ini memiliki total 480 miliar parameter tetapi hanya 17 miliar yang aktif pada waktu tertentu menggunakan gerbang 2 teratas.

Implikasinya sangat besar – Arctic mencapai kualitas dan kapasitas model yang belum pernah terjadi sebelumnya, namun tetap sangat efisien dalam komputasi selama pelatihan dan inferensi. Misalnya, Arctic memiliki parameter aktif 50% lebih sedikit dibandingkan model seperti DBRX selama inferensi.

Namun arsitektur model hanyalah satu bagian dari cerita. Keunggulan Arktik adalah puncak dari beberapa teknik dan wawasan perintis yang dikembangkan oleh tim peneliti Snowflake:

Kurikulum Data Pelatihan yang Berfokus pada Perusahaan Melalui eksperimen ekstensif, tim menemukan bahwa keterampilan umum seperti penalaran yang masuk akal harus dipelajari sejak dini, sementara spesialisasi yang lebih kompleks seperti pengkodean dan SQL sebaiknya diperoleh kemudian dalam proses pelatihan. Kurikulum data Arctic mengikuti pendekatan tiga tahap yang meniru kemajuan pembelajaran manusia.

Teratoken pertama berfokus pada membangun basis umum yang luas. 1.5 teratoken berikutnya berkonsentrasi pada pengembangan keterampilan perusahaan melalui data yang disesuaikan untuk SQL, tugas pengkodean, dan banyak lagi. Teratoken terakhir semakin menyempurnakan spesialisasi Arktik menggunakan kumpulan data yang disempurnakan.

Pilihan Arsitektur yang Optimal Meskipun MoE menjanjikan kualitas per komputasi yang lebih baik, memilih konfigurasi yang tepat sangatlah penting namun masih kurang dipahami. Melalui penelitian mendetail, Snowflake mendapatkan arsitektur yang mempekerjakan 128 ahli dengan gerbang 2 teratas di setiap lapisan setelah mengevaluasi pengorbanan kualitas-efisiensi.

Peningkatan jumlah pakar akan menghasilkan lebih banyak kombinasi, sehingga meningkatkan kapasitas model. Namun, hal ini juga meningkatkan biaya komunikasi, sehingga Snowflake mendaratkan 128 pakar “kondensasi” yang dirancang dengan cermat dan diaktifkan melalui gerbang 2 teratas sebagai keseimbangan optimal.

Desain Bersama Sistem Namun arsitektur model yang optimal pun dapat dirusak oleh hambatan sistem. Jadi tim Snowflake juga berinovasi di sini – merancang arsitektur model bersama-sama dengan sistem pelatihan dan inferensi yang mendasarinya.

Untuk pelatihan yang efisien, komponen padat dan MoE disusun untuk memungkinkan komunikasi dan komputasi yang tumpang tindih, sehingga menyembunyikan overhead komunikasi yang besar. Di sisi inferensi, tim memanfaatkan inovasi NVIDIA untuk memungkinkan penerapan yang sangat efisien meskipun berskala Arktik.

Teknik seperti kuantisasi FP8 memungkinkan pemasangan model lengkap pada satu node GPU untuk inferensi interaktif. Batch yang lebih besar menggunakan kemampuan paralelisme Arctic di beberapa node namun tetap efisien dalam komputasi berkat parameter aktif 17B yang ringkas.

Dengan lisensi Apache 2.0, bobot dan kode Arctic tersedia tanpa batas untuk penggunaan pribadi, penelitian, atau komersial apa pun. Namun Snowflake telah melangkah lebih jauh, dengan menjadikan resep data lengkap, implementasi model, tips, dan wawasan penelitian mendalam menjadi sumber terbuka yang mendukung Arktik.

The "Buku Masak Arktik” adalah basis pengetahuan komprehensif yang mencakup setiap aspek dalam membangun dan mengoptimalkan model Kementerian Lingkungan Hidup berskala besar seperti Arktik. Ini menyaring pembelajaran utama di seluruh sumber data, desain arsitektur model, desain bersama sistem, skema pelatihan/inferensi yang dioptimalkan, dan banyak lagi.

Mulai dari mengidentifikasi kurikulum data yang optimal hingga merancang MoE sambil mengoptimalkan kompiler, penjadwal, dan perangkat keras – kumpulan pengetahuan yang luas ini mendemokratisasikan keterampilan yang sebelumnya hanya terbatas pada laboratorium AI elit. Arctic Cookbook mempercepat kurva pembelajaran dan memberdayakan bisnis, peneliti, dan pengembang secara global untuk menciptakan LLM mereka sendiri yang hemat biaya dan disesuaikan untuk hampir semua kasus penggunaan.

Memulai dengan Arktik

Bagi perusahaan yang ingin memanfaatkan Arktik, Snowflake menawarkan berbagai cara untuk memulai dengan cepat:

Inferensi Tanpa Server: Pelanggan Snowflake dapat mengakses model Arktik secara gratis di Snowflake Cortex, platform AI yang dikelola sepenuhnya oleh perusahaan. Selain itu, Arctic tersedia di semua katalog model utama seperti AWS, Microsoft Azure, NVIDIA, dan banyak lagi.

Mulai dari Awal: Bobot dan implementasi model sumber terbuka memungkinkan pengembang untuk mengintegrasikan Arctic secara langsung ke dalam aplikasi dan layanan mereka. Repo Arktik menyediakan contoh kode, tutorial penerapan, resep penyesuaian, dan banyak lagi.

Membangun Model Kustom: Berkat panduan lengkap Arctic Cookbook, pengembang dapat membuat model MoE kustom mereka sendiri dari awal yang dioptimalkan untuk kasus penggunaan khusus apa pun menggunakan pembelajaran dari pengembangan Arctic.

Era Baru AI Perusahaan Terbuka Arktik lebih dari sekadar model bahasa canggih – ini menandai era baru kemampuan AI yang terbuka, hemat biaya, dan terspesialisasi yang dibuat khusus untuk perusahaan.

Dari merevolusi analisis data dan produktivitas pengkodean hingga mendukung otomatisasi tugas dan aplikasi yang lebih cerdas, DNA Arctic yang mengutamakan perusahaan menjadikannya pilihan yang tidak ada duanya dibandingkan LLM generik. Dan dengan melakukan open source tidak hanya pada modelnya namun juga seluruh proses penelitian dan pengembangan di baliknya, Snowflake memupuk budaya kolaborasi yang akan meningkatkan keseluruhan ekosistem AI.

Ketika perusahaan semakin banyak menggunakan AI generatif, Arctic menawarkan cetak biru yang berani untuk mengembangkan model yang secara obyektif unggul untuk beban kerja produksi dan lingkungan perusahaan. Perpaduan antara penelitian mutakhir, efisiensi tak tertandingi, dan etos terbuka yang teguh menetapkan tolok ukur baru dalam mendemokratisasi potensi transformatif AI.

Berikut bagian dengan contoh kode tentang cara menggunakan model Snowflake Arctic:

Praktek Langsung dengan Arktik

Setelah kita membahas hal-hal yang menjadikan Arktik benar-benar inovatif, mari selami bagaimana pengembang dan ilmuwan data dapat mulai menerapkan model pembangkit tenaga listrik ini.
Secara langsung, Arctic sudah terlatih dan siap diterapkan melalui pusat model utama seperti Hugging Face dan platform AI mitra. Namun kekuatan sebenarnya muncul saat menyesuaikan dan menyempurnakannya untuk kasus penggunaan spesifik Anda.

Lisensi Apache 2.0 Arctic memberikan kebebasan penuh untuk mengintegrasikannya ke dalam aplikasi, layanan, atau alur kerja AI kustom Anda. Mari kita lihat beberapa contoh kode menggunakan pustaka transformator untuk membantu Anda memulai:
Inferensi Dasar dengan Arktik

Untuk kasus penggunaan pembuatan teks cepat, kita dapat memuat Arctic dan menjalankan inferensi dasar dengan sangat mudah:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Ini akan menghasilkan sesuatu seperti:

“Ibukota Perancis adalah Paris. Paris adalah kota terbesar di Perancis dan pusat ekonomi, politik dan budaya negara tersebut. Ini adalah rumah bagi landmark terkenal seperti Menara Eiffel, museum Louvre, dan Katedral Notre-Dame.”

Seperti yang Anda lihat, Arctic memahami kueri dengan lancar dan memberikan respons yang mendetail dan membumi dengan memanfaatkan kemampuan pemahaman bahasanya yang kuat.

Penyempurnaan untuk Tugas Khusus

Meskipun sangat mengesankan, Arctic benar-benar bersinar ketika data milik Anda disesuaikan dan disesuaikan untuk tugas-tugas khusus. Snowflake telah menyediakan banyak resep yang meliputi:

Mengkurasi data pelatihan berkualitas tinggi yang disesuaikan untuk kasus penggunaan Anda
Menerapkan kurikulum pelatihan multi-tahap yang disesuaikan
Memanfaatkan pendekatan penyempurnaan LoRA, P-Tuning, atau FactorizedFusion yang efisien
Pengoptimalan untuk memahami SQL, pengkodean, atau keterampilan perusahaan penting lainnya

Berikut ini contoh cara menyempurnakan Arktik pada kumpulan data pengkodean Anda sendiri menggunakan resep LoRA dan Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Kode ini mengilustrasikan bagaimana Anda dapat dengan mudah memuat Arctic, menginisialisasi konfigurasi LoRA yang disesuaikan untuk pembuatan kode, dan kemudian menyempurnakan model pada kumpulan data pengkodean milik Anda dengan memanfaatkan panduan Snowflake.

Disesuaikan dan disempurnakan, Arctic menjadi pembangkit tenaga listrik swasta yang dirancang untuk memberikan kinerja tak tertandingi pada alur kerja inti perusahaan Anda dan kebutuhan pemangku kepentingan.

Siklus Inovasi Cepat Arktik

Salah satu aspek yang paling mengesankan dari Arktik adalah kecepatan tinggi tim peneliti AI Snowflake dalam menyusun, mengembangkan, dan merilis model mutakhir ini ke seluruh dunia. Dari awal hingga rilis sumber terbuka, seluruh proyek Arktik memakan waktu kurang dari tiga bulan dan hanya memanfaatkan sekitar seperdelapan anggaran komputasi yang umumnya digunakan untuk melatih model bahasa besar serupa.

Kemampuan untuk mengulangi, berinovasi, dan menghasilkan penelitian AI yang canggih dengan cepat sungguh luar biasa. Hal ini menunjukkan kemampuan teknis Snowflake yang mendalam dan memposisikan perusahaan untuk terus mendorong batasan dalam mengembangkan kemampuan AI baru yang dioptimalkan untuk perusahaan.

Keluarga Arktik dan penyematannya

Arktik hanyalah awal dari ambisi Snowflake di bidang perusahaan LLM. Perusahaan ini telah menjadikan rangkaian model penyematan teks terkemuka di industri Snowflake Arctic Embed menjadi sumber terbuka yang dioptimalkan untuk kinerja pengambilan di berbagai profil ukuran.

Seperti yang diilustrasikan di bawah, model Arctic Embed mencapai akurasi pengambilan yang canggih pada tolok ukur MTEB (pengambilan teks), mengungguli model penyematan terkemuka lainnya termasuk penawaran tertutup dari raksasa teknologi besar.

[Masukkan gambar yang menunjukkan hasil benchmark pengambilan MTEB untuk model Arctic Embed]

Model penyematan ini melengkapi LLM Arktik dan memungkinkan perusahaan membangun solusi pembangkitan penjawab pertanyaan dan pengambilan yang ditambah dari tumpukan sumber terbuka yang terintegrasi.

Namun peta jalan Snowflake tidak hanya mencakup Arktik dan wilayah embeddings. Para peneliti AI di perusahaan ini bekerja keras memperluas keluarga Arktik dengan model-model baru yang disesuaikan untuk tugas-tugas multi-modal, ucapan, video, dan kemampuan-kemampuan yang lebih canggih – semuanya dibangun menggunakan prinsip-prinsip spesialisasi, efisiensi, dan keterbukaan yang sama.

Bermitra untuk ekosistem AI terbuka Snowflake memahami bahwa mewujudkan potensi penuh AI terbuka tingkat perusahaan memerlukan pengembangan ekosistem kemitraan yang kaya di seluruh komunitas AI. Rilisan Arctic telah mendorong kolaborasi dengan platform dan penyedia utama:

NVIDIA telah bermitra erat dengan Snowflake untuk mengoptimalkan Arktik untuk penerapan yang efisien menggunakan tumpukan inferensi AI mutakhir NVIDIA termasuk TensorRT, Triton, dan banyak lagi. Hal ini memungkinkan perusahaan untuk melayani Arktik dalam skala besar dengan biaya yang efektif.

Hugging Face, pusat model sumber terbuka terkemuka, telah menyambut Arktik ke dalam perpustakaan dan repositori modelnya. Hal ini memungkinkan integrasi Arctic ke dalam alur kerja dan aplikasi AI berbasis Hugging Face yang sudah ada.

Platform seperti Replikasi, SageMaker, dan lainnya telah bergerak cepat untuk menawarkan demo yang dihosting, API, dan jalur integrasi yang lancar untuk Arktik, sehingga mempercepat penerapannya.

Sumber terbuka mengarahkan perkembangan Arktik, dan ekosistem terbuka tetap menjadi pusat evolusinya. Snowflake berkomitmen untuk membina kolaborasi yang kaya dengan para peneliti, pengembang, mitra, dan perusahaan secara global untuk mendorong batasan tentang apa yang mungkin dilakukan dengan model AI yang terbuka dan terspesialisasi.

Topik-topik terkait:penelitian AI Arktik Usaha LLM Campuran Ahli Kepingan salju transformator

Berikutnya

Mini-Gemini: Menambang Potensi Model Bahasa Visi Multi-modalitas

Jangan Miss

AIOS: Sistem Operasi untuk Agen LLM

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.