Kecerdasan buatan

Membangun Jembatan antara Model Bahasa Besar dan Bisnis: LLMops

Diterbitkan 16 Oktober 2023

Diperbarui 22 Mei 2026

Oleh

Aayush Mittal Mittal

Dasar dari LLM seperti GPT-3 atau penerusnya GPT-4 terletak pada pembelajaran dalam, sebuah subset dari AI, yang memanfaatkan jaringan saraf dengan tiga lapisan atau lebih. Model-model ini dilatih pada dataset yang luas yang mencakup spektrum teks internet yang luas. Melalui pelatihan, LLM belajar untuk memprediksi kata berikutnya dalam sebuah urutan, diberikan kata-kata yang telah datang sebelumnya. Kemampuan ini, sederhana dalam esensinya, membentuk kemampuan LLM untuk menghasilkan teks yang koheren, relevan dengan konteks, dan berkelanjutan.

Potensi aplikasinya tidak terbatas – dari menggambar email, membuat kode, menjawab pertanyaan, hingga menulis kreatif. Namun, dengan kekuatan besar datang tanggung jawab besar, dan mengelola model-model raksasa ini dalam pengaturan produksi tidaklah trivial. Inilah di mana LLMOps masuk, mempersonifikasikan serangkaian praktik terbaik, alat, dan proses untuk memastikan operasi LLM yang dapat diandalkan, aman, dan efisien.

Jalan menuju integrasi LLM memiliki tiga rute utama:

Menggunakan LLM Umum:
- Model seperti ChatGPT dan Bard menawarkan ambang batas yang rendah untuk adopsi dengan biaya awal minimal, meskipun dengan potensi tagihan dalam jangka panjang.
- Namun, bayangan privasi data dan keamanan muncul, terutama untuk sektor seperti Fintech dan Kesehatan dengan kerangka regulasi yang ketat.
Menghaluskan LLM Umum:
- Dengan model sumber terbuka seperti Llama, Falcon, dan Mistral, organisasi dapat menyesuaikan LLM ini untuk sesuai dengan kasus penggunaan spesifik mereka dengan hanya biaya sumber daya penghalusan model.
- Rute ini, sambil mengatasi kekhawatiran privasi dan keamanan, memerlukan pemilihan model yang lebih mendalam, persiapan data, penghalusan, penerapan, dan pemantauan.
- Sifat siklis dari rute ini memerlukan keterlibatan berkelanjutan, namun inovasi baru seperti LoRA (Low-Rank Adaptation) dan Q(Quantized)-LoRa telah menyederhanakan proses penghalusan, membuatnya menjadi pilihan yang semakin populer.
Pelatihan LLM Kustom:
- Mengembangkan LLM dari awal menjanjikan akurasi yang tidak tertandingi yang disesuaikan dengan tugas yang diberikan. Namun, persyaratan yang curam dalam keahlian AI, sumber daya komputasi, data luas, dan investasi waktu memunculkan hambatan signifikan.

Di antara ketiga, penghalusan LLM umum adalah pilihan yang paling menguntungkan bagi perusahaan. Membuat model dasar baru dapat menelan biaya hingga $100 juta, sedangkan menghaluskan model yang ada berkisar antara $100 ribu hingga $1 juta. Angka-angka ini berasal dari biaya komputasi, akuisisi dan pelabelan data, serta pengeluaran rekayasa dan R&D.

LLMOps versus MLOps

Operasi pembelajaran mesin (MLOps) telah mapan, menawarkan jalur terstruktur untuk mengalihkan model pembelajaran mesin (ML) dari pengembangan ke produksi. Namun, dengan munculnya Model Bahasa Besar (LLM), paradigma operasional baru, yang disebut LLMOps, telah muncul untuk menangani tantangan unik yang terkait dengan penerapan dan pengelolaan LLM. Perbedaan antara LLMOps dan MLOps ada pada beberapa faktor:

Sumber Daya Komputasi:
- LLM memerlukan kekuatan komputasi yang substansial untuk pelatihan dan penghalusan, sering memerlukan perangkat keras khusus seperti GPU untuk mempercepat operasi data-paralel.
- Biaya inferensi lebih lanjut menekankan pentingnya teknik kompresi model dan destilasi untuk mengurangi biaya komputasi.
Pembelajaran Transfer:
- Tidak seperti model ML konvensional yang sering dilatih dari awal, LLM sangat bergantung pada pembelajaran transfer, dimulai dari model pra-dilatih dan menghaluskan untuk tugas domain spesifik.
- Pendekatan ini menghemat data dan sumber daya komputasi sambil mencapai kinerja yang sangat baik.
Lingkaran Umpan Balik Manusia:
- Peningkatan iteratif LLM sangat dipengaruhi oleh pembelajaran penguatan dari umpan balik manusia (RLHF).
- Mengintegrasikan lingkaran umpan balik dalam pipa LLMOps tidak hanya memudahkan evaluasi tetapi juga memicu proses penghalusan.
Pengaturan Hyperparameter:
- Sementara ML klasik menekankan peningkatan akurasi melalui pengaturan hyperparameter, di arena LLM, fokus juga mencakup pengurangan tuntutan komputasi.
- Mengatur parameter seperti ukuran batch dan laju pembelajaran dapat secara signifikan mengubah kecepatan pelatihan dan biaya.
Metrik Kinerja:
- Model ML tradisional mematuhi metrik kinerja yang terdefinisi dengan baik seperti akurasi, AUC, atau skor F1, sedangkan LLM memiliki set metrik yang berbeda seperti BLEU dan ROUGE.
- BLEU dan ROUGE adalah metrik yang digunakan untuk mengevaluasi kualitas terjemahan mesin dan ringkasan. BLEU terutama digunakan untuk tugas terjemahan mesin, sedangkan ROUGE digunakan untuk tugas ringkasan teks.
- BLEU mengukur presisi, atau seberapa banyak kata-kata dalam ringkasan yang dihasilkan mesin muncul dalam ringkasan referensi manusia. ROUGE mengukur recall, atau seberapa banyak kata-kata dalam ringkasan referensi manusia muncul dalam ringkasan yang dihasilkan mesin.
Pengaturan Prompt:
- Mengatur prompt yang tepat sangat penting untuk menghasilkan respons yang akurat dan dapat diandalkan dari LLM, mengurangi risiko seperti halusinasi model dan peretasan prompt.
Pembangunan Pipa LLM:
- Alat seperti LangChain atau LlamaIndex memungkinkan perakitan pipa LLM, yang menggabungkan beberapa panggilan LLM atau interaksi sistem eksternal untuk tugas kompleks seperti Q&A basis pengetahuan.

https://www.fiddler.ai/llmops

Mengenal Alur Kerja LLMOps: Analisis Mendalam

Operasi Model Bahasa, atau LLMOps, mirip dengan tulang punggung operasional dari model bahasa besar, memastikan fungsi dan integrasi yang lancar di berbagai aplikasi. Sementara tampaknya sebagai varian dari MLOps atau DevOps, LLMOps memiliki nuansa unik yang memenuhi kebutuhan model bahasa besar. Mari kita jelajahi alur kerja LLMOps yang digambarkan dalam ilustrasi, menjelajahi setiap tahap secara komprehensif.

Data Pelatihan:
- Esensi dari model bahasa terletak pada data pelatihannya. Langkah ini melibatkan pengumpulan dataset, memastikan mereka dibersihkan, seimbang, dan dianotasi dengan tepat. Kualitas dan keragaman data secara signifikan mempengaruhi akurasi dan keluwesan model. Dalam LLMOps, penekanan tidak hanya pada volume tetapi juga pada keselarasan dengan kasus penggunaan yang diinginkan.
Model Dasar Sumber Terbuka:
- Ilustrasi merujuk pada “Model Dasar Sumber Terbuka,” sebuah model pra-dilatih yang sering dirilis oleh entitas AI terkemuka. Model-model ini, dilatih pada dataset besar, berfungsi sebagai awal yang sangat baik, menghemat waktu dan sumber daya, memungkinkan penghalusan untuk tugas spesifik daripada melatih dari awal.
Pelatihan / Penghalusan:
- Dengan model dasar dan data pelatihan spesifik, penghalusan dilakukan. Langkah ini menghaluskan model untuk tujuan khusus, seperti menghaluskan model teks umum dengan literatur medis untuk aplikasi kesehatan. Dalam LLMOps, penghalusan yang ketat dengan pemeriksaan konsisten sangat penting untuk mencegah overfitting dan memastikan generalisasi yang baik ke data yang tidak terlihat.
Model Terlatih:
- Setelah penghalusan, model terlatih yang siap untuk diterapkan muncul. Model ini, versi yang ditingkatkan dari model dasar, sekarang disesuaikan untuk aplikasi tertentu. Ini bisa bersifat sumber terbuka, dengan bobot dan arsitektur yang dapat diakses publik, atau bersifat propietary, disimpan secara pribadi oleh organisasi.
Terapkan:
- Penerapan melibatkan integrasi model ke dalam lingkungan langsung untuk pemrosesan kueri dunia nyata. Ini melibatkan keputusan tentang hosting, baik on-premises maupun pada platform cloud. Dalam LLMOps, pertimbangan seputar latency, biaya komputasi, dan aksesibilitas sangat penting, bersama dengan memastikan model berskala dengan baik untuk banyak permintaan simultan.
Prompt:
- Dalam model bahasa, prompt adalah input kueri atau pernyataan. Membuat prompt yang efektif, sering memerlukan pemahaman perilaku model, sangat penting untuk menghasilkan output yang diinginkan ketika model memproses prompt ini.
Penyimpanan Embedding atau Basis Data Vektor:
- Setelah pemrosesan, model mungkin mengembalikan lebih dari sekedar respons teks. Aplikasi lanjutan mungkin memerlukan embedding – vektor berdimensi tinggi yang mewakili konten semantik. Embedding ini dapat disimpan atau ditawarkan sebagai layanan, memungkinkan pengambilan atau perbandingan informasi semantik yang cepat, memperkaya cara kemampuan model dimanfaatkan di luar generasi teks biasa.
Model Terterapkan (Self-hosted atau API):
- Setelah diproses, output model siap. Tergantung pada strategi, output dapat diakses melalui antarmuka self-hosted atau API, dengan yang pertama menawarkan lebih banyak kontrol kepada organisasi host, dan yang terakhir menyediakan skalabilitas dan integrasi yang mudah bagi pengembang pihak ketiga.
Output:
- Tahap ini menghasilkan hasil nyata dari alur kerja. Model mengambil prompt, memprosesnya, dan mengembalikan output, yang tergantung pada aplikasi, bisa berupa blok teks, jawaban, cerita yang dihasilkan, atau bahkan embedding seperti yang dibahas.

Start-up LLM Teratas

Lanskap Operasi Model Bahasa Besar (LLMOps) telah menyaksikan munculnya platform dan start-up khusus. Berikut adalah dua start-up/platform dan deskripsi mereka yang terkait dengan ruang LLMOps:

Comet

Comet menyederhanakan siklus hidup pembelajaran mesin, khususnya untuk pengembangan model bahasa besar. Ini menyediakan fasilitas untuk melacak eksperimen dan mengelola model produksi. Platform ini cocok untuk tim perusahaan besar, menawarkan berbagai strategi penerapan termasuk setup private cloud, hybrid, dan on-premise.

Dify

Dify adalah platform LLMOps sumber terbuka yang membantu dalam pengembangan aplikasi AI menggunakan model bahasa besar seperti GPT-4. Ini menampilkan antarmuka yang ramah pengguna dan menyediakan akses model yang mudah, embedding konteks, kontrol biaya, dan kemampuan anotasi data. Pengguna dapat dengan mudah mengelola model mereka secara visual dan menggunakan dokumen, konten web, atau catatan Notion sebagai konteks AI, yang Dify tangani untuk praproses dan operasi lainnya.

Portkey.ai

Portkey.ai adalah start-up India yang mengkhususkan diri dalam operasi model bahasa (LLMOps). Dengan pendanaan awal sebesar $3 juta yang dipimpin oleh Lightspeed Venture Partners, Portkey.ai menawarkan integrasi dengan model bahasa besar signifikan seperti yang dari OpenAI dan Anthropic. Layanan mereka ditujukan untuk perusahaan AI generatif, fokus pada meningkatkan tumpukan operasi LLM mereka yang mencakup pengujian canary waktu nyata dan kemampuan penghalusan model.

Aayush Mittal, Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah memimpin saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.

Unite.AI

Membangun Jembatan antara Model Bahasa Besar dan Bisnis: LLMops

LLMOps versus MLOps

Start-up LLM Teratas

You may like