Rekayasa prompt

Pelatihan Embedding Teks yang Ditingkatkan dengan Model Bahasa Besar

Published January 11, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Embedding teks adalah representasi vektor dari kata, kalimat, paragraf, atau dokumen yang menangkap makna semantiknya. Mereka berfungsi sebagai blok bangunan inti dalam banyak aplikasi pemrosesan bahasa alami (NLP) saat ini, termasuk pengambilan informasi, menjawab pertanyaan, pencarian semantik, dan lain-lain.

vector embedding

Kemajuan terbaru dalam model bahasa besar (LLM) seperti GPT-3 telah menunjukkan kemampuan yang mengesankan dalam pembelajaran beberapa contoh dan generasi bahasa alami. Bisakah kita memanfaatkan LLM untuk juga meningkatkan keadaan embedding teks? Dalam makalah mereka “Meningkatkan Embedding Teks dengan Model Bahasa Besar“, peneliti dari Microsoft mengusulkan metode baru yang mencapai hasil yang unggul dengan menghasilkan data pelatihan sintetis dengan LLM dan fine-tuning pada itu.

Tantangan dengan Metode yang Ada

Teknik embedding teks tradisional seperti rata-rata terbobot dari vektor kata atau TF-IDF gagal menangkap informasi kontekstual yang kaya dalam teks. Metode yang lebih baru berdasarkan model bahasa pra-terlatih seperti BERT mendapatkan embedding kontekstual yang jauh lebih baik.

Namun, mereka memerlukan pipa pelatihan multi-tahap yang kompleks:

Pelatihan pra-pada miliaran pasangan teks lemah atau buatan
Fine-tuning pada dataset yang terbatas dan dibuat dengan tangan

Ini membutuhkan sumber daya komputasi yang besar dan upaya manusia untuk pengumpulan data. Data pelatihan juga terbatas dalam keanekaragaman dan cakupan bahasa. Misalnya, benchmark BEIR terdiri dari dataset untuk hanya 15 tugas pengambilan dalam bahasa Inggris.

Metode yang ada sebagian besar menggunakan arsitektur BERT yang lebih kecil sebagai model inti. Mereka tidak dapat memanfaatkan LLM yang lebih maju dan teknik terkait.

Metodologi: Pembuatan Data Sintetis dengan LLM

Untuk mengatasi keterbatasan ini, peneliti mengusulkan pendekatan pelatihan satu tahap yang memanfaatkan LLM seperti GPT-3 dan GPT-4 untuk menghasilkan data pelatihan sintetis yang beragam.

Langkah-langkah kunci adalah:

Taksonomi Tugas: Definisikan taksonomi yang mengategorikan tugas embedding teks menjadi:
- Tugas asimetris (kueri dan dokumen tidak merupakan paraphrase, misalnya pencarian)
- Tugas simetris (kueri dan dokumen merupakan paraphrase, misalnya kesamaan semantik)
Desain Prompt: Buat template prompt yang disesuaikan dengan setiap jenis tugas yang memandu LLM untuk menghasilkan contoh pelatihan yang relevan.
Pembuatan Data Sintetis: Berikan prompt kepada LLM dengan prompt yang dirancang untuk menghasilkan ratusan ribu pasangan (kueri, dokumen) yang mencakup berbagai tugas semantik dalam 93 bahasa.
Pelatihan Model: Fine-tuning model LLM sumber terbuka yang kuat seperti Mistral pada data sintetis menggunakan kerugian kontrastif.

Metodologi ini memungkinkan pembuatan data pelatihan yang cukup untuk tugas yang beragam dalam banyak bahasa tanpa upaya pelabelan manusia. Dengan memanfaatkan pengetahuan yang sudah tertanam dalam LLM melalui pra-pelatihan pada korpus skala web, kita dapat mensintesis data yang berkualitas tinggi yang tepat untuk embedding teks.

Peneliti mendemonstrasikan ini dengan strategi prompting 2-tahap:

Berikan prompt kepada GPT-4 untuk menyarankan tugas pengambilan potensial

Prompt untuk menghasilkan tugas pengambilan tingkat tinggi

Berikan prompt lagi untuk menghasilkan contoh (kueri, dokumen) berdasarkan tugas yang disarankan

n generate (kueri, positif, negatif keras) triplet

Beberapa aspek kunci dari desain prompt:

Prompt bahasa alami untuk instruksi yang intuitif seperti manusia
Placeholder untuk mendorong keanekaragaman (misalnya panjang kueri, kejelasan, panjang dokumen)
Menggabungkan data dari beberapa template untuk jenis tugas yang sama
Mengatur bobot bahasa berdasarkan ketersediaan sumber daya

Totalnya, mereka dapat menghasilkan 500k contoh embedding teks dengan biaya komputasi 180M token. Bahasa dominan adalah Inggris (43%) diikuti oleh Polandia, Jepang, Italia, dan lain-lain.

Untuk pelatihan model, mereka memilih fine-tuning model Mistral sumber terbuka 7B parameter daripada arsitektur BERT yang lebih kecil. Karena Mistral sudah pra-terlatih pada korpus teks skala web, tidak diperlukan pra-pelatihan kontrastif tambahan. Menambahkannya memberikan perbaikan yang tidak signifikan.

Seluruh proses fine-tuning membutuhkan kurang dari 1k langkah, menggunakan campuran data sintetis dan pelatihan berlabel manusia. Ini menunjukkan efisiensi sampel dari pendekatan yang diusulkan.

Hasil

Peneliti mengevaluasi model mereka pada benchmark MTEB, yang mencakup tugas yang beragam dalam klasifikasi, clustering, kesamaan semantik, ringkasan, dan pengambilan informasi.

Model mereka mengungguli hasil sebelumnya dengan 2,4 poin dalam skor rata-rata, memecahkan rekor untuk hampir setiap kategori:

Model	Sebelumnya SOTA	Model yang Diusulkan
Klasifikasi	76,0	78,5
Clustering	46,1	50,3
Klasifikasi Berpasangan	87,1	88,3
Pengurutan Ulang	60,0	60,2
Pengambilan	54,3	56,9
STS	83,1	84,6
Ringkasan	31,6	31,4
Rata-rata	64,2	66,6

Hal yang menakjubkan adalah bahwa bahkan tanpa menggunakan data berlabel dan hanya berlatih pada data sintetis, mereka mencapai akurasi yang kompetitif – hanya 3,5 poin di belakang model yang sepenuhnya terawasi. Ini menunjukkan viabilitas menghasilkan embedding teks hanya dengan menggunakan LLM, tanpa upaya pelabelan manusia.

Peneliti juga mengevaluasi pada benchmark MIRACL multibahasa yang mencakup 18 bahasa. Model mereka mengungguli hasil terbaik sebelumnya pada bahasa dengan sumber daya yang banyak, tetapi lebih lemah pada bahasa dengan sumber daya yang sedikit. Mereka menghipotesiskan bahwa ini dapat dimitigasi dengan pra-pelatihan LLM lebih ekstensif pada bahasa dengan sumber daya yang sedikit.

Secara keseluruhan, embedding teks yang dilatih pada data sintetis yang dihasilkan oleh LLM memecahkan hasil terbaik sebelumnya, sambil menggunakan pelatihan yang lebih sederhana dan efisien dibandingkan dengan pendekatan multi-tahap sebelumnya. Dengan penelitian lebih lanjut tentang teknik prompt dan kualitas data sintetis, metodologi ini dapat secara signifikan meningkatkan embedding teks multibahasa.

Analisis

Karya ini menawarkan beberapa kesimpulan yang berharga:

LLM seperti GPT-3 dan GPT-4 memiliki kemampuan mengesankan untuk menghasilkan data pelatihan sintetis yang berkualitas tinggi untuk tugas NLP yang beragam ketika diprompt dengan tepat. Ini dapat mengurangi ketergantungan pada data berlabel manusia.
Untuk embedding teks, pra-pelatihan kontrastif memberikan perbaikan yang tidak signifikan dibandingkan dengan hanya fine-tuning model seperti Mistral yang sudah memiliki pra-pelatihan skala triliun. Ini adalah wawasan penting tentang efisiensi pelatihan.
Metode generasi yang ditingkatkan dengan pengambilan memungkinkan LLM untuk mengakses pengetahuan eksternal secara dinamis. Oleh karena itu, meningkatkan embedding teks sangat berharga untuk meningkatkan LLM ini.
Masih ada ruang yang signifikan untuk perbaikan pada bahasa dengan sumber daya yang sedikit. LLM multibahasa yang pra-terlatih pada data yang lebih representatif dapat membantu menutup kesenjangan ini.
Konsepnya, pemodelan bahasa dan embedding teks adalah dua sisi dari mata uang yang sama – memahami semantik bahasa. Dengan prompting data sintetis, LLM dapat secara alami difine-tuning menjadi embedder tanpa pipa yang kompleks.

Beberapa arah yang menjanjikan untuk pekerjaan masa depan termasuk:

Memanfaatkan LLM sumber terbuka seperti GPT-NeoX untuk menghasilkan data sintetis
Mengexplorasi post-pelatihan ringan untuk menyesuaikan embedder dengan konteks yang lebih panjang
Pengembangan teknik prompt engineering untuk mengontrol kualitas dan cakupan tugas
Metode untuk meningkatkan latency inferensi dan biaya penyimpanan untuk penggunaan industri

Di luar mengungguli benchmark, menggunakan model bahasa besar untuk meningkatkan embedding teks membuka kemungkinan yang menarik untuk masa depan. Ketika LLM terus maju dalam penguasaan bahasa alami, kemampuan mereka untuk menghasilkan data sintetis yang berkualitas tinggi kemungkinan akan meningkat juga.

Namun, arah penelitian kritis masih ada untuk menerjemahkan potensi ini menjadi dampak dunia nyata.

Kustomisasi dan Kontrol

Keuntungan utama dari data sintetis adalah kemampuan untuk menghasilkan contoh yang diprogram secara spesifik untuk kebutuhan tertentu. Seperti yang ditunjukkan dalam makalah, teknik prompt engineering memungkinkan pembuatan data pelatihan untuk ratusan ribu tugas embedding.

Namun, praktik desain prompt saat ini masih lebih seperti seni daripada ilmu. Mengembangkan metode yang sistematis dan dapat direproduksi untuk mengontrol sifat data yang dihasilkan dengan tepat akan memperluas kemampuan teknik ini.

Misalnya, teknik untuk memodulasi faktor seperti kompleksitas, ketidakjelasan, dan kebaruan contoh dapat membantu mengatasi masalah kekuatan dalam tugas hilir. Generasi prompt dinamis untuk mencocokkan distribusi dunia nyata yang berkembang adalah tantangan terbuka lainnya.

Pelatihan pada Skala Besar

Sementara LLM pra-terlatih sudah mengkodekan pengetahuan linguistik yang substansial, kemampuan mereka untuk menghasilkan data sintetis kemungkinan akan ditingkatkan lebih lanjut dengan skala tambahan. Model seperti GPT-4 yang dilatih pada triliun token teks internet menunjukkan kemampuan pembelajaran beberapa contoh yang kuat, tetapi belum dioptimalkan secara khusus untuk menghasilkan data pelatihan.

Arsitektur dan tujuan yang dirancang untuk memulai pembuatan data mandiri pada skala web dapat secara signifikan meningkatkan kualitas dan efisiensi metodologi ini. Integrasi efisien dari pengetahuan yang diperoleh untuk melengkapi pengetahuan yang dipelajari adalah arah yang menjanjikan lainnya.

Multitugas dan Multibahasa

Seperti yang dicatat dalam makalah, meningkatkan kinerja pada bahasa dengan sumber daya yang sedikit masih menjadi masalah. Sebagai alternatif dari pra-pelatihan satu LLM besar, satu pilihan adalah melatih armada model ahli yang lebih kecil yang mengkhususkan diri dalam domain bahasa atau modalitas data tertentu.

Pendekatan ensemble seperti ini dapat membantu meningkatkan cakupan atas tugas dan bahasa yang jarang dengan berbagi representasi yang dipelajari di seluruh ahli. Pembelajaran berkelanjutan untuk memperluas keahlian bahasa dan tugas dari waktu ke waktu adalah prospek yang menarik.

Dalam kesimpulan, makalah ini memperkenalkan konsep inovatif tentang mensintesis data pelatihan dari LLM untuk membuat embedding teks yang performant. Hasil mereka menunjukkan efektivitas metodologi ini, mengungguli benchmark sebelumnya. Ketika LLM dan teknik data sintetis berkembang, memanfaatkan pengetahuan mereka untuk melatih embedder dapat menjadi arah yang sangat menjanjikan.

Related Topics:GPT-4 LLM microsoft text embeddings

Aayush Mittal

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.