Rekayasa prompt

Pelatihan Embedding Teks yang Ditingkatkan dengan Model Bahasa Besar

Diterbitkan 11 Januari 2024

Diperbarui 22 Mei 2026

Oleh

Aayush Mittal Mittal

Embedding teks adalah representasi vektor dari kata, kalimat, paragraf, atau dokumen yang menangkap makna semantiknya. Mereka berfungsi sebagai blok bangunan inti dalam banyak aplikasi pemrosesan bahasa alami (NLP) saat ini, termasuk pengambilan informasi, pertanyaan dan jawaban, pencarian semantik, dan lain-lain.

vector embedding

Kemajuan terbaru dalam model bahasa besar (LLM) seperti GPT-3 telah menunjukkan kemampuan yang mengesankan dalam pembelajaran beberapa contoh dan generasi bahasa alami. Apakah kita dapat memanfaatkan LLM untuk juga meningkatkan keadaan embedding teks? Dalam makalah mereka “Meningkatkan Embedding Teks dengan Model Bahasa Besar“, peneliti dari Microsoft mengusulkan metode baru yang mencapai hasil yang unggul dengan menghasilkan data pelatihan sintetis dengan LLM dan fine-tuning pada itu.

Tantangan dengan Metode yang Ada

Teknik embedding teks tradisional seperti rata-rata terbobot dari vektor kata atau TF-IDF gagal menangkap informasi kontekstual yang kaya dalam teks. Metode yang lebih baru berdasarkan model bahasa pra-terlatih seperti BERT mendapatkan embedding yang lebih baik yang sadar konteks.

Namun, mereka memerlukan pipa pelatihan multi-tahap yang kompleks:

Pra-terlatih pada miliaran pasangan teks lemah atau buatan
Fine-tuning pada dataset yang terbatas dan diatur oleh manusia

Ini memerlukan sumber daya komputasi yang besar dan upaya manusia untuk pengumpulan data. Data pelatihan juga terbatas dalam keanekaragaman dan cakupan bahasa. Misalnya, benchmark BEIR terdiri dari dataset untuk hanya 15 tugas pengambilan dalam bahasa Inggris.

Metode yang ada sebagian besar menggunakan arsitektur BERT yang lebih kecil sebagai model inti. Mereka tidak dapat memanfaatkan LLM yang lebih maju dan teknik terkait.

Metodologi: Generasi Data Sintetis dengan LLM

Untuk mengatasi keterbatasan ini, peneliti mengusulkan pendekatan pelatihan tunggal yang memanfaatkan LLM seperti GPT-3 dan GPT-4 untuk menghasilkan data pelatihan sintetis yang beragam.

Langkah-langkah kunci adalah:

Taksonomi Tugas: Definisikan taksonomi yang mengategorikan tugas embedding teks menjadi:
- Tugas asimetris (kueri dan dokumen tidak merupakan paraphrase, misalnya pencarian)
- Tugas simetris (kueri dan dokumen merupakan paraphrase, misalnya kesamaan semantik)
Desain Prompt: Buat template prompt yang disesuaikan dengan setiap jenis tugas yang memandu LLM untuk menghasilkan contoh pelatihan yang relevan.
Generasi Data Sintetis: Berikan prompt kepada LLM dengan prompt yang dirancang untuk menghasilkan ratusan ribu pasangan (kueri, dokumen) yang mencakup berbagai tugas semantik dalam 93 bahasa.
Pelatihan Model: Fine-tuning model LLM terbuka seperti Mistral pada data sintetis menggunakan kerugian kontrastif.

Metodologi ini memungkinkan pembuatan data pelatihan yang cukup untuk tugas yang beragam dalam banyak bahasa tanpa upaya pelabelan manusia. Dengan memanfaatkan pengetahuan yang sudah tertanam dalam LLM melalui pra-terlatih pada korpus skala web, kita dapat mensintesis data berkualitas tinggi yang tepat untuk embedding teks.

Peneliti mendemonstrasikan ini dengan strategi prompting 2-langkah:

Berikan prompt kepada GPT-4 untuk menyarankan tugas pengambilan potensial

Prompt untuk menghasilkan tugas pengambilan tingkat tinggi

Berikan prompt lagi untuk menghasilkan contoh (kueri, dokumen) berdasarkan tugas yang disarankan

n generate (kueri, positif, negatif keras) triplet

Beberapa aspek kunci dari desain prompt:

Prompt bahasa alami untuk instruksi yang intuitif dan manusiawi
Placeholder untuk mendorong keanekaragaman (misalnya panjang kueri, kejelasan, panjang dokumen)
Menggabungkan data dari beberapa template untuk jenis tugas yang sama
Mengatur bobot bahasa berdasarkan ketersediaan sumber daya

Secara total, mereka dapat menghasilkan 500k contoh embedding teks dengan biaya komputasi 180M token. Bahasa dominan adalah Inggris (43%) diikuti oleh Polandia, Jepang, Italia, dan lain-lain.

Untuk pelatihan model, mereka memilih fine-tuning model Mistral terbuka 7B parameter sebagai gantinya menggunakan arsitektur BERT yang lebih kecil. Karena Mistral sudah pra-terlatih pada korpus skala web, tidak diperlukan pra-terlatih kontrastif tambahan. Menambahkannya memberikan perbaikan yang tidak signifikan.

Seluruh proses fine-tuning memakan waktu kurang dari 1k langkah, menggunakan campuran data sintetis dan label manusia. Ini menunjukkan efisiensi sampel dari pendekatan yang diusulkan.

Hasil

Peneliti mengevaluasi model mereka pada benchmark MTEB, yang mencakup tugas yang beragam dalam klasifikasi, clustering, kesamaan semantik, ringkasan, dan pengambilan informasi.

Model mereka melampaui state-of-the-art sebelumnya sebesar 2,4 poin dalam skor rata-rata, membangun rekor baru untuk hampir setiap kategori:

Model	Sebelumnya SOTA	Model yang Diusulkan
Klasifikasi	76,0	78,5
Clustering	46,1	50,3
Klasifikasi Berpasangan	87,1	88,3
Reranking	60,0	60,2
Pengambilan	54,3	56,9
STS	83,1	84,6
Ringkasan	31,6	31,4
Rata-rata	64,2	66,6

Secara mengesankan, bahkan tanpa menggunakan data label dan hanya berlatih pada data sintetis, model ini mencapai akurasi yang kompetitif – hanya 3,5 poin di belakang model yang sepenuhnya terawasi. Ini menunjukkan viabilitas menghasilkan embedding teks hanya menggunakan LLM, tanpa upaya pelabelan manusia.

Peneliti juga mengevaluasi pada benchmark MIRACL multibahasa yang mencakup 18 bahasa. Model mereka melampaui yang terbaik sebelumnya pada bahasa dengan sumber daya yang banyak, tetapi lebih lemah pada bahasa dengan sumber daya yang sedikit. Mereka menghipotesiskan bahwa ini bisa dimitigasi dengan pra-terlatih LLM lebih ekstensif pada bahasa dengan sumber daya yang sedikit.

Secara keseluruhan, embedding teks yang dilatih pada data sintetis yang dihasilkan oleh LLM membangun hasil state-of-the-art baru, sementara menggunakan pelatihan yang lebih sederhana dan efisien dibandingkan dengan pendekatan multi-tahap sebelumnya. Dengan penelitian lebih lanjut dalam teknik prompt dan kualitas data sintetis, metodologi ini bisa sangat meningkatkan embedding teks multibahasa.

Analisis

Karya ini menawarkan beberapa kesimpulan yang berharga:

LLM seperti GPT-3 dan GPT-4 memiliki kemampuan yang mengesankan untuk menghasilkan data pelatihan sintetis yang berkualitas tinggi untuk tugas NLP yang beragam ketika diprompt dengan tepat. Ini dapat mengurangi ketergantungan pada data yang dilabeli oleh manusia.
Untuk embedding teks, pra-terlatih kontrastif memberikan perbaikan yang tidak signifikan dibandingkan dengan hanya fine-tuning model seperti Mistral yang sudah pra-terlatih pada korpus skala web. Ini adalah wawasan penting tentang efisiensi pelatihan.
Metode generasi yang ditingkatkan dengan pengambilan memberikan LLM akses dinamis ke pengetahuan eksternal. Oleh karena itu, meningkatkan embedding teks sangat berharga untuk meningkatkan LLM ini.
Masih ada ruang yang signifikan untuk perbaikan dalam bahasa dengan sumber daya yang sedikit. LLM multibahasa yang pra-terlatih pada data yang lebih representatif bisa membantu menutup kesenjangan ini.
Konsepnya, pemodelan bahasa dan embedding teks adalah dua sisi dari mata uang yang sama – memahami semantik bahasa. Dengan prompting data sintetis, LLM dapat dioptimalkan menjadi embedder tanpa pipa yang kompleks.

Beberapa arah yang menjanjikan untuk penelitian lebih lanjut termasuk:

Memanfaatkan LLM terbuka seperti GPT-NeoX untuk menghasilkan data sintetis
Mengexplorasi post-pelatihan ringan untuk menyesuaikan embedder dengan konteks yang lebih panjang
Pengembangan teknik prompt untuk mengontrol kualitas dan cakupan tugas
Metode untuk meningkatkan latency inferensi dan biaya penyimpanan untuk penggunaan industri

Melampaui pencapaian benchmark, menggunakan LLM besar untuk meningkatkan embedding teks membuka kemungkinan menarik untuk masa depan. Ketika LLM terus meningkat dalam penguasaan bahasa alami, kemampuan mereka untuk menghasilkan data sintetis yang berkualitas tinggi kemungkinan akan meningkat juga.

Namun, arah penelitian kritis masih tersisa untuk menerjemahkan potensi ini menjadi dampak dunia nyata.

Kustomisasi dan Kontrol

Keuntungan utama dari data sintetis adalah kemampuan untuk menghasilkan contoh yang diprogram secara terstruktur untuk kebutuhan khusus. Seperti yang dibuktikan dalam makalah, desain prompt memungkinkan pembuatan data pelatihan untuk ratusan ribu tugas embedding.

Namun, praktik desain prompt saat ini masih lebih seperti seni daripada ilmu. Mengembangkan metode yang sistematis dan dapat diulang untuk mengontrol sifat data yang dihasilkan dengan tepat akan memperluas kemampuan teknik ini.

Misalnya, teknik untuk memodulasi faktor seperti kompleksitas, ketidakjelasan, dan kebaruan contoh dapat membantu menangani masalah kekuatan dalam tugas downstream. Generasi prompt dinamis untuk mencocokkan distribusi dunia nyata yang berkembang adalah tantangan terbuka lainnya.

Pelatihan pada Skala Besar

Sementara LLM pra-terlatih sudah mengkodekan pengetahuan linguistik yang substansial, kemampuan mereka untuk menghasilkan data kemungkinan akan ditingkatkan lebih lanjut dengan skala tambahan. Model seperti GPT-4 yang dilatih pada triliunan token teks internet menunjukkan pembelajaran beberapa contoh yang kuat, tetapi belum dioptimalkan khusus untuk mensintesis data pelatihan.

Arsitektur dan tujuan yang dirancang untuk memulai generasi data mandiri pada skala web bisa secara substansial meningkatkan kualitas dan efisiensi metodologi ini. Integrasi yang efisien dari pengetahuan yang diperoleh untuk melengkapi pengetahuan yang dipelajari adalah arah yang menjanjikan lainnya.

Multitugas dan Multibahasa

Seperti yang dicatat dalam makalah, meningkatkan kinerja pada bahasa dengan sumber daya yang sedikit masih merupakan masalah. Sebagai alternatif, melatih kumpulan model yang lebih kecil yang berspesialisasi dalam modalitas data atau domain bahasa tertentu.

Pendekatan ensemble seperti ini bisa membantu meningkatkan cakupan atas tugas dan bahasa yang jarang dengan membagikan representasi yang dipelajari di antara para ahli. Pembelajaran berkelanjutan untuk memperluas keahlian bahasa dan tugas dari waktu ke waktu juga merupakan prospek yang menarik.

Dalam kesimpulan, makalah ini memperkenalkan konsep inovatif tentang mensintesis data pelatihan dari LLM untuk membuat embedding teks yang performant. Hasil mereka menunjukkan efektivitas metodologi ini, melampaui benchmark sebelumnya. Ketika LLM dan teknik data sintetis berkembang, memanfaatkan pengetahuan mereka untuk melatih embedder bisa menjadi arah yang sangat menjanjikan.

Aayush Mittal, Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah memimpin saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.

Unite.AI