Prompt Mühendisliği
Büyük Dil Modelleri ile Geliştirilmiş Metin Gömme Eğitimleri

Metin gömme, kelimelerin, cümlelerin, paragrafların veya belgelerin anlamsal anlamını yakalayan vektör temsilidir. Bunlar, bilgi geri çağırma, soru cevaplama, anlamsal arama ve daha fazlası dahil olmak üzere bugün birçok doğal dil işleme (NLP) uygulamasının temel bir yapı taşı olarak hizmet vermektedir.
GPT-3 gibi büyük dil modellerindeki (LLM’ler) son gelişmeler, az örnek öğrenme ve doğal dil oluşturma konusunda etkileyici yetenekler göstermiştir. LLM’leri metin gömme durumunu da ilerletmek için kullanabilir miyiz? Araştırmacılar, “Büyük Dil Modelleri ile Metin Gömme Oluşturmayı İyileştirme” adlı makalelerinde, LLM’ler ile sentetik eğitim verisi oluşturup bunu fine-tune ederek üstün sonuçlar elde eden yeni bir yöntem önermektedirler.
Mevcut Yöntemlerle İlgili Zorluklar
Geleneksel metin gömme teknikleri gibi ağırlıklı kelime vektörlerinin ortalamaları veya TF-IDF, metinde zengin bağlamsal bilgiyi yeterince yakalayamaz. Daha yeni yöntemler, BERT gibi önceden eğitilmiş dil modellerine dayanır ve çok daha iyi bağlamsal farkındalığa sahip gömme elde eder.
Ancak bunlar, karmaşık çok aşamalı eğitim boru hatları gerektirir:
- Milyarlarca zayıf etiketli veya suni metin çiftleri üzerinde ön eğitim
- Sınırlı el ile oluşturulmuş veri setleri üzerinde fine-tune
Bu, büyük miktarda hesaplama kaynağı ve veri toplama için insan çabası gerektirir. Eğitim verisi, çeşitlilik ve dil kapsamı açısından sınırlıdır. Örneğin, BEIR benchmarkı yalnızca İngilizce olan 15 geri çağırma görevi için veri setlerini içerir.
Mevcut yöntemler chủ olarak BERT tarzı daha küçük mimarileri temel model olarak kullanır. Daha gelişmiş LLM’ler ve ilgili tekniklerden yararlanamazlar.
Yöntem: LLM’ler ile Sentetik Veri Oluşturma
Bu sınırlamaları aşmak için araştırmacılar, GPT-3 ve GPT-4 gibi LLM’leri kullanarak çeşitli sentetik eğitim verisi oluşturmak için yeni bir tek aşamalı eğitim yaklaşımı önermektedirler.
Ana adımlar şunlardır:
- Görev Taksonomisi: Metin gömme görevlerini aşağıdaki gibi kategorilere ayırarak bir taksonomi tanımlama:
- Asimetrik görevler (sorgu ve belge eş anlamlı değil, örneğin arama)
- Simetrik görevler (sorgu ve belge eş anlamlı, örneğin anlamsal benzerlik)
- Prompt Tasarımı: Her görev türü için uyarlanmış prompt şablonları oluşturma, LLM’yi ilgili eğitim örnekleri oluşturması için yönlendirme.
- Sentetik Veri Oluşturma: Tasarlanan prompt’ları kullanarak LLM’yi çalıştırma ve çeşitli anlamsal görevleri kapsayan yüz binlerce (sorgu, belge) çifti oluşturma, 93 dilde.
- Model Eğitimi: Güçlü, açık kaynaklı bir LLM olan Mistral’i sentetik veri üzerinde, karşıtlık kaybı kullanarak fine-tune etme.
Bu yöntem, insan etiketleme çabası olmadan, çeşitli görevler ve diller için yeterli eğitim verisi oluşturulmasını sağlar. LLM’lerin önceden web ölçekli corpora üzerinde eğitilmiş bilgilerini kullanarak, metin gömme için özel olarak tasarlanmış yüksek kaliteli sentetik veri oluşturabiliriz.
Sonuçlar
Araştırmacılar, modelini MTEB benchmarkı üzerinde değerlendirdiler. Bu benchmark, sınıflandırma, kümeleme, anlamsal benzerlik, özetleme ve bilgi geri çağırma görevlerini kapsar.
Modeli, önceki en iyi sonuçları 2.4 puan ortalama puan ile geçerek,几乎 her kategoride yeni rekorlar oluşturdu:
| Model | Önceki En İyi Sonuç | Önerilen Model |
|---|---|---|
| Sınıflandırma | 76.0 | 78.5 |
| Kümeleme | 46.1 | 50.3 |
| Çift Sınıflandırma | 87.1 | 88.3 |
| Yeniden Sıralama | 60.0 | 60.2 |
| Geri Çağırma | 54.3 | 56.9 |
| STS | 83.1 | 84.6 |
| Özetleme | 31.6 | 31.4 |
| Ortalama | 64.2 | 66.6 |
Şaşırtıcı bir şekilde, etiketli veri kullanmadan ve yalnızca sentetik veri üzerinde eğitim yaparak,Competitif bir doğruluk elde etti – tam olarak gözetimli modelden sadece 3.5 puan geride.










