Connect with us

Prompt Mühendisliği

Büyük Dil Modelleri ile Geliştirilmiş Metin Gömme Eğitimleri

mm

Metin gömme, kelimelerin, cümlelerin, paragrafların veya belgelerin anlamsal anlamını yakalayan vektör temsilidir. Bunlar, bilgi geri çağırma, soru cevaplama, anlamsal arama ve daha fazlası dahil olmak üzere bugün birçok doğal dil işleme (NLP) uygulamasının temel bir yapı taşı olarak hizmet vermektedir.

GPT-3 gibi büyük dil modellerindeki (LLM’ler) son gelişmeler, az örnek öğrenme ve doğal dil oluşturma konusunda etkileyici yetenekler göstermiştir. LLM’leri metin gömme durumunu da ilerletmek için kullanabilir miyiz? Araştırmacılar, “Büyük Dil Modelleri ile Metin Gömme Oluşturmayı İyileştirme” adlı makalelerinde, LLM’ler ile sentetik eğitim verisi oluşturup bunu fine-tune ederek üstün sonuçlar elde eden yeni bir yöntem önermektedirler.

Mevcut Yöntemlerle İlgili Zorluklar

Geleneksel metin gömme teknikleri gibi ağırlıklı kelime vektörlerinin ortalamaları veya TF-IDF, metinde zengin bağlamsal bilgiyi yeterince yakalayamaz. Daha yeni yöntemler, BERT gibi önceden eğitilmiş dil modellerine dayanır ve çok daha iyi bağlamsal farkındalığa sahip gömme elde eder.

Ancak bunlar, karmaşık çok aşamalı eğitim boru hatları gerektirir:

  • Milyarlarca zayıf etiketli veya suni metin çiftleri üzerinde ön eğitim
  • Sınırlı el ile oluşturulmuş veri setleri üzerinde fine-tune

Bu, büyük miktarda hesaplama kaynağı ve veri toplama için insan çabası gerektirir. Eğitim verisi, çeşitlilik ve dil kapsamı açısından sınırlıdır. Örneğin, BEIR benchmarkı yalnızca İngilizce olan 15 geri çağırma görevi için veri setlerini içerir.

Mevcut yöntemler chủ olarak BERT tarzı daha küçük mimarileri temel model olarak kullanır. Daha gelişmiş LLM’ler ve ilgili tekniklerden yararlanamazlar.

Yöntem: LLM’ler ile Sentetik Veri Oluşturma

Bu sınırlamaları aşmak için araştırmacılar, GPT-3 ve GPT-4 gibi LLM’leri kullanarak çeşitli sentetik eğitim verisi oluşturmak için yeni bir tek aşamalı eğitim yaklaşımı önermektedirler.

Ana adımlar şunlardır:

  1. Görev Taksonomisi: Metin gömme görevlerini aşağıdaki gibi kategorilere ayırarak bir taksonomi tanımlama:
    • Asimetrik görevler (sorgu ve belge eş anlamlı değil, örneğin arama)
    • Simetrik görevler (sorgu ve belge eş anlamlı, örneğin anlamsal benzerlik)
  2. Prompt Tasarımı: Her görev türü için uyarlanmış prompt şablonları oluşturma, LLM’yi ilgili eğitim örnekleri oluşturması için yönlendirme.
  3. Sentetik Veri Oluşturma: Tasarlanan prompt’ları kullanarak LLM’yi çalıştırma ve çeşitli anlamsal görevleri kapsayan yüz binlerce (sorgu, belge) çifti oluşturma, 93 dilde.
  4. Model Eğitimi: Güçlü, açık kaynaklı bir LLM olan Mistral’i sentetik veri üzerinde, karşıtlık kaybı kullanarak fine-tune etme.

Bu yöntem, insan etiketleme çabası olmadan, çeşitli görevler ve diller için yeterli eğitim verisi oluşturulmasını sağlar. LLM’lerin önceden web ölçekli corpora üzerinde eğitilmiş bilgilerini kullanarak, metin gömme için özel olarak tasarlanmış yüksek kaliteli sentetik veri oluşturabiliriz.

Sonuçlar

Araştırmacılar, modelini MTEB benchmarkı üzerinde değerlendirdiler. Bu benchmark, sınıflandırma, kümeleme, anlamsal benzerlik, özetleme ve bilgi geri çağırma görevlerini kapsar.

Modeli, önceki en iyi sonuçları 2.4 puan ortalama puan ile geçerek,几乎 her kategoride yeni rekorlar oluşturdu:

Model Önceki En İyi Sonuç Önerilen Model
Sınıflandırma 76.0 78.5
Kümeleme 46.1 50.3
Çift Sınıflandırma 87.1 88.3
Yeniden Sıralama 60.0 60.2
Geri Çağırma 54.3 56.9
STS 83.1 84.6
Özetleme 31.6 31.4
Ortalama 64.2 66.6

Şaşırtıcı bir şekilde, etiketli veri kullanmadan ve yalnızca sentetik veri üzerinde eğitim yaparak,Competitif bir doğruluk elde etti – tam olarak gözetimli modelden sadece 3.5 puan geride.

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.