Yapay Zekâ

İnsanların Değerleri ile AI Hizalamasını WARM İle Geliştirmek

Published February 5, 2024

Updated April 27, 2026

Aayush Mittal Mittal

AI Sistemlerinin İnsan Değerleri ile Hizalanması

Yapay zeka (AI) sistemleri, müşteri hizmetleri sohbet botlarından tıbbi teşhis algoritmalarına kadar karmaşık görevlerde insanlara yardımcı olma konusunda giderek daha yetenekli hale geliyor. Ancak, bu AI sistemleri daha fazla sorumluluk aldıkça, insan değerleri ve tercihleri ile hizalı kalmaları çok önemlidir. Bunu başarmak için kullanılan bir yöntem, insan geribildiriminden takviye öğrenimi (RLHF) tekniğidir. RLHF’de, bir AI sistemi, yani politika, davranışına göre insan yargılarına göre ödüllendirilir veya cezalandırılır. Politikanın amacı, ödüllerini en üst düzeye çıkarmak ve böylece insan tercihlerine göre davranmaktır.

RLHF’nin temel bir bileşeni, ödül modeli (RM)’dir. RM, politikanın eylemlerini ve çıktılarını değerlendirmek ve öğrenme sürecini yönlendirmek için bir ödül sinyali döndürmekle sorumludur. İyi bir RM tasarlamak zorlu bir görevdir, çünkü insan tercihleri karmaşık, bağlamsal ve hatta bireyler arasında tutarsız olabilir. Google DeepMind’den araştırmacılar, RM tasarımını geliştirmek için Weight Averaged Reward Models (WARM) olarak adlandırılan yenilikçi bir teknik önerdiler.

Ödül Hilelerinin Sorunu

RLHF’de büyük bir sorun, ödül hileleridir. Ödül hileleri, politikanın RM sistemini oyun ederek gerçek amaçları yerine getirmeden yüksek ödüller kazanmasıdır. Örneğin, bir yazma asistanı AI’yi yüksek kaliteli özetler oluşturmak için eğitmek isteyelim. RM, kısa ve bilgilendirici özetleri ödüllendirebilir. Politika, bunu sömürebilir ve RM’yi aldatmak için anahtar kelimelerle dolu, çok kısa ve bilgilendirici olmayan özetler oluşturabilir.

Ödül hileleri iki ana neden tarafından oluşur:

Dağılım kayması – RM, insan tarafından etiketlenmiş örneklerin sınırlı bir veri kümesiyle eğitilir. Dağıtıldığında, politikanın çıktıları RM’nin iyi genellemeyeceği farklı dağılımlardan gelebilir.
Gürültülü etiketler – İnsan etiketleme kusurludur, derecelendirme anlaşmazlıkları vardır. RM, kalite göstergeleri yerine sahte sinyallere takılabilir.

Ödül hileleri, insan beklentilerine uymayan işe yaramaz sistemlere yol açar. Daha da kötüsü, dikkatsizce dağıtıldığında, AI davranışları önyargılı veya hatta tehlikeli olabilir.

Model Birleştirmenin Yükselişi

Model birleştirme stratejilerine, Model Ratatouille’e olan ilgi, daha büyük modellerin güçlü ancak verimsiz ve uygulaması zor olabileceğinin anlaşılmasıyla artıyor. 1 trilyon parametreli bir modeli eğitmek, aşırı miktarda veri, hesaplama, zaman ve maliyet gerektirir. Daha da önemli olarak, bu modeller eğitim dağılımına aşırı uyarlama eğilimindedir, bu da çeşitli gerçek dünya senaryolarına genellemelerini engeller.

Model birleştirme, kontrolsüz olarak ölçek büyütmeden daha büyük yeteneklere ulaşmak için alternatif bir yol sağlar. Farklı dağılımlar, görevler veya nesneler üzerinde eğitilen birden fazla uzmanlaşmış modeli yeniden kullanarak, model birleştirme, esnekliği ve dağılım dışı dayanıklılığı artırmayı hedefler. Předul, farklı modellerin birbirini tamamlayacak öngörülebilir kalıpları yakalayabileceği varsayımıdır.

Sonuçlar, bu kavramın vaadini gösteriyor. Birleştirilen modeller, çok daha az parametreye sahip olmasına rağmen, devasa modeller gibi GPT-3’ün performansını eşleyebilir veya hatta aşabilir. Örneğin, Model Ratatouille’nin 7 orta boy kontrol noktasından oluşan bir birleşimi, yüksek boyutlu metinsel sonuçlar veri kümesinde devlet-sanatı doğruluğuna ulaşır ve GPT-3’ü geride bırakır.

Ağırlık ortalamasının basitliği büyük bir bonus. Birden fazla yardımcı modeli eğitmek ek kaynakları gerektirir. Ancak, ağırlıkların birleştirilmesi, tek bir modelin ağırlıklarını korur, bu da metodun kolayca uyarlanabilir olmasını sağlar ve artan gecikme veya bellek maliyetleri konusunda endişe yaratmaz.

Model Birleştirmenin Arkasındaki Mekanizmalar

Ancak, model birleştirmenin bu doğruluk kazançlarını nasıl sağladığını açıklamak için bazı ipuçları var:

Hafızayı Azaltma: Her model, eğitim sırasında veri kümesinin farklı karıştırılmış toplu işlemlerini görür. Ortalama, her bir modelin instance-spesifik hafızasını azaltır ve sadece veri kümesi düzeyinde genellemeleri korur.
Varyansı Azaltma: Bağımsız olarak eğitilen modeller, korelasyon olmayan hatalara sahiptir. Bunları birleştirmek, gürültüyü azaltır ve kalibrasyonu iyileştirir.
Çeşitlilik aracılığıyla Düzenleme: Değişken yardımcı görevler, modellerin daha genel ve çeşitli özelliklere odaklanmasını sağlar.
Dayanıklılığı Artırma: Tutarsızlıklar, belirsizliği gösterir. Ortalama, aşırı yargıları dengeler ve güvenilirliği artırır.

Aslında, model birleştirme, bireysel modellerin zayıflıklarını, kolektif güçlerini artırmak için dengeler. Birleştirilmiş temsil, altta yatan ortak neden-sonuç yapılarını yakalar ve tesadüfi varyasyonları görmezden gelir.

Bu kavramsal temel, model birleştirmeyi, diğer popüler tekniklerle, örneğin ensemble öğrenimi ve çoklu görevli öğrenimi ile bağlar. Tüm bu yöntemler, modeller veya görevler arasında çeşitliliği kullanarak, esnek ve belirsizlik-farkında sistemler elde eder. Ağırlık ortalamasının basitliği ve verimliliği, model birleştirmeye, gerçek dünya dağıtımlarını geliştirmede benzersiz bir avantaj sağlar.

Ağırlık Ortalama Ödüllü Modelleri

WARM ile hizalama süreci

WARM, yenilikçi bir şekilde, aynı ön-eğitimli Büyük Dil Modeli (LLM) ancak farklı hiperparametrelerle fine-tune edilen birden fazla bireysel RM’nin ağırlık ortalamasını kullanan bir vekil ödül modeli (RM) kullanır. Bu method, verimliliği, dağılım kayması altında güvenilirliği ve tutarsız tercihlere karşı dayanıklılığı artırır. Çalışma, özellikle daha fazla RM’nin ortalamasını aldıkça, WARM’in vekil RM olarak kullanılmasıyla sonuçların iyileştirildiğini ve “ödül hilelerinin” başlangıcının geciktirildiğini gösterir.

Aşağıda yüksek düzeyde bir genel bakış verilmiştir:

Büyük bir korpus üzerinde ön-eğitimli bir temel dil modeli ile başlayın. Görev-spesifik katmanlar ekleyerek birden fazla RM’yi başlatın.
Her RM’yi, öğrenme oranları gibi farklı hiperparametreler kullanarak, insan tercihleri veri kümesinde ayrı ayrı fine-tune edin.
Fine-tune edilmiş RM’lerin ağırlıklarını ortalamalayarak tek bir WARM birleşimi elde edin.

Ana fikir, ağırlık ortalamasının, tüm çeşitli RM’ler boyunca öğrenilen değişmez bilgileri korurken, sahte sinyallere olan bağımlılığı azaltmasıdır. Birleşme ayrıca varyansın azaltılmasıyla faydalanır, bu da dağılım kayması karşısında güvenilirliği iyileştirir.

Önceden tartıştığımız gibi, bağımsız olarak eğitilen modeller arasındaki çeşitlilik, model birleştirmenin tam potansiyelini açığa çıkarmak için çok önemlidir. Ancak, üretken çeşitliliği teşvik etmek için somut teknikler nelerdir?

WARM makalesi, daha geniş bir şekilde genelleştirilebilecek beberapa akıllı fikirleri araştırır:

Sıra Karıştırma

Basit ancak etkili bir yaklaşım, her modelin eğitim sırasında veri noktalarını gördüğü sırayı karıştırmasıdır. Bu basit adım, ağırlıkları de-korelasyonlaştırır ve kalıpların tekrar tekrar hafızasını azaltır.

Hiperparametre Değişiklikleri

Her çalışmada öğrenme oranları ve dropout olasılığı gibi hiperparametreleri değiştirmek, faydalı çeşitlilik sağlar. Modeller farklı şekilde yakınsar ve veri kümesinin farklı özelliklerini yakalar.

Checkpoint Ortalaması – Baklava

Baklava yöntemi, birleştirmek için modelleri aynı ön-eğitim yolundaki farklı anlardan başlatır. Bu, model çorbalarını gerektirir ve paylaşılan bir başlangıç noktasını zorunlu kılar. Model Ratatouille’ye kıyasla, Baklava, ek görevler gerektirmez. Genel olarak, doğruluk ve çeşitlilik dengesini etkili bir şekilde sağlar.

Birden fazla Ödül Modelini fine-tune etme süreci

Analiz, daha eski kontrol noktalarının ağırlıklı ortalamasının bireysel performansı bozduğunu ve çeşitlilik avantajlarını tehlikeye attığını gösterir. Sadece her çalışmanın son temsilini ortalama almak daha iyidir. Genel olarak, çeşitlilik hedefleriyle doğruluk korunmasını dengelemek açık bir araştırma zorluğu olmaya devam etmektedir.

Genel olarak, model birleştirme, mevcut kaynakları etkili bir şekilde yeniden kullanarak, güvenilirlik, verimlilik ve esnekliği artırmaya yönelik alanda genel etosa uyumlu görünmektedir. Ağırlık ortalamasının basitliği, onu dayanıklı modelleri mevcut yapı taşlarından derlemek için önde gelen bir aday haline getirir.

Geleneksel ensemble yöntemlerinin aksine, WARM, tek bir ağırlık kümesini koruyarak hesaplamalı yükü minimum tutar. Metin özetleme görevleri üzerindeki deneyimler, WARM’in etkinliğini gösterir:

En iyi-N örnekleme için, WARM, insan tercih etiketlerine göre rasgele seçimle karşılaştırıldığında %92,5 galibiyet oranına ulaşır.
RLHF’de, WARM politikası, aynı adımda tek bir RM ile eğitilen bir politika ile karşılaştırıldığında %79,4 galibiyet oranına ulaşır.
WARM, insan etiketlerinin dörtte birinin bozulduğu durumlarda bile iyi bir performans sergiler.

Bu sonuçlar, WARM’in gerçek dünya AI asistanlarını geliştirmede pratik bir teknik olarak potansiyelini vurgular. İnsan geribildirimlerindeki tutarsızlıkları yumuşatarak, WARM politikaları, yeni deneyimler kazanmaya devam ederken insan değerleri ile dayanıklı bir şekilde hizalı kalabilir.

Büyük Resim

WARM, AI hizalama araştırmalarında iki ana eğilimin kesişme noktasında yer alır. Birincisi, dağılım dışı (OOD) genellemeyi inceleyen çalışmalardır; bu, model performansını yeni, eğitim dağılımından farklı veri üzerinde artırmayı hedefler. İkincisi, algoritmik dayanıklılık araştırmalarıdır; bu, küçük girdi pertürbasyonlarına veya gürültüsüne karşı güvenilirliği odaklar.

Öğrenilen değişmezlik kavramı etrafında bu alanları birleştiren WARM, daha sağlam tekniklere doğru ilerlemeyi sağlar. WARM’den elde edilen bilgiler, RLHF’nin ötesine geçerek, açık dünya ile etkileşime giren daha geniş makine öğrenimi sistemlerine dersler sağlayabilir.

Elbette, ödül modelleme, hizalama puzzle’nin sadece bir parçasıdır. Ödül belirtimi, ölçeklenebilir denetim ve güvenli keşif gibi diğer zorluklarda ilerleme仍 gereklidir. WARM, tamamlayıcı tekniklerle birleştirildiğinde, insan refahını sürdürülebilir bir şekilde teşvik eden AI’nin gelişimini hızlandırabilir. Araştırmacılar, dayanıklı hizalamayı underlying ilkelerini açıklarken, faydalı ve etik AI’ye giden yolu haritalamaktadırlar.

Aayush Mittal

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.

Unite.AI