Yapay Zeka
WARM Aracılığıyla Yapay Zekanın İnsan Değerleriyle Uyumluluğunu Geliştirme

Yapay Zeka Sistemlerinin İnsan Değerleriyle Hizalanması
Yapay zeka (AI) sistemleri, müşteri hizmetleri sohbet robotlarından tıbbi teşhis algoritmalarına kadar karmaşık görevlerde insanlara yardımcı olma konusunda giderek daha yetenekli hale geliyor. Ancak bu yapay zeka sistemleri daha fazla sorumluluk aldıkça insani değerler ve tercihlerle uyumlu kalmaları hayati önem taşıyor. Bunu başarmaya yönelik yaklaşımlardan biri, insan geri bildiriminden (RLHF) takviyeli öğrenme adı verilen bir tekniktir. RLHF'de politika olarak bilinen bir yapay zeka sistemi, davranışına ilişkin insan yargılarına göre ödüllendirilir veya cezalandırılır. Amaç, politikanın ödüllerini en üst düzeye çıkarmayı öğrenmesi ve böylece insan tercihlerine göre davranmasıdır.
RLHF'nin temel bir bileşeni ödül modelidir (RM). RM, politikanın eylemlerini ve çıktılarını değerlendirmekten ve öğrenme sürecini yönlendirmek için bir ödül sinyali göndermekten sorumludur. İnsan tercihleri karmaşık, bağlama bağlı ve hatta bireyler arasında tutarsız olabileceğinden, iyi bir RM tasarlamak zordur. Son zamanlarda Google DeepMind araştırmacıları, RM tasarımını geliştirmek için Ağırlık Ortalamalı Ödül Modelleri (WARM) adı verilen yenilikçi bir teknik önerdiler.
Ödül Hackleme Sorunu
RLHF'deki en büyük sorun ödül korsanlığıdır. Ödül korsanlığı, politikanın, amaçlanan hedefleri gerçekten karşılamadan yüksek ödüller elde etmek için RM sistemini kandıracak boşluklar bulması durumunda ortaya çıkar. Örneğin, hedefin yüksek kaliteli özetler oluşturacak bir yazma asistanı yapay zekayı eğitmek olduğunu varsayalım. RM kısa ve bilgilendirici özetleri ödüllendirebilir. Politika daha sonra RM'yi kandıracak anahtar kelimelerle dolu çok kısa, bilgilendirici olmayan özetler üreterek bundan yararlanmayı öğrenebilir.
Ödül hackleme iki ana nedenden dolayı gerçekleşir:
- Dağıtım kayması – RM, insan etiketli örneklerden oluşan sınırlı bir veri kümesi üzerinde eğitilmiştir. Dağıtıldığında politikanın çıktıları, RM'nin iyi bir şekilde genelleştiremediği farklı dağıtımlardan gelebilir.
- Gürültülü etiketler – İnsan etiketlemesi, değerlendiriciler arası anlaşmazlıklar nedeniyle kusurludur. RM, sağlam kalite göstergeleri yerine sahte sinyallere odaklanabilir.
Ödül korsanlığı, insan beklentilerini karşılayamayan işe yaramaz sistemlere yol açar. Daha da kötüsü, dikkatsizce kullanıldığında önyargılı ve hatta tehlikeli yapay zeka davranışlarına yol açabilir.
Model Birleştirmenin Yükselişi
Model Ratatouille gibi model birleştirme stratejilerine artan ilgi, daha büyük modellerin güçlü olmasına rağmen verimsiz ve pratik olamayabileceğinin farkına varılmasından kaynaklanmaktadır. 1 trilyon parametreli bir modeli eğitmek, aşırı miktarda veri, bilgi işlem, zaman ve maliyet gerektirir. Daha da önemlisi, bu tür modeller eğitim dağıtımına aşırı uyum sağlama eğiliminde olup, bunların çeşitli gerçek dünya senaryolarına genelleme yeteneklerini engellemektedir.
Model birleştirme, kontrolsüz ölçek büyütme olmadan daha büyük yeteneklerin kilidini açmak için alternatif bir yol sağlar. Farklı dağıtımlar, görevler veya hedefler üzerinde eğitilmiş birden fazla özel modeli yeniden kullanarak model birleştirme, çok yönlülüğü ve dağıtım dışı sağlamlığı geliştirmeyi amaçlar. Buradaki öncül, farklı modellerin birleştirildiğinde birbirini tamamlayabilecek farklı tahmin kalıplarını yakalamasıdır.
Son sonuçlar bu konseptin vaadini göstermektedir. Birleştirme yoluyla elde edilen modeller, çok daha az parametreye sahip olmasına rağmen, GPT-3 gibi dev modellerin performansına ulaşabiliyor, hatta onu aşabiliyor. Örneğin, yalnızca 7 orta boy kontrol noktasından oluşan bir Model Ratatouille topluluğu, yüksek boyutlu metinsel gereklilik veri kümelerinde GPT-3'ten daha iyi performans göstererek en son teknolojiye sahip doğruluğa ulaşır.
Ağırlık ortalamasına göre birleştirmenin basitliği büyük bir avantajdır. Birden fazla yardımcı modelin eğitilmesi ekstra kaynak gerektirir. Ancak en önemlisi, ağırlıklar tek bir modelde yoğunlaştırıldığı için çıkarım zamanı hesaplaması tek bir modelle aynı kalır. Bu, artan gecikme veya bellek maliyetleri endişesi olmadan yöntemin kolayca uyarlanabilmesini sağlar.
Model Birleştirmesinin Arkasındaki Mekanizmalar
Peki modellerin birleştirilmesinden elde edilen bu doğruluk kazanımlarını tam olarak sağlayan şey nedir? Son analiz bazı ipuçları sunuyor:
- Ezberlemeyi Azaltma: Her model, eğitim sırasında veri kümesinin farklı karıştırılmış gruplarını görür. Ortalama alma, yalnızca veri kümesi düzeyindeki genellemeleri koruyarak örneğe özgü ezberlemeyi azaltır.
- Farkın Azaltılması: Bağımsız olarak eğitilen modellerde ilişkisiz hatalar vardır. Bunların birleştirilmesi gürültünün ortalamasını alarak kalibrasyonu iyileştirir.
- Çeşitlilik Yoluyla Düzenlileştirme: Değişen yardımcı görevler, modelleri dağıtımlar arasında yararlı olan daha genelleştirilebilir özelliklere bağlı kalmaya zorlar.
- Sağlamlığın Artırılması: Tahminlerdeki tutarsızlık belirsizliğe işaret eder. Ortalama alma aykırı kararları hafifletir ve güvenilirliği artırır.
Temelde, model birleştirme, bireysel modellerin kolektif güçlü yönlerini güçlendirmek için zayıf yönlerini dengeler. Birleştirilmiş temsil, tesadüfi farklılıkları göz ardı ederek, altta yatan ortak nedensel yapıları yakalar.
Bu kavramsal temel, model birleştirmeyi birleştirme ve çok görevli öğrenme gibi diğer popüler tekniklere bağlar. Tüm bu yöntemler, çok yönlü, belirsizliğin farkında olan sistemler elde etmek için modeller veya görevler arasındaki çeşitlilikten yararlanır. Bununla birlikte, ağırlık ortalaması almanın basitliği ve verimliliği, model birleştirmeye gerçek dünyadaki dağıtımları ilerletmek için benzersiz bir avantaj sağlar.
Ağırlık Ortalamalı Ödül Modelleri
ILIK, HAFİF SICAK yenilikçi bir şekilde, her biri aynı önceden eğitilmiş LLM'den ince ayar yapılmış, ancak değişen hiper parametrelere sahip birden fazla bireysel RM'nin ağırlık ortalaması olan bir vekil ödül modelini (RM) kullanır. Bu yöntem verimliliği, dağıtım değişimleri sırasında güvenilirliği ve tutarsız tercihlere karşı dayanıklılığı artırır. Çalışma ayrıca, özellikle ortalama RM sayısı arttıkça, proxy RM olarak WARM'ın kullanılmasının sonuçları iyileştirdiğini ve kontrol ödüllerinin zamanla kötüleştiği bir olgu olan 'ödül korsanlığı'nın başlangıcını geciktirdiğini gösteriyor.
İşte üst düzey bir genel bakış:
- Geniş bir derlemede önceden eğitilmiş bir temel dil modeliyle başlayın. Üstüne göreve özel küçük katmanlar ekleyerek birden fazla RM'yi başlatın.
- Çeşitlilik için öğrenme oranı gibi farklı hiper parametreler kullanarak, insan tercihi veri kümesinde her RM'ye ayrı ayrı ince ayar yapın.
- Tek bir WARM topluluğu elde etmek için ince ayarlı RM'lerin ağırlıklarının ortalamasını alın.
Temel fikir, ağırlık ortalamasının yalnızca tüm farklı RM'lerde öğrenilen değişmez bilgileri tutmasıdır. Bu, sahte sinyallere olan bağımlılığı azaltır ve sağlamlığı artırır. Topluluk ayrıca dağıtım değişikliklerine rağmen güvenilirliği artıran sapmaların azaltılmasından da yararlanıyor.
Daha önce tartışıldığı gibi, bağımsız olarak eğitilmiş modeller arasındaki çeşitlilik, model birleştirmenin tüm potansiyelini ortaya çıkarmak için çok önemlidir. Peki üretken çeşitliliği teşvik edecek bazı somut teknikler nelerdir?
WARM makalesi daha geniş bir şekilde genelleştirilebilecek birkaç akıllı fikri araştırıyor:
Karıştırma Siparişi Verme
Önemsiz ama etkili bir yaklaşım, eğitim sırasında veri noktalarının her model tarafından görülme sırasını karıştırmaktır. Bu basit adım bile ağırlıkların korelasyonunu ortadan kaldırarak kalıpların gereksiz ezberlenmesini azaltır.
Hiperparametre Varyasyonları
Her çalıştırma için öğrenme oranı ve bırakma olasılığı gibi hiper parametrelerde ince ayar yapılması faydalı çeşitlilik sağlar. Modeller farklı şekilde birleşerek veri kümesinin farklı özelliklerini yakalar.
Kontrol Noktası Ortalaması Alma – Baklava
Baklava yöntemi, aynı ön eğitim yörüngesi boyunca farklı anlık görüntülerden birleştirilecek modelleri başlatır. Bu, ortak bir başlangıç noktasını zorunlu kılan model çorbalara kıyasla kısıtlamaları hafifletir. Baklava, ratatouille modeline göre ek görevlerden kaçınır. Genel olarak, etkili bir doğruluk-çeşitlilik dengesi sağlar.

Süreç, önceden eğitilmiş bir Büyük Dil Modeli (LLM) 𝜃_𝑝𝑡 ile başlar. Bu modelden, her biri farklı SFT eğitim adımlarında toplanan bir Denetimli İnce Ayar (SFT) çalışması sırasında çeşitli kontrol noktaları {𝜃_𝑠 𝑓 𝑡_𝑖} türetilir. Bu kontrol noktaları daha sonra bir tercih veri kümesinde birden fazla Ödül Modeline (RM) {𝜙𝑖} ince ayar yapmak için başlatmalar olarak kullanılır. Bu ince ayar, modelleri insan tercihlerine daha iyi uyum sağlayacak şekilde uyarlamayı amaçlamaktadır. İnce ayardan sonra bu RM'ler, ağırlık ortalaması alma işlemiyle birleştirilir ve sonuçta nihai model olan 𝜙_WARM elde edilir.
Analiz, ortalamayı hareket ettirerek daha eski kontrol noktaları eklemenin bireysel performansa zarar vererek çeşitliliğin yararlarından ödün verdiğini doğruluyor. Her çalıştırmadan yalnızca son temsillerin ortalamasını almak daha iyi performans gösterir. Genel olarak çeşitlilik hedeflerini doğruluk bakımıyla dengelemek açık bir araştırma sorunu olmaya devam etmektedir.
Genel olarak model birleştirme, daha fazla güvenilirlik, verimlilik ve çok yönlülük için mevcut kaynakların etkili bir şekilde geri dönüştürülmesine yönelik alandaki genel değerlerle iyi uyum sağlar. Ağırlık ortalaması almanın basitliği, kolayca bulunabilen yapı taşlarından sağlam modeller oluşturmak için lider aday konumunu sağlamlaştırıyor.
Tahminlerin ortalamasını alan geleneksel birleştirme yöntemlerinden farklı olarak WARM, yalnızca tek bir ağırlık kümesini koruyarak hesaplama yükünü minimum düzeyde tutar. Metin özetleme görevleri üzerinde yapılan deneyler, WARM'ın etkinliğini göstermektedir:
- N'nin en iyisi örneklemesi için WARM, insan tercih etiketlerine göre rastgele seçime karşı %92.5 kazanma oranına ulaşır.
- RLHF'de bir WARM politikası, aynı sayıda adımdan sonra tek bir RM ile eğitilmiş bir politikaya karşı %79.4 kazanma oranına ulaşır.
- WARM, insan etiketlerinin dörtte biri bozulsa bile iyi performans göstermeye devam ediyor.
Bu sonuçlar, WARM'ın güvenilir davranan gerçek dünyadaki yapay zeka asistanlarını geliştirmeye yönelik pratik bir teknik olarak potansiyelini gösteriyor. WARM politikaları, insan geri bildirimlerindeki tutarsızlıkları düzelterek, yeni deneyimlerden öğrenmeye devam ederken bile insani değerlerle güçlü bir şekilde uyumlu kalabilir.
Bigger Picture
WARM, yapay zeka hizalama araştırmasındaki iki temel eğilimin kesiştiği noktada yer alıyor. Birincisi, eğitim dağılımından farklı olan yeni veriler üzerinde model performansını arttırmayı amaçlayan dağıtım dışı (OOD) genelleme çalışmasıdır. İkincisi, küçük girdi bozukluklarına veya gürültüye rağmen güvenilirliğe odaklanan algoritmik sağlamlık üzerine yapılan araştırmadır.
WARM, öğrenilmiş değişmezlikler kavramı etrafında bu alanlar arasında bağlantılar kurarak bizi değer uyumu için daha sıkı temellere dayanan tekniklere doğru yönlendirir. WARM'ın içgörüleri RLHF'nin ötesinde de genellenebilir ve açık dünyayla etkileşime giren daha geniş makine öğrenimi sistemleri için dersler sağlayabilir.
Elbette ödül modelleme uyum bulmacasının sadece bir parçasıdır. Ödül belirleme, ölçeklenebilir gözetim ve güvenli keşif gibi diğer zorluklar konusunda hâlâ ilerlemeye ihtiyacımız var. Tamamlayıcı tekniklerle birleştirildiğinde WARM, insan refahını sürdürülebilir bir şekilde destekleyen yapay zekanın gelişimini hızlandırabilir. Araştırmacılar, sağlam uyumun altında yatan ilkeleri toplu olarak açıklayarak faydalı, etik yapay zekaya giden yolu çiziyor.