Yapay Zekâ
EUREKA: Büyük Dil Modelleri ile İnsan Düzeyinde Ödül Tasarımı

Büyük Dil Modelleri son yıllarda önemli ilerlemeler kaydetmiştir ve bu modellerin, sıralı yüksek düzey karar alma görevleri için excelente bir şekilde çalışması şaşırtıcı değildir. Ancak, geliştiriciler hala Büyük Dil Modelleri’nin tam potansiyelini, kompleks düşük düzey manipülasyon görevleri öğrenmek için kullanmakta zorluk yaşamaktadır. Bugünkü Büyük Dil Modelleri, basit beceriler öğrenmek veya metinsel.prompt’lar oluşturmak için önemli ölçüde alan ve konu uzmanlığına ihtiyaç duyar, bu da onların performansı ile insan düzeyindeki çeviklik arasında önemli bir boşluk oluşturur.
Bu boşluğu kapatmak için, Nvidia, CalTech, UPenn ve diğerlerinden geliştiriciler, EUREKA adlı bir Büyük Dil Modeli tabanlı insan düzeyinde tasarım algoritması geliştirdiler. EUREKA, Büyük Dil Modelleri’nin çeşitli yeteneklerini, kod yazma, bağlam içi iyileştirme ve sıfır-şut içerik oluşturma dahil, ödül kodlarının optimize edilmesinde kullanmayı hedefler. Bu ödül kodları, pekiştirme öğrenimi ile birleştirildiğinde, çerçevelerin kompleks beceriler öğrenmesini veya manipülasyon görevleri gerçekleştirmesini sağlar.
Bu makalede, EUREKA çerçevesini geliştirme perspektifinden inceleyeceğiz, çerçevesini, işleyişini ve oluşturduğu ödül fonksiyonlarının sonuçlarını探acağız. Ayrıca, EUREKA çerçevesinin, insan geri bildirimi kullanarak pekiştirme öğrenimi (RLHF) için yeni bir yaklaşım sunarak, gradient-free bağlam içi öğrenimi ermögştığını göstereceğiz.
EUREKA: Bir Giriş
Bugün, GPT-3 ve GPT-4 gibi state-of-the-art Büyük Dil Modelleri, sıralı yüksek düzey karar alma görevleri için mükemmel sonuçlar sağlar, ancak geliştiriciler hala düşük düzey manipülasyon görevleri öğrenmek için performanslarını artırmak için yollar aramaktadır. Ayrıca, geliştiriciler, pekiştirme öğreniminin, dikkatli bir şekilde tasarlanmış ödül fonksiyonları ile birlikte, sürdürülebilir sonuçlar elde edilebileceğini gözlemişlerdir. Ancak, ödül fonksiyonları tasarlamak son derece zorlu bir görevdir ve sub-optimal tasarımlar, istenmeyen davranışlara yol açabilir.
EUREKA veya Evrim Tabanlı Evrensel Ödül Kitabı, bu zorlukları aşmak için üç temel algoritmik tasarım seçimi sunar: evrimsel arama, çevre olarak bağlam ve ödül yansıması. İlk olarak, EUREKA çerçevesi, çevre kaynak kodunu doğrudan bağlam olarak kullanır ve sıfır-şut ayarında çalıştırılabilir ödül fonksiyonları oluşturur. İkinci olarak, çerçeve, ödül adaylarını önermek ve en umut verici olanlarını iyileştirmek için evrimsel bir arama gerçekleştirir. Son olarak, çerçeve, ödül yansıması yaklaşımını kullanarak, bağlam içi iyileştirmeyi daha etkili hale getirir.
EUREKA: Model Mimarisi ve Problem Ayarı
EUREKA çerçevesinin temel amacı, bir temel gerçek ödül fonksiyonu için şekillenmiş veya düzenlenmiş bir ödül fonksiyonu döndürmektir. Ancak, tasarımcılar yalnızca sorgular kullanarak bu gerçek ödül fonksiyonlarına erişebilir. Bu nedenle, EUREKA çerçevesi, bir program sentezi ayarında, Ödül Tasarım Problemi (RDP) olarak bilinen bir yaklaşım kullanır.
RDP, bir dünya modeli, durum uzayı, ödül fonksiyonları uzayı, geçiş fonksiyonu ve eylem uzayı içeren bir tuple’dir. Bir öğrenme algoritması, bir politika oluşturarak ödülleri optimize eder ve bu politika, bir Markov Karar Süreci (MDP) üretir. EUREKA’nın problem ayarında, geliştiriciler, RDP’nin her bileşenini kod kullanarak belirtmiştir. Bir görevin ayrıntılarını belirten bir dize verildiğinde, ödül oluşturma problemi, fitness puanını en üst düzeye çıkaran bir ödül fonksiyonu kodu oluşturmaktır.
Çevre olarak Bağlam
EUREKA çerçevesi, çevre kaynak kodunu doğrudan bağlam olarak kullanır ve sıfır-şut ayarında çalıştırılabilir ödül fonksiyonları oluşturur. Bu yaklaşım, iki önemli avantaj sağlar. İlk olarak, kod yazma amaçlı Büyük Dil Modelleri, yerel kod setleri üzerinde eğitilir ve bu nedenle, orijinal eğitim stilinde kod oluşturma konusunda daha iyidirler. İkinci olarak, çevre kaynak kodu, çevreleri semantik olarak ortaya koyar ve ödül fonksiyonlarını oluşturmak için uygun değişkenleri açıklar.
Evrimsel Arama
EUREKA çerçevesinin evrimsel arama yaklaşımı, sub-optimalite ve hataların doğal bir çözümünü sunar. Her iterasyon veya epoch ile, çerçeve, Büyük Dil Modeli’nden bağımsız çıktılar üretir ve bu çıktılar, her epoch ile artan örnek sayısı ile birlikte, hatalı ödül fonksiyonlarının olasılığını azaltır.
Ödül Yansıması
EUREKA çerçevesi, ödül yansıması yaklaşımını kullanarak, bağlam içi iyileştirmeyi daha etkili hale getirir. Bu yaklaşım, ödül fonksiyonlarının kalitesini değerlendirmek ve bunları metin olarak ifade etmek için kullanılır. Ödül programında, ödül fonksiyonları, bileşenlerini ayrı ayrı açıklar ve bu sayede, her bir benzersiz ödül bileşeninin skaler değerlerini politika kontrol noktalarında takip etmek mümkündür.
Eğitim ve Karşılaştırma
EUREKA çerçevesinin iki temel eğitim bileşeni vardır: politika öğrenimi ve ödül değerlendirme metrikleri.
Politika Öğrenimi
Her görev için son ödül fonksiyonu, aynı pekiştirme öğrenimi algoritması ve aynı hiperparametreler kullanılarak optimize edilir.
Ödül Değerlendirme Metrikleri
Görev metriği, her görev için farklı ölçek ve anlamsal anlama sahip olabilir. EUREKA çerçevesi, insan normalize puanını raporlar, bu da çerçevenin, uzman tarafından oluşturulan insan ödül fonksiyonlarına göre performansını değerlendirmek için bir ölçüt sağlar.
Sonuçlar ve Çıktılar
EUREKA çerçevesinin performansını analiz etmek için, çeşitli parametreleri değerlendireceğiz: insan ödül fonksiyonlarına karşı performansı, zaman içinde iyileşme, yeni ödül fonksiyonları oluşturma, hedefe yönelik iyileşme sağlama ve insan geri bildirimi ile çalışma.
EUREKA İnsan Ödül Fonksiyonlarını Aşar
Aşağıdaki şekil, farklı benchmark’ler üzerinde toplu sonuçları gösterir ve EUREKA çerçevesinin, insan düzeyinde ödül fonksiyonlarına karşı benzer veya daha iyi performans gösterdiği görülmektedir.
Zaman İçinde Sürekli İyileşme
EUREKA çerçevesinin bir diğer önemli özelliği, zaman içinde sürekli iyileşme yeteneğidir. Aşağıdaki şekil, çerçevenin her iterasyon ile daha iyi ödül fonksiyonları ürettiğini göstermektedir.
Yeni Ödül Fonksiyonları Oluşturma
EUREKA çerçevesi, insan ödül fonksiyonlarına karşı zayıf korelasyon gösteren yeni ödül fonksiyonları oluşturabilir. Aşağıdaki şekil, EUREKA ödül fonksiyonlarının, insan normalize puanlarına karşı dağılımını gösterir.
Hedefe Yönelik İyileşme Sağlama
EUREKA çerçevesi, ödül yansıması yaklaşımını kullanarak, hedefe yönelik iyileşme sağlamayı ermögştirebilir. Aşağıdaki şekil, ödül yansıması olmadan EUREKA çerçevesinin performansını göstermektedir.
İnsan Geri Bildirimi ile Çalışma
EUREKA çerçevesi, insan geri bildirimi ile çalışabilir ve daha iyi ödül fonksiyonları oluşturabilir. Aşağıdaki şekil, EUREKA çerçevesinin, insan geri bildirimi ile birlikte çalıştığında, daha iyi performans gösterdiğini göstermektedir.
Son Düşünceler
Bu makalede, EUREKA adlı bir Büyük Dil Modeli tabanlı insan düzeyinde tasarım algoritması hakkında konuştuk. EUREKA, Büyük Dil Modelleri’nin çeşitli yeteneklerini kullanarak, ödül kodlarının optimize edilmesini sağlar. Bu ödül kodları, pekiştirme öğrenimi ile birleştirildiğinde, çerçevelerin kompleks beceriler öğrenmesini veya manipülasyon görevleri gerçekleştirmesini sağlar.
Genel olarak, EUREKA çerçevesinin önemli performansı ve esnekliği, büyük dil modelleri ile evrim algoritmalarının birleştirilmesinin, ödül tasarımı için ölçeklenebilir ve genel bir yaklaşım olabileceğini göstermektedir. Bu yaklaşım, diğer açık uçlu arama problemlerine de uygulanabilir.












