Yapay Zekâ
EUREKA: Büyük Dil Modelleri ile İnsan Düzeyinde Ödül Tasarımı

Büyük Dil Modelleri son yıllarda gösterdiği ilerlemeler dikkate alındığında, bu LLM çerçevelerinin sıralı yüksek düzeyli karar alma görevleri için anlamsal planlayıcılar olarak neden mükemmel performans gösterdiklerini anlamak zor değildir. Ancak geliştiriciler, LLM çerçevelerinin tam potansiyelini komplex düşük düzeyli manipülasyon görevleri öğrenmek için kullanmakta hala zorluklarla karşılaşıyorlar. Verimliliklerine rağmen, günümüzün Büyük Dil Modelleri, basit beceriler öğrenmek veya metinsel promt’lar oluşturmak için önemli ölçüde alan ve konu uzmanlığına ihtiyaç duyar, bu da onların performansı ile insan düzeyindeki beceri arasında önemli bir boşluk oluşturur.
Bu boşluğu kapatmak için, Nvidia, CalTech, UPenn ve diğerlerinden geliştiriciler, EUREKA adlı bir LLM güçlendirilmiş insan düzeyinde tasarım algoritmasını tanıttılar. EUREKA, kod yazma, bağlam içi iyileştirme ve sıfır-shot içerik oluşturma gibi LLM çerçevelerinin çeşitli yeteneklerini kullanarak ödül kodlarının withoutöncedentesini gerçekleştirmeyi hedefler. Bu ödül kodları, pekiştirme öğrenimi ile birleştirildiğinde, çerçevelerin komplex beceriler öğrenmesini veya manipülasyon görevlerini gerçekleştirmesini sağlar.
Bu makalede, EUREKA çerçevesini geliştirme perspektifinden inceleyeceğiz, çerçevesini, işleyişini ve ödül fonksiyonları oluşturma konusundaki sonuçlarını探acağız. Bu fonksiyonlar, geliştiriciler tarafından iddia edildiği gibi, insan tarafından oluşturulanları aşmaktadır. Ayrıca, EUREKA çerçevesinin nasıl bir yeni yaklaşım sunabileceğini RLHF (Pekiştirme Öğrenimi ile İnsan Geri Bildirimi) için, gradient-free bağlam içi öğrenimi ermög ederek inceleyeceğiz. Başlayalım.
EUREKA : Bir Giriş
Bugün, en son LLM çerçeveleri gibi GPT-3 ve GPT-4, sıralı yüksek düzeyli karar alma görevleri için anlamsal planlayıcılar olarak mükemmel sonuçlar verir, ancak geliştiriciler hala düşük düzeyli manipülasyon görevlerini öğrenme performanslarını geliştirmek için yollar arıyor. Ayrıca, geliştiriciler pekiştirme öğreniminin, dexterous koşullarda ve diğer alanlarda sürdürülebilir sonuçlar elde edilebileceğini gözlemişlerdir, ancak ödül fonksiyonları dikkatli bir şekilde insan tasarımcıları tarafından oluşturulmalıdır ve bu fonksiyonlar öğrenme sinyalleri için uygun davranışları sağlayabilir. Gerçek dünya pekiştirme öğrenimi görevleri, seyrek ödüller kabul ettiğinden, modelin desenleri öğrenmesi zorlaşır, bu nedenle bu ödülleri şekillendirmek gerekli öğrenme sinyallerini sağlar. Ayrıca, ödül fonksiyonları, önemlerine rağmen, tasarlamak çok zordur ve bu fonksiyonların alt-optimal tasarımları thường istenmeyen davranışlara yol açar.

Bu zorlukları aşmak ve bu ödül tokenlerinin verimliliğini en üst düzeye çıkarmak için, EUREKA veya Evolution-driven Universal REward Kit for Agent, aşağıdaki katkıları hedefler.
- İnsan düzeyinde performans için Ödül Fonksiyonları tasarımı.
- Elle ödül mühendisliği olmadan manipülasyon görevlerini etkili bir şekilde çözme.
- Yeni bir gradient-free bağlam içi öğrenme yaklaşımı kullanarak, daha insan uyumlu ve daha iyi performanslı ödül fonksiyonları oluşturma.
EUREKA’nın üç temel algoritmik tasarım seçimi vardır: evrimsel arama, çevre olarak bağlam ve ödül yansıması. İlk olarak, EUREKA çerçevesi, çevre kaynak kodunu bağlam olarak alır ve sıfır-shot ayarında çalıştırılabilir ödül fonksiyonları oluşturur. Ardından, çerçeve, evrimsel arama gerçekleştirir ve her iterasyon veya epoch için ödül adaylarını önerir ve en umut verici olanlarını iyileştirir. Son olarak, çerçeve, ödül yansıması yaklaşımını kullanarak, bağlam içi ödül iyileştirmesini daha etkili hale getirir, bu da çerçeveye, politika eğitim istatistiklerine dayalı olarak ödül kalitesinin metinsel özeti temelinde hedefe yönelik ve otomatik ödül düzenleme yeteneği sağlar. Aşağıdaki şekil, EUREKA çerçevesinin nasıl çalıştığını kısaca açıklar ve bir sonraki bölümde, mimari ve işleyiş hakkında daha ayrıntılı olarak konuşacağız.

EUREKA : Model Mimarisi ve Problem Ayarı
Ödül şekillendirmesinin birincil amacı, bir gerçek ödül fonksiyonu için şekillendirilmiş bir ödül fonksiyonu döndürmektir, bu da doğrudan optimize edilmesi zor olabilir, özellikle seyrek ödüller olduğunda. Ayrıca, tasarımcılar yalnızca sorguları kullanarak bu gerçek ödül fonksiyonlarına erişebilir, bu nedenle EUREKA çerçevesi, ödül oluşturma yaklaşımını benimser, bu da RDP veya Ödül Tasarım Problemine dayanan bir program sentezi ayaridir.
Ödül Tasarım Problemi veya RDP, bir dünya modeli, ödül fonksiyonları alanı, geçiş fonksiyonu ve eylem alanı içeren bir çifttir. Bir öğrenme algoritması daha sonra, bir politika oluşturarak ödülleri optimize eder, bu da bir MDP veya Markov Tasarım Süreci üretir, bu da yalnızca politika sorguları kullanılarak erişilebilir. RDP’nin birincil amacı, bir ödül fonksiyonu çıkarmaktır, böylece politika en yüksek fitness puanını elde edebilir. EUREKA’nın problem ayarında, geliştiriciler, RDP’deki her bileşeni kodu kullanarak belirtmiştir. Ayrıca, verilen bir dize, görev ayrıntılarını belirttiğinde, ödül oluşturma probleminin birincil amacı, fitness puanını en üst düzeye çıkarmak için bir ödül fonksiyonu kodu oluşturmaktır.
Devam ederek, EUREKA çerçevesinin temelinde üç temel algoritmik bileşen vardır: evrimsel arama, çevre olarak bağlam ve ödül yansıması. Aşağıdaki görüntü, algoritmanın pseudo-kodunu gösterir.

Çevre olarak Bağlam
Şu anda, LLM çerçeveleri, ödülleri tasarlamak için çevre spécifikasyonlarına girdi olarak ihtiyaç duyar, ancak EUREKA çerçevesi, ham çevre kodunu doğrudan bağlam olarak önerir, ödül koduna gerek kalmadan, böylece LLM çerçevelerinin dünya modelini bağlam olarak almasına olanak tanır. EUREKA’nın izlediği yaklaşım, iki önemli avantaj sağlar. İlk olarak, kodlama amaçlı LLM çerçeveleri, mevcut programlama dillerinde yazılmış yerel kod setlerine eğitim görür, bu nedenle orijinal olarak eğitildiği sentaks ve stilde kod oluşturma konusunda daha iyidirler. İkincisi, çevre kaynak kodunu kullanmak, genellikle çevre ile ilgili semantik bilgilerini ve belirtilen görev için uygun olan değişkenleri açıklar. Bu bilgiler ışığında, EUREKA çerçevesi, LLM’ye, yalnızca biçimlendirme ipuçları ve genel ödül tasarımları ile daha yürütülebilir Python kodu döndürmesini söyler.
Evrimsel Arama
EUREKA çerçevesine evrimsel aramanın dahil edilmesi, önce belirtilen alt-optimallik zorluklarına ve yürütme sırasında oluşan hatalara doğal bir çözüm sunmayı hedefler. Her iterasyon veya epoch ile, çerçeve, Büyük Dil Modeli’nden bağımsız çıkışlar üretir ve bu çıkışlar bağımsızdır, bu nedenle her epoch ile birlikte, ödül fonksiyonlarının hatalı olma olasılığı üssel olarak azalır.
Sonraki adımda, EUREKA çerçevesi, önceki iterasyonlardan yürütülebilir ödül fonksiyonlarını kullanarak, bağlam içi ödül mutasyonu gerçekleştirir ve ardından metinsel geri bildirime dayalı olarak yeni ve geliştirilmiş bir ödül fonksiyonu önerir. EUREKA çerçevesi, bağlam içi iyileştirme ve talimatları izleme yetenekleri ile birleştirildiğinde, Büyük Dil Modelleri, mutasyon operatörünü bir metin promt olarak belirtmesine ve politika eğitimi özeti temelinde mevcut ödül kodlarını değiştirmesine olanak tanır.
Ödül Yansıması
Bağlam içi ödül mutasyonlarını temellendirmek için, oluşturulan ödüllerin kalitesini değerlendirmek ve bunları kelimelere dökmek आवशidir, bu nedenle EUREKA çerçevesi, basit bir strateji olarak, sayısal puanları ödül değerlendirme olarak sağlar. Görev fitness fonksiyonu, bir bütün olarak gerçek ödül için bir ölçüt olarak hizmet ettiğinde, kredi atama konusunda yetersiz kalır ve ödül fonksiyonunun neden çalıştığı veya neden çalışmadığı konusunda değerli hiçbir bilgi sağlamaz. Bu nedenle, daha hedefe yönelik ve ince bir ödül teşhisini sağlamak için, çerçeve, politika eğitim dinamiklerini metin olarak özetleyen otomatik geri bildirimleri kullanmayı önerir. Ayrıca, ödül programında, EUREKA çerçevesindeki ödül fonksiyonları, bireysel bileşenlerini ayrı ayrı açıklamaya davet edilir, bu da çerçeveye, eğitim aşaması boyunca her benzersiz ödül bileşeninin skalër değerlerini politika kontrol noktalarında izleme olanağı sağlar.

EUREKA çerçevesinin izlediği ödül fonksiyonu prosedürü basitçe inşa edilebilir, ancak algoritmik bağımlı doğası nedeniyle ödülleri optimize etmede gereklidir. Bu, bir ödül fonksiyonunun etkinliğinin, Pekiştirme Öğrenimi algoritmasının seçimine doğrudan bağlı olduğu anlamına gelir ve hiperparametrelerdeki bir değişiklik, aynı optimizatör ile bile, ödülün farklı performans göstermesine neden olabilir. Bu nedenle, EUREKA çerçevesi, kayıtları daha etkili ve seçici bir şekilde düzenlerken, Pekiştirme Öğrenimi algoritmi ile daha gelişmiş bir uyuma sahip ödül fonksiyonları sentezler.
Eğitim ve Karşılaştırma
EUREKA çerçevesinin iki temel eğitim bileşeni vardır: Politika Öğrenimi ve Ödül Değerlendirme Metrikleri.
Politika Öğrenimi
Her görev için nihai ödül fonksiyonları, aynı Pekiştirme Öğrenimi algoritması kullanılarak ve aynı hiperparametreler ile optimize edilir, bu hiperparametreler, insan tarafından tasarlanan ödül fonksiyonlarının iyi çalışması için ayarlanır.
Ödül Değerlendirme Metrikleri
Görev metriği her görevde ölçek ve anlamsal anlam olarak değiştiğinden, EUREKA çerçevesi, insan normalize puanını raporlar, bu da çerçeveyi, insan tarafından oluşturulan ödüllere göre gerçek ödül metriklerine göre nasıl performans gösterdiğini karşılaştırmak için bir ölçüt sağlar.
Devam ederek, üç temel karşılaştırma vardır: L2R, İnsan, ve Seyrek.
L2R
L2R, şablonlu ödülleri oluşturmak için kullanılan bir iki aşamalı Büyük Dil Modeli promt çözümüdür. İlk olarak, bir LLM çerçevesi, çevre ve görev için doğal dil şablonunu doldurur, ardından ikinci bir LLM çerçevesi, bu “hareket açıklamasını” bir ödül fonksiyonu kodu yazmak için manuel olarak yazılmış ödül API primitiflerini çağıran bir kod olarak dönüştürür.
İnsan
İnsan karşılaştırması, Pekiştirme Öğrenimi araştırmacıları tarafından yazılmış orijinal ödül fonksiyonlarıdır, bu nedenle insan ödül mühendisliğinin sonuçlarını temsil eder.
Seyrek
Seyrek karşılaştırması, fitness fonksiyonlarına benzer ve oluşturulan ödüllerin kalitesini değerlendirmek için kullanılır.
Sonuçlar ve Çıktılar
EUREKA çerçevesinin performansını analiz etmek için, farklı parametreleri değerlendireceğiz, bunlar arasında insan ödülleri ile karşılaştırma, zaman içinde iyileşme, yeni ödüller oluşturma, hedefe yönelik iyileşme sağlama ve insan geri bildirimi ile çalışma.
EUREKA İnsan Ödüllerini Aşar
Aşağıdaki şekil, farklı benchmark’ler üzerinde toplu sonuçları gösterir ve açıkça görüldüğü gibi, EUREKA çerçevesi, Dexterity ve Issac görevlerinde hem insan düzeyinde ödülleri aşar hem de onlara eşittir. Karşılaştırıldığında, L2R karşılaştırması, düşük boyutlu görevlerde benzer bir performans gösterir, ancak yüksek boyutlu görevlerde performans farkı oldukça büyüktür.

Zaman İçinde Sürekli İyileşme
EUREKA çerçevesinin önemli bir özelliği, her iterasyon ile performansını sürekli olarak iyileştirebilmesidir ve sonuçlar aşağıdaki şekilde gösterilmiştir.

Açıkça görüldüğü gibi, çerçeve her iterasyon ile daha iyi ödüller üretir ve sonunda insan ödüllerinin performansını aşar, bu da bağlam içi evrimsel ödül arama yaklaşımının kullanılmasının sonucudur.
Yeni Ödüller Oluşturma
EUREKA çerçevesinin ödüllerinin yeniliği, Issac görevlerinin tümü üzerinde insan ve EUREKA ödülleri arasındaki korelasyon hesaplayarak değerlendirilebilir. Bu korelasyonlar, insan normalize puanlarına karşı bir saçılma grafiğinde veya haritada çizilir, grafiğin her noktası her görev için bir EUREKA ödülünü temsil eder. Açıkça görüldüğü gibi, EUREKA çerçevesi çoğunlukla insan ödül fonksiyonlarını aşan zayıf korelasyonlu ödül fonksiyonları üretir.

Hedefe Yönelik İyileşme Sağlama
Ödül yansımasını eklemenin önemini değerlendirmek için, geliştiriciler, ödül yansıması olmayan bir EUREKA çerçevesi için bir azaltma değerlendirdiler, bu da geri bildirimi yalnızca anlık değerleri içerecek şekilde azaltır. Issac görevlerini çalıştırdıklarında, geliştiriciler, ödül yansıması olmadan EUREKA çerçevesinin ortalama normalize puanında %29’luk bir düşüş gözlemledi.
İnsan Geri Bildirimi ile Çalışma
Geniş bir girdi yelpazesi ile insan uyumlu ve daha iyi performanslı ödül fonksiyonları oluşturmak için, EUREKA çerçevesi, otomatik ödül tasarımlarının yanı sıra, Pekiştirme Öğrenimi ile İnsan Geri Bildirimi için yeni bir gradient-free bağlam içi öğrenme yaklaşımı tanıtır ve iki önemli gözlem vardır.
- EUREKA, insan ödül fonksiyonlarından yararlanabilir ve onlardan yararlanabilir.
- Ödül yansıması için insan geri bildirimi, uyumlu davranışları tetikleme sağlar.

Aşağıdaki şekil, EUREKA çerçevesinin, insan ödül inicializasyonunu kullanarak önemli bir performans ve verimlilik artışı gösterdiğini gösterir, bu da temel ödülün kalitesinin, çerçevenin bağlam içi ödül iyileştirme yeteneği üzerinde önemli bir etkisi olmadığını gösterir.

Aşağıdaki şekil, EUREKA çerçevesinin, yalnızca daha insan uyumlu politikalar üretmediğini, aynı zamanda insan geri bildirimi ile ödülleri değiştirebileceğini gösterir.
Son Düşünceler
Bu makalede, EUREKA adlı bir LLM güçlendirilmiş insan düzeyinde tasarım algoritması hakkında konuştuk, bu algoritma, kod yazma, bağlam içi iyileştirme ve sıfır-shot içerik oluşturma gibi LLM çerçevelerinin yeteneklerini kullanarak, ödül kodlarının withoutöncedentesini gerçekleştirmeyi hedefler. Ödül kodu, Pekiştirme Öğrenimi ile birleştirildiğinde, bu çerçevelerin komplex beceriler öğrenmesini veya manipülasyon görevlerini gerçekleştirmesini sağlar. İnsan müdahalesi veya görev özgü promt mühendisliği olmadan, çerçeve, geniş bir görev yelpazesi üzerinde insan düzeyinde ödül oluşturma yetenekleri sunar ve onun temel gücü, bir curriculum öğrenme yaklaşımı ile komplex görevleri öğrenmesidir.
Genel olarak, EUREKA çerçevesinin önemli performansı ve esnekliği, evrimsel algoritmaları Büyük Dil Modelleri ile birleştirmenin, tasarım ödülleri için ölçeklenebilir ve genel bir yaklaşım olabileceğini gösterir ve bu insight, diğer açık uçlu arama problemlerine de uygulanabilir.










