saplama EUREKA: Büyük Dil Modellerini Kodlayarak İnsan Düzeyinde Ödül Tasarımı - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

EUREKA: Büyük Dil Modellerini Kodlayarak İnsan Düzeyinde Ödül Tasarımı

mm
Güncellenmiş on

Büyük Dil Modellerinin son yıllarda kaydettiği ilerlemelerle birlikte, bu LLM çerçevelerinin sıralı üst düzey karar verme görevleri için anlamsal planlayıcılar olarak neden bu kadar üstün olduğu şaşırtıcı değildir. Ancak geliştiriciler, karmaşık düşük seviyeli manipülasyon görevlerini öğrenmek için Yüksek Lisans çerçevelerinin tüm potansiyelinden yararlanmayı hâlâ zor buluyor. Verimliliklerine rağmen, günümüzün Büyük Dil Modelleri, basit becerileri öğrenmek veya metinsel yönlendirmeler oluşturmak için bile önemli miktarda alan ve konu uzmanlığı gerektirir; bu da performansları ile insan düzeyindeki el becerisi arasında önemli bir boşluk yaratır.

Bu boşluğu kapatmak için Nvidia, CalTech, UPenn ve diğer geliştiriciler, LLM destekli insan düzeyinde bir tasarım algoritması olan EUREKA'yı tanıttı. EUREKA, ödül kodlarının benzeri görülmemiş optimizasyonunu gerçekleştirmek için kod yazma, bağlam içi iyileştirme ve sıfır atış içerik üretimi dahil olmak üzere LLM çerçevelerinin çeşitli yeteneklerinden yararlanmayı amaçlamaktadır. Bu ödül kodları, takviyeli öğrenmeyle birleştiğinde, çerçevelerin karmaşık becerileri öğrenmesini veya manipülasyon görevlerini gerçekleştirmesini sağlar.

Bu yazıda EUREKA çerçevesini gelişim perspektifinden inceleyeceğiz, çerçevesini, işleyişini ve ödül fonksiyonları oluşturmada elde ettiği sonuçları inceleyeceğiz. Geliştiricilerin iddia ettiği gibi bu işlevler, insanlar tarafından oluşturulanlardan daha iyi performans gösteriyor. Ayrıca EUREKA çerçevesinin, bağlam içi öğrenimi gradyansız olarak mümkün kılarak RLHF'ye (İnsan Geri Bildirimini Kullanarak Takviyeli Öğrenim) yönelik yeni bir yaklaşımın yolunu nasıl açtığını da inceleyeceğiz. Başlayalım.

EUREKA: Giriş

Bugün, son teknoloji LLM çerçeveleri GPT-3 ve GPT-4 gibi, sıralı üst düzey karar verme görevleri için anlamsal planlayıcılar olarak hizmet verirken olağanüstü sonuçlar sunar, ancak geliştiriciler, kalem döndürme gibi düşük düzeyli manipülasyon görevlerini öğrenmeye gelince hala performanslarını artırmanın yollarını arıyorlar. maharet. Ayrıca geliştiriciler, beceri gerektiren koşullarda sürdürülebilir sonuçlar elde etmek için takviyeli öğrenmenin kullanılabileceğini ve ödül fonksiyonlarının insan tasarımcılar tarafından dikkatlice oluşturulması koşuluyla diğer alanlarda kullanılabileceğini ve bu ödül fonksiyonlarının olumlu davranışlar için öğrenme sinyallerini sağlayabildiğini gözlemlediler. Seyrek ödülleri kabul eden gerçek dünyadaki takviyeli öğrenme görevleriyle karşılaştırıldığında, modelin kalıpları öğrenmesini zorlaştırır, bu ödülleri şekillendirmek gerekli artımlı öğrenme sinyallerini sağlar. Ayrıca, ödül fonksiyonlarının önemine rağmen tasarımı son derece zordur ve bu fonksiyonların optimumun altındaki tasarımları sıklıkla istenmeyen davranışlara yol açar. 

Bu zorlukların üstesinden gelmek ve bu ödül tokenlerinin verimliliğini en üst düzeye çıkarmak için EUREKA veya Eevrim odaklı Uevrensel REkoğuş Kbunun için Agent aşağıdaki katkıları sağlamayı amaçlamaktadır. 

  1. Ödül İşlevlerini tasarlamak için insan düzeyinde performans elde etmek. 
  2. Manüel ödül mühendisliğini kullanmadan manipülasyon görevlerini etkili bir şekilde çözün. 
  3. Geleneksel RLHF veya İnsan Geri Bildiriminden Takviyeli Öğrenme yöntemi yerine yeni, kademesiz, bağlam içi öğrenme yaklaşımını tanıtarak, daha fazla insan odaklı ve daha performanslı ödül işlevleri oluşturun. 

Geliştiricilerin EUREKA'nın genelliğini geliştirmek için tercih ettiği üç temel algoritmik tasarım seçeneği vardır: evrimsel arama, bağlam olarak çevre ve ödül yansıması. İlk olarak, EUREKA çerçevesi şunları alır: bağlam olarak ortam kaynak kodu Sıfır atış ayarında yürütülebilir ödül fonksiyonları oluşturmak için. Bunu takiben çerçeve bir işlem gerçekleştirir. evrimsel arama Ödüllerinin kalitesini önemli ölçüde artırmak için, her yinelemede veya dönemde ödül adayı grupları önerir ve en umut verici bulduklarını hassaslaştırır. Üçüncü ve son aşamada ise çerçeve şu şekilde kullanılır: ödül yansıması Ödüllerin bağlam içi iyileştirilmesini daha etkili hale getirmeye yönelik bir yaklaşım; politika eğitim istatistiklerine dayanarak bu ödüllerin kalitesinin metinsel bir özetini kullanarak çerçevenin hedeflenen ve otomatikleştirilmiş ödül düzenlemesine olanak sağlamasına yardımcı olan bir süreç. Aşağıdaki şekil size EUREKA çerçevesinin nasıl çalıştığına dair kısa bir genel bakış sunmaktadır ve önümüzdeki bölümde mimari ve çalışma hakkında daha ayrıntılı olarak konuşacağız. 

EUREKA : Model Mimarisi ve Problem Belirleme

Ödül şekillendirmenin temel amacı, seyrek ödüller gibi doğrudan optimize edildiğinde zorluklar yaratabilecek, gerçek bir ödül işlevi için şekillendirilmiş veya seçilmiş bir ödül işlevi döndürmektir. Ayrıca tasarımcılar sorguları yalnızca bu gerçek ödül işlevlerine erişmek için kullanabilirler; bu da EUREKA çerçevesinin tercih etmesinin nedenidir. ödül üretimi, RDP'ye veya Ödül Tasarımı Sorununa dayalı bir program sentezi ayarı. 

Ödül Tasarım Problemi veya RDP, durum uzayı, ödül fonksiyonları için alan, geçiş fonksiyonu ve eylem uzayı içeren bir dünya modeli içeren bir demettir. Daha sonra bir öğrenme algoritması, herhangi bir politikanın sayısal evrimini üreten ve yalnızca politika sorguları kullanılarak erişilebilen bir MDP veya Markov Tasarım Süreci ile sonuçlanan bir politika oluşturarak ödülleri optimize eder. RDP'nin temel amacı, politikanın maksimum uygunluk puanına ulaşmasını sağlayacak şekilde bir ödül fonksiyonu ortaya koymaktır. EUREKA'nın problem ayarında geliştiriciler, Ödül Tasarım Problemindeki her bileşeni kod kullanarak belirlediler. Ayrıca, görevin ayrıntılarını belirten belirli bir dizi için ödül üretme probleminin temel amacı, uygunluk puanını maksimuma çıkaracak bir ödül fonksiyon kodu oluşturmaktır. 

EUREKA çerçevesinde özünde üç temel algoritmik bileşen bulunmaktadır. Evrimsel arama (tekrarlamalı olarak adayları iyileştirme ve ödüllendirme), bağlam olarak çevre (sıfır atış ortamında yürütülebilir ödüller oluşturma) ve ödül yansıması (ödüllerin ayrıntılı bir şekilde iyileştirilmesini sağlamak için). Algoritmanın sözde kodu aşağıdaki resimde gösterilmektedir. 

Bağlam Olarak Çevre

Şu anda LLM çerçeveleri, ödülleri tasarlamak için girdi olarak çevre spesifikasyonlarına ihtiyaç duyarken, EUREKA çerçevesi, LLM çerçevelerinin dünya modelini bağlam olarak almasına izin veren ödül kodu olmadan, ham çevre kodunu doğrudan bağlam olarak beslemeyi önermektedir. EUREKA'nın izlediği yaklaşımın iki önemli faydası vardır. İlk olarak, kodlama amaçlı LLM çerçeveleri, C, C++, Python, Java ve daha fazlası gibi mevcut programlama dillerinde yazılan yerel kod kümeleri üzerinde eğitilir; doğrudan izin verildiğinde kod çıktıları üretmede daha iyi olmalarının temel nedeni budur. Orijinal olarak eğitim aldıkları söz dizimi ve tarzda kod yazmak. İkincisi, ortam kaynak kodunun kullanılması genellikle anlamsal olarak dahil olan ortamları ve belirtilen göreve uygun olarak bir ödül işlevi çıktısı alma girişiminde kullanıma uygun veya ideal olan değişkenleri ortaya çıkarır. Bu öngörülere dayanarak EUREKA çerçevesi, LLM'ye yalnızca biçimlendirme ipuçları ve genel ödül tasarımlarının yardımıyla doğrudan daha çalıştırılabilir bir Python kodu döndürmesi talimatını verir. 

Evrimsel Arama

Evrimsel aramanın EUREKA çerçevesine dahil edilmesi, daha önce de belirtildiği gibi optimumun altındaki zorluklara ve uygulama sırasında meydana gelen hatalara doğal bir çözüm sunmayı amaçlamaktadır. Her yineleme veya çağda, çerçeve Büyük Dil Modelinden çeşitli bağımsız çıktılar verir ve nesillerin hepsinin iid olması koşuluyla, her çağda örnek sayısının arttığı göz önüne alındığında, yinelemeler sırasında ödül fonksiyonlarının hatalı olma olasılığını katlanarak azaltır. 

Bir sonraki adımda, EUREKA çerçevesi, bağlam içi bir ödül mutasyonu gerçekleştirmek için önceki yinelemedeki yürütülebilir ödül işlevlerini kullanır ve ardından metinsel geri bildirim temelinde yeni ve geliştirilmiş bir ödül işlevi önerir. EUREKA çerçevesi, bağlam içi iyileştirme ve talimat takibi ile birleştirildiğinde Büyük Dil Modellerinin yetenekleri Mutasyon operatörünü bir metin istemi olarak belirleyebilir ve mevcut ödül kodlarını değiştirmek için politika eğitiminin metinsel özetini kullanmaya yönelik bir yöntem önerir. 

Ödül Yansıması

Bağlam içi ödül mutasyonlarını temellendirmek için, oluşturulan ödüllerin kalitesini değerlendirmek ve daha da önemlisi bunları kelimelere dökmek önemlidir ve EUREKA çerçevesi, sayısal puanları ödül değerlendirmesi olarak sağlama şeklindeki basit stratejiyi kullanarak bu sorunu çözer. Görev uygunluk fonksiyonu temel gerçek için bütünsel bir ölçüm olarak hizmet ettiğinde, kredi tahsisinden yoksundur ve ödül fonksiyonunun neden çalıştığına veya neden çalışmadığına ilişkin herhangi bir değerli bilgi sağlayamaz. Bu nedenle, daha hedefe yönelik ve karmaşık bir ödül teşhisi sağlamak amacıyla çerçeve, politika eğitimi dinamiklerini metinlerde özetlemek için otomatik geri bildirimlerin kullanılmasını önermektedir. Ayrıca, ödül programında, EUREKA çerçevesindeki ödül fonksiyonlarının bileşenlerini ayrı ayrı ortaya koyması istenir ve böylece çerçevenin, tüm eğitim aşaması boyunca politika kontrol noktalarında her benzersiz ödül bileşeninin skaler değerlerini izlemesi sağlanır.

EUREKA çerçevesi tarafından takip edilen ödül fonksiyonu prosedürünün oluşturulması basit olmasına rağmen, ödüllerin optimize edilmesinin algoritmik bağımlı doğası sayesinde esastır. Bu, bir ödül fonksiyonunun etkinliğinin, Takviyeli Öğrenme algoritmasının seçiminden doğrudan etkilendiği ve hiper parametrelerdeki bir değişiklikle ödülün aynı optimize ediciyle bile farklı performans gösterebileceği anlamına gelir. Böylece, EUREKA çerçevesi, Takviyeli Öğrenme algoritmasıyla gelişmiş sinerji içinde olan ödül fonksiyonlarını sentezlerken kayıtları daha etkili ve seçici bir şekilde düzenleyebilmektedir. 

Eğitim ve Başlangıç ​​Durumu

EUREKA çerçevesinin iki ana eğitim bileşeni vardır: Politika Öğrenimi ve Ödül Değerlendirme Metrikleri.

Politika Öğrenimi

Her bir görev için nihai ödül işlevleri, insan mühendisliği ödüllerinin iyi işlemesini sağlayacak şekilde ince ayar yapılan aynı hiperparametreler kümesi kullanılarak aynı takviyeli öğrenme algoritmasının yardımıyla optimize edilir. 

Ödül Değerlendirme Metrikleri

Görev metriği her görevde ölçek ve anlamsal anlam bakımından değişiklik gösterdiğinden, EUREKA çerçevesi, çerçevenin, insan tarafından oluşturulan uzman ödüllerle nasıl performans gösterdiğini karşılaştırmak için bütünsel bir ölçüm sağlayan insan normalleştirilmiş puanını rapor eder. temel gerçeklik ölçümleri. 

Devam edersek üç temel temel vardır: L2R, İnsan, ve Seyrek. 

L2R

L2R bir çift ​​aşamalı Büyük Dil ModuŞablonlu ödüllerin oluşturulmasına yardımcı olan teşvik edici bir çözüm. İlk olarak, bir LLM çerçevesi, doğal dilde belirtilen ortam ve görev için bir doğal dil şablonunu doldurur ve ardından ikinci bir LLM çerçevesi, bu "hareket açıklamasını", manuel olarak yazılan bir dizi ödül API ilkelini çağırarak bir ödül işlevi yazan bir koda dönüştürür. . 

İnsan

İnsan temel çizgisi, takviyeli öğrenme araştırmacıları tarafından yazılan orijinal ödül fonksiyonlarıdır ve dolayısıyla insan ödül mühendisliğinin sonuçlarını benzeri görülmemiş bir düzeyde temsil eder. 

Seyrek

Seyrek temel, uygunluk fonksiyonlarına benzer ve çerçevenin ürettiği ödüllerin kalitesini değerlendirmek için kullanılır. 

Sonuçlar ve Sonuçlar

EUREKA çerçevesinin performansını analiz etmek için onu farklı parametreler üzerinden değerlendireceğiz. İnsani ödüllere karşı performans, Zaman içinde sonuçların iyileştirilmesi, Yeni ödüller yaratılması, Hedeflenen iyileştirmenin sağlanması, ve insan geri bildirimleriyle çalışmak. 

EUREKA İnsani Ödüllerden Daha İyi Performans Gösteriyor

Aşağıdaki şekil, farklı kıyaslamalara göre toplu sonuçları göstermektedir ve açıkça gözlemlenebileceği gibi, EUREKA çerçevesi hem Dexterity hem de Issac görevlerinde ya insan düzeyindeki ödüllerden daha iyi performans göstermektedir ya da onlarla eşit performans göstermektedir. Karşılaştırıldığında, L2R temel seviyesi düşük boyutlu görevlerde benzer performans sağlar, ancak yüksek boyutlu görevlere gelindiğinde performanstaki fark oldukça büyüktür. 

Zaman İçinde Sürekli İyileşme

EUREKA çerçevesinin öne çıkan en önemli özelliklerinden biri, her yinelemede zaman içinde performansını sürekli olarak iyileştirme ve geliştirme yeteneğidir ve sonuçlar aşağıdaki şekilde gösterilmektedir. 

Açıkça görülebileceği gibi, çerçeve her yinelemede sürekli olarak daha iyi ödüller üretiyor ve aynı zamanda bağlam içi evrimsel ödül arama yaklaşımını kullanması sayesinde insan ödüllerinin performansını da geliştiriyor ve sonunda aşıyor. 

Yeni Ödüller Yaratmak

EUREKA çerçevesinin ödüllerinin yeniliği, Issac görevlerinin tamamında insan ve EUREKA ödülleri arasındaki korelasyonun hesaplanmasıyla değerlendirilebilir. Bu korelasyonlar daha sonra bir dağılım grafiği veya harita üzerinde insan normalleştirilmiş puanlarına göre çizilir; çizimdeki her nokta, her bir görev için ayrı bir EUREKA ödülünü temsil eder. Açıkça görülebileceği gibi, EUREKA çerçevesi ağırlıklı olarak insan ödül işlevlerinden daha iyi performans gösteren, zayıf ilişkili ödül işlevleri üretmektedir. 

Hedeflenen İyileştirmeyi Etkinleştirme

Ödül geri bildirimine ödül yansıması eklemenin önemini değerlendirmek için geliştiriciler, geri bildirim istemlerini yalnızca anlık görüntü değerlerinden oluşacak şekilde azaltan, ödül yansıması olmayan bir EUREKA çerçevesi olan bir ablasyon değerlendirdi. Geliştiriciler, Issac görevlerini çalıştırırken, ödül yansıması olmadan EUREKA çerçevesinin ortalama normalleştirilmiş puanda yaklaşık %29'luk bir düşüşe tanık olduğunu gözlemledi. 

İnsan Geri Bildirimleriyle Çalışmak

İnsan odaklı ve daha performanslı ödül fonksiyonları oluşturmak için geniş bir girdi dizisini kolayca dahil etmek amacıyla, EUREKA çerçevesi, otomatik ödül tasarımlarına ek olarak, İnsan Geri Bildiriminden Takviyeli Öğrenime yönelik yeni bir kademesiz bağlam içi öğrenme yaklaşımını da sunmaktadır. iki önemli gözlem. 

  1. EUREKA, insanı ödüllendiren işlevlerden faydalanabilir ve bunları geliştirebilir. 
  2. Ödül yansımaları için insan geri bildirimini kullanmak, uyumlu davranışı teşvik eder. 

Yukarıdaki şekil, EUREKA çerçevesinin, temel ödüllerin kalitesinin bağlam içi ödül iyileştirme yetenekleri üzerinde önemli bir etkiye sahip olmadığını öne sürerek, insan ödüllerinin kalitesine bakılmaksızın insan ödül başlatmayı kullanarak performansta ve verimlilikte nasıl önemli bir artış gösterdiğini göstermektedir. çerçevenin. 

Yukarıdaki şekil, EUREKA çerçevesinin nasıl yalnızca daha fazla insan uyumlu politikayı teşvik etmekle kalmayıp, aynı zamanda insan geri bildirimini dahil ederek ödülleri nasıl değiştirebileceğini de göstermektedir. 

Son Düşüncelerimiz

Bu makalede, benzeri görülmemiş bir optimizasyon gerçekleştirmek için kod yazma, bağlam içi iyileştirme yetenekleri ve sıfır atış içerik üretimi dahil olmak üzere LLM çerçevelerinin çeşitli yeteneklerinden yararlanmaya çalışan, LLM destekli, insan düzeyinde bir tasarım algoritması olan EUREKA'dan bahsettik. ödül kodları. Ödül kodu, takviyeli öğrenmeyle birlikte daha sonra bu çerçeveler tarafından karmaşık becerileri öğrenmek veya manipülasyon görevlerini gerçekleştirmek için kullanılabilir. İnsan müdahalesi veya göreve özel hızlı mühendislik olmadan, çerçeve çok çeşitli görevlerde insan düzeyinde ödül oluşturma yetenekleri sunar ve en büyük gücü, karmaşık görevlerin müfredat öğrenme yaklaşımıyla öğrenilmesinde yatmaktadır. 

Genel olarak, EUREKA çerçevesinin önemli performansı ve çok yönlülüğü, evrimsel algoritmaları büyük dil modelleriyle birleştirmenin potansiyelinin, tasarım ödüllerine yönelik ölçeklenebilir ve genel bir yaklaşımla sonuçlanabileceğini ve bu içgörünün diğer açık uçlu arama problemlerine uygulanabileceğini göstermektedir. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.