Bizimle iletişime geçin

Yapay Zeka

POKELLMON: Yüksek Lisans Dereceleri ile Pokemon Savaşları için İnsan Eşliği Temsilcisi

mm
POKELLMON: Yüksek Lisans Dereceleri ile Pokemon Savaşları için İnsan Eşliği Temsilcisi

Büyük Dil Modelleri ve Üretken Yapay Zeka, çok çeşitli Doğal Dil İşleme görevlerinde benzeri görülmemiş bir başarı göstermiştir. NLP alanını fethettikten sonra, GenAI ve LLM araştırmacıları için bir sonraki zorluk, büyük dil modellerinin gerçek dünyada metinden eyleme kadar geniş bir nesil boşluğu ile nasıl özerk bir şekilde hareket edebileceğini keşfetmek, böylece Yapay Genel Zeka arayışında önemli bir paradigmayı temsil etmektir. . Çevrimiçi oyunların, görsel çevreyle bir insanın yapacağı şekilde etkileşime giren geniş dil modeli içeren etmenler geliştirmek için uygun bir test temeli olduğu düşünülmektedir. 

Örneğin, popüler bir çevrimiçi simülasyon oyunu olan Minecraft'ta, oyunculara dünyayı keşfetmelerinde yardımcı olmak ve aynı zamanda araç yapma ve görevleri çözme becerilerini geliştirmek için karar verme aracıları kullanılabilir. LLM temsilcilerinin görsel ortamla etkileşime girmesine bir başka örnek, temsilcilerin sosyal etkileşimlerde dikkate değer bir başarı sergilediği ve insanlara benzeyen davranışlar sergilediği bir başka çevrimiçi oyun olan The Sims'te yaşanabilir. Ancak mevcut oyunlarla karşılaştırıldığında taktiksel savaş oyunları, büyük dil modellerinin sanal oyun oynama yeteneğini kıyaslamak için daha iyi bir seçim olabilir. Taktiksel oyunların daha iyi bir referans noktası olmasının temel nedeni, kazanma oranının doğrudan ölçülebilmesi ve insan oyuncular ve yapay zeka da dahil olmak üzere tutarlı rakiplerin her zaman mevcut olmasıdır. 

Aynı temelden yola çıkan POKELLMON, Pokemon savaşlarında görülene benzer şekilde, taktik oyunlarda insan düzeyinde performansa ulaşan dünyanın ilk somutlaşmış ajanı olmayı hedefliyor. POKELLMON çerçevesi özünde üç ana stratejiyi içermektedir.

  1. Politikayı tekrar tekrar iyileştirmek için savaşlardan elde edilen metin tabanlı geri bildirimleri anında tüketen bağlam içi takviyeli öğrenme. 
  2. Halüsinasyonlara karşı koymak için harici bilgiyi alan, bilgiyle zenginleştirilmiş nesil, ajanın ihtiyaç duyulduğunda doğru şekilde hareket etmesini sağlar. 
  3. Temsilci güçlü bir oyuncuyla karşılaştığında ve onunla yüzleşmekten kaçınmak istediğinde panik değiştirme durumunu en aza indirmek için tutarlı eylem üretimi. 

Bu makale POKELLMON çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve en son teknoloji çerçevelerle karşılaştırmasını araştırıyoruz. Ayrıca POKELLMON çerçevesinin nasıl olağanüstü insan benzeri savaş stratejileri ve zamanında karar verme yetenekleri gösterdiğinden ve neredeyse %50'lik saygın bir kazanma oranına ulaştığından da bahsedeceğiz. Öyleyse başlayalım.

POKELLMON: Pokemon Savaşları için Yüksek Lisans Derecesine Sahip Bir İnsan Eşlik Ajanı

Büyük Dil Modellerinin ve Üretken Yapay Zeka çerçevelerinin yeteneklerinde ve verimliliğinde son birkaç yılda yaşanan artış, özellikle NLP görevlerinde olağanüstü olmaktan başka bir şey değildi. Son zamanlarda, geliştiriciler ve yapay zeka araştırmacıları, fiziksel dünyada özerk bir şekilde hareket etme yeteneği ile Üretken Yapay Zeka ve Yüksek Lisans'ı gerçek dünya senaryolarında daha belirgin hale getirmenin yolları üzerinde çalışıyorlar. Araştırmacılar ve geliştiriciler, fiziksel ve gerçek dünya durumlarında bu özerk performansı elde etmek için, oyunların, sanal ortamla insan davranışına benzer bir şekilde etkileşime girebilme yeteneğine sahip LLM içeren aracılar geliştirmek için uygun bir test ortamı olduğunu düşünüyor. 

Daha önce geliştiriciler, Minecraft ve Sims gibi sanal simülasyon oyunlarında LLM içeren ajanlar geliştirmeye çalıştılar, ancak Pokemon gibi taktiksel oyunların bu ajanları geliştirmek için daha iyi bir seçim olabileceğine inanılıyor. Pokemon savaşları, geliştiricilerin bir antrenörün iyi bilinen Pokemon oyunlarındaki savaşma yeteneğini değerlendirmesine olanak tanır ve diğer taktiksel oyunlara göre birçok avantaj sunar. Eylem ve durum uzayları ayrık olduğundan herhangi bir kayıp olmadan metne çevrilebilir. Aşağıdaki şekil, oyuncudan her iki taraftan Pokemon'un mevcut durumuna göre her turda gerçekleştireceği bir eylem oluşturmasının istendiği tipik bir Pokemon savaşını göstermektedir. Kullanıcılar beş farklı Pokemon arasından seçim yapma seçeneğine sahip ve aksiyon alanında toplam dört hamle bulunuyor. Ayrıca oyun, sıra tabanlı formatın yoğun bir oyun gereksinimini ortadan kaldırması nedeniyle LLM'ler için çıkarım süresi ve çıkarım maliyetleri üzerindeki stresin azaltılmasına yardımcı olur. Sonuç olarak performans öncelikle kişinin muhakeme yeteneğine bağlıdır. büyük dil modeli. Son olarak Pokemon savaş oyunları basit gibi görünse de gerçekte işler biraz daha karmaşık ve oldukça stratejiktir. Deneyimli bir oyuncu savaş için rastgele bir Pokemon seçmez, ancak Pokemonların türü, istatistikleri, yetenekleri, türleri, eşyaları, hareketleri dahil olmak üzere hem savaş alanı içinde hem de dışında çeşitli faktörleri dikkate alır. Dahası, rastgele bir savaşta Pokemonlar, her biri muhakeme yeteneği ve Pokemon bilgisine sahip, kendine özgü farklı karakterlere sahip, binden fazla karakterden oluşan bir havuzdan rastgele seçilir. 

POKELLMON : Metodoloji ve Mimari

POKELLMON çerçevesinin genel çerçevesi ve mimarisi aşağıdaki görüntüde gösterilmektedir. 

Her dönüş sırasında, POKELLMON çerçevesi önceki eylemleri ve buna karşılık gelen metin tabanlı geri bildirimleri kullanarak politikayı yinelemeli olarak iyileştirir ve mevcut durum bilgisini yetenek/hareket etkileri veya avantaj/zayıflık ilişkisi gibi harici bilgilerle artırır. Girdi olarak verilen bilgiler için POKELLMON çerçevesi bağımsız olarak birden fazla eylem üretir ve ardından en tutarlı olanları nihai çıktı olarak seçer. 

Bağlam İçi Takviyeli Öğrenme

İnsan oyuncular ve sporcular genellikle sadece mevcut duruma göre karar vermekle kalmaz, aynı zamanda diğer oyuncuların deneyimlerinin yanı sıra önceki eylemlerden elde edilen geri bildirimleri de yansıtırlar. Olumlu geri bildirimin, oyuncunun hatalarından ders almasına ve aynı hatayı tekrar tekrar yapmaktan kaçınmasına yardımcı olan şey olduğunu söylemek yanlış olmaz. Uygun geri bildirim olmadan, POKELLMON aracıları aşağıdaki şekilde gösterildiği gibi aynı hata eylemine devam edebilir. 

Görüldüğü üzere oyun içi ajan, “Dry Skin” yeteneğine sahip bir Pokemon karakterine karşı su bazlı bir hamle kullanarak, su bazlı saldırılara karşı verilen hasarın sıfırlanmasını sağlıyor. Oyun, ekranda "Bağışıklık" mesajını yanıp sönerek kullanıcıyı uyarmaya çalışır; bu, bir insan oyuncunun "Kuru Cilt" hakkında bir bilgisi olmasa bile eylemlerini yeniden gözden geçirmesine ve bunları değiştirmesine neden olabilir. Ancak temsilcinin durum açıklamasında yer almaması, temsilcinin aynı hatayı tekrar yapmasına neden olur. 

POKELLMON aracısının önceki hatalarından ders almasını sağlamak için çerçeve, Bağlam İçi Takviyeli Öğrenme yaklaşımını uygular. Takviyeli öğrenme, makine öğreniminde popüler bir yaklaşımdır ve eylemleri değerlendirmek için sayısal ödüller gerektirdiğinden geliştiricilere ayrıntılandırma politikası konusunda yardımcı olur. O zamandan beri büyük dil modelleri Dili yorumlama ve anlama yeteneğine sahip olan, metin tabanlı açıklamalar Yüksek Lisans için yeni bir ödül biçimi olarak ortaya çıkmıştır. POKELLMON aracısı, önceki eylemlerden metin tabanlı geri bildirimler ekleyerek politikasını, yani Bağlam İçi Güçlendirme Öğrenimini yinelemeli ve anında geliştirebilir. POKELLMON çerçevesi dört tür geri bildirim geliştirir:

  1. Bir saldırı hareketinin neden olduğu gerçek hasar, art arda iki tur boyunca HP'deki farka göre belirlenir. 
  2. Saldırı hareketlerinin etkinliği. Geri bildirim, saldırının etkinliğini, hiçbir etkisinin olmaması veya bağışıklığı, etkisizliği veya yetenek/hareket etkileri veya tür avantajı nedeniyle süper etkili olması açısından gösterir. 
  3. Bir hamleyi gerçekleştirmek için öncelik sırası. Rakip Pokemon karakterine ilişkin kesin istatistikler mevcut olmadığından, öncelik sırası geri bildirimi kaba bir hız tahmini sağlar. 
  4. Yapılan hamlelerin rakip üzerindeki gerçek etkisi. Hem saldırı hamleleri hem de durum, HP'yi iyileştirme, istatistik artırma veya zayıflatma, donma, yanık veya zehir gibi durumlara neden olma gibi sonuçlarla sonuçlanabilir. 

Ayrıca, Bağlam İçi Takviyeli Öğrenme yaklaşımının kullanılması, aşağıdaki şekilde gösterildiği gibi performansta önemli bir artışa neden olur. 

GPT-4'teki orijinal performansla karşılaştırıldığında kazanma oranı neredeyse %10 artarken savaş puanında da yaklaşık %13 artış görülüyor. Ayrıca, aşağıdaki şekilde gösterildiği gibi, ajan önceki hamlelerde gerçekleştirilen hamlelerin beklentileri karşılayamaması durumunda analiz etmeye ve eylemini değiştirmeye başlar. 

Bilgiyle Artırılmış Üretim veya KAG

Bağlam İçi Takviyeli Öğrenmenin uygulanması halüsinasyonlara bir dereceye kadar yardımcı olsa da, temsilci geri bildirimi almadan yine de ölümcül sonuçlara yol açabilir. Örneğin, eğer temsilci ateş tipi bir Pokemon'a karşı çimen tipi bir Pokemon ile savaşmaya karar verirse, ilkinin muhtemelen tek bir turda kazanması muhtemeldir. Halüsinasyonları daha da azaltmak ve ajanın karar verme yeteneğini geliştirmek için POKELLMON çerçevesi, harici bilgiyi kullanan bir teknik olan Bilgiyle Artırılmış Üretimi veya KAG yaklaşımını uygular. üretimi artırmak

Şimdi, model yukarıda tartışılan 4 tür geri bildirimi ürettiğinde, Pokemon hareketlerine ve bilgilerine açıklama ekleyerek aracının tür avantajı ilişkisini kendi başına çıkarmasına olanak tanır. Akıl yürütmenin içerdiği halüsinasyonu daha da azaltmak amacıyla, POKELLMON çerçevesi, karşı Pokemon'un ve ajanın Pokemon'unun tür avantajını ve zayıflığını yeterli açıklamalarla açıkça açıklıyor. Üstelik Pokemonların farklı etkileri olan hareketlerini ve yeteneklerini ezberlemek, özellikle de Pokemonların çok fazla olması nedeniyle zordur. Aşağıdaki tablo bilgi artırılmış üretimin sonuçlarını göstermektedir. Bilgi Artırılmış Üretim yaklaşımını uygulayarak POKELLMON çerçevesinin kazanma oranını mevcut %20'dan %36'e yaklaşık %55 artırabildiğini belirtmekte fayda var. 

Ayrıca geliştiriciler, ajana Pokemon'larla ilgili harici bilgi sağlandığında, aşağıdaki görselde gösterildiği gibi özel hareketleri doğru zamanda kullanmaya başladığını gözlemledi. 

Tutarlı Aksiyon Üretimi

Mevcut modeller, yönlendirme ve akıl yürütme yaklaşımlarının uygulanmasının Yüksek Lisans'ın karmaşık görevleri çözme yeteneğini geliştirebileceğini göstermektedir. Tek seferlik bir eylem oluşturmak yerine, POKELLMON çerçevesi CoT veya Düşünce Zinciri, ToT veya Düşünce Ağacı ve Öz Tutarlılık dahil olmak üzere mevcut yönlendirme stratejilerini değerlendirir. Düşünce Zinciri için, aracı başlangıçta mevcut savaş senaryosunu analiz eden bir düşünce üretir ve bu düşünceye bağlı olarak bir eylem üretir. Kendi Kendine Tutarlılık için aracı, eylemlerin üç katını oluşturur ve maksimum sayıda oy alan çıktıyı seçer. Son olarak Düşünce Ağacı yaklaşımı için de çerçeve, öz tutarlılık yaklaşımında olduğu gibi üç eylem üretir, ancak bunları tek başına değerlendirdikten sonra en iyi olduğunu düşündüğü eylemi seçer. Aşağıdaki tablo, yönlendirme yaklaşımlarının performansını özetlemektedir. 

Her tur için yalnızca tek bir eylem vardır; bu, temsilci değişmeye karar verse ve rakip saldırmaya karar verse bile, devreye giren Pokémon'un hasarı alacağı anlamına gelir. Normalde temsilci, savaş dışı bir Pokémon'u tür avantajıyla değiştirmek istediği için değiştirmeye karar verir ve böylece geçiş yapan Pokémon, rakip Pokémon'un hareketlerine karşı türe dayanıklı olduğu için hasarı karşılayabilir. Bununla birlikte, yukarıdaki gibi, CoT mantığına sahip ajan için, güçlü rakip Pokémon çeşitli dönüşleri zorlasa bile, görevle tutarsız davranır, çünkü Pokemon'a geçmek yerine birkaç Pokémon'a girip geri dönmek isteyebilir. panik geçişi. Panik değişimi, hamle yapma şansını ortadan kaldırır ve dolayısıyla yenilgiye uğrar. 

POKELLMON : Sonuçlar ve Deneyler

Sonuçları tartışmadan önce savaş ortamını anlamamız çok önemli. Bir turun başlangıcında, ortam sunucudan bir eylem-istek mesajı alır ve son turun yürütme sonucunu da içeren bu mesaja sonda yanıt verir. 

  1. Önce mesajı ayrıştırır ve yerel durum değişkenlerini günceller, 2. ardından durum değişkenlerini metne çevirir. Metin açıklaması temel olarak dört bölümden oluşur: 1. Saha içi ve saha dışı (kullanılmayan) Pokémon'un özelliklerini içeren kendi takım bilgileri.
  2. Rakip Pokémon'un sahadaki ve saha dışındaki özelliklerini içeren rakip takım bilgileri (bazı bilgiler bilinmiyor).
  3. Hava durumunu, giriş tehlikelerini ve araziyi içeren savaş alanı bilgileri.
  4. Hem Pokémon'un önceki eylemlerini içeren hem de bir günlük kuyruğunda saklanan geçmiş dönüş günlüğü bilgileri. LLM'ler çevrilmiş durumu bir sonraki adım için giriş ve çıkış eylemleri olarak alır. Eylem daha sonra sunucuya gönderilir ve insan tarafından yapılan eylemle aynı anda yürütülür.

İnsan Oyunculara Karşı Savaş

Aşağıdaki tablo POKELLMON ajanının insan oyunculara karşı performansını göstermektedir. 

Gözlemlenebileceği gibi, POKELLMON temsilcisi, kapsamlı savaş deneyiminin yanı sıra, davet edilen bir oyuncuyla karşılaştırıldığında daha yüksek kazanma oranına sahip olan basamak oyuncularla karşılaştırılabilir bir performans sunuyor. 

Savaş Beceri Analizi

POKELLMON çerçevesi etkili hamleyi seçerken nadiren hata yapar ve Bilgi Artırılmış Üretim stratejisi sayesinde başka bir uygun Pokemon'a geçer. 

Yukarıdaki örnekte gösterildiği gibi, ajan, farklı saldırı hareketlerini, yani bu durumda rakip için en etkili olanları seçebildiğinden, tüm rakip takımı yenmek için yalnızca bir Pokemon kullanır. Ayrıca POKELLMON çerçevesi aynı zamanda insan benzeri yıpratma stratejisi de sergiliyor. Bazı Pokemonların her turda ek hasar verebilecek bir "Zehirli" hareketi vardır, "Kurtarma" hareketi ise HP'sini iyileştirmesine olanak tanır. Bundan yararlanan ajan, önce rakip Pokemon'u zehirler ve Bayılmayı önlemek için Kurtarma hareketini kullanır. 

Son Düşüncelerimiz

Bu yazımızda büyük dil modellerinin insanlara karşı otonom olarak Pokemon savaşları oynamasını sağlayan bir yaklaşım olan POKELLMON'dan bahsettik. POKELLMON, Pokemon savaşlarında görülene benzer şekilde, taktik oyunlarda insan seviyesinde performansa ulaşan dünyanın ilk somutlaştırılmış ajanı olmayı hedefliyor. POKELLMON çerçevesi üç temel strateji sunar: Eğitim olmadan eylem oluşturma politikasını yinelemeli olarak iyileştirmek için metin tabanlı geri bildirimi "ödül" olarak tüketen Bağlam İçi Takviyeli Öğrenme, halüsinasyonla mücadele etmek için harici bilgiyi alan ve ajanın harekete geçmesini sağlayan Bilgiyle Artırılmış Üretim. zamanında ve doğru bir şekilde ve güçlü rakiplerle karşılaşıldığında panik geçiş sorununu önleyen Tutarlı Eylem Oluşturma. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.