Yapay Zekâ

POKELLMON: Büyük Dil Modelleri ile İnsan Düzeyinde Pokémon Savaşları Yapabilen Bir Ajan

Published April 11, 2024

Updated April 27, 2026

Kunal Kejriwal

POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs

Büyük Dil Modelleri ve Üretken Yapay Zeka, Doğal Dil İşleme görevleri alanında withoutöncü bir başarı göstermiştir. NLP alanını fethettikten sonra, GenAI ve LLM araştırmacılarının bir sonraki挑ngei, büyük dil modellerinin metinle eylem arasındaki genişletilmiş поколasyon boşluğunu kapatarak gerçek dünyada bağımsız olarak nasıl hareket edebileceğini keşfetmektir. Bu, Yapay Genel Zeka’nın peşinde koşarken önemli bir paradigmadır. Çevrimiçi oyunlar, büyük dil modeli embodied ajanslarını geliştirmek için uygun bir test temelidir ve bu ajanslar, bir insan gibi görsel çevreyle etkileşime girer.

Örneğin, popüler bir çevrimiçi simülasyon oyunu olan Minecraft’te, karar verme ajansları, oyuncuların dünya keşfetmesine ve araç geliştirme becerileri kazandırmasına yardımcı olmak için kullanılabilir. Büyük Dil Modeli ajanslarının görsel çevreyle etkileşime girdiği başka bir örnek, The Sims’dir ve burada ajanslar, sosyal etkileşimlerde önemli bir başarı göstermiş ve insanlara benzer davranışlar sergilemiştir. Ancak, mevcut oyunlara kıyasla, taktik savaş oyunları, büyük dil modellerinin sanal oyunları oynamak için yeteneklerini benchmark yapmak için daha iyi bir seçim olabilir. Taktik oyunların daha iyi bir benchmark olmasının primary nedeni, kazanma oranının doğrudan ölçülebilmesi ve tutarlı rakiplerin, hem insan oyuncular hem de AI luôn mevcut olmasıdır.

Aynı şekilde, POKELLMON, Pokémon savaşlarındaki gibi taktik oyunlarda insan düzeyinde performans gösteren dünyanın ilk embodied ajanı olmayı hedeflemektedir. POKELLMON çerçevesi, üç temel stratejiyi içerir.

Savaşlardan alınan metin tabanlı geri bildirimi tüketen bağlamsal pekiştirme öğrenimi, politikayı yinelemeli olarak iyileştirmek için kullanılır.
Sanrılara karşı koymak için dış bilgiyi alma ve ajanın gerektiğinde doğru şekilde davranmasını sağlayan Bilgi Artırılmış Oluşturma.
Güçlü bir oyuncuyla karşılaşıldığında panik anahtarını önlemek için tutarlı eylem oluşturma.

Bu makale, POKELLMON çerçevesini derinlemesine ele almayı amaçlamaktadır ve mekanizma, metodoloji, mimari ve diğer çerçevelerle karşılaştırmasını探讨 edeceğiz. Ayrıca, POKELLMON çerçevesinin insan benzeri savaş stratejileri ve zamanında karar verme yetenekleri sergileyerek yaklaşık %50’lik bir kazanma oranına ulaştığını konuşacağız. Şimdi başlayalım.

POKELLMON: Büyük Dil Modelleri ile İnsan Düzeyinde Pokémon Savaşları

Büyük Dil Modelleri ve Üretken Yapay Zeka çerçevelerinin son yıllarda NLP görevlerinde gösterdiği büyüme ve verimlilik mucizevi olmuştur. Son zamanlarda, geliştiriciler ve Yapay Zeka araştırmacıları, GenAI ve LLM’lerin gerçek dünya senaryolarında bağımsız olarak hareket etmesini sağlamak için çalışıyorlar. Bunu gerçekleştirmek için, araştırmacılar ve geliştiriciler, oyunların büyük dil modeli embodied ajanslarını geliştirmek için uygun bir test alanı olduğunu düşünüyor.

Önceki çalışmalarda, geliştiriciler, Minecraft ve Sims gibi sanal simülasyon oyunlarında büyük dil modeli embodied ajansları geliştirmeye çalıştılar, ancak taktik oyunların daha iyi bir seçim olabileceği düşünülüyor. Pokémon savaşları, geliştiricilerin bir eğitmenin savaşma yeteneğini değerlendirmesine olanak tanır ve diğer taktik oyunlara kıyasla beberapa avantajı vardır. Eylem ve durum uzayları ayrıldığı için metne dönüştürülürken herhangi bir kayıp olmaz. Aşağıdaki şekil, bir Pokémon savaşını gösterir ve oyuncu her turda mevcut Pokémon’un durumuna göre bir eylem üretmelidir.

POKELLMON: Metodoloji ve Mimari

POKELLMON çerçevesinin genel mimarisi aşağıdaki resimde gösterilmektedir.

Her turda, POKELLMON çerçevesi, önceki eylemlerden ve bunlara karşılık gelen metin tabanlı geri bildirimi kullanarak politikayı yinelemeli olarak iyileştirir ve ayrıca dış bilgi gibi yetenek/hamle etkileri veya üstünlük/zayıflık ilişkisini kullanarak mevcut durum bilgilerini zenginleştirir. Girdi olarak verilen bilgiler için, POKELLMON çerçevesi bağımsız olarak birden fazla eylem üretir ve en tutarlı olanını son çıktı olarak seçer.

Bağlamsal Pekiştirme Öğrenimi

İnsan oyuncular ve atletler, yalnızca mevcut durum temelinde değil, aynı zamanda önceki eylemlerden alınan geri bildirimi ve diğer oyuncuların deneyimlerini de dikkate alarak karar verir. Pozitif geri bildirimin, bir oyuncunun hatalarından öğrenmesine ve aynı hatayı tekrarlamamasına yardımcı olduğu söylenebilir. Doğru geri bildirimi olmadan, POKELLMON ajansları aynı hatalı eylemi tekrarlayabilir, aşağıdaki resimde gösterildiği gibi.

Gördüğünüz gibi, oyun içi ajan, “Kurutma Derisi” yeteneğine sahip bir Pokémon karakterine karşı su tabanlı bir hamle kullanır, bu da su tabanlı saldırılara karşı hasarı sıfırlar. Oyun, ekranda “Bağışık” mesajını yanıp söndürerek kullanıcıyı uyarmaya çalışır, bu da bir insan oyuncusunun eylemini yeniden düşünmesine ve değiştirmesine neden olabilir, ancak ajan için durum böyle değildir.

POKELLMON ajanının önceki hatalarından öğrenmesini sağlamak için, çerçeve Bağlamsal Pekiştirme Öğrenimi yaklaşımını uygular. Pekiştirme öğrenimi, makine öğreniminin popüler bir yaklaşımıdır ve politikayı iyileştirmeye yardımcı olur, ancak numeric ödüllerin eylemleri değerlendirmesi gerekir. Büyük dil modellerinin dil anlama ve yorumlama yeteneği nedeniyle, metin tabanlı açıklamalar LLM’ler için yeni bir ödül türü haline gelmiştir. Önceki eylemlerden alınan metin tabanlı geri bildirimi dahil ederek, POKELLMON ajanı politikasını yinelemeli olarak iyileştirebilir, yani Bağlamsal Pekiştirme Öğrenimi.

Bir saldırı hamlesinin gerçekten yaptığı hasar, iki ardışık tur arasındaki HP farkına göre hesaplanır.
Saldırı hamlesinin etkinliği. Geri bildirimi, saldırının etkisiz, etkili veya süper etkili olduğunu belirtir.
Hamlelerin yürütme önceliği. Rakip Pokémon’un kesin istatistikleri bilinmediğinden, öncelikli geri bildirimi, bir tür hız tahmini sağlar.
Uygulanan hamlelerin gerçek etkisi. Hem saldırı hem de durum hamleleri, HP iyileşmesi, stat artışı veya azalması, donma, yanık veya zehirlenme gibi sonuçlar doğurabilir.

Ayrıca, Bağlamsal Pekiştirme Öğrenimi yaklaşımının performansı önemli ölçüde artırdığı görülmektedir.

GPT-4’ün orijinal performansına kıyasla, kazanma oranı yaklaşık %10 artarken, savaş puanı yaklaşık %13 artar. Ayrıca, ajan, önceki hamlelerin beklentileri karşılamadığında, eylemini analiz etmeye ve değiştirmeye başlar.

Bilgi Artırılmış Oluşturma (KAG)

Bağlamsal Pekiştirme Öğrenimi’nin uygulanması, sanrılara karşı bazı avantajlar sağlar, ancak geri bildirimi almadan önce hala ölümcül sonuçlara neden olabilir. Örneğin, ajan, bir ateş tipi Pokémon ile savaşmak için bir çim tipi Pokémon seçerse, ilk turda muhtemelen kaybedecektir. Sanrılara karşı daha fazla mücadele etmek ve ajanın karar verme yeteneğini iyileştirmek için, POKELLMON çerçevesi, Bilgi Artırılmış Oluşturma (KAG) yaklaşımını uygular, bu da dış bilgiyi kullanarak oluşturmayı artırmaya yardımcı olur.

Şimdi, model yukarıda belirtilen dört tür geri bildirimi üretirken, Pokémon hamleleri ve bilgilerini açıklar, böylece ajan, type avantaj ilişkisini kendisi çıkarabilir. Sanrılı akıl yürütmede daha da azalma sağlamak için, POKELLMON çerçevesi, rakip Pokémon’un ve ajanın Pokémon’unun type avantajını ve zayıflığını yeterli açıklamalarla açıklar. Ayrıca, Pokémon’ların hamle ve yeteneklerini ezberlemek zor olabilir, özellikle de çok fazla oldukları için.

Geliştiriciler, ajanın Pokémon’lara ilişkin dış bilgi verildiğinde, doğru zamanda özel hamleleri kullandığını gözlemledi.

Tutarlı Eylem Oluşturma

Mevcut modeller,.prompting ve akıl yürütme yaklaşımlarının, LLM’lerin karmaşık görevleri çözme yeteneğini artırabileceğini göstermektedir. Tek bir eylem üretmek yerine, POKELLMON çerçevesi, mevcut prompting stratejilerini değerlendirir, bunlar arasında Zincir Düşünme (CoT), Düşünce Ağacı (ToT) ve Kendi tutarlılığı (Self Consistency) bulunur. Zincir Düşünme için, ajan önce mevcut savaş senaryosunu analiz eden bir düşünce üretir ve bu düşünceye bağlı bir eylem üretir. Kendi tutarlılığı için, ajan üç eylem üretir ve en çok oy alan çıktıyı seçer. Düşünce Ağacı yaklaşımı için, çerçeve üç eylem üretir, ancak en iyisini kendisi değerlendirerek seçer.

Her tur için yalnızca bir eylem vardır, bu da ajanın değiştirmesi ve rakibin saldırması durumunda, değiştirilen Pokémon hasar alacaktır. Normalde, ajan değiştirmeye karar verir, çünkü savaş dışı bir Pokémon’u type avantajı için değiştirmek ister ve böylece değiştirilen Pokémon, rakip Pokémon’un hamlelerine karşı dayanıklıdır. Ancak, yukarıdaki gibi, CoT akıl yürütmesi olan ajan, görev ile tutarlı bir şekilde davranmayabilir, çünkü değiştirilen Pokémon’a geçmek isteyebilir, ancak birden fazla Pokémon arasında geçiş yapabilir, bu da panik anahtarına neden olur.

POKELLMON: Sonuçlar ve Deneysel Çalışmalar

Sonuçları tartışmadan önce, savaş ortamını anlamak önemlidir. Bir turun başında, ortam, sunucudan bir eylem isteği mesajı alır ve bu mesajı sonlandırır, bu da önceki turun yürütme sonucunu içerir.

İlk olarak, mesajı parse eder ve yerel durum değişkenlerini günceller, 2. sonra durum değişkenlerini metne çevirir. Metin açıklaması主要 dört bölümden oluşur: 1. Kendi takım bilgileri, saha içindeki ve dışında kalan Pokémon’ların özelliklerini içerir.
Rakip takım bilgileri, saha içindeki ve dışında kalan rakip Pokémon’ların özelliklerini içerir.
Savaş alanı bilgileri, hava durumunu, girişte oluşan tehlikeleri ve araziyi içerir.
Tarihi tur günlüğü bilgileri, her iki Pokémon’un önceki eylemlerini içerir ve bir günlükte saklanır. LLM’ler, çevirilen durumu girdi olarak alır ve bir sonraki adımda eylemler üretir. Eylem sunucuya gönderilir ve insan tarafından yapılan eylem ile aynı anda yürütülür.

İnsan Oyunculara Karşı Savaş

Aşağıdaki tablo, POKELLMON ajanının insan oyunculara karşı performansını gösterir.

Gördüğünüz gibi, POKELLMON ajanı, daha yüksek kazanma oranına sahip olan davetli bir oyuncuya benzer bir performans sergiler.

Savaş Beceri Analizi

POKELLMON çerçevesi, genellikle etkili bir hamle seçer ve Bilgi Artırılmış Oluşturma stratejisi sayesinde başka bir uygun Pokémon’a geçer.

Gösterildiği gibi, ajan yalnızca bir Pokémon kullanarak tüm rakip takımı yener, çünkü her durumda en etkili saldırı hamlelerini seçebilir. Ayrıca, POKELLMON çerçevesi, insan benzeri bir yıpratma stratejisi sergiler. Bazı Pokémon’lar “Zehir” hamlesine sahiptir ve her turda ek hasar verebilir, ayrıca “İyileşme” hamlesi ile HP’sini geri kazanabilir. Ajan, önce rakip Pokémon’u zehirler ve sonra İyileşme hamlesini kullanarak kendini bayılmaktan korur.

Son Düşünceler

Bu makalede, POKELLMON’u, büyük dil modellerinin insan oyunculara karşı bağımsız olarak Pokémon savaşları yapabilen bir yaklaşım olarak tanıttık. POKELLMON, taktik oyunlarda insan düzeyinde performans gösteren dünyanın ilk embodied ajanı olmayı hedeflemektedir. POKELLMON çerçevesi, üç temel strateji sunar: Bağlamsal Pekiştirme Öğrenimi, Bilgi Artırılmış Oluşturma ve Tutarlı Eylem Oluşturma. Bu stratejiler, ajanın insan benzeri savaş stratejileri ve zamanında karar verme yetenekleri sergilemesini sağlar ve yaklaşık %50’lik bir kazanma oranına ulaşmasını sağlar.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.