Yapay Zeka
DeepMind ve Google Brain Aim, Takviyeli Öğrenmenin Verimliliğini Artıracak Yöntemler Oluşturuyor

Takviyeli öğrenme sistemleri, binlerce eğitim yinelemesiyle son derece karmaşık görevleri yerine getirebilecek kadar güçlü ve sağlam olabilir. Takviyeli öğrenme algoritmaları karmaşık ve ara sıra şaşırtıcı davranışlara olanak sağlarken, eğitilmeleri uzun zaman alır ve çok büyük miktarda veri gerektirir. Bu faktörler, takviyeli öğrenme tekniklerini oldukça verimsiz hale getiriyor ve son zamanlarda Alphabet DeepMind ve Google Brain'den araştırma ekipleri, takviyeli öğrenme sistemleri oluşturmak için daha verimli yöntemler bulmaya çalıştı.
VentureBeat tarafından bildirildiği gibi, birleşik araştırma grubu yakın zamanda pekiştirmeli öğrenme eğitimini daha verimli hale getirmek için yöntemler önerdi. Önerilen iyileştirmelerden biri Adaptive Behavior Policy Sharing (ABPS) adlı bir algoritma, diğeri ise Universal Value Function Approximators (UVFA) adlı bir çerçeveydi. ABPS, yapay zeka aracı havuzlarının uyarlamalı olarak seçilmiş deneyimlerini paylaşmasına izin verirken, UVFA bu yapay zekanın aynı anda yönlendirilmiş keşif politikalarını araştırmasına olanak tanır.
ABPS, bir model eğitilirken hiperparametrelerin özelleştirilmesini hızlandırmak için tasarlanmıştır. ABPS, farklı hiperparametrelere sahip birkaç farklı etkenin davranış politikası deneyimlerini paylaşmasına olanak tanıyarak optimum hiperparametreleri daha hızlı bulmayı sağlar. Daha açık bir ifadeyle, ABPS, takviyeli öğrenme etkenlerinin, bir politikanın uygun gördüğü eylemler arasından eylemleri seçmesine ve ardından izleyen duruma göre bir ödül ve gözlem almasına olanak tanır.
AI güçlendirme ajanları, bozulma oranı ve öğrenme oranı gibi olası hiperparametrelerin çeşitli kombinasyonlarıyla eğitilir. Bir modeli eğitirken amaç, modelin kendisine en iyi performansı veren ve bu durumda veri verimliliğini de artıran hiperparametrelerin kombinasyonunda yakınsamasıdır. Verimlilik, bir defada birçok aracıyı eğiterek ve bir sonraki adım sırasında konuşlandırılacak yalnızca bir aracının davranışını seçerek artırılır. Hedef aracının sahip olduğu ilke, eylemleri örneklemek için kullanılır. Geçişler daha sonra paylaşılan bir alanda günlüğe kaydedilir ve bu alan sürekli olarak değerlendirilir, böylece ilke seçiminin eskisi kadar sık yapılması gerekmez. Eğitimin sonunda, bir aracı topluluğu seçilir ve en iyi performans gösteren aracılar son dağıtıma tabi tutulmak üzere seçilir.
UVFA açısından, pekiştirmeli öğrenmenin yaygın sorunlarından biri olan, zayıf bir şekilde güçlendirilmiş etmenlerin genellikle görevleri öğrenememesiyle başa çıkmaya çalışır. UVFA, aracının aynı anda ayrı bir istismar ve keşif ilkeleri seti öğrenmesini sağlayarak sorunu çözmeye çalışır. Görevlerin ayrılması, keşif ilkelerinin çevreyi keşfetmeye devam etmesine olanak tanıyan bir çerçeve oluştururken, istismar ilkeleri mevcut görev için ödülü denemeye ve en üst düzeye çıkarmaya devam eder. UVFA'nın keşif politikaları, hiçbir doğal ödül bulunmasa bile gelişmeye devam edecek bir temel mimari olarak hizmet eder. Böyle bir durumda, genellikle tanıdık durumlara dönseler bile, etmenleri bir ortamdaki tüm durumları keşfetmeye iten içsel ödüllere karşılık gelen bir işleve yaklaşılır.
VentureBeat'in açıkladığı gibi, UVFA çerçevesi devrede olduğunda, sistemin içsel ödülleri doğrudan aracıya girdi olarak verilir. Temsilci daha sonra belirli bir bölüm sırasında tüm girdilerin (ödüller, eylem ve durum gibi) temsilini izler. Sonuç olarak, ödül zaman içinde korunur ve temsilcinin politikası her zaman en azından bir şekilde onun tarafından bilgilendirilir.
Bu, “epizodik yenilik” ve “yaşam boyu yenilik” modülünün kullanılmasıyla gerçekleştirilir. İlk modülün işlevi, mevcut, epizodik belleği tutmak ve mevcut bulguları daha önce belirtilen temsille eşleştirerek, aracının eğitimin her adımı için içsel bir epizodik ödül belirlemesine izin vermektir. Daha sonra, mevcut gözlemle bağlantılı durum belleğe eklenir. Bu arada, yaşam boyu yenilik modülü, ajanın birçok bölüm boyunca ne sıklıkta keşif yaptığını etkilemekten sorumludur.
Alphabet/Google ekiplerine göre, yeni eğitim teknikleri, takviyeli bir öğrenme sistemini eğitirken önemli ölçüde gelişme sağlama potansiyelini zaten göstermiştir. UVFA, çeşitli Atari oyunları oynayan bazı temel ajanların performansını ikiye katlamayı başardı. Bu arada ABPS, aynı Atari oyunlarının bazılarında performansı artırmayı başardı ve en iyi performans gösteren aracılar arasındaki varyansı yaklaşık %25 azalttı. UVFA ile eğitilmiş algoritma, insan demolarının herhangi bir mühendislik özelliğinden yoksun olarak Tuzak'ta kendi başına yüksek bir puan elde edebildi.












