Connect with us

Yapay Zekâ

DeepMind ve Google Brain, Peşanter Öğrenmenin Verimliliğini İyileştirmek için Yöntemler Oluşturmayı Hedefliyor

mm

Peşanter öğrenme sistemleri güçlü ve sağlam olabilir, binlerce eğitim iterasyonu yoluyla son derece karmaşık görevleri gerçekleştirebilir. Peşanter öğrenme algoritmaları, sofistike ve bazen şaşırtıcı davranışlara olanak tanıyan davranışları etkinleştirebilmelerine rağmen, eğitilmesi uzun zaman alır ve大量 miktarda veriye ihtiyaç duyar. Bu faktörler, peşanter öğrenme tekniklerini oldukça verimsiz hale getirir ve yakın zamanda Alphabet DeepMind ve Google Brain’den araştırma ekipleri, peşanter öğrenme sistemleri oluşturmak için daha verimli yöntemler bulmaya çalıştı.

VentureBeat tarafından bildirildiği üzere, birleşik araştırma grubu yakın zamanda peşanter öğrenme eğitimini daha verimli hale getirmek için yöntemler önerdi. Önerilen geliştirmelerden biri, Uyumlu Davranış Politikası Paylaşımı (ABPS) olarak adlandırılan bir algoritma iken, diğeri Evrensel Değer Fonksiyonu Yaklaşıkları (UVFA) olarak adlandırılan bir çerçeve idi. ABPS, AI ajanlarının uyarlanabilir olarak seçilen deneyimlerini paylaşmasına izin verirken, UVFA, bu AI’ların aynı anda yönlendirilmiş keşif politikalarını araştırmasına izin veriyor.

ABPS, bir modeli eğitirken hiperparametrelerin özelleştirilmesini hızlandırmak için tasarlandı. ABPS, farklı hiperparametrelerle birden fazla ajanın davranış politikası deneyimlerini paylaşmasına izin vererek optimal hiperparametreleri bulmayı hızlandırır. Daha kesin olmak gerekirse, ABPS, peşanter öğrenme ajanlarının bir politika tarafından kabul edilen eylemlerden eylemler seçmesine ve ardından bir ödül ve gözlemi sonraki durum temelinde almalarına izin verir.

AI güçlendirme ajanları, bozulma oranı ve öğrenme oranı gibi çeşitli hiperparametre kombinasyonlarıyla eğitilir. Bir modeli eğitirken, modelin en iyi performansı sağlayan hiperparametre kombinasyonuna ulaşması hedeflenir ve bu durumda da verimliliği artıranlar. Verimlilik, aynı anda birçok ajanı eğitmek ve yalnızca bir ajanın davranışını bir sonraki zaman adımında dağıtmak suretiyle artırılmaktadır. Hedef ajanın politikası, eylemleri örneklemek için kullanılır. Geçişler daha sonra paylaşılan bir alanda kaydedilir ve bu alan sürekli olarak değerlendirilir, böylece politika seçimi çok sık gerçekleşmez. Eğitim sonunda, ajanların bir topluluğu seçilir ve en iyi performans gösteren ajanlar nihai dağıtıma tabi tutulur.

UVFA açısından, peşanter öğrenmenin ortak sorunlarından biri olan zayıf güçlendirilmiş ajanların görevleri öğrenmemesi sorununu çözmeye çalışır. UVFA, bu sorunu, ajanın aynı anda ayrı bir sömürme ve keşif politikaları kümesini öğrenmesine olanak tanılayarak çözmeye çalışır. Görevlerin ayrılması, keşif politikalarının ortamı keşfetmeye devam etmesine izin veren bir çerçeve oluştururken, sömürme politikaları mevcut görev için ödüllü maksimize etmeye devam eder. UVFA’nın keşif politikaları, doğal ödüller bulunmadığında bile sürekli olarak gelişen bir temel mimari olarak hizmet eder. Bu durumda, ajanların tüm durumları keşfetmesine yol açan bir fonksiyon, içsel ödülleri yaklaşık olarak hesaplar.

VentureBeat’in açıkladığı gibi, UVFA çerçevesi devreye girdiğinde, sistemdeki içsel ödüller doğrudan ajana girdi olarak verilir. Ajans, bir bölüm boyunca verilen tüm girdilerin (örneğin ödüller, eylemler ve durumlar) bir temsilini tutar. Sonuç olarak, ödül zaman içinde korunur ve ajanın politikası her zaman en azından kısmen ondan haberdar olur.

Bu, “bölümlü yenilik” ve “yaşam boyu yenilik” modüllerinin kullanılmasıyla gerçekleştirilir. İlk modülün işlevi, geçerli, bölümlü belleği tutmak ve geçerli bulguları daha önce bahsedilen temsile haritalamak, böylece ajanın her eğitim adımında bir içsel bölümlü ödül belirlemesine izin vermektir. Ardından, geçerli gözlemle ilgili durum belleğe eklenir. Aynı zamanda, yaşam boyu yenilik modülü, birçok bölüm boyunca ajanın ne sıklıkla keşfettiğini etkilemekten sorumludur.

Alphabet/Google ekiplerine göre, yeni eğitim teknikleri, bir peşanter öğrenme sistemini eğitirken önemli bir iyileşme potansiyeli göstermiştir. UVFA, bazı temel ajanların çeşitli Atari oyunlarını oynamasını ikiye katlayabilmiştir. Aynı zamanda, ABPS, bazı aynı Atari oyunlarında performansı artırabilmiş, en iyi performans gösteren ajanlar arasındaki varyansı yaklaşık %25 oranında azaltmıştır. UVFA eğitimi algoritması, insan demosunun mühendislik özelliklerine sahip olmadan Pitfall’de yüksek bir puan elde edebilmiştir.

Blog yazarı ve programcı, Machine Learning ve Deep Learning konularında uzmanlık sahibi. Daniel, başkalarının AI'nin gücünü sosyal fayda için kullanmasına yardımcı olmak umudu taşıyor.