AI 101
Derin Takviyeli Öğrenme Nedir?
Derin Takviyeli Öğrenme Nedir?
Denetimsiz makine öğrenimi ve denetimli öğrenmenin yanı sıra yapay zeka oluşturmanın bir başka yaygın biçimi de takviyeli öğrenmedir. Düzenli takviyeli öğrenmenin ötesinde, derin takviye öğrenme hem derin öğrenmenin hem de takviyeli öğrenmenin en iyi yönlerini birleştirmesi sayesinde şaşırtıcı derecede etkileyici sonuçlara yol açabilir. Derin takviyeli öğrenmenin tam olarak nasıl çalıştığına bir göz atalım.
Derin pekiştirmeli öğrenmeye dalmadan önce, ne kadar düzenli olduğumuz konusunda kendimizi yenilemek iyi bir fikir olabilir. takviye öğrenme İşler. Takviyeli öğrenmede, hedefe yönelik algoritmalar, en iyi sonuca götüren eylem/en çok “ödül” kazandıran eylem için optimize edilerek bir deneme yanılma süreciyle tasarlanır. Takviyeli öğrenme algoritmaları eğitilirken, gelecekte hangi eylemleri yapacaklarını etkileyen "ödüller" veya "cezalar" verilir. Algoritmalar, hem anlık hem de gelecekteki ödülleri dengeleyerek sisteme en fazla ödülü sağlayacak bir dizi eylem bulmaya çalışır.
Takviyeli öğrenme algoritmaları çok güçlüdür çünkü hemen hemen her göreve uygulanabilirler, bir ortamdan esnek ve dinamik bir şekilde öğrenebilirler ve olası eylemleri keşfedebilirler.
Derin Pekiştirmeli Öğrenmeye Genel Bakış

Fotoğraf: Wikimedia Commons aracılığıyla Megajuice, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)
Derin pekiştirmeli öğrenme söz konusu olduğunda, ortam tipik olarak görüntülerle temsil edilir. Görüntü, belirli bir zamanda ortamın yakalanmasıdır. Aracı, görüntüleri analiz etmeli ve hangi eylemi yapmaları gerektiğini bildirmek için bilgileri kullanarak onlardan ilgili bilgileri çıkarmalıdır. Derin pekiştirmeli öğrenme tipik olarak iki farklı teknikten biriyle gerçekleştirilir: değere dayalı öğrenme ve politikaya dayalı öğrenme.
Değer tabanlı öğrenme teknikleri, evrişimli sinir ağları ve Deep-Q-Networks gibi algoritmalar ve mimarilerden faydalanır. Bu algoritmalar, görüntüyü gri tonlamaya dönüştürerek ve görüntünün gereksiz kısımlarını kırparak çalışır. Daha sonra görüntü çeşitli evrişimler ve birleştirme işlemlerinden geçer ve görüntünün en alakalı kısımları çıkarılır. Görüntünün önemli kısımları daha sonra, etkenin gerçekleştirebileceği farklı eylemler için Q değerini hesaplamak için kullanılır. Q değerleri, etken için en iyi eylem yolunu belirlemek için kullanılır. İlk Q değerleri hesaplandıktan sonra, en doğru Q değerlerinin belirlenebilmesi için geri yayılım gerçekleştirilir.
İlke tabanlı yöntemler, genellikle gerçek dünya senaryolarında olduğu gibi, aracının gerçekleştirebileceği olası eylemlerin sayısı aşırı derecede yüksek olduğunda kullanılır. Tüm bireysel eylemler için Q değerlerinin hesaplanması pragmatik olmadığından, bunun gibi durumlar farklı bir yaklaşım gerektirir. Politika tabanlı yaklaşımlar, bireysel eylemler için fonksiyon değerlerini hesaplamadan çalışır. Bunun yerine, genellikle Politika Derecelendirmeleri adı verilen teknikler aracılığıyla doğrudan politikayı öğrenerek politikaları benimserler.
Politika gradyanları, aracının önceki deneyimlerine dayalı olarak bir durum alarak ve eylemler için olasılıkları hesaplayarak çalışır. Ardından en olası eylem seçilir. Bu süreç değerlendirme süresinin sonuna kadar tekrarlanır ve ödüller acenteye verilir. Ajan ile ödüller dağıtıldıktan sonra, ağın parametreleri geri yayılımla güncellenir.
Q-Learning nedir?
Çünkü Q-Öğrenme derin pekiştirmeli öğrenme sürecinin o kadar büyük bir parçasıdır ki, Q-learning sisteminin nasıl çalıştığını gerçekten anlamak için biraz zaman ayıralım.
Markov Karar Süreci

Markov karar süreci. Fotoğraf: Pixabay aracılığıyla waldoalvarez, Pixbay Lisansı (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)
Bir AI ajanının bir dizi görevi yerine getirmesi ve bir hedefe ulaşması için, ajanın bir dizi durum ve olayla başa çıkabilmesi gerekir. Aracı bir durumda başlayacak ve bir son duruma ulaşmak için bir dizi eylem gerçekleştirmelidir ve başlangıç ve bitiş durumları arasında çok sayıda durum olabilir. Her durumla ilgili bilgileri depolamak pratik değildir veya imkansızdır, bu nedenle sistem yalnızca en ilgili durum bilgisini korumanın bir yolunu bulmalıdır. Bu, bir Markov Karar Süreci, yalnızca geçerli durum ve önceki durumla ilgili bilgileri koruyan. Her durum, aracının önceki durumdan mevcut duruma nasıl değiştiğini izleyen bir Markov özelliğini takip eder.
Derin Q-Öğrenme
Model, öğrenme ortamının durumları hakkındaki bilgilere eriştiğinde, Q değerleri hesaplanabilir. Q değerleri, bir dizi eylemin sonunda aracıya verilen toplam ödüldür.
Q değerleri bir dizi ödülle hesaplanır. Mevcut durumda hesaplanan ve mevcut eyleme bağlı olarak anında bir ödül vardır. Sonraki durum için Q değeri, bundan sonraki durum için Q değeri ile birlikte hesaplanır ve farklı durumlar için tüm Q değerleri hesaplanana kadar bu böyle devam eder. Gelecekteki ödüllerin aracının eylemleri üzerinde ne kadar ağırlığa sahip olduğunu kontrol etmek için kullanılan bir Gama parametresi de vardır. İlkeler tipik olarak, Q değerlerini rastgele başlatarak ve modelin eğitim boyunca en uygun Q değerlerine yakınsamasına izin vererek hesaplanır.
Derin Q Ağları
içeren temel sorunlardan biri Q-learning kullanımı Takviyeli öğrenme için, durum sayısı arttıkça verileri depolamak için gereken bellek miktarının hızla artmasıdır. Deep Q Networks, nöral ağ modellerini Q-değerleriyle birleştirerek bu sorunu çözer ve bir aracının deneyimlerinden ders çıkarmasına ve yapılacak en iyi eylemler hakkında makul tahminler yapmasına olanak tanır. Derin Q-öğrenme ile, Q-değeri fonksiyonları sinir ağları ile tahmin edilir. Sinir ağı, durumu giriş verileri olarak alır ve ağ, aracının gerçekleştirebileceği tüm farklı olası eylemler için Q-değeri verir.
Derin Q-öğrenme, tüm geçmiş deneyimleri bellekte depolayarak, Q-ağ için maksimum çıktıları hesaplayarak ve ardından mevcut değerler ile teorik mümkün olan en yüksek değerler arasındaki farkı hesaplamak için bir kayıp fonksiyonu kullanarak gerçekleştirilir.
Derin Takviyeli Öğrenme ve Derin Öğrenme
Derin pekiştirmeli öğrenme ile düzenli derin öğrenme arasındaki önemli bir fark, önceki durumda girdilerin sürekli değişmesidir, geleneksel derin öğrenmede durum böyle değildir. Öğrenme modeli, sürekli değişen girdi ve çıktıları nasıl açıklayabilir?
Esasen, tahmin edilen değerler ile hedef değerler arasındaki farklılığı hesaba katmak için bir yerine iki sinir ağı kullanılabilir. Bir ağ hedef değerleri tahmin ederken, diğer ağ tahminlerden sorumludur. Hedef ağın parametreleri, seçilen sayıda eğitim tekrarı geçtikten sonra model öğrendikçe güncellenir. İlgili ağların çıktıları daha sonra farkı belirlemek için birleştirilir.
Politika Tabanlı Öğrenme
Politika tabanlı öğrenme yaklaşımlar, Q değeri tabanlı yaklaşımlardan farklı çalışır. Q değeri yaklaşımları, durumlar ve eylemler için ödülleri tahmin eden bir değer işlevi oluştururken, politika tabanlı yöntemler, durumları eylemlerle eşleyecek bir politika belirler. Başka bir deyişle, eylemler için seçim yapan ilke işlevi, değer işlevine bakılmaksızın doğrudan optimize edilir.
Politika Degradeleri
Derin pekiştirmeli öğrenme politikası iki kategoriden birine girer: stokastik veya deterministik. Deterministik bir politika, durumların eylemlerle eşlendiği, yani politikaya bir durum hakkında bilgi verildiğinde bir eylemin döndürüldüğü bir politikadır. Bu arada, stokastik politikalar, tek bir ayrı eylem yerine, eylemler için bir olasılık dağılımı verir.
Belirleyici politikalar, alınabilecek eylemlerin sonuçları hakkında bir belirsizlik olmadığında kullanılır. Başka bir deyişle, ortamın kendisi deterministik olduğunda. Aksine, stokastik politika çıktıları, eylemlerin sonucunun belirsiz olduğu ortamlar için uygundur. Tipik olarak, takviyeli öğrenme senaryoları bir dereceye kadar belirsizlik içerir, bu nedenle stokastik politikalar kullanılır.
Politika gradyan yaklaşımlarının, Q-öğrenme yaklaşımlarına göre birkaç avantajının yanı sıra bazı dezavantajları vardır. Avantajlar açısından, politika tabanlı yöntemler, optimum parametrelere daha hızlı ve daha güvenilir bir şekilde yaklaşır. Politika gradyanı, en iyi parametreler belirlenene kadar takip edilebilirken, değere dayalı yöntemlerde, tahmini eylem değerlerindeki küçük değişiklikler, eylemlerde ve bunlarla ilişkili parametrelerde büyük değişikliklere yol açabilir.
Politika gradyanları, yüksek boyutlu eylem alanları için de daha iyi çalışır. Gerçekleştirilecek son derece yüksek sayıda olası eylem olduğunda, derin Q-öğrenme pratik olmaz çünkü tüm zaman adımları için olası her eyleme bir puan ataması gerekir ki bu hesaplama açısından imkansız olabilir. Bununla birlikte, ilke tabanlı yöntemlerle, parametreler zaman içinde ayarlanır ve model yakınsadıkça olası en iyi parametrelerin sayısı hızla azalır.
Politika gradyanları, değere dayalı politikaların aksine stokastik politikaları da uygulama yeteneğine sahiptir. Stokastik politikalar bir olasılık dağılımı ürettiğinden, bir keşif/sömürü takasının uygulanmasına gerek yoktur.
Dezavantajlar açısından, politika gradyanlarının ana dezavantajı, küresel optimum değerler yerine yalnızca dar, yerel bir optimum değerler kümesine odaklanarak optimal parametreleri ararken takılıp kalabilmeleridir.
Politika Puanı İşlevi
Bir modelin performans amacını optimize etmek için kullanılan politikalar bir puan fonksiyonunu en üst düzeye çıkarmak için - J(θ). Eğer J(θ), istenen hedefe ulaşmak için politikamızın ne kadar iyi olduğunun bir ölçüsüdür, " değerlerini bulabiliriz.θ” bu bize en iyi poliçeyi verir. İlk olarak, beklenen bir politika ödülünü hesaplamamız gerekiyor. Politika ödülünü tahmin ediyoruz, böylece bir hedefimiz, optimize edeceğimiz bir şey var. Politika Puanı İşlevi, beklenen ilke ödülünü nasıl hesapladığımızdır ve yaygın olarak kullanılan farklı Politika Puanı İşlevleri vardır, örneğin: epizodik ortamlar için başlangıç değerleri, sürekli ortamlar için ortalama değer ve zaman adımı başına ortalama ödül.
Politika Gradyan Artışı

Degrade yükseliş, parametreleri puanın en yüksek olduğu yere gelene kadar taşımayı amaçlar. Fotoğraf: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)
İstenen Politika Puanı İşlevi kullanıldıktan ve beklenen bir politika ödülü hesaplandıktan sonra, “ parametresi için bir değer bulabiliriz.θ” puan işlevini en üst düzeye çıkarır. Skor fonksiyonunu maksimize etmek için J(θ), "gradient ascent" adı verilen bir teknik kullanılır. Gradient ascent, derin öğrenmedeki gradient descent'e kavram olarak benzerdir, ancak azalma yerine en dik artış için optimizasyon yapıyoruz. Bunun nedeni, puanımızın birçok derin öğrenme probleminde olduğu gibi "hata" olmamasıdır. Puanımız, maksimize etmek istediğimiz bir şeydir. Politika Gradient Teoremi adı verilen bir ifade, politika "θ anlayışının sonucu olarak, buzdolabında iki üç günden fazla durmayan küçük şişeler elinizin altında bulunur.
Derin Takviyeli Öğrenmenin Özeti
Özetle, derin takviyeli öğrenme, takviyeli öğrenmenin ve derin sinir ağlarının özelliklerini birleştirir. Derin pekiştirmeli öğrenme, iki farklı teknikle yapılır: Derin Q-öğrenme ve politika gradyanları.
Derin Q-öğrenme yöntemleri, belirli bir durumda gerçekleştirilen belirli eylemleri hangi ödüllerin takip edeceğini tahmin etmeyi amaçlarken, politika gradyan yaklaşımları, eylemlerin kendisini tahmin ederek eylem alanını optimize etmeyi amaçlar. Derin pekiştirmeli öğrenmeye yönelik politika temelli yaklaşımlar, doğası gereği ya deterministik ya da stokastiktir. Deterministik politikalar, durumları doğrudan eylemlerle eşlerken, stokastik politikalar eylemler için olasılık dağılımları üretir.










