Yapay Zekâ 101

Derin Takviye Öğrenimi Nedir?

Published April 17, 2020

Updated April 5, 2026

Daniel Nelson

Derin Takviye Öğrenimi Nedir?

Denetimli makine öğrenimi ve gözetimsiz makine öğrenimi ile birlikte, yapay zeka oluşturmanın bir başka yaygın şekli de takviye öğrenimidir. Normal takviye öğreniminin ötesinde, derin takviye öğrenimi derin öğrenme ve takviye öğreniminin en iyi yönlerini birleştirdiği için gerçekten etkileyici sonuçlar elde edebilir. Derin takviye öğrenimi nasıl çalıştığını görelim.

Derin takviye öğrenimine dalmadan önce, düzenli takviye öğrenimi nasıl çalıştığını hatırlamak iyi bir fikir olabilir. Takviye öğreniminde, hedefe yönelik algoritmalar, en iyi sonucu elde eden eylem için optimize edilen bir dizi deneme ve yanılma işlemi yoluyla tasarlanır. Takviye öğrenimi algoritmaları eğitildiğinde, gelecekte hangi eylemleri yapacaklarını etkileyen “ödüller” veya “cezalar” verilir. Algoritmalar, sisteme en çok ödül sağlayan eylem kümesini bulmaya çalışır, hem anlık hem de gelecekteki ödülleri dengeleyerek.

Takviye öğrenimi algoritmaları çok güçlüdür çünkü neredeyse herhangi bir görev için uygulanabilir, esnek ve dinamik bir şekilde bir ortamdan öğrenme ve olası eylemleri keşfetme yeteneğine sahiptir.

Derin Takviye Öğreniminin Genel Bakışı

Foto: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Derin takviye öğreniminde, ortam genellikle görüntülerle temsil edilir. Bir görüntü, belirli bir anda ortamın bir anlık görüntüsüdür. Ajan, görüntüleri analiz etmek ve onlardan ilgili bilgileri çıkarmak zorundadır, bu bilgileri hangi eylemi gerçekleştireceğine karar vermesi için kullanır. Derin takviye öğrenimi genellikle iki farklı teknikle yapılır: değer temelli öğrenme ve politika temelli öğrenme.

Değer temelli öğrenme teknikleri, convolutional neural networks ve Deep-Q-Networks gibi algoritmalar ve mimariler kullanır. Bu algoritmalar, görüntüyü gri tonlara dönüştürerek ve görüntünün gereksiz kısımlarını keserek çalışır. Daha sonra, görüntü çeşitli konvolüsyon ve havuzlama işlemlerine tabi tutulur, görüntünün en ilgili kısımlarını çıkarır. Görüntünün önemli kısımları, ajanın gerçekleştirebileceği farklı eylemler için Q-değerini hesaplamak için kullanılır. Q-değerleri, ajanın en iyi eylem courseunu belirlemek için kullanılır. İlk Q-değerleri hesaplandıktan sonra, en doğru Q-değerlerinin belirlenmesi için geri yayılım yapılır.

Politika tabanlı yöntemler, ajanın gerçekleştirebileceği eylem sayısı çok yüksek olduğunda kullanılır, bu genellikle gerçek dünya senaryolarında görülür. Bu tür durumlar, her zaman adımının her bir eylemi için Q-değerlerini hesaplamanın pratik olmadığı farklı bir yaklaşım gerektirir. Politika tabanlı yaklaşımlar, bireysel eylemler için fonksiyon değerlerini hesaplamadan, politikayı doğrudan öğrenerek çalışır, souvent Policy Gradients olarak adlandırılan teknikler aracılığıyla.

Policy Gradients, ajanın önceki deneyimlerine dayanarak bir durum için eylem olasılıklarını hesaplayarak çalışır. En olası eylem seçilir ve bu işlem değerlendirme döneminin sonuna kadar tekrarlanır ve ödüller ajan tarafından verilir. Ödüller ajan tarafından verildikten sonra, ağın parametreleri geri yayılım ile güncellenir.

Q-Öğrenimi Nedir?

Q-Öğrenimi derin takviye öğrenimi sürecinin önemli bir parçası olduğu için, Q-öğrenimi sisteminin nasıl çalıştığını anlamak için biraz zaman ayıralım.

Markov Karar Süreci

Markov karar süreci. Foto: waldoalvarez via Pixabay, Pixbay Lisansı (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Bir yapay zeka ajanının bir dizi görevi gerçekleştirmesi ve bir hedefe ulaşması için, ajanın bir dizi durum ve olayla başa çıkabilmesi gerekir. Ajan, bir durumdan başlar ve son duruma ulaşmak için bir dizi eylem gerçekleştirmelidir ve başlangıç ve son durumlar arasında çok fazla durum olabilir. Her durum hakkında bilgi depolamak pratik değildir veya imkansızdır, bu nedenle sistem sadece en ilgili durum bilgilerini saklamalıdır. Bu, yalnızca geçerli ve önceki durum hakkında bilgi saklayan bir Markov Karar Süreci kullanarak gerçekleştirilir. Her durum, ajanın önceki durumdan geçerli duruma nasıl geçtiğini izleyen bir Markov özelliğine sahiptir.

Derin Q-Öğrenimi

Model, öğrenme ortamının durumları hakkında bilgi edindiğinde, Q-değerleri hesaplanabilir. Q-değerleri, ajanın bir dizi eylemin sonunda verilen toplam ödüldür.

Q-değerleri, bir dizi ödülle hesaplanır. Anlık bir ödül vardır, geçerli durum ve geçerli eylem temel alınarak hesaplanır. Sonraki durum için Q-değeri de hesaplanır ve durumlar için Q-değerleri hesaplanır. Ayrıca, ajanın eylemlerine gelecekteki ödüllerin ne kadar ağırlık vereceğini kontrol etmek için kullanılan bir Gamma parametresi vardır. Politikalar genellikle, Q-değerlerini rastgele başlatarak ve modelin eğitim过程inde optimal Q-değerlerine doğru yakınsamasını sağlayarak hesaplanır.

Derin Q-Ağları

Q-öğreniminin takviye öğrenimi için kullanılmasının temel sorunlarından biri, durumların sayısı arttıkça gerekli olan bellek miktarının hızla artmasıdır. Derin Q-Ağları, Q-değerleriyle birlikte nöral ağ modellerini birleştirerek bu sorunu çözer, böylece bir ajan deneyimler öğrenir ve gerçekleştirebileceği eylemler hakkında makul tahminler yapabilir. Derin Q-öğreniminde, Q-değer fonksiyonları nöral ağlar ile tahmin edilir. Nöral ağ, durumları girdi olarak alır ve ajanın gerçekleştirebileceği farklı eylemler için Q-değerini çıktı olarak verir.

Derin Q-öğrenimi, geçmiş deneyimleri bellekte depolayarak, Q-ağı için maksimum çıktıları hesaplayarak ve ardından mevcut değerler ile teorik en yüksek olası değerler arasındaki farkı hesaplamak için bir kaybı fonksiyonu kullanarak gerçekleştirilir.

Derin Takviye Öğrenimi ve Derin Öğrenimin Karşılaştırılması

Derin takviye öğrenimi ile normal derin öğrenim arasındaki önemli bir fark, formerdaki girdilerin sürekli değişmesidir, bu durum geleneksel derin öğrenimde görülmez. Nasıl girdilerin ve çıktıların sürekli değişmesi hesaba katılabilir?

Temel olarak, predicted değerler ile hedef değerler arasındaki sapmayı hesaba katmak için bir yerine iki nöral ağ kullanılabilir. Bir ağ hedef değerleri tahmin ederken, diğer ağ tahminlerden sorumludur. Hedef ağı parametreleri, model öğrenirken ve belirli bir sayıda eğitim iterasyonu geçtikten sonra güncellenir. Ağların çıktıları, farkı belirlemek için birleştirilir.

Politika Tabanlı Öğrenme

Politika tabanlı öğrenme yaklaşımları, Q-değerine dayalı yaklaşımlardan farklı çalışır. Q-değerine dayalı yaklaşımlar, durumlar ve eylemler için ödülleri tahmin eden bir değer fonksiyonu oluştururken, politika tabanlı yöntemler durumları eylemlere eşleyen bir politika belirler. Diğer bir deyişle, eylem seçen politika fonksiyonu doğrudan optimize edilir, değer fonksiyonuna dikkat edilmeden.

Politika Gradyanları

Derin takviye öğrenimi için bir politika, deterministik veya stokastik olmak üzere iki kategoriye girer. Deterministik bir politika, durumları eylemlere eşleyen bir politika anlamına gelir, yani politika bir durum hakkında bilgi aldığında bir eylem döner. Öte yandan, stokastik politikalar tek bir eylem yerine eylem olasılık dağılımı döndürür.

Deterministik politikalar, eylemlerin sonuçları hakkında belirsizlik olmayan ortamlar için kullanılır. Diğer bir deyişle, deterministik bir ortamda kullanılır. Buna karşılık, stokastik politika çıktıları, eylemlerin sonuçları belirsiz olan ortamlar için uygundur. Tipik olarak, takviye öğrenimi senaryoları bazı belirsizlikler içerir, bu nedenle stokastik politikalar kullanılır.

Politika gradyanı yaklaşımları, Q-öğrenimi yaklaşımlarına göre beberapa avantaj ve dezavantaja sahiptir. Avantajlar bakımından, politika tabanlı yöntemler optimal parametrelere daha hızlı ve güvenilir bir şekilde yakınsar. Politika gradyanı sadece en iyi parametreleri belirlemek için izlenebilir, oysa değer temelli yöntemlerde tahmini eylem değerlerindeki küçük değişiklikler, eylemler ve ilgili parametrelerde büyük değişikliklere neden olabilir.

Politika gradyanları, yüksek boyutlu eylem uzayları için daha iyidir. Ajanın gerçekleştirebileceği eylem sayısı çok yüksek olduğunda, derin Q-öğrenimi pratik değildir, çünkü her zaman adımının her bir eylemi için bir puan atamak zorundadır, bu da hesaplama açısından imkansız olabilir. Ancak politika tabanlı yöntemlerle, parametreler zaman içinde ayarlanır ve model yakınsadıktan sonra en iyi parametrelerin sayısı hızla azalır.

Politika gradyanları ayrıca stokastik politikaları uygulayabilir, bu da değer temelli politikaların yapamadığı bir şeydir. Stokastik politikalar olasılık dağılımı ürettiğinden, keşif ve sömürü ticaretinin uygulanmasına gerek yoktur.

Politika gradyanlarının dezavantajı, optimal parametreleri ararken dar, yerel optimum değerlere odaklanabileceği ve küresel optimum değerleri gözden kaçırabileceğidir.

Politika Puan Fonksiyonu

Modelin performansını optimize etmek için kullanılan politikalar, bir puan fonksiyonunu maksimize etmeye çalışır – J(θ). J(θ) politikamızın hedefi gerçekleştirmek için ne kadar iyi olduğunu ölçen bir şeyse, en iyi politikayı elde etmek için “θ” değerlerini bulabiliriz. İlk olarak, beklenen politika ödülünü hesaplamamız gerekir. Politika ödülünü tahmin ederiz, böylece optimize edecek bir hedefimiz olur. Politika Puan Fonksiyonu, beklenen politika ödülünü hesaplamak için kullanılan bir fonksiyondur ve yaygın olarak kullanılan beberapa Politika Puan Fonksiyonu vardır, örneğin: bölümlü ortamlar için başlangıç değerleri, sürekli ortamlar için ortalama değer ve zaman adımının ortalama ödülü.

Politika Gradyanı Çıkışı

Gradyan çıkışı, parametreleri en yüksek puanın olduğu yere taşımaya çalışır. Foto: Kamu Malı (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

İstenen Politika Puan Fonksiyonu kullanıldıktan ve beklenen politika ödülü hesaplandıktan sonra, puan fonksiyonunu maksimize eden “θ” parametresinin değerini bulabiliriz. Puan fonksiyonu J(θ)’yi maksimize etmek için, “gradyan çıkışı” olarak adlandırılan bir teknik kullanılır. Gradyan çıkışı, derin öğrenmedeki gradyan inişine benzer bir kavramdır, ancak en keskin artışı optimize ediyoruz, çünkü bizim puanımız “hata” değildir, birçok derin öğrenme problemi gibi. Puanımız, maksimize etmek istediğimiz bir şeydir. Parametre “θ” ile ilgili gradyanı tahmin etmek için Politika Gradyanı Teoremi olarak adlandırılan bir ifade kullanılır.

Derin Takviye Öğreniminin Özeti

Özetle, derin takviye öğrenimi, takviye öğrenimi ve derin nöral ağların yönlerini birleştirir. Derin takviye öğrenimi, iki farklı teknikle yapılır: Derin Q-Öğrenimi ve politika gradyanları.

Derin Q-öğrenimi yöntemleri, belirli bir durumda alınan eylemlerden sonra hangi ödüllerin geleceğini tahmin etmeye çalışır, oysa politika gradyanı yaklaşımları eylem uzayını optimize etmeye çalışır, eylemleri kendileri tahmin eder. Politika tabanlı derin takviye öğrenimi yaklaşımları, deterministik veya stokastik doğada olabilir. Deterministik politikalar durumları doğrudan eylemlere eşlerken, stokastik politikalar eylem olasılık dağılımları üretir.

Daniel Nelson

Blog yazarı ve programcı, Machine Learning ve Deep Learning konularında uzmanlık sahibi. Daniel, başkalarının AI'nin gücünü sosyal fayda için kullanmasına yardımcı olmak umudu taşıyor.