saplama Takviyeli Öğrenme Nedir? - Unite.AI
Bizimle iletişime geçin

AI 101

Pekiştirmeli Öğrenme Nedir?

mm
Güncellenmiş on

Pekiştirmeli Öğrenme Nedir?

Basitçe söylemek gerekirse, takviyeli öğrenme, eylemlerin tekrarı ve ilgili ödüller yoluyla bir yapay zeka aracısının eğitilmesini içeren bir makine öğrenme tekniğidir. Takviyeli öğrenme aracısı bir ortamda deneyler yapar, eylemler gerçekleştirir ve doğru eylemler gerçekleştirildiğinde ödüllendirilir. Ajan zamanla ödülünü en üst düzeye çıkaracak eylemlerde bulunmayı öğrenir. Bu, takviyeli öğrenmenin hızlı bir tanımıdır, ancak takviyeli öğrenmenin arkasındaki kavramlara daha yakından bakmak, onu daha iyi, daha sezgisel bir şekilde anlamanıza yardımcı olacaktır.

“Güçlendirmeli öğrenme” terimi, öğrenme kavramından uyarlanmıştır. Psikolojide pekiştirme. Bu nedenle, pekiştirmenin psikolojik kavramını anlamak için biraz zaman ayıralım. Psikolojik anlamda pekiştirme terimi, belirli bir tepkinin/eylemin meydana gelme olasılığını artıran bir şeyi ifade eder. Bu pekiştirme kavramı, başlangıçta psikolog BF Skinner tarafından önerilen edimsel koşullanma teorisinin merkezi fikridir. Bu bağlamda pekiştirme, belirli bir davranışın sıklığının artmasına neden olan herhangi bir şeydir. İnsanlar için olası pekiştirmeleri düşünürsek bunlar övgü, iş yerinde zam, şekerleme, eğlenceli aktiviteler gibi şeyler olabilir.

Geleneksel, psikolojik anlamda, iki tür pekiştirme vardır. Olumlu pekiştirme ve olumsuz pekiştirme vardır. Pozitif pekiştirme, bir davranışı artırmak için bir şeyin eklenmesidir, örneğin, iyi davrandığında köpeğinize bir ödül vermek gibi. Olumsuz pekiştirme, ürkek bir kediyi susturmak için yüksek sesleri kapatmak gibi bir davranışı ortaya çıkarmak için bir uyaranın kaldırılmasını içerir.

Olumlu ve Olumsuz Pekiştirme

Olumlu pekiştirme davranışın sıklığını artırırken, olumsuz pekiştirme davranışın sıklığını azaltır. Genel olarak, pozitif pekiştirme, modellerin belirli bir görevdeki performansı en üst düzeye çıkarmasına yardımcı olduğundan, pekiştirmeli öğrenmede kullanılan en yaygın pekiştirme türüdür. Sadece bu değil, aynı zamanda olumlu pekiştirme, modelin daha sürdürülebilir değişiklikler yapmasına, tutarlı kalıplara dönüşebilen ve uzun süre devam edebilen değişikliklere yol açar.

Buna karşılık, olumsuz pekiştirme bir davranışın ortaya çıkma olasılığını artırırken, bir modelin maksimum performansına ulaşmak yerine minimum performans standardını korumak için kullanılır. Takviyeli öğrenmede olumsuz pekiştirme, bir modelin istenmeyen eylemlerden uzak tutulmasını sağlamaya yardımcı olabilir, ancak bir modelin gerçekten istenen eylemleri keşfetmesini sağlayamaz.

Bir Takviye Ajanı Eğitimi

Takviyeli bir öğrenme ajanı eğitildiğinde, dört farklı içerik var or devletler eğitimde kullanılanlar: başlangıç ​​durumları (Durum 0), yeni durum (Durum 1), eylemler ve ödüller.

Yapay zekanın amacının ekran boyunca hareket ederek seviyenin sonuna ulaşmak olduğu bir platform oluşturma video oyunu oynaması için bir takviye ajanını eğittiğimizi hayal edin. Oyunun ilk hali çevreden çizilir, yani oyunun ilk karesi analiz edilir ve modele verilir. Bu bilgilere dayanarak, model bir eyleme karar vermelidir.

Eğitimin ilk aşamalarında, bu eylemler rastgeledir ancak model pekiştirildikçe belirli eylemler daha yaygın hale gelecektir. Aksiyon alındıktan sonra oyunun ortamı güncellenir ve yeni bir durum veya çerçeve oluşturulur. Ajan tarafından yapılan eylem arzu edilen bir sonuç verdiyse, bu durumda ajan hala hayatta ve bir düşman tarafından vurulmadı diyelim, ajana bir miktar ödül verilir ve ajanın aynı şeyi yapması daha olası hale gelir. gelecek.

Bu temel sistem sürekli döngü halindedir, tekrar tekrar gerçekleşir ve temsilci her seferinde biraz daha fazlasını öğrenmeye ve ödülünü maksimize etmeye çalışır.

Epizodik ve Sürekli Görevler

Takviyeli öğrenme görevleri tipik olarak iki farklı kategoriden birine yerleştirilebilir: epizodik görevler ve sürekli görevler.

Bölümsel görevler, öğrenme/eğitim döngüsünü yürütecek ve bazı son kriterler karşılanıp eğitim sonlandırılana kadar performanslarını artıracaktır. Bir oyunda bu, seviyenin sonuna ulaşmak veya sivri uçlar gibi bir tehlikeye düşmek olabilir. Buna karşılık, sürekli görevlerin sonlandırma kriteri yoktur, esasen mühendis eğitimi sonlandırmayı seçene kadar sonsuza kadar eğitime devam eder.

Monte Carlo ve Zamansal Fark

Takviyeli bir öğrenme aracısını öğrenmenin veya eğitmenin iki temel yolu vardır. İçinde Monte Carlo yaklaşımı, ödüller yalnızca eğitim bölümünün sonunda temsilciye teslim edilir (puanı güncellenir). Başka bir deyişle, yalnızca sonlandırma koşulu gerçekleştiğinde model ne kadar iyi performans gösterdiğini öğrenir. Daha sonra bu bilgileri güncellemek için kullanabilir ve bir sonraki eğitim turu başladığında yeni bilgilere göre yanıt verir.

The zamansal fark yöntemi değer tahmininin veya puan tahmininin eğitim bölümü sırasında güncellenmesiyle Monte Carlo yönteminden farklıdır. Model bir sonraki zaman adımına ilerlediğinde değerler güncellenir.

Keşif ve Sömürü

Takviyeli bir öğrenme ajanını eğitmek, iki farklı ölçümün dengelenmesini içeren bir dengeleme eylemidir: keşif ve kullanım.

Keşif, çevre hakkında daha fazla bilgi toplama eylemidir, keşif ise çevre hakkında halihazırda bilinen bilgileri ödül puanları kazanmak için kullanmaktır. Bir aracı yalnızca çevreyi keşfeder ve asla istismar etmezse, istenen eylemler asla gerçekleştirilemez. Öte yandan, aracı yalnızca kullanırsa ve asla keşfetmezse, aracı yalnızca bir eylemi gerçekleştirmeyi öğrenecek ve ödül kazanmanın diğer olası stratejilerini keşfetmeyecektir. Bu nedenle, pekiştirmeli bir öğrenme aracısı oluştururken keşif ve kullanımın dengelenmesi çok önemlidir.

Takviyeli Öğrenme İçin Kullanım Örnekleri

Takviyeli öğrenme, çok çeşitli rollerde kullanılabilir ve görevlerin otomasyon gerektirdiği uygulamalar için en uygunudur.

Endüstriyel robotlar tarafından gerçekleştirilecek görevlerin otomasyonu, pekiştirmeli öğrenmenin faydalı olduğu bir alandır. Takviyeli öğrenme, uzun metin gövdelerini özetleyebilen modeller oluşturarak metin madenciliği gibi problemler için de kullanılabilir. Araştırmacılar ayrıca, tedavi politikalarının optimizasyonu gibi işleri yürüten takviye ajanları ile sağlık alanında takviyeli öğrenmeyi kullanmayı deniyorlar. Takviyeli öğrenme, eğitim materyallerini öğrenciler için özelleştirmek için de kullanılabilir.

Takviyeli Öğrenmenin Özeti

Takviyeli öğrenme, etkileyici ve bazen şaşırtıcı sonuçlara yol açabilen yapay zeka aracıları oluşturmanın güçlü bir yöntemidir. Pek çok eğitim yinelemesi ve keşfetme/kullanma ikiliğinin hassas bir dengesini gerektirdiğinden, bir aracıyı pekiştirmeli öğrenme yoluyla eğitmek karmaşık ve zor olabilir. Bununla birlikte, başarılı olursa, takviyeli öğrenme ile oluşturulan bir aracı, çok çeşitli farklı ortamlarda karmaşık görevleri gerçekleştirebilir.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.