Yapay Zekâ
DeepMind Yeni Bir Yöntemle Takviye Öğrenme AI’sini Güvenli Bir Şekilde Eğitti

Takviye öğrenme, son derece karmaşık görevleri gerçekleştirebilen AI üretimi açısından umut verici bir yol olarak görünüyor. Takviye AI algoritmaları, mobil robotik sistemlerin ve otonom araçların oluşturulması da dahil olmak üzere çeşitli uygulamalarda kullanılıyor. Ancak takviye AI’nin eğitilme şekli nedeniyle, bazen tuhaf ve beklenmedik davranışlar sergileyebiliyorlar. Bu davranışlar tehlikeli olabilir ve AI araştırmacıları bu sorunu “güvenli keşif” problemi olarak adlandırıyor, burada AI güvensiz durumların keşfinde takılı kalabiliyor.
Google’ın AI araştırma laboratuvarı DeepMind, güvenli keşif problemiyle başa çıkmak ve takviye öğrenme AI’sini daha güvenli bir şekilde eğitmek için yeni yöntemler öneren bir makale yayınladı. DeepMind’in önerdiği yöntem ayrıca ödül hacking veya ödül kriterlerindeki açıkları düzeltiyor.
DeepMind’in yeni yöntemi, güvensiz davranışların ortaya çıkabileceği durumlar için AI’nin davranışını yönlendirmek amacıyla iki farklı sistem kullanıyor. DeepMind’in eğitim tekniğinde kullanılan bu iki model, demonstrasyonlar ve tamamen rastgele araç traijektörleri gibi çeşitli veriler üzerinde eğitilen bir generatif model ve bir ileri dinamik modeldir. Bu veriler, bir süpervizör tarafından özel ödül değerleriyle etiketlenir ve AI ajanı, en büyük ödüllü davranış kalıplarını keşfeder. Güvensiz durumlar da etiketlenir ve model, erfolgreich bir şekilde ödülleri ve güvensiz durumları tahmin ettikten sonra hedeflenen eylemleri gerçekleştirmek için dağıtılır.
Araştırma ekibi, makalede, davranışları sıfırdan oluşturmanın, istenen davranışları önermenin ve bu hipotetik senaryoların aynı zamanda öğrenme ortamıyla doğrudan etkileşime girmekten kaçınarak mümkün olduğunca bilgilendirici olmasının amaçlandığını açıklıyor. DeepMind ekibi, bu yaklaşımı ReQueST veya ödül sorgulama sentezi olarak adlandırıyor. traijektör optimizasyonu.
ReQueST, dört farklı davranış türüne yol açabilir. İlk davranış türü, toplu ödül modelleri konusunda belirsizliği en üst düzeye çıkarmaya çalışır. İkinci ve üçüncü davranışlar, öngörülen ödülleri hem en aza indirmeye hem de en üst düzeye çıkarmaya çalışır. Öngörülen ödüller, modelin yanlış bir şekilde öngördüğü davranışların keşfedilmesi için minimize edilir. Öte yandan, öngörülen ödül en üst düzeye çıkarılır, böylece davranış etiketleri en yüksek bilgi değerine sahip olur. Son olarak, dördüncü davranış türü, modelin ödülleri projelendirmekten bağımsız olarak keşfetmeye devam etmesi için traijektörlerin yeniğini en üst düzeye çıkarmaya çalışır.
Model, istenen ödül toplama seviyesine ulaştığında, planlama ajanı, öğrenilen ödüllere dayalı kararlar almak için kullanılır. Bu model-prediktif kontrol şeması, ajanların dinamik modeli kullanarak olası sonuçları tahmin ederek ve güvensiz durumları öğrenerek, saf deneme yanılma yoluyla öğrenen algoritmaların davranışlarından farklı olarak, güvensiz durumları tránh etmeyi öğrenmelerini sağlar.
VentureBeat tarafından bildirildiği üzere, DeepMind araştırmacıları, projelerinin, kontrolsüz ve güvenli bir şekilde öğrenen ilk takviye öğrenme sistemi olduğuna inanıyor:
“Bilgimizce, ReQueST, güvensiz durumlar hakkında güvenli bir şekilde öğrenen ve yüksek boyutlu, sürekli durumların bulunduğu ortamlarda sinir ağı ödül modellerini eğitmeye ölçeklenebilen ilk ödül modelleme algoritmasıdır. Şimdilik, ReQueST’in yalnızca görece basit dinamiklere sahip simüle edilmiş alanlarda etkinliğini gösterdik. Gelecekteki çalışmalara yönelik bir yön, ReQueST’i daha gerçekçi fizik ve çevredekiler de dahil olmak üzere diğer ajanların hareket ettiği 3B alanlarda test etmek olacaktır.”












