Bizimle iletişime geçin

Yapay Zeka

DIAMOND: Atari'de Görsel Detaylar Önemlidir ve Dünya Modellemesi için Yayılım

mm

2018 yılında bu fikir ortaya çıktı. takviye öğrenme Sinir ağı bağlamında dünya modeli ilk kez tanıtıldı ve çok geçmeden bu temel prensip dünya modellerine uygulandı. Takviyeli öğrenmeyi uygulayan öne çıkan modellerden bazıları, yinelenen durum uzay modelinin gizli alanından takviyeli öğrenmeyi getiren Dreamer çerçevesiydi. DreamerV2, ayrık latentlerin kullanımının bileşik oluşturma hatalarının azalmasına yol açabileceğini gösterdi ve DreamerV3 çerçevesi, sabit hiperparametrelerle farklı alanlardaki bir dizi görevde insan benzeri performans elde edebildi. 

Ayrıca, görüntü oluşturma modelleri ile dünya modelleri arasında, üretken vizyon modellerinde kaydedilen ilerlemenin dünya modellerine fayda sağlayacak şekilde kopyalanabileceğini gösteren paralellikler kurulabilir. Transformatörlerin kullanılmaya başlanmasından bu yana doğal dil işleme çerçeveleri popülerlik kazandı, DALL-E ve VQGAN çerçeveleri ortaya çıktı. Çerçeveler, görüntüleri ayrık belirteçlere dönüştürmek için ayrık otomatik kodlayıcılar uyguladı ve otoregresif transformatörlerin dizi modelleme yeteneklerinden yararlanarak son derece güçlü ve verimli metinden görüntüye üretme modelleri oluşturmayı başardı. Aynı zamanda, difüzyon modelleri ilgi kazandı ve bugün, difüzyon modelleri kendilerini yüksek çözünürlüklü görüntü üretimi için baskın bir paradigma olarak kabul ettirdi. Yayılma modelleri ve takviyeli öğrenmenin sunduğu yetenekler sayesinde, yörünge modelleri, ödül modelleri, planlayıcılar ve veri artırma politikası olarak yayılma modellerinin esnekliğinden yararlanmak amacıyla iki yaklaşımı birleştirmek için girişimlerde bulunulmaktadır. çevrimdışı takviye öğrenme. 

Dünya modelleri, takviyeli öğrenme aracılarının güvenli ve verimli bir şekilde eğitilmesi için umut verici bir yöntem sunar. Geleneksel olarak bu modeller, ortam dinamiklerini simüle etmek için ayrı gizli değişkenlerin dizilerini kullanır. Ancak bu sıkıştırma, takviyeli öğrenme için hayati önem taşıyan görsel ayrıntıları gözden kaçırabilir. Aynı zamanda, ayrık latentler kullanan geleneksel yöntemlere meydan okuyarak, görüntü oluşturmada yayılma modellerinin popülaritesi arttı. Bu değişimden ilham alarak bu makalede, yayılma dünya modeli kapsamında eğitilmiş bir takviyeli öğrenme aracısı olan DIAMOND'dan (Ortam Düşleri Modeli Olarak Difüzyon) bahsedeceğiz. Difüzyonu dünya modellemesine uygun hale getirmek için gerekli tasarım seçeneklerini araştıracağız ve gelişmiş görsel ayrıntıların daha iyi temsilci performansına yol açtığını göstereceğiz. DIAMOND, rekabetçi Atari 100k testinde yeni bir ölçüt belirliyor ve tamamen dünya modeli çerçevesinde eğitilmiş temsilciler için en yüksek olan 1.46 ortalama insan normalleştirilmiş puanına ulaşıyor. 

DIAMOND : Çevre Hayallerinin Bir Modeli Olarak Yayılım

Dünya modelleri veya Üretken ortam modelleri, üretken etmenlerin çevreleri hakkında planlama yapmaları ve akıl yürütmeleri için en önemli bileşenlerden biri olarak ortaya çıkmaktadır. Takviyeli öğrenmenin kullanımı son yıllarda önemli bir başarı elde etmiş olsa da, takviyeli öğrenmeyi uygulayan modellerin örnek verimsizliği biliniyor ve bu da onların gerçek dünyadaki uygulamalarını önemli ölçüde sınırlıyor. Öte yandan, dünya modelleri, modelin gerçek dünya deneyimlerinden öğrenmesine olanak tanıyan, önemli ölçüde iyileştirilmiş örnek verimliliği ile farklı ortamlarda takviyeli öğrenme aracılarını verimli bir şekilde eğitme yeteneklerini gösterdi. Son dünya modelleme çerçeveleri genellikle çevre dinamiklerini ayrı gizli değişkenlerin bir dizisi olarak modelliyor; model, çok adımlı zaman ufuklarında hataların birleşimini önlemek için gizli alanı ayrıklaştırıyor. Yaklaşım önemli sonuçlar verebilse de, aynı zamanda bilgi kaybıyla da ilişkilidir, bu da yeniden yapılanma kalitesinin kaybına ve genelliğin kaybolmasına neden olur. Bilgi kaybı, otonom araçların eğitimi gibi bilginin iyi tanımlanmasını gerektiren gerçek dünya senaryoları için önemli bir engel haline gelebilir. Bu tür görevlerde, trafik ışığının rengi veya öndeki aracın dönüş sinyali gibi görsel girdilerdeki küçük değişiklikler veya ayrıntılar, bir acentenin politikasını değiştirebilir. Ayrık latentlerin sayısını artırmak bilgi kaybını önlemeye yardımcı olsa da hesaplama maliyetlerini önemli ölçüde azaltır. 

Ayrıca, son yıllarda, yayılma modelleri üzerine inşa edilen çerçeveler gürültülü bir süreci tersine çevirmeyi öğrendiğinden ve ayrık belirteçleri modelleyen daha köklü yaklaşımlardan bazılarıyla doğrudan rekabet ettiğinden, yüksek kaliteli görüntü oluşturma çerçeveleri için yaygın yaklaşım olarak yayılma modelleri ortaya çıktı. ve bu nedenle dünya modellemesinde ayrıklaştırma ihtiyacını ortadan kaldırmak için umut verici bir alternatif sunuyor. Difüzyon modelleri, kolayca koşullandırılma ve karmaşık, çok modlu dağılımları mod çökmesi olmadan esnek bir şekilde modelleme yetenekleriyle bilinir. Koşullandırma, bir dünya modelinin bir aracının eylemlerini doğru bir şekilde yansıtmasını sağlayarak daha güvenilir kredi tahsisine yol açtığından, bu nitelikler dünya modelleme için çok önemlidir. Dahası, çok modlu dağılımların modellenmesi, aracıya daha geniş bir eğitim senaryosu çeşitliliği sunarak genel performansını artırır. 

Bu özelliklerin üzerine inşa edilen DIAMOND (Ortam Düşleri Modeli Olarak Difüzyon), yayılma dünya modeli kapsamında eğitilmiş bir takviyeli öğrenme aracısıdır. DIAMOND çerçevesi, yayılma dünyası modelinin uzun vadede verimli ve istikrarlı kalmasını sağlamak için dikkatli tasarım seçimleri yapar. Çerçeve, bu tasarım seçimlerinin önemini göstermek için niteliksel bir analiz sağlar. DIAMOND, tamamen dünya modeli çerçevesinde eğitilmiş ajanlar için en yüksek olan köklü Atari 1.46k kriterinde ortalama insan normalleştirilmiş puanı 100 ile yeni bir teknoloji harikası belirliyor. Görüntü alanında çalışmak, DIAMOND'un yayılma dünyası modelinin ortamın yerini sorunsuz bir şekilde almasına olanak tanır ve dünya modeli ve etmen davranışları hakkında daha fazla bilgi sunar. Özellikle, belirli oyunlardaki geliştirilmiş performans, kritik görsel ayrıntıların daha iyi modellenmesine bağlanıyor. DIAMOND çerçevesi, ortamı bir dizi durum, bir dizi ayrı eylem ve bir dizi görüntü gözlemi ile standart bir POMDP veya Kısmen Gözlemlenebilir Markov Karar Süreci olarak modeller. Geçiş fonksiyonları çevre dinamiklerini tanımlar ve ödül fonksiyonu geçişleri skaler ödüllere haritalar. Gözlem fonksiyonu gözlem olasılıklarını tanımlar ve durumlara doğrudan erişemedikleri için aracılar tarafından ortamları görmek için kullanılan görüntü gözlemleri yayar. Yaklaşımın temel amacı, bir indirim faktörü ile beklenen indirim getirisini en üst düzeye çıkarma girişimiyle gözlemleri eylemlerle eşleştiren bir politika elde etmekti. Dünya modelleri, ortamın üretken modelleridir ve dünya modelleri, gerçek ortamda takviyeli öğrenme aracılarını eğitmek ve dünya modeli ortamında takviyeli öğrenme aracılarını eğitmek için simüle edilmiş ortamlar oluşturmak için kullanılabilir. Şekil 1, DIAMOND çerçevesinin zaman içinde ortaya çıkan hayal gücünü göstermektedir. 

DIAMOND : Metodoloji ve Mimari

Difüzyon modelleri özünde, gürültü sürecini tersine çevirerek bir örnek oluşturan ve denge dışı termodinamiklerden büyük ilham alan bir üretken modeller sınıfıdır. DIAMOND çerçevesi, takip edilebilir, yapılandırılmamış bir ön dağılıma sahip, karşılık gelen marjinaller ve sınır koşulları ile sürekli bir zaman değişkeni tarafından indekslenen bir yayılma sürecini dikkate alır. Ayrıca, gürültüden veriye haritalama yapan üretken bir model elde etmek için, DIAMOND çerçevesinin süreci tersine çevirmesi gerekir; tersine çevirme süreci aynı zamanda zamanda geriye doğru çalışan bir yayılma sürecidir. Ayrıca, herhangi bir zamanda, DIAMOND çerçevesi gerçek puan işlevine erişemediğinden puan işlevini tahmin etmek önemsiz değildir ve model, puan eşleştirme hedefini uygulayarak bu engelin üstesinden gelir; bu, bir çerçeveyi kolaylaştıran bir yaklaşımdır. Temel puan fonksiyonunu bilmeden bir puan modeli eğitmek. Puana dayalı yayılma modeli koşulsuz bir üretken model sağlar. Bununla birlikte, bir dünya modeli olarak hizmet etmek için koşullu üretken bir çevre dinamiği modeli gereklidir ve bu amaca hizmet etmek için DIAMOND çerçevesi, çerçevenin geçmiş gözlemlerden ve eylemlerden yararlanabileceği POMDP yaklaşımının genel durumuna bakar. bilinmeyen Markov durumunu yaklaşık olarak hesaplayın. Şekil 1'de gösterildiği gibi, DIAMOND çerçevesi bir yayılma modelini koşullandırmak, bir sonraki gözlemi doğrudan tahmin etmek ve oluşturmak için bu geçmişi kullanır. DIAMOND çerçevesi teoride herhangi bir SDE veya ODE çözücüye başvurabilse de, NFE veya İşlev Değerlendirme Sayısı ile örnek kalitesi arasında difüzyon modellerinin çıkarım maliyetini önemli ölçüde etkileyen bir ödünleşim vardır. 

Yukarıdaki bilgilere dayanarak, şimdi belirli bir yayılma yaklaşımı seçimine karşılık gelen sürüklenme ve yayılma katsayılarını içeren yayılmaya dayalı bir dünya modelinin DIAMOND çerçevesinin pratikte gerçekleştirilmesine bakalım. DIAMOND çerçevesi, görev için doğal olarak uygun bir aday olan DDPM'yi tercih etmek yerine, EDM formülasyonunu temel alır ve gürültü programı adı verilen gerçek değerli bir yayılma süresi fonksiyonuna sahip bir pertürbasyon çekirdeğini dikkate alır. Çerçeve, herhangi bir ses seviyesi için giriş ve çıkış varyansını koruyacak ön koşullayıcıları seçer. Ağ eğitimi, bozulma seviyesine bağlı olarak ve gürültü düşük olduğunda sinyal ve gürültüyü uyarlamalı olarak karıştırır ve hedef, temiz ve bozulmuş sinyal arasındaki fark, yani eklenen Gauss gürültüsü haline gelir. Sezgisel olarak bu, düşük gürültü rejiminde eğitim hedefinin önemsiz hale gelmesini önler. Pratikte bu amaç, gürültü çizelgesinin uç noktalarında yüksek varyanstır, bu nedenle model, eğitimi orta düzeydeki gürültü bölgeleri etrafında birleştirmek amacıyla gürültü seviyesini ampirik olarak seçilen bir log-normal dağılımdan örnekler. DIAMOND çerçevesi, vektör alanı için standart bir U-Net 2D bileşenini kullanır ve çerçevenin kendisini koşullandırmak için kullandığı geçmiş gözlemlerin ve eylemlerin bir arabelleğini tutar. DIAMOND çerçevesi daha sonra bu geçmiş gözlemleri bir sonraki gürültülü gözlemle birleştirir ve U-Net'in kalan bloklarındaki uyarlanabilir grup normalleştirme katmanları aracılığıyla girdi eylemlerini gerçekleştirir. 

ELMAS: Deneyler ve Sonuçlar

Kapsamlı değerlendirme için DIAMOND çerçevesi Atari 100k kıyaslamasını tercih ediyor. Atari 100k testi, çok çeşitli ajan yeteneklerini test etmek için tasarlanmış 26 oyundan oluşuyor. Her oyunda, bir temsilcinin, değerlendirmeden önce oyunu öğrenmesi için ortamda 100 bin eylemle sınırlıdır; bu da kabaca 2 saatlik insan oyununa eşdeğerdir. Karşılaştırma yapmak gerekirse, kısıtlamasız Atari temsilcileri genellikle 50 milyon adım eğitimi alıyor ve bu da deneyimde 500 kat artış anlamına geliyor. Her oyun için 5 rastgele tohum kullanarak DIAMOND'u sıfırdan eğittik. Her eğitim çalıştırması yaklaşık 12 GB VRAM gerektiriyordu ve tek bir Nvidia RTX 2.9 üzerinde yaklaşık 4090 gün sürdü; bu da toplamda 1.03 GPU yılına denk geliyor. Aşağıdaki tablo tüm oyunların puanını, ortalamasını ve IQM'yi veya insan normalleştirilmiş puanların çeyrekler arası ortalamasını sağlar. 

Nokta tahminlerinin sınırlamalarını takiben, DIAMOND çerçevesi, aşağıdaki şekilde özetlendiği gibi, performans profilleri ve ek ölçümlerin yanı sıra, ortalama ve IQM veya insana göre normalleştirilmiş puanların çeyrekler arası ortalamasına ilişkin katmanlı önyükleme güveni sağlar. 

Sonuçlar, DIAMOND'un kıyaslamada olağanüstü iyi bir performans sergilediğini, 11 maçta insan oyuncuları geride bıraktığını ve 1.46'lık insanüstü ortalama HNS'ye ulaşarak tamamen dünya modeli çerçevesinde eğitilmiş ajanlar için yeni bir rekor kırdığını gösteriyor. Ayrıca DIAMOND'un IQM'si STORM ile karşılaştırılabilir düzeydedir ve diğer tüm temel değerleri aşmaktadır. DIAMOND, Asterix, Breakout ve RoadRunner gibi küçük ayrıntıları yakalamanın hayati önem taşıdığı ortamlarda üstün performans gösterir. Ayrıca, daha önce tartışıldığı gibi, DIAMOND çerçevesi, kendi hattında herhangi bir yayılma modelini uygulama esnekliğine sahiptir; her ne kadar EDM yaklaşımını tercih etse de, halihazırda birçok ülkede uygulanmakta olduğundan DDPM modelini tercih etmek doğal bir seçim olacaktır. görüntü oluşturma uygulamaları. EDM yaklaşımını DDPM uygulamasıyla karşılaştırmak için DIAMOND çerçevesi, aynı ağ mimarisine sahip her iki varyantı da bir uzman politikasıyla toplanan 100'den fazla çerçeveyle aynı paylaşılan statik veri kümesi üzerinde eğitir. Gürültü giderme adımlarının sayısı doğrudan dünya modelinin çıkarım maliyetiyle ilişkilidir ve bu nedenle daha az adım, bir aracının hayal edilen yörüngeler konusunda eğitilmesinin maliyetini azaltacaktır. Dünya modelimizin, zaman adımı başına 16 NFE gerektiren IRIS gibi diğer temellerle hesaplama açısından karşılaştırılabilir kalmasını sağlamak için, onlarca gürültü giderme adımından fazlasını, tercihen daha azını kullanmayı hedefliyoruz. Ancak gürültü giderme adımlarının sayısının çok düşük ayarlanması görsel kaliteyi düşürerek birleştirme hatalarına yol açabilir. Farklı difüzyon varyantlarının stabilitesini değerlendirmek için, aşağıdaki şekilde n ≤ 1000 farklı sayıda gürültü giderme adımı kullanılarak otoregresif olarak t = 10 zaman adımına kadar oluşturulan hayal edilen yörüngeleri gösteriyoruz. 

Bu rejimde DDPM (a) kullanımının ciddi birleştirme hatalarına yol açtığını ve dünya modelinin hızla dağıtımdan sapmasına neden olduğunu gözlemliyoruz. Buna karşılık, EDM tabanlı yayılma dünya modeli (b), tek bir gürültü giderici adımla bile uzun zaman dilimleri boyunca çok daha istikrarlı kalır. Hayal edilen yörüngeler yayılma dünya modelleri DDPM'ye dayalı (solda) ve EDM (sağda) gösterilmektedir. T = 0'daki ilk gözlem her ikisi için de aynıdır ve her satır, azalan sayıda gürültü giderme adımına (n) karşılık gelir. DDPM tabanlı üretimin bileşik hatalardan muzdarip olduğunu ve daha az sayıda gürültü giderici adımın daha hızlı hata birikmesine yol açtığını gözlemliyoruz. Buna karşılık, DIAMOND'un EDM tabanlı dünya modeli, n = 1 için bile çok daha kararlı kalır. En uygun tek adımlı tahmin, belirli bir gürültülü girdi için olası yeniden yapılandırmalara ilişkin beklentidir; bu, sonsal dağılım çok modlu ise dağılım dışı olabilir. . Breakout gibi bazı oyunlar, tek bir gürültü giderme adımıyla doğru bir şekilde modellenebilen deterministik geçişlere sahipken, diğer oyunlar kısmi gözlemlenebilirlik sergileyerek çok modlu gözlem dağılımlarına neden olur. Bu durumlarda, aşağıdaki şekilde Boxing oyununda gösterildiği gibi örnekleme prosedürünü belirli bir moda yönlendirmek için yinelemeli bir çözücü gereklidir. Sonuç olarak, tüm deneylerimizde DIAMOND çerçevesi n = 3'ü ayarladı.

Yukarıdaki şekil Boxing'deki tek adımlı (üst sıra) ve çok adımlı (alt sıra) örneklemeyi karşılaştırmaktadır. Siyah oyuncunun hareketleri öngörülemez, tek adımlı gürültü gidermenin olası sonuçlar arasına girmesine neden olur ve bu da bulanık tahminlere yol açar. Buna karşılık, çok adımlı örnekleme, nesli belirli bir moda yönlendirerek net bir görüntü üretir. İlginç bir şekilde, politika beyaz oyuncuyu kontrol ettiğinden, onun eylemleri dünya modeli tarafından biliniyor ve bu da belirsizliği ortadan kaldırıyor. Böylece hem tek adımlı hem de çok adımlı örnekleme, beyaz oyuncunun konumunu doğru bir şekilde tahmin eder.

Yukarıdaki şekilde, DIAMOND tarafından hayal edilen yörüngeler, IRIS tarafından hayal edilenlere kıyasla genel olarak daha yüksek görsel kalite sergiliyor ve gerçek ortama daha sadık. IRIS tarafından oluşturulan yörüngeler, düşmanların ödül olarak gösterilmesi veya bunun tersi gibi kareler arasında (beyaz kutularla vurgulanan) görsel tutarsızlıklar içerir. Bu tutarsızlıklar yalnızca birkaç pikseli etkilese de takviyeli öğrenmeyi önemli ölçüde etkileyebilir. Örneğin, bir temsilci genellikle ödülleri hedeflemeyi ve düşmanlardan kaçınmayı hedefler; dolayısıyla bu küçük görsel farklılıklar, optimal politikayı öğrenmeyi daha da zorlaştırabilir. Şekil IRIS (solda) ve DIAMOND (sağda) ile hayal edilen ardışık kareleri göstermektedir. Beyaz kutular, yalnızca IRIS ile oluşturulan yörüngelerde görünen kareler arasındaki tutarsızlıkları vurgular. Asterix'te (üst sıra), bir düşman (turuncu), ikinci karede ödüle (kırmızı) dönüşür, ardından üçüncü karede düşmana, dördüncü karede ise tekrar ödüle dönüşür. Breakout'ta (orta sıra), kareler arasındaki tuğlalar ve puanlar tutarsızdır. Road Runner'da (alt sıra), ödüller (yoldaki küçük mavi noktalar) çerçeveler arasında tutarsız bir şekilde işleniyor. Bu tutarsızlıklar DIAMOND'da meydana gelmez. Breakout'ta kırmızı tuğla kırıldığında puan güvenilir bir şekilde +7 oranında güncellenir. 

Sonuç

Bu yazıda, yayılma dünyası modeli kapsamında eğitilmiş takviyeli öğrenme aracısı olan DIAMOND'dan bahsettik. DIAMOND çerçevesi, yayılma dünyası modelinin uzun vadede verimli ve istikrarlı kalmasını sağlamak için dikkatli tasarım seçimleri yapar. Çerçeve, bu tasarım seçimlerinin önemini göstermek için niteliksel bir analiz sağlar. DIAMOND, tamamen dünya modeli çerçevesinde eğitilmiş ajanlar için en yüksek olan köklü Atari 1.46k kriterinde ortalama insan normalleştirilmiş puanı 100 ile yeni bir teknoloji harikası belirliyor. Görüntü alanında çalışmak, DIAMOND'un yayılma dünyası modelinin ortamın yerini sorunsuz bir şekilde almasına olanak tanır ve dünya modeli ve etmen davranışları hakkında daha fazla bilgi sunar. Özellikle, belirli oyunlardaki geliştirilmiş performans, kritik görsel ayrıntıların daha iyi modellenmesine bağlanıyor. DIAMOND çerçevesi, ortamı bir dizi durum, bir dizi ayrı eylem ve bir dizi görüntü gözlemi ile standart bir POMDP veya Kısmen Gözlemlenebilir Markov Karar Süreci olarak modeller. Geçiş fonksiyonları çevre dinamiklerini tanımlar ve ödül fonksiyonu geçişleri skaler ödüllere haritalar.

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.