Yapay Zeka
Derin Takviyeli Öğrenimi Kullanarak Açıklama Oluşturma - Düşünce Liderleri
Yazarken veya konuşurken hepimiz bir fikri başkalarına iletmenin daha iyi bir yolu olup olmadığını merak etmişizdir. Hangi kelimeleri kullanmalıyım? Düşünceyi nasıl yapılandırmalıyım? Nasıl yanıt vermeleri muhtemeldir? -de Phrasee, dil hakkında - neyin işe yarayıp neyin yaramadığı - hakkında düşünerek çok zaman harcıyoruz.
Listenizdeki 10 milyon kişiye gidecek, yeni ve şık bir dizüstü bilgisayarda %20 indirim tanıtan bir e-posta kampanyası için konu satırı yazdığınızı hayal edin.
Hangi satırı seçersiniz:
- Artık bir sonraki siparişinizde ekstra %20 indirim alabilirsiniz.
- Hazır olun - ekstra %20 indirim
Aynı bilgiyi aktarırken, biri diğerinden neredeyse %15 daha yüksek açılma oranı elde etti (ve bahse girerim hangisini tahmin etmede bizim modelimizi geçemezsiniz?). Dil genellikle şu yollarla test edilebilirken: A / B testi or çok kollu haydutlar, otomatik olarak yeniden ifadeler oluşturmak gerçekten zorlu bir araştırma sorunu olmaya devam ediyor.
Aynı anlamı paylaşıyorlarsa ve birbirlerinin yerine kullanılabiliyorlarsa, iki cümle birbirlerinin açıklamaları olarak kabul edilir. Genellikle hafife alınan bir diğer önemli şey, makine tarafından üretilen bir cümlenin akıcı olup olmadığıdır.
Denetimli öğrenmenin aksine, Güçlendirmeli Öğrenim (RL) temsilcileri, çevreleriyle etkileşim kurarak ve sonuç olarak aldıkları ödülleri gözlemleyerek öğrenirler. Bu biraz nüanslı farkın, algoritmaların nasıl çalıştığı ve modellerin nasıl eğitildiği konusunda büyük etkileri vardır. Derin Takviye Öğrenme aracının karmaşık ortamlarda insanlardan nasıl daha iyi performans göstereceğini öğrenmesine izin vermek için bir işlev tahmincisi olarak sinir ağlarını kullanır. Go, Atari ve StarCraft II.
Bu başarıya rağmen, takviyeli öğrenme, Doğal Dil İşleme (NLP) dahil olmak üzere gerçek dünya sorunlarına geniş çapta uygulanmamıştır.
Benim bir parçası olarak Veri Biliminde Yüksek Lisans Tezi, Deep RL'nin girdi metninin otomatik olarak yeniden ifadelerini oluşturmada denetimli öğrenme yöntemlerinden daha iyi performans göstermek için nasıl kullanılabileceğini gösteriyoruz. En iyi açıklamayı oluşturma sorunu, çıktıda akıcılığı korurken cümleler arasındaki anlamsal benzerliği en üst düzeye çıkaran sözcük dizisini bulmak olarak görülebilir. RL ajanları, kontrol ortamlarında beklenen maksimum ödülü elde etmek için en iyi eylem setini bulmak için çok uygundur.
Makine öğrenimindeki çoğu sorunun aksine, Doğal Dil Üretimi (NLG) uygulamalarının çoğunda en büyük sorun modellemede değil, değerlendirmede yatmaktadır. İnsan değerlendirmesi şu anda NLG değerlendirmesinde altın standart olarak kabul edilse de pahalı olması, zaman alması, ayarlanmasının zor olması ve deneyler ve veri kümeleri arasında tekrarlanabilirliğin olmaması gibi önemli dezavantajlara sahiptir. (Han, 2016). Sonuç olarak, araştırmacılar uzun süredir basit, genelleştirilebilir ve insan yargısını yansıtan otomatik metrikler arıyorlar. (Papineni ve diğerleri, 2002).
Makine tarafından oluşturulan resim yazılarını değerlendirmede en yaygın otomatik değerlendirme yöntemleri, artıları ve eksileri ile birlikte aşağıda özetlenmiştir:
Takviyeli Öğrenme Ardışık Düzenini Kullanarak Açıklama Oluşturma
Yüksek kaliteli açıklamalar üreten ParaPhrasee adında bir sistem geliştirdik. Sistem, takviyeli öğrenmeyi hesaplama açısından verimli bir şekilde uygulamak için birden çok adımdan oluşur. Üst düzey boru hattının kısa bir özeti aşağıda daha fazla ayrıntıyla birlikte gösterilmiştir. tez.
Veri kümesi
Aşağıdakiler de dahil olmak üzere araştırmalarda kullanılan çeşitli açıklama veri kümeleri mevcuttur: Microsoft Açıklama külliyatıACL'nin Anlamsal Metin Benzerliği yarışması, Quora Yinelenen Sorular, ve Twitter Paylaşılan Bağlantılar. biz seçtik MS-COCO boyutu, temizliği ve iki önemli açıklama oluşturma kağıdı için bir ölçüt olarak kullanılması göz önüne alındığında. MS-COCO, 120 farklı insan anlatıcı tarafından sağlanan, resim başına 5 resim alt yazısı ile ortak sahnelerin 5 resmini içerir.
Öncelikle bilgisayarlı görüntü araştırması için tasarlanmış olsa da, altyazılar yüksek anlamsal benzerliğe sahip olma eğilimindedir ve ilginç açıklamalardır. Görüntü altyazılarının farklı kişiler tarafından sağlandığı göz önüne alındığında, sahnede sağlanan ayrıntılarda küçük farklılıklar olma eğilimindedir, bu nedenle oluşturulan cümleler ayrıntıların halüsinasyonuna eğilimlidir.
Denetimli Model
Takviyeli öğrenme, örnek verimliliği, eğitim süreleri ve genel olarak en iyi uygulamalar açısından önemli ölçüde iyileşirken, RL modellerini sıfırdan eğitmek hala nispeten çok yavaş ve kararsızdır. (Arulkumaran ve diğerleri, 2017). Bu nedenle, sıfırdan eğitmek yerine, önce denetlenen bir modeli eğitiriz ve ardından RL kullanarak ince ayarını yaparız.
Biz kullanıyoruz Kodlayıcı-Kod Çözücü model çerçevesi ve çeşitli temel denetimli modellerin performansını değerlendirin. RL kullanarak modele ince ayar yaparken, yalnızca kod çözücü ağına ince ayar yaparız ve kodlayıcı ağına statik olarak davranırız. Bu nedenle, iki ana çerçeveyi ele alıyoruz:
- GRU'lara sahip bir standart/vanilya kodlayıcı kod çözücü kullanarak denetlenen modeli sıfırdan eğitme
- Kodlayıcı için önceden eğitilmiş cümle yerleştirme modellerini kullanma: havuzlanmış sözcük yerleştirmeleri (GloVe), InferSent ve BERT
Denetlenen modeller, BERT ve vanilya kodlayıcı-kod çözücünün en iyi performansı elde ettiği modeller arasında oldukça benzer şekilde performans gösterme eğilimindedir.
Performans makul olma eğiliminde olsa da, üç yaygın hata kaynağı vardır: kekemelik, cümle parçaları oluşturma ve halüsinasyonlar. Bunlar, RL kullanımının çözmeyi amaçladığı ana problemlerdir.
Güçlendirmeli Öğrenme Modeli
RL algoritmalarını uygulamak, özellikle sorunun çözülüp çözülemeyeceğini bilmediğinizde çok zordur. Ortamınızın, aracılarınızın, hiperparametrelerinizin, ödül fonksiyonunuzun veya yukarıdakilerin hepsinin bir kombinasyonunun uygulanmasında sorunlar olabilir! Bu sorunlar, sinir ağlarını hata ayıklamanın ek karmaşıklığının eğlencesini elde ettiğinizde derin RL yaparken daha da kötüleşir.
Tüm hata ayıklamada olduğu gibi, basit başlayın. RL algoritmalarını test etmek ve denetlenen modelden bilgi aktarımı için tekrarlanabilir bir strateji bulmak için iyi anlaşılmış iki oyuncak RL ortamının (CartPole ve FrozenLake) varyasyonlarını uyguladık.
Bu ortamlarda bir Aktör-Eleştirmen algoritması kullanmanın REINFORCE'dan daha iyi performans gösterdiğini bulduk. Bilgiyi aktör-eleştirmen modeline aktarma açısından, aktörün ağırlıklarını eğitilmiş denetlenen modelle başlatmanın ve eleştirmeni önceden eğitmenin en iyi performansı sağladığını bulduk. Çalışmak için ayarlama gerektiren birçok yeni hiperparametre sundukları için karmaşık politika damıtma yaklaşımlarını yeni ortamlara genelleştirmeyi zor bulduk.
Bu bilgilerle desteklenerek, daha sonra açıklama oluşturma görevi için bir yaklaşım geliştirmeye dönüyoruz. Önce bir ortam yaratmamız gerekiyor.
Ortam, farklı değerlendirme metriklerini ödül işlevleri olarak kullanmanın etkisini kolayca test etmemizi sağlar.
Daha sonra aracıyı tanımlarız, birçok avantajı göz önüne alındığında, bir aktör-eleştirmen mimarisi kullanırız. Aktör, dizideki bir sonraki kelimeyi seçmek için kullanılır ve denetimli model kullanılarak ağırlıkları başlatılır. Eleştirmen, aktörün öğrenmesine yardımcı olmak için bir devletin alacağı beklenen ödülün bir tahminini sunar.
Doğru Ödül Fonksiyonunu Tasarlamak
Bir RL sistemi tasarlamanın en önemli bileşeni ödül işlevidir, çünkü RL aracısının optimize etmeye çalıştığı şey budur. Ödül işlevi yanlışsa, sistemin diğer tüm parçaları çalışsa bile sonuçlar zarar görecektir!
Bunun klasik bir örneği Sahil Koşucuları OpenAI araştırmacılarının ödül işlevini yarışı kazanmak yerine toplam puanı en üst düzeye çıkarmak olarak belirlediği yer. Bunun sonucunda temsilci, yarışı tamamlamadan turbolara çarparak en yüksek puanı alabileceği bir döngü keşfetti.
Açıklamaların kalitesini değerlendirmenin başlı başına çözülmemiş bir sorun olduğu göz önüne alındığında, bu hedefi otomatik olarak yakalayan bir ödül işlevi tasarlamak daha da zordur. Dilin çoğu yönü, doğrusal ölçülere güzel bir şekilde ayrıştırılmaz ve göreve bağlıdır. (Novikova ve diğerleri, 2017).
RL temsilcisi, ödülleri en üst düzeye çıkarmak için yüksek kaliteli metin oluşturmak yerine değerlendirme metriğindeki zayıflıkları kullanan ilginç bir strateji keşfeder. Bu, aracının doğrudan optimize etmediği metriklerde düşük performansla sonuçlanma eğilimindedir.
Üç ana yaklaşımı ele alıyoruz:
- Kelime örtüşme Metrikleri
Yaygın NLP değerlendirme ölçütleri, oluşturulan açıklama ile değerlendirme cümlesi arasındaki sözcük örtüşme oranını dikkate alır. Örtüşme ne kadar büyük olursa ödül de o kadar büyük olur. Kelime seviyesindeki yaklaşımların zorluğu, ajanın "a is on of" gibi çok fazla bağlantı kelimesi içermesi ve hiçbir akıcılık ölçüsü olmamasıdır. Bu, çok düşük kaliteli açıklamalarla sonuçlanır.
- Cümle Düzeyinde Benzerlik ve Akıcılık Metrikleri
Oluşturulan bir açıklamanın ana özellikleri, akıcı olması ve giriş cümlesine anlamsal olarak benzer olması gerektiğidir. Bu nedenle, bunları ayrı ayrı açıkça puanlamaya ve ardından metrikleri birleştirmeye çalışıyoruz. Anlamsal benzerlik için, BERT dahil önceden eğitilmiş modellerden cümle yerleştirmeleri arasındaki kosinüs benzerliğini kullanıyoruz. Akıcılık için GPT-2'den bir cümlenin karışıklığına dayalı bir puan kullanıyoruz. Kosinüs benzerliği ve akıcılık puanları arttıkça ödül de artar.
Cümle yerleştirme modelleri ve akıcılık modellerinin birçok farklı kombinasyonunu denedik ve performans makul olsa da aracının karşılaştığı ana sorun anlamsal benzerliği akıcılıkla yeterince dengelememekti. Aracı çoğu yapılandırma için akıcılığa öncelik verdi ve bu da ayrıntıların kaldırılmasına ve çoğu varlığın bir şeyin "ortasına" yerleştirilmesine veya "masanın üzerinde" veya "yolun kenarına" taşınmasına neden oldu.
Çok amaçlı takviyeli öğrenme, açık bir araştırma sorusudur ve bu durumda çok zordur.
- Rakip Modeli Ödül İşlevi Olarak Kullanma
Değerlendirmede insanların altın standart olarak kabul edildiği göz önüne alındığında, iki cümlenin birbirinin açılımı olup olmadığını tahmin etmek için ayrımcı adı verilen ayrı bir model eğitiyoruz (bir insanın değerlendirme biçimine benzer). RL modelinin amacı, bu modeli üretilen cümlenin girdinin bir başka ifadesi olduğuna ikna etmektir. Ayrımcı, aracıyı eğitmek için ödül olarak kullanılan iki cümlenin birbirinin başka ifadeleri olma olasılığının bir puanını üretir.
Her 5,000 tahminde bir ayrımcıya, gelecekteki tahminlerini iyileştirebilmesi için hangi açıklamanın veri kümesinden geldiği ve hangisinin üretildiği söylenir. İşlem, aracının ayrımcıyı kandırmaya çalışması ve ayrımcının veri kümesinden oluşturulan açıklamalar ile değerlendirme açıklamaları arasında ayrım yapmaya çalışmasıyla birkaç tur devam eder.
Birkaç eğitim turundan sonra aracı, denetlenen modellerden ve diğer ödül işlevlerinden daha iyi performans gösteren açıklamalar üretir.
Sonuç ve Sınırlamalar
Düşmanca yaklaşımlar (oyunlar için kendi kendine oynama dahil), açık bir ödül işlevi tanımlamadan belirli görevlerde insan düzeyindeki performansı aşmak için RL algoritmalarını eğitmek için son derece umut verici bir yaklaşım sağlar.
RL bu örnekte denetimli öğrenmeden daha iyi performans gösterebilse de, kod, hesaplama ve karmaşıklık açısından fazladan ek yükün miktarı çoğu uygulama için performans kazancına değmez. RL en iyi, denetimli öğrenmenin kolayca uygulanamadığı ve bir ödül işlevinin tanımlanmasının kolay olduğu (Atari oyunları gibi) durumlara bırakılır. Yaklaşımlar ve algoritmalar denetimli öğrenmede çok daha olgundur ve hata sinyali çok daha güçlüdür, bu da çok daha hızlı ve daha kararlı eğitimle sonuçlanır.
Diğer bir husus, diğer nöral yaklaşımlarda olduğu gibi, girdinin daha önce gördüğü girdilerden farklı olduğu durumlarda aracının çok dramatik bir şekilde başarısız olabilmesi ve üretim uygulamaları için ek bir akıl sağlığı kontrolü katmanı gerektirmesidir.
Son birkaç yılda RL yaklaşımlarına olan ilginin patlaması ve hesaplama altyapısındaki ilerlemeler, RL'yi endüstride, özellikle NLP'de uygulamak için büyük fırsatların kilidini açacaktır.