Bizimle iletişime geçin

Yapay Zeka

Yapay Zeka Tabanlı Üretken Yazma Modelleri Sıklıkla Kaynak Verilerini "Kopyala ve Yapıştır"

mm

Amerikalı oyun yazarı ve girişimci Wilson Mizner'in sık sık söylediği meşhur bir söz vardır: 'Bir yazardan çaldığınızda bu intihaldir; birçok yazardan çaldığınızda ise araştırmadır.'

Benzer şekilde, etrafındaki varsayım yeni nesil Yapay zeka tabanlı yaratıcı yazma sistemlerinin en önemli özelliği, büyük miktarda veri Onlara eğitim aşamasında beslenen gerçek bir sonuç verdi soyutlama yüksek düzeydeki kavram ve fikirlerin; bu sistemlerin, binlerce katkıda bulunan yazarın damıtılmış bilgeliğinin emrinde olması ve yapay zekanın bu bilgelikten yenilikçi ve özgün yazılar formüle edebilmesi; ve bu tür sistemleri kullananların, istemeden dolaylı intihal yapmadıklarından emin olabilmeleri.

Bu, GPT serisi gibi makine öğrenimi üretken dil modellerinin, Facebook ve Microsoft'un yapay zeka araştırma bölümleri de dahil olmak üzere bir araştırma konsorsiyumunun yeni bir makalesiyle sorgulanan bir varsayımdır. 'ara sıra çok uzun pasajları bile kopyalayın' sözde orijinal çıktılarına, atıfta bulunmadan.

Yazarlar, bazı durumlarda, GPT-2'nin çıktısında eğitim setinden 1,000'den fazla kelimeyi kopyalayacağını belirtiyor.

MKS kâğıt başlıklı Dil modelleri eğitim verilerinden ne kadar kopyalıyor? RAVEN kullanarak metin oluşturmada dilbilimsel yeniliğin değerlendirilmesive Johns Hopkins Üniversitesi, Microsoft Research, New York Üniversitesi ve Facebook AI Research arasındaki bir işbirliğidir.

RAVEN

Çalışma, klasik bir şiirin kuş kötü adamını yansıtmak için eğlenceli bir şekilde işkence görmüş bir kısaltma olan RAVEN (RAtingVERbalNovelty) adlı yeni bir yaklaşım kullanıyor:

Bu kısaltma, Edgar Allan Poe'nun "Kuzgun"una atıfta bulunur; burada anlatıcı, sürekli "Nevermore!" diye bağıran gizemli bir kuzgunla karşılaşır. Anlatıcı, kuzgunun bir insanın söylediğini işittiği bir şeyi tekrar edip etmediğini, yoksa kendi sözlerini mi oluşturduğunu (belki bir araya getirerek) anlayamaz. asla ve Daha) —makalemizin ele aldığı aynı temel belirsizlik.'

Yeni makalenin bulguları, 'basit' düzenleme görevlerinin yerini almayı ve hatta tam uzunlukta içerik yazmayı hedefleyen yapay zeka içerik yazım sistemlerindeki büyük büyüme bağlamında ortaya çıkıyor. 21 milyon dolar aldı bu hafta başlarında seri A finansmanında.

Araştırmacılar "GPT-2 bazen şu eğitim pasajlarını çoğaltır: 1,000'den fazla kelime uzunluğunda.' (vurguları) ve üretken dil sistemlerinin kaynak verilerde dilbilimsel hatalar yaydığı.

RAVEN kapsamında incelenen dil modelleri, GPT-2'ye kadar olan GPT serisi sürümler (yazarların o sırada GPT-3'e erişimi yoktu), bir Transformer, Transformer-XL ve bir LSTM.

Yenilik

Makale, GPT-2'nin aşağıdakiler gibi Bush 2 tarzı çekimleri kullandığını belirtiyor: 'İsviçreleştirilmiş've gibi türevler 'IKEA-lık', eğitim sırasında oluşturulan daha yüksek boyutlu uzaylardan türetilen dilbilimsel ilkelere dayanarak bu tür yeni kelimeler (GPT-2'nin eğitim verilerinde görünmüyorlar) yaratıyor.

Sonuçlar ayrıca, 'Transformer-XL tarafından üretilen cümlelerin %74'ünün hiçbir eğitim cümlesinin sahip olmadığı bir sözdizimsel yapıya sahip olduğunu' gösteriyor; bu da yazarların belirttiği gibi, 'sinirsel dil modelleri sadece ezberlemez; bunun yerine, tanıdık parçaları yeni yollarla birleştirmelerine olanak tanıyan üretken süreçleri kullanırlar.'

Yani teknik olarak, genelleme ve soyutlama meli yenilikçi ve yeni metinler üretir.

Veri Çoğaltması Sorun Olabilir

Makalede, Doğal Dil Üretimi (NLG) sistemleri tarafından üretilen uzun ve birebir alıntıların, orijinal kaynak metnin, yeterli düzeyde çoğaltılmamış veri kümelerinde birden fazla kez tekrarlanması nedeniyle yapay zeka modeline bütünüyle 'eklenebileceği' teorisi ortaya atılıyor.

Gerçi başka bir araştırma projesi kaynak metin yalnızca görünse bile metnin tamamen kopyalanabileceğini bulmuştur. bir Zamanlar veri setinde yazarlar, projenin içerik üreten yapay zeka sistemlerinin ortak çalışmasından farklı kavramsal mimarilere sahip olduğunu belirtiyor.

Yazarlar ayrıca, dil üretim sistemlerinde kod çözme bileşenini değiştirmenin yeniliği artırabileceğini gözlemliyor, ancak testlerde bunun çıktı kalitesi pahasına gerçekleştiğini buldular.

İçerik üreten algoritmaları besleyen veri kümeleri daha da büyüdükçe başka sorunlar da ortaya çıkıyor. Veri ön işlemenin karşılanabilirliği ve uygulanabilirliği ile kalite güvencesi ve verilerin tekilleştirilmesiyle ilgili sorunları ağırlaştırmanın yanı sıra, birçok temel hata devam ediyor daha sonra yapay zeka tarafından içerik çıktısında yayılan kaynak verilerde.

Yazar notu*:

"Eğitim seti boyutlarındaki son artışlar, yenilik olup olmadığını kontrol etmeyi özellikle kritik hale getiriyor çünkü bu eğitim setlerinin büyüklüğü, neyin doğal olarak gerçekleşmesi beklenebileceği konusundaki sezgilerimizi kırabilir. Örneğin, bazı önemli çalışmalar dil edinme düzensiz fiillerin (örneğin, olmak, öğretilmek) düzenli geçmiş zaman biçimlerinin öğrencinin deneyiminde yer almadığı varsayımına dayanır, dolayısıyla bir öğrenci bu tür sözcükler üretiyorsa, bunlar öğrenci için yeni olmalıdır.

'Ancak, İngilizce'deki 92 temel düzensiz fiilin tamamı için, GPT-2'nin eğitim setinde yanlış düzenli formun ortaya çıktığı ortaya çıktı.'

Daha Fazla Veri Düzenlemesi Gerekiyor

Makale, üretken dil sistemlerinin formülasyonunda yeniliğe daha fazla dikkat edilmesi gerektiğini, özellikle de verilerin 'saklanan' test kısmının (son algoritmanın eğitilmiş verilerin ana gövdesini ne kadar iyi değerlendirdiğini test etmek için ayrılan kaynak veri kısmı) görev için uygun olduğundan emin olunması gerektiğini ileri sürmektedir.

'Makine öğreniminde, modelleri saklı bir test kümesi üzerinde değerlendirmek kritik öneme sahiptir. Metin üretiminin açık uçlu yapısı nedeniyle, bir modelin ürettiği metin eğitim kümesinden kopyalanabilir; bu durumda saklı tutulmaz; dolayısıyla bu verileri modeli değerlendirmek için (örneğin tutarlılık veya dilbilgisi açısından) kullanmak geçerli değildir.'

Yazarlar ayrıca, dil modellerinin üretiminde de daha fazla özen gösterilmesi gerektiğini ileri sürüyorlar. Eliza etkisi, 1966'da tanımlanmış bir sendrom "Bilgisayarlar tarafından birbirine dizilmiş sembol dizilerini - özellikle sözcükleri - garanti edilenden çok daha fazla anlama konusunda insanların duyarlılığı".

 

* Satır içi alıntıları köprülere dönüştürmem

 

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai