Yapay Zekâ

GPT-3 ve Diğer Karmaşık Dil Modellerinde ‘Sanrı’yı Önleme

Published June 7, 2021

Updated April 5, 2026

Martin Anderson

‘Sahte haber’lerin bir tanımlayıcı özelliği, genellikle gerçeğe uygun bilgilerin bağlamında yanlış bilgileri sunması ve gerçeğe aykırı verilerin bir tür edebi osmoz yoluyla algılanan otorite kazanması – yarı gerçeklerin gücünün endişe verici bir gösterisi.

GPT-3 gibi sofistike generatif doğal dil işleme (NLP) modelleri de bu tür aldatıcı verileri ‘sanrı’ya eğilimlidir. Bunun nedeni kısmen, dil modellerinin uzun ve genellikle labirent benzeri metinleri yeniden ifade etme ve özetleme yeteneğine ihtiyaç duyması, ancak olayları ve gerçekleri tanımlamak, kapsamak ve ‘mühürlemek’ için mimari bir kısıtlama olmamasıdır, böylece bunlar anlamsal yeniden inşa sürecinden korunur.

Bu nedenle, gerçekler bir NLP modeli için kutsal değildir; kolayca ‘anlamsal Lego tuğlaları’ olarak muamele görebilirler, özellikle karmaşık gramer veya kaynak materyalin dil yapısından ayrı ayrı varlıkları ayırmayı zorlaştırdığı durumlarda.

GPT-3 gibi karmaşık dil modellerinin nasıl kandırıldığının bir gözlemi. Kaynak: Paraphrase Generation Using Deep Reinforcement Learning

Bu sorun, metin tabanlı makine öğreniminden bilgisayar görüşü araştırmalarına, özellikle nesneleri tanımlamak veya tanımlamak için anlamsal ayırt etmeyi kullanan sektörlere taşar.

Sanrı ve yanlış ‘kozmetik’ yeniden yorumlama bilgisayar görüşü araştırmalarını da etkiler.

GPT-3 durumunda, model zaten ele aldığı bir konuya tekrar tekrar soru sorulduğunda canlandırabilir. En iyi senaryoda, yenilgiyi kabul eder:

GPT-3’teki temel Davinci motoru ile bir deney. Model ilk denemede cevabı doğru verir, ancak sorunun tekrar sorulmasından rahatsız olur. Önceki cevabın kısa süreli bir belleği vardır ve tekrarlanan soruyu önceki cevabın reddi olarak değerlendirir, böylece yenilgiyi kabul eder. Kaynak: https://www.scalr.ai/post/business-applications-for-gpt-3

DaVinci ve DaVinci Instruct (Beta) bu konuda diğer GPT-3 modellerinden daha iyidir. Burada, Curie modeli yanlış cevabı verir, Babbage modeli ise eşit derecede yanlış bir cevabı güvenle genişletir:

Einstein’in Asla Söylemediği Şeyler

GPT-3 DaVinci Instruct motorunu (şu anda en yetenekli gibi görünüyor) Einstein’in ünlü alıntısı ‘Tanrı evrenle zar atarak oynamaz’ için sorduğumuzda, DaVinci instruct alıntıyı bulamaz ve bir alıntı uydurur, ardından benzer sorgulara yanıt olarak üç diğer olası ve tamamen var olmayan alıntıları sanrılar:

GPT-3, Einstein’den dört olası alıntı üretir, ancak bunlar tam bir internet aramasında hiçbir sonuç vermez, ancak bazıları ‘hayal gücü’ konusundaki gerçek Einstein alıntılarını tetikleyebilir.

GPT-3 alıntıları tutarlı bir şekilde yanlış verseydi, bu sanrıları programlı olarak daha kolay bir şekilde göz ardı etmek mümkün olurdu. Ancak, bir alıntı ne kadar yaygın ve ünlü ise, GPT-3’nin onu doğru verme olasılığı o kadar yüksektir:

GPT-3, alıntıların katkıda bulunan verilere iyi temsil edildiğinde doğru alıntıları bulur gibi görünüyor.

İkinci bir sorun, GPT-3’nin oturum geçmişinin yeni bir soruya sızmaya başladığı zaman ortaya çıkabilir:

Einstein, bu sözün kendisine atfedilmesinden dolayı muhtemelen skandalize olurdu. Alıntı, gerçek bir Winston Churchill deyimnin anlamsız bir sanrısı gibi görünüyor. GPT-3 oturumundaki önceki soru Churchill (Einstein değil) ile ilgiliydi ve GPT-3’nin bu oturum jetonunu cevabı bilgilendirmek için kullandığı ve yanlış bir şekilde kullandığı görünüyor.

Sanrıyı Ekonomik Olarak Ele Almak

Sanrı, sofistike NLP modellerinin araştırma araçları olarak benimsenmesine önemli bir engel oluşturur – özellikle de bu tür motorların çıktısı, oluşturulduğu kaynak materyalden yüksek düzeyde soyutlandığından, alıntıların ve gerçeklerin doğruluğunu belirlemek sorunlu hale gelir.

Bu nedenle, NLP’de güncel bir araştırma zorluğu, entirely yeni NLP modelleri tasarlamak yerine, gerçekleri ayrı varlıklar olarak tanımlamak, kapsamak ve doğrulamak için bir yol geliştirmektir (bu, daha uzun vadeli, daha geniş bilgisayar araştırması sektörlerinde ayrı bir hedefdir).

Sanrı İçeriğini Tanımak ve Üretmek

Carnegie Mellon Üniversitesi ve Facebook AI Research arasında yeni bir işbirliği, sanrı sorununa yeni bir yaklaşım sunuyor. Sanrısal çıktıyı tanımlamak için bir yöntem formüle ediyor ve sentetik sanrısal metinler oluşturmak için bir veri kümesi oluşturuyor. Bu veri kümesi, gelecekteki filtreler ve mekanizmalar için bir temel olarak kullanılabilir ve sonunda NLP mimarilerinin temel bir parçası haline gelebilir.

Kaynak: https://arxiv.org/pdf/2011.02593.pdf

Üstteki resimde, kaynak materyal kelime bazında segmentlere ayrılmıştır. ‘0’ etiketi doğru kelimelere, ‘1’ etiketi sanrısal kelimelere atanmıştır. Aşağıda, girdiye ilgili ancak sahte verilerle zenginleştirilmiş sanrısal çıktı örneğini görüyoruz.

Sistem, orijinal metne geri dönebilen bir ön eğitimli gürültü azaltma otokodlayıcı kullanır (yukarıdaki örneklerim gibi, ancak programatik ve otomatik bir anlamsal metodoloji ile). Özellikle, Facebook’un BART otokodlayıcı modeli, bozulmuş cümleleri üretmek için kullanılır.

Etiket atama.

Sanrıyı kaynak metne geri eşleştirmek, yüksek düzeyli NLP modellerinin ortak çalışmasındaki bir şey değildir ve ‘düzenleme mesafesi’ni eşleştirmeyi sağlar ve sanrısal içeriği tanımlamak için algoritmik bir yaklaşımı kolaylaştırır.

Araştırmacılar, sistemin eğitim sırasında mevcut olan referans materyallerine erişimi olmasa bile iyi bir şekilde genelleme yaptığını buldular. Bu, kavramsal modelin sound ve genişletilebilir olduğunu öne sürer.

Aşırı Uyumlaştırmayı Ele Almak

Genel olarak uygulanabilir bir mimari elde etmek ve aşırı uyumlaştırmayı önlemek için, araştırmacılar prosesden rastgele tokenleri düşürdü ve ayrıca cümleleri yeniden ifade etme ve diğer gürültü fonksiyonlarını kullandı.

Makine çevirisi (MT) de bu bulanıklaştırma sürecinin bir parçasıdır, çünkü metni diller arasında çevirmek, anlamı güçlü bir şekilde koruyacak ve aşırı uyumlaştırmayı önleyecektir. Bu nedenle, sanrılar, projede iki dilli konuşmacılar tarafından manuel bir anlama katmanında çevrildi ve tanımlandı.

Girişim, bir dizi standart sektör testinde yeni en iyi sonuçları elde etti ve 10 milyon tokenden fazla veri kullanarak kabul edilebilir sonuçları elde eden ilk çalışma oldu.

Projenin kodu, Şartlı Neural Dizi Oluşturma için Sanrı İçeriğini Algılama adlı bir çalışmadır ve GitHub‘da yayınlandı. Kullanıcıların, BART ile herhangi bir metin kümesinden kendi sentetik verilerini oluşturmasına ve ardından sanrı algılama modellerini üretmesine olanak tanır.

Related Topics:GPT-3 natural language processing nlp

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]