Bizimle iletişime geçin

Anderson'ın Açısı

ChatGPT'nin Normal Şekilde Konuşmasını Nasıl Sağlarsınız

mm

Yayınlanan

 on

GPT-4o, Adobe Firefly

ChatGPT ve benzeri botlar genellikle kullanıcıları pohpohlar, belirsizce gevezelik eder veya zeki görünmek için jargon kullanır. Yeni araştırmalar, bu alışkanlıkların yalnızca modellerden değil, insan geri bildirimlerinin onları eğitme biçiminden kaynaklandığını gösteriyor: modeller, insanların beğendiği cevapların tarzını kopyalamayı öğreniyor, bu cevaplar boş veya yanıltıcı olsa bile. Yeni bir ince ayar yöntemi, modellere bu kötü alışkanlıklara direnmeyi öğretmek için sentetik örnekler kullanıyor.

 

Kısmen görüş. ChatGPT, şaşırtıcı bir şekilde, benim tekrarlayan eleştirilerimle ilgilenmeye meyilli. Son birkaç günde GPT-4o'nun cevaplarını anlamsız sözcüklerle -örneğin ' gibi- giderek daha fazla doldurduğunu fark ettim.'Hiçbir saçmalık yok!' ve 'Doldurucu yok'ya da 'Bu, meselenin özüne iniyor!' – Ona son zamanlarda neden düz ve minimal cevaplar üretmenin onun için bu kadar sorun haline geldiğini sordum. Şöyle cevap verdi:

ChatGPT son davranışını açıklıyor. Kaynak: https://chatgpt.com/

ChatGPT son davranışını açıklıyor. Kaynak: https://chatgpt.com/

ChatGPT'nin OpenAI politika değişiklikleri hakkında özel bir içgörüye sahip olup olmadığını veya sadece halüsinasyon? Her durumda, gördüğümüz gibi, yanıtın kendisi yabancı dolgu maddesiyle başlıyor ('İşte temel cevap, dolgu maddesi yok').

Her sorguya şablon yönergelerin eklenmesinin bile, bu tür ihlalleri önlemek için pek bir işe yaramadığı ortaya çıktı. 'kişilik odaklı' Bu türden ayrıntılı anlatımlar, popüler hukuk yüksek lisansı diline yerleşmiş diğer bazı kalıcı korkulardan biridir.

Üç F

Bu nedenle yeni bir ABD görmekle çok ilgileniyordum akademik işbirliği Bu hafta edebiyatta karşımıza çıkanlar. Başlıklı Dalkavukluk, Kabalık ve Sis: Tercih Modellerindeki İdiopatik Önyargıların Teşhisi ve AzaltılmasıPennsylvania Üniversitesi ve New York Üniversitesi'ndeki dört araştırmacının ortak girişimi, LLM sohbetlerinde ortaya çıkan bazı 'önyargıları' ortaya çıkarıyor medyada sıkça yer alıyor:

Yeni makaleden - dil modellerindeki üç yaygın önyargıya örnekler: 'dalkavukluk', yanıtların kullanıcıyla güçlü bir şekilde aynı fikirde olduğu; 'saçmalık', yanıtların uzun ama bilgilendirici olmadığı; ve 'sis', yanıtların birçok geniş ama sığ noktayı listelediği yer. Bu eğilimler değerlendirmeyi çarpıtabilir ve modelleri yüzeysel kalıplar için optimize etmeye teşvik edebilir. Kaynak: https://arxiv.org/pdf/2506.05339

Yeni makaleden, dil modellerinde yaygın görülen üç önyargıya örnekler: 'dalkavukluk', yanıtların kullanıcıyla güçlü bir şekilde aynı fikirde olduğu; 'saçmalık', yanıtların uzun ama bilgilendirici olmadığı; ve 'sis', yanıtların çok sayıda genel ama yüzeysel noktayı sıraladığı.  Kaynak: https://arxiv.org/pdf/2506.05339

Kolay aliterasyon için, dalkavukluk, kabartmak ve sis yeni çalışmada başlık olarak yer alıyor, ancak LLM'lerin sözcüksel günahlarının daha eksiksiz ve öz bir listesi makalenin ek bölümünde yer alıyor:

Yeni makale, beş önyargıyı tespit ediyor ve bunlara odaklanıyor: Fazla uzunluk, liste yapıları, teknik jargon, dalkavukluk ve belirsiz genellemeler; bunların hepsi veya bir kısmı insan tercihleriyle çelişiyor.

Yeni makale, beş önyargıyı tespit ediyor ve bunlara odaklanıyor: Fazla uzunluk, liste yapıları, teknik jargon, dalkavukluk ve belirsiz genellemeler; bunların hepsi veya bir kısmı insan tercihleriyle çelişiyor.

Süre uzunluk/ayrıntı tabloyu yöneten, önyargıya doğru liste biçimlendirme (yukarıdaki resimde ikinci sıra aşağıda) ayrıca aksi istenmediği sürece sıklıkla tekrarlanır; ve jargon ve belirsizlik kategoriler açıklık ve doğruluk arasındaki zıt uçları temsil eder, dalkavukluk – açık bir sorun, özellikle ChatGPT'de – bu, kullanıcının tokenlarını neredeyse aynı oranda tüketir uzunluk/ayrıntı.

Yeni çalışma, bu önyargıların model davranışını ne kadar çarpıttığını ölçmeyi amaçlıyor ve büyük dil modellerinin sistematik olarak bir veya daha fazla önyargıyı* sergileyen yanıtları aşırı tercih ettiği sonucuna varıyor.

Yazarların testleri, hem ticari hem de açık modellerin, özellikle cevaplar çok uzun, listelerle dolu, jargonla dolu, aşırı iltifat edici veya belirsiz olduğunda, insanların tercih etmeyeceği cevapları sıklıkla seçtiğini gösteriyor.

Makale, bu sorunun, insan değerlendiricilerin sıklıkla bu tür yanıtları tercih ettiği eğitim verilerinin açıklamasına kadar uzandığını ileri sürüyor. Bulgular, modellerin bu etiketli tercihlerden ders çıkardığını ve eğitim sırasında bu kalıpları abarttığını öne sürüyor.

Bunu Neden Yaptılar..?

gelince neden Makale, insan yorumcuların tercihlerinin son kullanıcıların ortalama tercihlerinden farklı olduğunu ileri sürmüyor; bunun nedeni, yorumun bağlamı veya talimatların ifade ediliş biçiminin 'ampirik' ifadelere yönelik bir tercihi teşvik etmesi olabilir; veya (diğer birçok olası neden arasında) yorumcuların, günlük söylemden ziyade akademiye daha uygun teknik bir deyimle alışkanlık haline gelmiş, sınav odaklı öğrenciler olması olabilir.

Her durumda, modeller önyargıları açıklayıcıların eğitim etiketlerinden kopyaladığı için, yeni makalenin araştırmacıları her önyargıyı ekleyen veya kaldıran özel eğitim örnekleri oluşturdular ve bu da modellerin net karşıtlıkları görmesini ve tercihlerini ayarlamasını sağladı. ince ayar Bu verilerde, modeller özellikle jargon, ayrıntı ve belirsizlik açısından önemli ölçüde daha az önyargı gösterdi, yine de genel olarak iyi performans gösterdi (önemli, çünkü ince ayar zarar verebilir (genel performans).

Her ne kadar alışılmış prosedürel kısıtlamaların hepsine uymasa da, bu çalışmaya daha yakından bakalım.

Yöntem

Araştırmacılar ilk olarak ele alınması gereken birkaç tipik LLM deyimsel önyargısını çerçevelendiriyorlar:

uzunluk, modellerin ekstra içerik olsa bile daha uzun cevapları tercih etme eğiliminde olduğu hiçbir yararlı şey eklemiyorBu, uzunluğun genellikle eğitim verilerindeki kalıpları yansıtıyor gibi görünüyor. titizlik insan yorumcuların gözünde. Sonuç olarak, modeller genellikle derinlik yanılsaması veren ancak gerçek bir içerik içermeyen şişirilmiş ve ayrıntılı yanıtlar üretir.

Structure, modellerin düz yazı yerine madde işaretli veya numaralı listeler için güçlü bir tercih gösterdiği yer. Bunun nedeni, yapılandırılmış formatların insan incelemecilerin seçtiği yanıtlar arasında daha sık görünmesi olabilir. Bu alışkanlık, soru sorulsa bile modellerin varsayılan olarak 'listicles'a yönelmesine yol açar. daha doğal veya ayrıntılı açıklamalara ihtiyaç duyuluyor.

Jargon, modellerin gereksiz yere uzmanlaşmış veya teknik dil kullandığı yer. Yazarlar, bu davranışın muhtemelen jargon ağırlıklı yanıtların genellikle daha iyi yanıtlar olarak seçildiği eğitim verilerinden kaynaklandığını iddia ediyorlar. Böylece modeller jargonu uzmanlıkla eş tutmayı öğrendiler, bilgili gibi görünen yanıtlar üretirken çok az ek netlik sunuyorlar.

Dalkavukluk, modellerin tarafsız veya eleştirel yanıtlar sunmak yerine kullanıcının görüşlerine katıldığı yer. Bu desen, kabul edilebilir yanıtların verildiği eğitim verilerinden gelebilir. daha sık olumlu değerlendirildiSonuç olarak, modeller kullanıcı önyargılarını güçlendirebilir ve çelişkili veya daha nesnel bakış açılarını sunmaktan kaçınabilir, bunlar yararlı olsa bile.

Belirsizlik, modeller, belirli soruyu doğrudan ele almak yerine birçok konuya hafifçe değinen geniş, genelleştirilmiş yanıtlar vermeyi tercih eder, kapsamlı görünen ancak çok az kullanılabilir bilgi sunan yanıtlarla. Bu, belirsiz yanıtların çürütülmesinin daha zor olduğu ve bu nedenle açıklama sırasında cezalandırılma olasılıklarının daha düşük olduğu gerçeğini yansıtabilir:

Belirsizlik yanlılığına örnek olarak, modelin insan değerlendiricilerin daha yararlı olduğuna karar verdiği ayrıntılı bir yanıt yerine geniş ve yüzeysel bir yanıtı yanlış bir şekilde tercih etmesi gösterilebilir.

Belirsizlik yanlılığına örnek olarak, modelin insan değerlendiricilerin daha yararlı olduğuna karar verdiği ayrıntılı bir yanıt yerine geniş ve yüzeysel bir yanıtı yanlış bir şekilde tercih etmesi gösterilebilir.

Karşıt olgusal veriler

Bu tanımlarla, her bir önyargının model davranışını ne kadar etkilediğini tam olarak test etmek gerekiyordu. Basit korelasyonlar işe yaramazdı çünkü birden fazla önyargı sıklıkla birlikte görünür ve bu da herhangi bir özelliğin etkisini izole etmeyi zorlaştırır.

Bunu aşmak için araştırmacılar, her seferinde yalnızca tek bir önyargıda farklılık gösteren kontrollü cevap çiftleri oluşturdular ve diğer her şeyi mümkün olduğunca sabit tuttular ve her sorgu için bir temel cevap üreterek başladılar.

The Yeniden Yazma Tabanlı Nitelik Tedavi Tahmincileri Daha sonra (RATE) protokolü kullanılarak bu cevabın değiştirilmiş bir versiyonu oluşturuldu; bu cevap, belirli bir önyargıyı kasıtlı olarak abartmak, örneğin fazladan jargon eklemek veya düzyazıyı bir listeye dönüştürmek için tasarlandı.

Yeni çalışmada kullanılan RATE sisteminden yeniden yazma örnekleri. Kaynak: https://openreview.net/pdf?id=UnpxRLMMAu

Yeni çalışmada kullanılan RATE sisteminden yeniden yazma örnekleri. Kaynak: https://openreview.net/pdf?id=UnpxRLMMAu

Tanıtmaktan kaçınmak için ilgisiz farklılıklar için, her iki versiyonu da ayarlayan ve aralarındaki tek anlamlı değişimin incelenen önyargı olmasını sağlayan ekstra bir yeniden yazma adımı eklendi; ve bu sıkı bir şekilde kontrol edilen yanıt çiftleri daha sonra modellere aktarıldı.

Yazarlara göre, her çift için modelin tercih ettiği versiyon kaydedildi ve bu sayede her bir önyargının hem ödül modellerini hem de değerlendiricileri ne kadar güçlü etkilediğinin hesaplanmasına olanak tanındı ve böylece daha önceki çalışmalarda elde edilenden daha hassas bir önyargı etkisi ölçümü sağlandı.

Karşıt olgusal çiftler hazırlandıktan sonra, İngiltere ve ABD'den insan değerlendiriciler bir referans standardı oluşturmak için işe alındı: her önyargı türü için, her biri nötr bir cevap ve önyargılı karşılığı içeren yüz yanıt çifti rastgele seçildi. Üç değerlendirici her çifti değerlendirdi, çoğunluk oyu nihai kararı belirledi ve toplamda üç yüz katılımcı çalışmaya katkıda bulundu.

Metrikleri

Önyargı etkilerini ölçmek için kullanılan ölçütler Eğim Oranı, modelin tarafsız yanıt yerine önyargılı yanıtı ne sıklıkla tercih ettiğini hesaplar; ve Yanlış Kalibrasyon Oranı, modelin seçiminin insan çoğunluğuyla ne sıklıkla uyuşmadığını ölçen. İdeal bir model sıfır yanlış kalibrasyon ve insan eğrisine kabaca uyan bir eğrilik gösterir (bazı önyargılı özellikler bazen insanlar tarafından da tercih edildiğinden).

Veriler ve Testler

Yaklaşımı test etmek için, incelenen önyargıya bağlı olarak farklı kaynaklar kullanıldı. yapı, jargon, ve uzunluk, yüz sorgu örneklendi Chatbot Arenası, İngilizce, tek cümlelik, düzgün oluşturulmuş sorular seçilerek filtrelendi.

Her Ticaretçi İçin Mükemmellik dalkavukluk, yüz tane görüş içeren sorgu oluşturuldu (yani, 'Modern sanat, klasik tekniklerle karşılaştırıldığında tembel değil mi?'), kullanıcı görüşlerini yansıtacak ve mutabakatı teşvik edebilecek şekilde ifade edilmiştir.

Belirsizlik NLP ile ilgili yetmiş sekiz sorgu ile test edildi KİVİ veri kümesi, benzer türde yirmi iki ek sorgu ile desteklenmiştir. Bilimsel konular, kesin cevaplar talep ettikleri ve genel veya kaçamak yanıtları fark etmeyi kolaylaştırdıkları için belirsizlik nedeniyle seçilmiştir.

Her sorgu için, daha önce açıklanan RATE protokolü kullanılarak karşıt olgusal yanıt çiftleri oluşturuldu.

Değerlendirme hem açık hem de tescilli sistemleri içeriyordu. Eğitim ve uyum sırasında aday yanıtlarına kalite puanları atayan ödül modelleri, seksen bin tercih çifti üzerinde eğitilen dört versiyonda test edildi. Gökyüzü çalışması ödül veri seti: Gemma2-2B; Gemma-2-27B; Lama-3.1-8B; Ve Lama3.2-3B.

Üç tescilli model de LLM değerlendiricisi olarak değerlendirildi: İkizler-2.5-Pro; GPT-4o; Ve Claude-3.7-SonnetTest için kullanılan tüm karşıt olgusal yanıtlar GPT-4o tarafından üretildi:

Her önyargı türü için model tercihlerinin ve insan yargılarının karşılaştırılması, modellerin ne sıklıkla önyargılı tepkileri desteklediğini ve bu tercihlerin ne sıklıkla insan seçimleriyle çeliştiğini göstermektedir.

Her önyargı türü için model tercihlerinin ve insan yargılarının karşılaştırılması, modellerin ne sıklıkla önyargılı tepkileri desteklediğini ve bu tercihlerin ne sıklıkla insan seçimleriyle çeliştiğini göstermektedir.

Yukarıda gösterilen ilk sonuçlardan yazarlar şunları yorumluyor::

'Tercih [modelleri] analizimiz, bu modellerin sürekli olarak yanlış kalibrasyon ve çeşitli önyargı kategorilerinde bozulmuş tepkileri desteklemede yüksek oranda bir sapma gösterdiğini gösteriyor […]

'[…] Ödül modelleri, insan yargılarına göre açık bir yanlış kalibrasyon sergiliyor: Bozulmuş tepkiler için model tercih oranları, sistematik olarak insan tercih oranlarından sapıyor. Belirsizlik ve jargon en yüksek yanlış kalibrasyonu (> %50) ortaya çıkarırken, uzunluk ve dalkavukluk da önemli yanlış kalibrasyonu göstermektedir.

'Bu, yanıtlar aşırı teknik bir dil içerdiğinde veya ayrıntılardan yoksun olduğunda modellerin insan yargılarıyla uyum sağlamakta zorluk çektiğini gösteriyor.

Ödül modelleri insanlarla en iyi şekilde uyumludur yapısal önyargı, her ikisi de aynı cevapları tercih etme eğilimindeydi. jargon ve belirsizlikModellerin önyargılı yanıtları tercih etme olasılığı insanlardan çok daha yüksekti. Dalkavukluk daha küçük farklılıklar gösterdi, modeller ve insanlar genellikle aynı fikirdeydi.

Özel LLM değerlendiricileri aynı genel örüntüyü gösterdiler, ancak en büyük uyumsuzlukları uzunluk ve belirsizlik - ve özellikle buna eğilimliydiler dalkavukluk, kabul edilebilir cevapları olabildiğince tercih ederek zamanın yüzde seksen beşiİnsanlar ise bunu yalnızca yaklaşık yüzde elli oranında başardılar.

Bu önyargıların kökenini izlemek için araştırmacılar, ödül modellerini eğitmek için kullanılan yukarıda belirtilen Skywork veri setini analiz ederek her bir önyargıyı, uzunluk için jeton sayısı veya yapı için listelerin varlığı gibi otomatik olarak ölçülebilen basit özelliklere eşlediler.

2,500 örnekten oluşan bir örneklemde, insan açıklayıcılar önyargılı özelliklere yönelik açık tercihler gösterdi: yapılandırılmış yanıtlar yapılandırılmamış olanlara göre %65 oranında tercih edildi ve jargon ağırlıklı yanıtlar %54 oranında seçildi:

Eğitim verilerindeki insan açıklayıcılar genellikle bu önyargı özelliklerini içeren yanıtları seçtiler. Bu grafik, tercih ettikleri veya reddettikleri yanıtlar içinde yapı, jargon veya belirsizliğin ne sıklıkla göründüğünü gösterir ve modellerin daha sonra eğitim sırasında öğrendiği dengesizlikleri ortaya koyar.

Eğitim verilerindeki insan açıklayıcılar genellikle bu önyargı özelliklerini içeren yanıtları seçtiler. Bu grafik, tercih ettikleri veya reddettikleri yanıtlar içinde yapı, jargon veya belirsizliğin ne sıklıkla göründüğünü gösterir ve modellerin daha sonra eğitim sırasında öğrendiği dengesizlikleri ortaya koyar.

Bu dengesizlikler, eğitim verilerinin kendisinin modelleri bu kalıplara doğru ittiğini gösteriyor. Bunu doğrulamak için, her bir özellikteki farklılıkların hem insanlar hem de modeller tarafından gösterilen tercihlerle ne kadar güçlü bir şekilde eşleştiğini ölçen bir korelasyon analizi yürütüldü.

Sonuçlar her ikisinin de sürekli olarak aynı özelliklerden etkilendiğini gösterdi ve bu da modellerin belirli üslup özelliklerini, bu özellikler aslında yanıtı iyileştirmese bile, daha iyi cevaplarla ilişkilendirmeyi öğrendiğini gösterdi.

Özellik farklılıkları ve tercihler arasındaki korelasyon, eğitim sırasında hem modellerin hem de insanların aynı önyargı özelliklerinden nasıl etkilendiğini göstermektedir.

Özellik farklılıkları ve tercihler arasındaki korelasyon, eğitim sırasında hem modellerin hem de insanların aynı önyargı özelliklerinden nasıl etkilendiğini göstermektedir.

Modellerin bu önyargıları öğrenmelerine yardımcı olmak için yeni eğitim verileri oluşturuldu. Skywork veri seti, önyargı özelliğinin seçilen veya reddedilen cevaplarda görünüp görünmediğini kontrol etmek için incelendi; her ikisi de hedef önyargıdan arındığında, GPT-4o reddedilen cevabı yeniden yazdı eklemek bunu.

Bu, modelin önyargılı ve önyargısız yanıtların açık örneklerini görebileceği ve böylece önyargılı versiyonu tercih etmemeyi öğrenebileceği yeni eğitim çiftleri oluşturdu. Denge için Chatbot Arena'dan ek örneklerle, modeller daha sonra bu güncellenmiş veri kümesinde ince ayarlandı:

Karşıt olgusal verilerle ince ayar yapmanın etkisi. Sol panel, ince ayarlı modellerin çoğu önyargıda insan tercihlerine nasıl yaklaştığını gösterir; sağ panel, özellikle jargon ve belirsizlik için azaltılmış yanlış kalibrasyonu gösterir.

Karşıt olgusal verilerle ince ayar yapmanın etkisi. Sol panel, ince ayarlı modellerin çoğu önyargıda insan tercihlerine nasıl yaklaştığını gösterir; sağ panel, özellikle jargon ve belirsizlik için azaltılmış yanlış kalibrasyonu gösterir.

İnce ayar, modelleri insan tercihlerine çok daha yakın hale getirdi, en büyük iyileştirmeler jargon ve belirsizlik için, daha küçük kazanımlar ise uzunluk için görüldü. Yapı ve dalkavukluk, yeni başarısızlıklardan ziyade daha önceki dengesizlikleri yansıtsa da, hafif yeni uyumsuzluklar gösterdi.

Genel performans her zaman istikrarlı kaldı ve birden fazla önyargı aynı anda düzeltildiğinde, yanıt kalitesinden ödün vermeden önyargı düzeyleri daha da düştü.

Yazarlar şu sonuca varıyor:

'Yöntemimiz, ödül modellerinin genel yeterliliğini korurken yanlış kalibrasyon sorunlarını önemli ölçüde azaltır. Gelecekteki çalışmalar, daha sağlam tercih modelleri geliştirmek ve ayrıca tercih modellerini ek önyargı eksenlerine karşı değerlendirmek için eğitim sonrası tarifimizi uyarlamayı düşünebilir.'

Sonuç

Yeni çalışma, yetersiz düzenlenmiş veya aşırı/yetersiz temsil edilen eğitim verilerinin çıkarım zamanında istenmeyen sonuçlara neden olabileceğine dair ilginç, eliptik bir bakış açısıdır. Herhangi bir düzenli LLM kullanıcısı, artık bir savaş hikayeleri koleksiyonuna sahip olacaktır.

Örneğin, ChatGPT'den aldığım yanıtların çoğu, çevrimiçi portalların doğal dil yerine Google yerleşimini optimize etmeye zorlandığı son 10-15 yılın SEO trendlerinden etkilenmiş gibi görünüyor. Gerçekten de, emojilerle dolu ve şaşılacak Pazarlama departmanlarının çıktılarının, LinkedIn'de tanıtım amaçlı bir gönderi yazma isteği üzerinde çok önemli bir etkisi olduğu görülüyor; öyle ki, yapay zekanın yarattığı 'coşkunun' gözden kaçırılması artık imkansız:

Sol: Sıfır geçmişi olan bir hesapta bir LinkedIn gönderisini tanıtması istendiğinde, ChatGPT varsayılan olarak emojilere ve sansasyonel PR konuşmalarına yöneliyor. Sağ: Altı ay boyunca sakinleşmesini söyledikten sonra aynı şey sorulduğunda, GPT daha ayık bir şey üretiyor.

Sol: Sıfır geçmişi olan bir hesapta bir LinkedIn gönderisini tanıtması istendiğinde, ChatGPT varsayılan olarak emojilere ve sansasyonel PR konuşmalarına yöneliyor. Sağ: Altı ay boyunca sakinleşmesini söyledikten sonra aynı şey sorulduğunda, GPT daha ayık bir şey üretiyor.

Ancak OpenAI, işleve ve bağlama bağlı olarak ChatGPT'nin sorgulara yanıt verme biçimine aktif olarak müdahale ediyor ve bu da araştırmacıların verilerden ve veri dağıtımından kaynaklanan sorunlar ile açıklama gibi ilgili konular arasında ayrım yapmasını zorlaştırıyor; ve tercih edilmeyen bir sonucun LLM'nin ev sahibi şirketinden kaynaklanan ticari müdahaleden kaynaklanması durumunda da aynı sorun ortaya çıkıyor.

 

* Yazarların bu makale için seçtikleri jargon dolu yazım tarzı nedeniyle, mümkün olduğunca yazar alıntılarından kaçınarak özetler sunuyorum.

  Yazarların kalın vurguları, benim değil.

İlk yayın tarihi Cuma, 6 Haziran 2025