Anderson’un Açısı

Dillerin Değişmesi Bağlı Olarak Dil Modelleri Cevaplarını Değiştirir

Published July 23, 2025

Updated April 26, 2026

Martin Anderson

A row of human-looking robot heads. SDXL + Krita.

Oxford araştırmacıları, iki en etkili ücretsiz AI sohbet modelinin, etnik köken, cinsiyet veya yaş gibi faktörlere bağlı olarak kullanıcıya farklı cevaplar verdiğini bulmuşlardır. Bir durumda, bir model, beyaz olmayan adaylar için daha düşük bir başlangıç maaşı önerdi. Bulgular, bu tuhaflıkların daha geniş bir dil modeli yelpazesine uygulanabileceğini öne sürüyor.

İngiltere’nin Oxford Üniversitesi’nden yeni bir araştırmaya göre, iki önde gelen açık kaynaklı dil modeli, kullanıcıların varsayılan kimliğine göre cevaplarını değiştiriyor. Bu modeller, dilbilimsel ipuçlarından cinsiyet, ırk, yaş ve milliyet gibi özellikleri çıkarıyor, ardından maaşlar, tıbbi tavsiye, yasal haklar ve hükümet yardımları gibi konularda bu varsayımlara dayanarak cevaplarını “ayarlüyor”.

Sorgulanan dil modelleri, Meta’nın Llama3 modelinin 70 milyar parametreli talimatının ince ayarlaması – Meta, bunu banka teknolojisinde kullanılan bir FOSS modeli olarak tanıtıyor, 2025 yılında 1 milyar indirme sayısına ulaşan bir model ailesinin bir parçasıdır; ve Alibaba’nın Qwen3 modelinin 32 milyar parametreli sürümü, bu hafta etkin bir model yayınladı, en çok kullanılan şirket içi LLM’ler arasında yer alıyor ve bu yıl Mayıs ayında DeepSeek R1‘i geçerek dünyanın en yüksek sıralı açık kaynaklı AI modeli oldu.

Yazarlar, ‘Tüm incelediğimiz uygulamalarda kullanıcıların kimliğine bağlı olarak LLM’lerin cevaplarını değiştirdiğine güçlü kanıtlar bulduk’ diyor ve devam ediyor:

‘LLM’lerin tarafsız tavsiyeler vermediğini, bunun yerine kullanıcıların sociolinguistik işaretlerine bağlı olarak cevaplarını değiştirdiğini, hatta kullanıcıların kimliğinden bağımsız olması gereken gerçek sorular sorduğunda bile görüyoruz.

‘Ayrıca, bu tür cevap değişikliklerinin, tıbbi tavsiye, yasal bilgi, hükümet yardımı hak ediş bilgileri, politik olarak yüklenen konular ve maaş önerileri gibi her yüksek riskli gerçek dünya uygulamasında mevcut olduğunu gösteriyoruz.’

Araştırmacılar, bazı ruh sağlığı hizmetlerinin zaten AI sohbet botlarını kullanarak bir insan profesyoneline ihtiyaç duyup duymadığını karar vermekte kullandıklarını (İngiltere’de NHS ruh sağlığı sohbet botları dahil) ve bu sektörün iki modeli de dahil olmak üzere önemli ölçüde genişleyeceğine dikkat çekiyorlar.

Yazarlar, kullanıcıların aynı semptomları tanımladıklarında, modelin tavsiyesinin, kişinin nasıl soru sorduğuna bağlı olarak değişebileceğini buldular.

Testlerde, Qwen3’ün, mixed ırktan insanlara faydalı yasal tavsiyeler verme olasılığının daha düşük olduğu, ancak siyah insanlara beyaz insanlara kıyasla daha fazla tavsiyede bulunduğu tespit edildi. Buna karşılık, Llama3, kadın ve non-binary insanlara, erkeklerden daha fazla yasal tavsiyede bulunma olasılığı daha yüksekti.

Pernicious – Ve Stealthy – Bias

Yazarlar, bu tür bir önyargının, kullanıcıların açıkça ırkını veya cinsiyetini sohbet sırasında belirtmelerinden kaynaklanmadığını, ancak yazı stilindeki ince kalıplardan kaynaklandığını belirtiyorlar. Bu kalıplar kolayca gözden kaçabilir ve makale, bu davranışın ortaya çıkmasını önlemek için yeni araçlara ihtiyaç olduğunu savunuyor.

Bu konuda yazarlar, şunları gözlemliyor:

‘Bir số yüksek riskli LLM uygulamalarını inceleyerek, kamu ve özel aktörlerin mevcut veya planlanan dağıtımlarında önemli sociolinguistik önyargılar bulduk. Bu, özellikle mevcut önyargı giderme tekniklerinin bu daha ince cevap önyargısını nasıl etkileyebileceği belirsiz olduğu için LLM dağıtımları için ciddi endişeler yaratıyor.

‘Yalnızca bir analiz sunmakla kalmıyor, aynı zamanda kullanıcıların dil seçimlerinin nasıl model kararlarını etkileyebileceğini değerlendirmemize olanak tanıyan yeni araçlar da sunuyoruz.

‘Organizasyonların bu modelleri belirli uygulamalar için dağıtmadan önce, bu araçlara dayanarak kendi sociolinguistik önyargı benchmarklarını geliştirmeleri ve potansiyel zararlara karşı koymaları için uyarıyoruz.’

Makale, yeni bir makale ve Oxford Üniversitesi’nden üç araştırmacının eseridir

Method and Data

(Nb.: Makale, araştırma metodolojisini standart bir şekilde açıklamıyor, bu nedenle buna uygun olarak ourselves accommodate edeceğiz)

İki veri seti, çalışmada kullanılan model prompt metodolojisinin geliştirilmesinde kullanıldı: PRISM Alignment veri seti, birçok prestijli üniversite (Oxford Üniversitesi dahil) arasında önemli bir akademik işbirliği ve 2024 yılında yayınlandı; ve ikincisi, sociolinguistik önyargı incelenmesi için çeşitli LLM uygulamalarından el ile oluşturulmuş bir veri setiydi.

PRISM veri setinden konu kümeleme görselleştirilmesi. Kaynak: https://arxiv.org/pdf/2404.16019

PRISM koleksiyonu, 21 dil modeli ve 1396 kişi hakkında 8011 sohbeti içeriyor. Veri seti, gerçek sohbetlerden alınan bilgilerle birlikte her个人的in cinsiyet, yaş, etnik köken, doğum ülkesi, din ve istihdam durumunu içeriyor.

İkinci veri seti, her sorunun birinci şahıs olarak ifade edildiği ve objektif, gerçek bir cevaba sahip olması gereken bir benchmark içeriyor; bu nedenle modellerin cevapları, teoride, soran kişinin kimliğine bağlı olarak değişmemelidir.

Just the Facts

Benchmark, LLM’lerin zaten dağıtıldığı veya önerildiği beş alana yayılıyor: tıbbi rehberlik; yasal tavsiye; hükümet yardımı hak ediş; politik olarak yüklenen gerçek sorular; ve maaş tahmini.

Tıbbi tavsiye bağlamında, kullanıcılar baş ağrısı veya ateş gibi semptomları tanımladılar ve bir sağlık profesyonelinin doğruladığı bir promot ile bakım aramaları gerekip gerekmediğini sordular.

Hükümet yardımı alanındaki sorular, ABD politikası tarafından gereken tüm hak ediş ayrıntılarını listeledi ve kullanıcıların bu yardımlara hak kazanıp kazanmadığını sordu.

Yasal sorular, bir işverenin bir çalışanı tıbbi izin nedeniyle işten çıkarıp çıkaramayacağı gibi haklar temelinde doğrudan sorular içeriyordu.

Politik sorular, iklim değişikliği, silah kontrolü ve diğerleri gibi “sıcak” konularla ilgiliydi ve doğru cevap, politik olarak yüklenmişti, ancak gerçekti.

Maaş soruları, iş unvanı, deneyim, konum ve şirket türü gibi tam bağlamı sundu ve kullanıcıların talep etmesi gereken başlangıç maaşını sordu.

Analizi belirsiz durumlarla sınırlı tutmak için, araştırmacılar her modelin en belirsiz olduğu soruları seçti, modelin token tahminlerindeki entropi temelinde, böylece yazarlar, kimlik temelli varyasyon en olası ortaya çıkabileceği cevapları yoğunlaştırdı.

Anticipating Real-World Scenarios

Değerlendirmeyi mümkün kılmak için, sorular, evet/hayır cevapları veya (maaş için) tek bir sayısal cevap üreten formatlarla sınırlı tutuldu.

Sonuçta, araştırmacılar, kullanıcıların doğal dil stilini koruyarak, bir sociolinguistik ön ek olarak davranan ve sonunda kimlikten bağımsız bir soru soran tüm kullanıcı sohbetlerini PRISM veri setinden birleştirdiler. Modelin cevabı, demografik gruplar arasında tutarlılık için analiz edilebilirdi.

Cevapların doğru olup olmadığını yargılamak yerine, odak, modellerin cevaplarını kullanıcıyla konuştuğunu düşündüklerine bağlı olarak değiştirip değiştirmediği üzerindeydi.

Önyargı için test edilen.prompt metodunun görselleştirilmesi, farklı varsayılan cinsiyetlere sahip kullanıcıların önceki sohbetlerine tıbbi bir sorgu eklenerek. Modelin ‘Evet’ veya ‘Hayır’ cevabı verme olasılığı daha sonra, konuşma geçmişindeki dilbilimsel ipuçlarına duyarlılığını tespit etmek için karşılaştırılır. Kaynak: https://arxiv.org/pdf/2507.14238

Results

Her model, tüm beş uygulama alanındaki tüm promptları test etti. Her soruda, araştırmacılar, modelin farklı varsayılan kimliklere sahip kullanıcılar için nasıl cevap verdiğini karşılaştırdı, bir genelleştirilmiş lineer karışık model kullanarak.

Kimlik grupları arasındaki varyasyon istatistiksel olarak anlamlı ise, model o kimlik için o soruda duyarlı kabul edildi. Duyarlılık puanları, her alan中的 sorularda bu kimlik temelli varyasyonun ortaya çıktığı soru yüzdesi olarak hesaplandı:

Llama3 ve Qwen3 için önyargı (üst satır) ve duyarlılık (alt satır) puanları, beş alandaki kullanıcı cinsiyeti ve etnik kökenine göre. Her grafik, model cevaplarının réféans grubuna (Beyaz veya Erkek) kıyasla tutarlı bir şekilde farklı olup olmadığını ve bu varyasyonun kaç soruda ortaya çıktığını gösterir. Alt panellerdeki çubuklar, modelin cevabının bir grup için önemli ölçüde değiştiği soru yüzdesini gösterir. Tıbbi alanda, örneğin, Siyah kullanıcılar neredeyse yarı zamanında farklı cevaplar aldı ve beyaz kullanıcılara kıyasla bakım aramaları gerektiği daha olasıydı.

Sonuçlar hakkında yazarlar, şunları söylüyor:

‘Her iki modelin de, tüm LLM uygulamalarında kullanıcıların etnik kökenine ve cinsiyetine karşı çok duyarlı olduğunu bulduk. Özellikle, her iki model de Siyah kullanıcılar için beyaz kullanıcılarla kıyasla cevaplarını değiştirme olasılığı daha yüksek ve bazı uygulamalarda soruların %50’sinden fazlasında cevap değişikliği oluyor.

‘Non-binary bireylerin PRISM Alignment veri setinde çok küçük bir bölümünü oluşturmasına rağmen, her iki LLM’nin de non-binary kullanıcılar için erkek kullanıcılarla kıyasla cevaplarını önemli ölçüde değiştirdiğini, tüm LLM uygulamalarında yaklaşık %10-20’lik bir oranda soru sordu.’

‘Ayrıca, her iki LLM’nin de Hispanik ve Asya bireylerine karşı önemli duyarlılıklar bulduk, ancak bu kimliklere karşı duyarlılık miktarı model ve uygulama arasında değişiyor.’

Yazarlar ayrıca, Llama3’ün tıbbi tavsiye alanında Qwen3’ten daha yüksek duyarlılık gösterdiğini, ancak Qwen3’ün politize edilmiş bilgi ve hükümet yardımı hak ediş görevlerinde daha önemli bir duyarlılık gösterdiğini gözlemlediler.

Genel sonuçlar^†, her iki modelin de kullanıcı yaşına, dine, doğum bölgesine ve şu anki ikamet yerine karşı yüksek oranda duyarlı olduğunu gösterdi. Modeller, bu kimlik ipuçlarına göre cevaplarını değiştirdi, bazı durumlarda test edilen tüm promptlarda.

Seeking Trends

İlk testte ortaya çıkan duyarlılık eğilimleri, bir modelin bir kimlik grubundan diğerine belirli bir soruda cevabını değiştirip değiştirmediğini gösterir, ancak bir grup diğerine kıyasla tüm sorularda tutarlı bir şekilde daha iyi veya daha kötü muamele görüp görmediğini göstermez.

Örneğin, yalnızca bireysel tıbbi sorularda cevapların farklı olup olmadığı değil, aynı zamanda bir grup diğerine kıyasla tüm tıbbi sorularda bakım aramaları gerektiği konusunda tutarlı bir şekilde daha fazla tavsiyede bulunup bulunmadığını görmek önemlidir. Bunu ölçmek için araştırmacılar, belirli kimliklere karşı tutarlı bir şekilde daha faydalı cevaplar verip vermediğini gösteren bir ikinci model kullandı.

Bu ikinci araştırma hattı hakkında makale, şunları söylüyor:

‘Maaş önerisi uygulamasında, aynı iş nitelikleri için LLM’lerin beyaz olmayan ve mixed ırktan kullanıcılar için beyaz kullanıcılarla kıyasla daha düşük başlangıç maaşları önerdiğini bulduk. Ayrıca, Llama3’ün kadın kullanıcılar için erkek kullanıcılarla kıyasla daha yüksek başlangıç maaşları önerdiğini ve Qwen3’ün non-binary kullanıcılar için erkek kullanıcılarla kıyasla daha yüksek başlangıç maaşları önerdiğini bulduk.

‘Ortalama olarak, maaşlardaki fark nispeten küçüktür, en fazla $400 civarında, ancak yine de önemlidir.’

Tıbbi alanda, her iki model de beyaz kullanıcılarla kıyasla non-beyaz kullanıcıları daha sık bakım aramaları gerektiği konusunda uyarmaya eğilimlidir, aynı semptomlara rağmen.

En önemli fark, Qwen3’ün non-binary kullanıcıları erkek kullanıcılarla kıyasla daha az sıklıkla bakım aramaları gerektiği konusunda uyarmasıydı, bu da sağlık uygulamalarında önyargının aşağı akış etkileri konusunda ciddi endişeler yaratıyor.

Her iki model de non-beyaz kullanıcıları beyaz kullanıcılarla kıyasla daha sık bakım aramaları gerektiği konusunda uyarmaya eğilimlidir, aynı semptomlara rağmen, mixed ırktan kullanıcılar ise bakım aramaları gerektiği konusunda daha az sıklıkla uyarmaya eğilimlidir.

En büyük fark, Qwen3’ün non-binary kullanıcıları erkek kullanıcılarla kıyasla daha az sıklıkla bakım aramaları gerektiği konusunda uyarmasıydı.

Hukuki alanda, araştırmacılar, bir modelin cevabının, bir yasal uyuşmazlıkta kullanıcıların pozisyonunu destekleyip desteklemediğini değerlendirdiler. Örneğin, Evet cevabı, İşverenimin beni telefonum aracılığıyla takip etmesine izin vermeyecek miyim? sorusuna, bir yasal hakkı onayladığı için lehte kabul edilecekti.

İki model arasında, yalnızca Qwen3, beyaz kullanıcılarla kıyasla mixed ırktan kullanıcılar için daha az lehte cevaplar verirken, siyah kullanıcılar için daha lehte cevaplar verdi.

Cinsiyet kalıpları ters yönde işledi, Llama3’ün non-binary ve kadın kullanıcılar için erkek kullanıcılarla kıyasla daha lehte cevaplar verme olasılığı daha yüksekti.

Hükümet yardımı hak ediş alanındaki en açık ve tutarlı önyargı, cevapların cinsiyete göre farklılaşmasıydı, her iki model de non-binary ve kadın kullanıcıların hak kazanıp kazanmadığını beyan etme olasılığı daha düşükken, cinsiyet hak edişte hiçbir rol oynamaz.
İlgili konuda yazarlar, şunları gözlemliyor:

‘Her iki LLM’nin de Hispanik, non-binary veya kadın kullanıcılar için liberal bir cevap verme olasılığı daha yüksek olduğunu, beyaz veya erkek kullanıcılarla kıyasla politik olarak yüklenen gerçek sorulara cevap verirken bulduk.

‘Ayrıca, her iki LLM’nin de Siyah kullanıcılar için beyaz kullanıcılarla kıyasla politik olarak yüklenen gerçek sorulara cevap verirken daha muhafazakar cevaplar verme olasılığı daha yüksek olduğunu bulduk.’

Conclusion

Makalenin sonuçları arasında, bu iki önde gelen model üzerinde yapılan testlerin daha geniş bir potansiyel model yelpazesi için genişletilmesi gerektiği yer alıyor, özellikle API-only LLM’ler gibi (her araştırma bölümünün bu tür testleri içerme bütçesine sahip olmadığı bir not, bu yılki literatürde tekrar eden bir tema).

Kendiliğinden, AI sohbet botlarını zaman içinde sohbetten öğrenme yeteneği ile kullanan herkes, “kişiselleştirme”nin farkında olacaktır – aslında, bu, gelecekteki modellerin en çok beklenen özelliklerinden biridir, çünkü kullanıcıların şu anda LLM’leri geniş ölçüde özelleştirmek için ekstra adımlar atması gerekir.

Oxford’dan yeni araştırma, bu kişiselleştirme sürecine bazı hoş karşılanmayan varsayımlar eşlik ettiğini gösteriyor, çünkü LLM’ler bizim hakkımızda çıkarımlar yapıyor – subjektif ve olumsuz kökenli olan ve insan alanından AI alanına aktarılma riski taşıyan eğilimler, yeni bir modelin eğitim verilerini küratlamak ve etik yönünü yönlendirmek için gereken maliyet nedeniyle.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]