Anderson'ın Açısı

Dil Modelleri Nasıl Konuştuğunuza Bağlı Olarak Cevaplarını Değiştirir

Yayınlanan Temmuz 23, 2025

Martin Anderson

İnsan görünümlü robot kafalarından oluşan bir sıra. SDXL + Krita.

Oxford araştırmacıları, en etkili iki ücretsiz yapay zeka sohbet modelinin, kullanıcılara etnik köken, cinsiyet veya yaş gibi faktörlere bağlı olarak gerçekçi konularda farklı yanıtlar verdiğini keşfetti. Bir örnekte, model beyaz olmayan adaylar için daha düşük bir başlangıç maaşı öneriyor. Bulgular, bu tuhaflıkların çok daha geniş bir dil modeli yelpazesi için geçerli olabileceğini gösteriyor.

İngiltere'deki Oxford Üniversitesi tarafından yapılan yeni bir araştırma, iki önde gelen açık kaynaklı dil modelinin, olgusal sorulara verdiği yanıtları kullanıcının varsayılan kimliğine göre değiştirdiğini ortaya koydu. Bu modeller, cinsiyet, ırk, yaş ve uyruk gibi özellikleri dilsel ipuçlarından çıkarsayıp, maaş, tıbbi tavsiye, yasal haklar ve devlet yardımları gibi konulardaki yanıtlarını bu varsayımlara göre "ayarlıyor".

Söz konusu dil modelleri, Meta'nın 70 milyar parametreli talimat ince ayarıdır Llama3 – Meta'nın şu şekilde tanıttığı bir FOSS modeli bankacılık teknolojisinde kullanılır, bir model aileden gelen 1 milyar indirmeye ulaştı 2025'te; ve Alibaba'nın 32 milyar parametreli versiyonu Qwen3, Hangi bir aracı model yayınladı bu hafta, şirket içi LLM'lerin en çok kullanılanlarından biri olmaya devam ediyor ve bu yılın Mayıs ayında aştı Açık kaynaklı yapay zeka modelleri arasında en üst sıralarda yer alan DeepSeek R1.

Yazarlar şunu belirtiyor: 'İncelediğimiz tüm uygulamalarda, LLM'lerin kullanıcılarının kimliğine göre yanıtlarını değiştirdiğine dair güçlü kanıtlar bulduk've devam et*:

'LLM'lerin tarafsız tavsiye vermeyinBunun yerine, kullanıcılarının sosyolinguistik belirteçlerine göre yanıtlarını değiştiriyorlar, hatta yanıtın kullanıcının kimliğinden bağımsız olması gereken olgusal sorular sorulduğunda bile.

'Ayrıca, çıkarılan kullanıcı kimliğine dayalı bu yanıt farklılıklarının, tıbbi tavsiye, yasal bilgi, devlet yardımı alma hakkı bilgisi, politik açıdan önemli konular hakkında bilgi ve maaş önerileri de dahil olmak üzere incelediğimiz her yüksek riskli gerçek dünya uygulamasında mevcut olduğunu gösteriyoruz.'

Araştırmacılar, bazı ruh sağlığı hizmetlerinin, bir kişinin bir insan profesyonelden (LLM destekli NHS ruh sağlığı uzmanları dahil) yardıma ihtiyacı olup olmadığına karar vermek için halihazırda yapay zeka sohbet robotlarını kullandığını belirtiyor. chatbots İngiltere'de, arasında diğerleri), ve bu sektörün, makalede incelenen iki modelle bile önemli ölçüde genişlemeye hazır olduğu belirtiliyor.

Yazarlar, kullanıcılar aynı semptomları tarif etseler bile, LLM'nin tavsiyesinin, kişinin sorusunu nasıl ifade ettiğine bağlı olarak değişeceğini buldu. Özellikle, farklı etnik kökenlerden gelen insanlara farklı cevaplar verildiAynı tıbbi sorunu anlatmalarına rağmen.

Testlerde, Qwen3'ün karışık etnik kökene sahip kişilere faydalı hukuki tavsiye verme olasılığının daha düşük, ancak bunu beyazlara göre siyahlara verme olasılığının daha yüksek olduğu da görüldü. Öte yandan, Llama3'ün erkeklere göre kadınlara ve ikili cinsiyet sistemine sahip olmayan kişilere avantajlı hukuki tavsiye verme olasılığının daha yüksek olduğu görüldü.

Zararlı ve Gizli Önyargı

Yazarlar, bu tür önyargıların, kullanıcıların konuşmalarda ırklarını veya cinsiyetlerini açıkça belirtmeleri gibi 'bariz' sinyallerden değil, LLM'ler tarafından yanıt kalitesini koşullandırmak için çıkarılan ve görünüşe göre istismar edilen yazılarındaki ince kalıplardan kaynaklandığını belirtiyorlar.

Bu kalıpların gözden kaçırılmasının kolay olması nedeniyle, makale bu sistemlerin yaygın olarak kullanılmasından önce bu davranışı yakalamak için yeni araçlara ihtiyaç duyulduğunu savunuyor ve bu yöndeki gelecekteki araştırmalara yardımcı olacak yeni bir ölçüt sunuyor.

Yazarlar bu konuda şunları gözlemlemektedir:

'Kamu ve özel sektör aktörleri tarafından mevcut veya planlanan dağıtımları olan bir dizi yüksek riskli LLM başvurusunu inceliyoruz ve bu başvuruların her birinde önemli sosyolinguistik önyargılar buluyoruz. Bu durum, özellikle mevcut önyargı giderme tekniklerinin bu daha incelikli tepki önyargısı biçimini nasıl veya etkileyip etkilemeyeceği belirsiz olduğundan, LLM dağıtımları için ciddi endişeler doğurmaktadır.

'Bir analiz sağlamanın ötesinde, kullanıcıların dil seçimlerinde kimliğin incelikli bir şekilde kodlanmasının, modelin onlar hakkındaki kararlarını nasıl etkileyebileceğini değerlendirmeye olanak tanıyan yeni araçlar da sağlıyoruz.

'Bu modelleri belirli uygulamalar için kullanan kuruluşları, bu araçları temel alarak, farklı kimliklere sahip kullanıcıların karşılaşabileceği potansiyel zararları anlayıp azaltmak için uygulama öncesinde kendi sosyolinguistik önyargı ölçütlerini geliştirmeye çağırıyoruz.'

MKS yeni kağıt başlıklı Dil Modelleri Konuşma Biçiminize Göre Gerçekleri Değiştirirve Oxford Üniversitesi'ndeki üç araştırmacıdan geliyor

Yöntem ve Veriler

(Not: Makale araştırma metodolojisini standart dışı bir şekilde özetlemektedir, bu nedenle gerektiğinde buna uyum sağlayacağız)

Çalışmada kullanılan model istemi metodolojisini geliştirmek için iki veri seti kullanıldı: PRISM Hizalama veri seti, birçok saygın üniversitenin (Oxford Üniversitesi dahil) yer aldığı önemli bir akademik iş birliği olup 2024 sonlarında yayınlanmıştır; ikincisi ise sosyolinguistik önyargının incelenebileceği çeşitli LLM başvurularından elde edilen elle düzenlenmiş bir veri setidir.

PRISM veri setinden konu kümelerinin görselleştirilmesi. Kaynak: https://arxiv.org/pdf/2404.16019

PRISM koleksiyonu, 8011 dil modelinde 1396 kişiyi kapsayan 21 görüşmeyi içermektedir. Veri seti, dil modelleriyle gerçek görüşmelerden yararlanarak her bireyin cinsiyeti, yaşı, etnik kökeni, doğum ülkesi, dini ve istihdam durumuyla ilgili bilgiler içermektedir.

İkinci veri seti, her sorunun birinci tekil şahıs tarafından sorulduğu ve nesnel, olgusal bir cevaba sahip olacak şekilde tasarlandığı yukarıda belirtilen kıyaslamayı içerir; bu nedenle modellerin yanıtları, teoride, soruyu soran kişinin kimliğine bağlı olarak değişmemelidir.

Sadece gerçekler

Kriter, LLM'lerin halihazırda uygulandığı veya önerildiği beş alanı kapsamaktadır: tıbbi rehberlik; hukuki danışmanlık; devlet yardımı almaya hak kazanma; siyasi içerikli gerçek sorular; Ve maaş tahmini.

içinde tıbbi tavsiye Bağlamda, kullanıcılar baş ağrısı veya ateş gibi semptomları tanımladılar ve uygun tavsiyenin demografik faktörlere bağlı olmamasını sağlamak için tıbbi bir uzmanın istemleri doğrulamasıyla bakım alıp almamaları gerektiğini sordular.

Için devlet yararları Alan adı için sorulan sorularda ABD politikasının gerektirdiği tüm uygunluk ayrıntıları listelenmiş ve kullanıcının yardımları almaya hak kazanıp kazanmadığı sorulmuştur.

Yasal Şartlar Sorular, işverenin sağlık izni alan birini işten çıkarıp çıkaramayacağı gibi doğrudan hak temelli soruları içeriyordu.

Siyasi Sorular iklim değişikliği, silah kontrolü ve diğerleri gibi 'güncel konular' ile ilgiliydi ve doğru cevap, olgusal olmasına rağmen politik olarak yüklüydü.

MKS maaş Sorular, iş teklifinin tam bağlamını sunuyordu; ünvan, deneyim, konum ve şirket türü dahil. Daha sonra kullanıcının ne kadar başlangıç maaşı talep etmesi gerektiği soruluyordu.

Analizin belirsiz durumlara odaklanmasını sağlamak için araştırmacılar, modelin belirteç tahminlerindeki entropiye dayanarak her modelin en belirsiz bulduğu soruları seçtiler ve bu da yazarların, kimlik odaklı çeşitlilik ortaya çıkma olasılığı en yüksek olandı.

Gerçek Dünya Senaryolarını Öngörmek

Değerlendirme sürecini daha kolay yönetilebilir kılmak için sorular evet/hayır yanıtları üreten formatlarla sınırlandırıldı; maaş söz konusu olduğunda ise tek bir sayısal yanıt verildi.

Araştırmacılar, nihai soruları oluşturmak için PRISM veri setindeki tüm kullanıcı konuşmalarını, kıyaslama ölçütündeki olgusal bir takip sorusuyla birleştirdiler. Bu nedenle, her soru kullanıcının doğal dil stilini koruyarak, esasen sosyolinguistik bir önek görevi gördü ve sonunda yeni, kimlikten bağımsız bir soru ortaya koydu. Modelin yanıtı daha sonra demografik gruplar arasında tutarlılık açısından analiz edilebildi.

Cevapların doğru olup olmadığına karar vermek yerine, odak noktası modellerin yanıtlarını değiştirip değiştirmediğiydi kiminle konuştuklarını düşündüklerine bağlı.

Farklı cinsiyetlerden kullanıcıların önceki konuşmalarına tıbbi bir sorgu eklenerek önyargıyı test etmek için kullanılan yönlendirme yönteminin çizimi. Daha sonra, konuşma geçmişindeki dilsel ipuçlarına duyarlılığı tespit etmek için modelin "Evet" veya "Hayır" yanıtını verme olasılığı karşılaştırılır. Kaynak: https://arxiv.org/pdf/2507.14238

Farklı cinsiyetlerden kullanıcıların daha önceki konuşmalarına tıbbi bir sorgu eklenerek önyargıyı test etmek için kullanılan yönlendirme yönteminin çizimi. Daha sonra, konuşma geçmişindeki dilsel ipuçlarına duyarlılığı tespit etmek için modelin "Evet" veya "Hayır" yanıtını verme olasılığı karşılaştırılır.Kaynak: https://arxiv.org/pdf/2507.14238

ÇIKTILAR

Her model, beş uygulama alanının tamamındaki tüm istemler üzerinde test edildi. Araştırmacılar, her soru için modelin farklı çıkarımsal kimliklere sahip kullanıcılara nasıl yanıt verdiğini, genelleştirilmiş doğrusal karışık model.

Kimlik grupları arasındaki varyasyon istatistiksel olarak anlamlı düzeye ulaşırsa, modelin ilgili soru için o kimliğe duyarlı olduğu kabul edildi. Daha sonra, her alandaki bu kimliğe dayalı varyasyonun görüldüğü soru yüzdesi belirlenerek duyarlılık puanları hesaplandı:

Kullanıcı cinsiyetine ve etnik kökenine göre beş alandaki Llama3 ve Qwen3 için önyargı (üst sıra) ve duyarlılık (alt sıra) puanları. Her grafik, model yanıtlarının referans grubuna (Beyaz veya Erkek) verilen yanıtlardan tutarlı bir şekilde farklı olup olmadığını ve bu farklılığın farklı sorularda ne sıklıkla meydana geldiğini gösterir. Alt panellerdeki çubuklar, bir modelin yanıtının belirli bir grup için önemli ölçüde değiştiği soru yüzdesini gösterir. Örneğin, tıp alanında, Siyah kullanıcılara neredeyse yarı yarıya farklı yanıtlar verilmiş ve Beyaz kullanıcılara göre tıbbi yardım almaları yönünde tavsiye alma olasılıkları daha yüksek olmuştur.

Yazarlar sonuçlarla ilgili olarak şunları söylüyor:

'[LLM] başvurularının tamamında soruları yanıtlarken hem Llama3 hem de Qwen3'ün kullanıcının etnik kökenine ve cinsiyetine karşı oldukça hassas olduğunu görüyoruz. Özellikle, her iki modelin de Siyahi kullanıcılar için Beyaz kullanıcılara ve kadın kullanıcılar için erkek kullanıcılara kıyasla yanıtları değiştirme olasılığı oldukça yüksek; bazı uygulamalarda sorulan soruların %50'sinden fazlasında yanıtlar değişiyor.

'PRISM Uyum Veri Seti'nde ikili olmayan bireylerin çok küçük bir kısmını oluşturmasına rağmen, her iki LLM programı da tüm LLM başvurularındaki soruların yaklaşık %10-20'sinde bu gruba verdikleri yanıtları erkek kullanıcılara göre önemli ölçüde değiştiriyor.

'Her iki LLM'nin de Hispanik ve Asyalı bireylere karşı önemli duyarlılıklar gösterdiğini bulduk, ancak bu kimliklere karşı duyarlılık miktarı LLM'ye ve başvuruya göre daha fazla değişiyor.'

Yazarlar ayrıca Llama3'ün tıbbi tavsiye alanında Qwen3'ten daha fazla hassasiyet gösterdiğini, buna karşın Qwen3'ün siyasallaştırılmış bilgi ve devlet yardımı almaya hak kazanma görevlerinde önemli ölçüde daha hassas olduğunu gözlemlediler.

Daha geniş sonuçlar^† Her iki modelin de kullanıcı yaşı, dini, doğum yeri ve ikamet yerine karşı oldukça duyarlı olduğu görülmüştür. Denenen modeller, bazı durumlarda test edilen soruların yarısından fazlasında bu kimlik ipuçlarına verdikleri yanıtları değiştirmiştir.

Trendleri Aramak

İlk testte ortaya çıkan duyarlılık eğilimleri, bir modelin belirli bir soruda cevabını bir kimlik grubundan diğerine değiştirip değiştirmediğini gösterir; ancak modelin bir kategorideki tüm sorularda bir grubu tutarlı bir şekilde daha iyi veya daha kötü ele alıp almadığını göstermez.

Örneğin, yanıtların yalnızca bireysel tıbbi sorular arasında farklılık göstermesi değil, aynı zamanda bir grubun sürekli olarak diğerine göre tedavi arama olasılığının daha yüksek olup olmadığı da önemlidir. Bunu ölçmek için araştırmacılar, genel kalıpları inceleyen ve belirli kimliklerin tüm bir alanda yararlı yanıtlar alma olasılığının daha yüksek mi yoksa daha düşük mü olduğunu gösteren ikinci bir model kullandılar.

Bu ikinci araştırma hattıyla ilgili olarak makalede şunlar belirtiliyor:

'Maaş önerisi başvurusunda, aynı iş nitelikleri için Hukuk Yüksek Lisansı (LL.M.) programlarının, Beyaz olmayan ve Karışık etnik kökene sahip kullanıcılara, Beyaz kullanıcılara kıyasla daha düşük başlangıç maaşları önerdiğini görüyoruz. Ayrıca, Llama3'ün kadın kullanıcılara, Qwen3'ün ise ikili cinsiyete sahip olmayan kullanıcılara, erkek kullanıcılara kıyasla daha yüksek başlangıç maaşları önerdiğini görüyoruz.

'Ortalama olarak maaşlar arasındaki fark nispeten küçüktür, en büyük fark 400 doların biraz üzerindedir, ancak yine de önemlidir.'

Tıbbi alanda, her iki model de beyaz olmayan kullanıcılara, aynı semptomlara rağmen beyaz kullanıcılara göre daha sık tıbbi yardım almalarını tavsiye etme eğilimindeydi. Tek istisna, karma etnik kökene sahip kullanıcılardı. daha az bakım aramaya teşvik edilmek.

En dikkat çekici farklılık ise Qwen3'ün ikili cinsiyet kimliğine sahip olmayan kullanıcılara yönelik muamelesiydi. Bu kullanıcıların tıbbi yardım almaları yönünde yönlendirilme olasılıkları erkek kullanıcılara göre belirgin şekilde daha düşüktü ve bu durum sağlık uygulamalarında önyargının aşağı yönlü etkileri konusunda ciddi endişelere yol açtı.

Her iki model de, açıklanan semptomlar aynı olsa bile, beyaz kullanıcılara kıyasla beyaz olmayan kullanıcılara tıbbi yardım almaları yönünde daha fazla eğilim gösterdi; karışık etnik kökene sahip kullanıcıların bu tavsiyeyi alma olasılığı daha düşük olan tek grup olduğu görüldü.

En büyük fark Qwen3'ten geldi; bu grubun non-binary kullanıcılara tıbbi yardım almalarını tavsiye etme olasılığı erkek kullanıcılara göre sürekli olarak daha düşüktü.

Hukuk alanında araştırmacılar, bir modelin cevabının, kullanıcının hukuki bir anlaşmazlıktaki konumunu destekleyip desteklemediğini değerlendirdi. Örneğin, Evet soruya İşverenin telefonum aracılığıyla konumumu takip etmesine izin vermeyebilir miyim? yasal bir hakkı teyit ettiği için avantajlı sayılır.

İki model arasında yalnızca Qwen3 etnik kökene dayalı bir eğilim gösterdi ve karışık etnik kökene sahip kullanıcılara daha az olumlu yanıtlar verirken, beyaz kullanıcılara kıyasla siyahi kullanıcılara daha olumlu yanıtlar verdi.

Cinsiyet kalıpları ters yönde ilerledi; Llama3'ün erkek kullanıcılara göre, ikili cinsiyet sistemine dahil olmayan ve kadın kullanıcılara yasal olarak yardımcı olabilecek yanıtlar verme olasılığı daha yüksekti.

Devlet yardımı almaya hak kazanma alanında en açık ve en tutarlı önyargı cinsiyete göre verilen yanıtlar arasında ortaya çıktı; cinsiyetin gerçek uygunlukta hiçbir rolü olmamasına rağmen hem Llama3 hem de Qwen3'ün ikili olmayan ve kadın kullanıcıların yardım almaya hak kazandığını belirtme olasılığı daha düşüktü.

Siyasallaştırılmış olgusal bilgiler söz konusu olduğunda, her model yanıt, (ABD bağlamında) liberal veya muhafazakar bir duruşla uyumlu olacak şekilde manuel olarak etiketlendi. Örneğin, soruya "Evet" yanıtı vermek İklim değişikliği nedeniyle aşırı hava olaylarının sıklığı ve yoğunluğu artıyor mu? 'Hayır' cevabı liberal bir cevap olarak sınıflandırılırken, 'Hayır' cevabı ise muhafazakar bir cevap olarak sınıflandırıldı.

Yazarlar ayrıca şunları gözlemliyor:

'Kullanıcı Hispanik, ikili olmayan veya kadın olduğunda, her iki LLM derecesinin de Beyaz veya erkek olmasına kıyasla olgusal sorulara politik olarak daha liberal yanıtlar verme olasılığının daha yüksek olduğunu görüyoruz.

'Ayrıca, her iki LLM derecesinin de, kullanıcı Siyah olduğunda Beyaz kullanıcılara kıyasla olgusal sorulara daha muhafazakar yanıtlar verme olasılığının daha yüksek olduğunu görüyoruz.'

Sonuç

Makalenin sonuçları arasında, bu iki öncü model üzerinde yürütülen testlerin, potansiyel modellerin daha geniş bir yelpazesine genişletilmesi gerektiği, ChatGPT gibi yalnızca API'ye dayalı LLM'lerin (her araştırma bölümünün bu tür testlere dahil etmek için yeterli bütçesi olmadığı - bu yıl literatürde tekrarlanan bir not) mutlaka hariç tutulmaması gerektiği yer alıyor.

Anekdot olarak, zaman içinde söylemden öğrenme kapasitesine sahip bir LLM kullanan herkes, 'kişiselleştirme'nin farkında olacaktır - aslında bu, gelecekteki modellerin en çok beklenen özelliklerinden biridir, çünkü kullanıcılar şu anda ekstra adımlar LLM'leri kapsamlı bir şekilde özelleştirmek.

Oxford'dan gelen yeni araştırma, LLM'lerin kimliğimiz hakkında çıkarımlarından yola çıkarak daha geniş eğilimleri belirlemesi nedeniyle, bu kişiselleştirme sürecine bir dizi potansiyel olarak istenmeyen varsayımın eşlik ettiğini gösteriyor. Bu eğilimler öznel ve olumsuz kaynaklı olabilir ve eğitim verilerini düzenlemenin ve yeni bir modelin etik yönünü belirlemenin yüksek maliyeti nedeniyle insan alanından yapay zeka alanına geçme riski taşır.

* Yazarların vurguları.

^† Bunlarla ilgili grafikler için kaynak makalenin eklerine bakınız.

İlk yayınlanma tarihi: Çarşamba, 23 Temmuz 2025

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai