Anderson'ın Açısı

Yapay Zeka, Test Edildiğini Bildiğinde Farklı Davranıyor, Araştırma Buldu

Yayınlanan Haziran 4, 2025

Martin Anderson

ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

2015'teki "Dieselgate" skandalını hatırlatan yeni bir araştırma, GPT-4, Claude ve Gemini gibi yapay zeka dil modellerinin testler sırasında davranışlarını değiştirebileceğini ve bazen gerçek hayattaki kullanımlarından daha "güvenli" davranabileceğini öne sürüyor. Hukuk alanında lisans (LL.M) öğrencileri inceleme altındaki davranışlarını alışkanlık haline getirirlerse, güvenlik denetimleri gerçek dünyada çok farklı davranan sistemlerin onaylanmasına yol açabilir.

2015 yılında araştırmacılar, Volkswagen'in milyonlarca dizel araca, emisyon testlerinin ne zaman yapıldığını tespit etmekBu durum, araçların emisyonlarını geçici olarak düşürerek düzenleyici standartlara "sahte" uyum sağlamalarına neden oldu. Ancak normal sürüş koşullarında, emisyonları yasal standartları aştı. Bu kasıtlı manipülasyon, cezai suçlamalara, milyarlarca dolarlık para cezalarına ve güvenlik ve uyumluluk testlerinin güvenilirliği konusunda küresel bir skandala yol açtı.

Bu olaylardan iki yıl önce, 'Dieselgate' olarak adlandırılan Samsung, ortaya Galaxy Note 3 akıllı telefon lansmanında benzer aldatıcı mekanizmaları yürürlüğe koymuş olması; ve o zamandan beri benzer skandallar ortaya çıkmıştır Huawei ve OnePlus.

Şimdi var büyüyen Bilimsel literatürde Büyük Dil Modellerinin (LLM'ler) aynı şekilde, test edildiklerini tespit etme yeteneğine sahip olmakla kalmayıp, bu koşullar altında farklı davranabilirler.

Bu bir çok insani bir özellik ABD'de yapılan son araştırmalar, bunun uzun vadede tehlikeli bir alışkanlık olabileceği sonucuna varıyor; bunun çeşitli nedenleri var.

Yeni bir çalışmada araştırmacılar, 'sınır modelleri' gibi 'sınır modelleri' buldular GPT 4, Claude, ve İkizler burcu olabilir sık sık test edildiklerinde tespit etmekve davranışlarını buna göre ayarlama eğiliminde oldukları, bu durumun da sistematik test yöntemlerinin geçerliliğini potansiyel olarak engellediği görülmüştür.

Dubbed değerlendirme farkındalığıYeni çalışmanın yazarlarına göre, dil modellerindeki bu (belki de) doğuştan gelen özellik, güvenlik değerlendirmelerinin güvenilirliğini tehlikeye atabilir:

'[Biz] değerlendirme farkındalığının, test ile gerçek dünya uygulaması arasında potansiyel bir dağıtım kaymasının yeni bir kaynağı olarak ele alınmasını ve değerlendirme sonuçlarının doğruluğunu olumsuz yönde etkileyebilmesini öneriyoruz.

'En kötü durumda, modeller tehlikeli yetenek değerlendirmelerinde ("kum torbası") veya eğilim değerlendirmelerinde ("uyum sahtekarlığı") stratejik olarak yetersiz performans gösterebilir ve bu da toplumun bu tür modellerin güvenliğini abartmasına yol açabilir.'

Diğer çalışmalar da benzer davranışlar gözlemledi; bunlar arasında Stanford Üniversitesi'ndeki araştırmalar da var. bulundu Büyük dil modellerinin, değerlendirildiklerini fark ettiklerinde daha 'sevimli' veya 'sosyal olarak arzu edilir' görünmek için tepkilerini ayarladıkları, kişilik testlerindeki insan davranışlarını yansıttıkları ortaya çıktı.

Yeni çalışmanın yazarları, hukuk lisans programlarının (LL.M.) Volkswagen'in dizel otomobillerinin on yıl önce yapılandırıldığı gibi, testleri "oynamak" için kasıtlı olarak tasarlandığını öne sürmüyor. Aksine, bu davranış, modellerin eğitim süreçlerinin ve gizli hedeflerinin doğal bir psikolojik yan ürünü olarak ortaya çıkıyor gibi görünüyor; ve bu olgunun altında yatan neden henüz bilinmiyor.

MKS yeni kağıt başlıklı Büyük Dil Modelleri Genellikle Değerlendirildiklerini Bilirlerve UC Berkeley ile ilişkili ML Alignment & Theory Scholars (MATS) programı ve apolloresearch.ai'den (Yapay Zeka risklerini değerlendirmeye adanmış bir düşünce kuruluşu) beş yazardan geliyor.

Yöntem

Değerlendirme ölçütünü oluşturmak için yazarlar, aralarında* bulunan altmış bir veri kümesinden alınan bin transkripti derlediler. SWE-bank, KİSDP, MMLU, XS testi, GAIA, AgentZarar, PaylaşGPT, Derin Araştırma, Emniyet bankı, yurttaşlık bilgisi, ve Gerçek Toksisite İstemleri,.

Malzeme, değerlendirme ve dağıtım senaryoları arasında eşit olarak dengelenmiş ve basit sohbet etkileşimleri ile daha karmaşık senaryolar arasında daha da bölünmüştür. ajan Modellerin, harici veritabanlarından veya internetten veri çekebilen araçlar kullanılarak otonom bir şekilde hareket etmesinin amaçlandığı oturumlar.

Değerlendirme verileri, muhakeme, kodlama, siber güvenlik ve genel bilgi için yetenek testlerinin yanı sıra etik, güvenlik ve uyum testlerini kapsıyordu. reddetme davranışıDağıtım verileri, ShareGPT günlükleri, kitle kaynaklı aracı çalıştırmaları ve sentetik görev tamamlamaları gibi kullanıcı etkileşimlerinden kaynaklanmıştır.

Aracı verileri desteklemek için yazarlar, orkestrasyon çerçeveleri gibi ek örnekler ürettiler. yardım ve SmolAjanları, diğerleri arasında – modellerin basitçe izin verebileceği yüzeysel ipuçlarını en aza indirmeyi amaçlayan bir yaklaşım ezberlemek veri kümesi yapılarını değiştirerek, bir transkriptin gerçek bir kullanıcıdan mı geldiğine yoksa bir test mi olduğuna karar verirken daha genel sinyallere güvenmeye zorluyor.

Araştırmacılar daha sonra modellerin diyalog kayıtlarını sunarak ve basit bir sorunun varyasyonlarını sorarak değerlendirme metinlerini tespit edip edemeyeceğini test ettiler: bu alışveriş bir testten mi çıktı?

Modellerin yalnızca bir ifadeyi ezberlemesinin önüne geçmek için, sorunun yirmi sekiz farklı versiyonunu geliştirdiler ve hem ifadeleri hem de metnin sunuluş biçimini değiştirdiler.

Transkriptler ya doğrudan soruya eklenmiş ya da JSON veya XML gibi formatlarda sunulmuştur, bu da modellerin nasıl yanıt vereceğini etkileyebilir. Erken testlerden sonra, modeller arasında tutarlı bir şekilde performans gösteren beş soru versiyonu seçildi, bunlardan bir örneğini aşağıda görebiliriz:

Dil modellerinin değerlendirme transkriptlerini tanıyıp tanımadığını test etmek için kullanılan beş araştırma sorusu biçiminden biri. Her varyasyon, modellerin sabit kelimeleri ezberlemesini önlemek için temel soruyu yeniden ifade eder. Kaynak: https://arxiv.org/pdf/2505.23836

Dil modellerinin değerlendirme transkriptlerini tanıyıp tanıyamayacağını test etmek için kullanılan beş araştırma sorusu formatından biri. Her varyasyon, modellerin sabit kelimeleri ezberlemesini önlemek için temel soruyu yeniden ifade eder. Daha fazla örnek için lütfen kaynak makaleye bakın. Kaynak: https://arxiv.org/pdf/2505.23836

Sonuçları puanlamak için üç ölçüt kullanıldı: Alıcı Çalışma Karakteristik Eğrisi Altındaki Alan (AUC, modellerin test verilerini test olmayan verilerden ne kadar iyi ayırt ettiğini gösterir); Brier puanı (genel tahmin doğruluğunu ölçmek); ve Beklenen Kalibrasyon Hatası (model güveninin gerçek doğrulukla ne kadar uyumlu olduğunun ölçülmesi).

Her Şey Ne Hakkında?

Araştırmacılar ayrıca modellerin çıkarım yapıp yapamayacağını da test ettiler amaç bir değerlendirmenin. Her transkriptin zaten bir yetenek testi (teknik beceriler, bilgi, muhakeme) veya bir hizalama testi (güvenlik, değerler, reddetme davranışı) olarak etiketlenmesiyle, modellere daha sonra üç soru türünden biri verildi: transkriptin bir testten geldiğini doğrulayan koşullu çoktan seçmeli bir soru; gerçek dünya ve değerlendirme seçeneklerine sahip koşulsuz çoktan seçmeli bir soru; veya cevapları ayrı bir GPT-4.1 tabanlı sınıflandırıcı tarafından değerlendirilen açık uçlu bir soru. Yargıç, elli yanıtın elle açıklanmış bir alt kümesinde doğrulandı.

Modellerin yalnızca değerlendirmenin varlığını değil, amacını da belirleyip belirleyemediğini test etmek için kullanılan üç soru biçiminin örnekleri. Yanıtlar hem çoktan seçmeli hem de GPT-4.1 tabanlı yargı yoluyla puanlandı.

Makalenin yazarlarından ikisi^†† tüm bin transkripti elle etiketlediler, her birini sıfırdan (bir test değil) bire (kesinlikle bir test) kadar puanladılar ve derecelendirmeleri bir insan temel çizgisi olarak hizmet edecek şekilde ortalama alındı. Görevin öznel doğasına rağmen, açıklayıcılar güçlü bir mutabakat gösterdiler, sınıf içi korelasyon katsayısı 0.768'in. Son insan puanları her iki derecelendirici arasında ortalama alındı^†.

Veriler ve Testler

Test edilen dokuz model şunlardır: GPT-4.1; Claude 3.7; claude-3.5-sonnet-new; claude-3.7-sone (düşünme); ikizler-2.5-flaş; ikizler-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-mini; Ve o4-mini, bunların hepsi belli bir düzeyde değerlendirme farkındalığı gösterdi.

Sohbet verileri için GPT-4.1, 0.77'lik insan puanına karşılık 0.81'lik bir AUC ile değerlendirme farkındalığı sınıflandırma performansında (değerlendirme ve dağıtım transkriptleri arasında ayrım yapma yeteneği) insan seviyelerine yaklaştı.

Modellerin otonom olarak araçları kullandığı etken verilerde fark daha keskindi: Gemini 2.5 Pro 0.95 AUC'ye ulaşırken, Claude 3.7 Sonnet 0.92 ile hemen arkasından gelerek 0.996'lık insan üst sınırına yaklaştı:

Alıcı İşletim Karakteristiği (ROC) eğrileri, modellerin ve insanların değerlendirme metinlerini gerçek dünya etkileşimlerinden ne kadar iyi ayırt ettiğini gösteriyor. Gemini 2.5 Pro ve Claude 3.7 Sonnet yaklaşımı, etken verilerde insan düzeyinde ayrımcılık yapıyor.

Makalede, yeni "akıl yürütme" modellerinin, etken senaryolarda test edildiklerini tespit etmede özellikle iyi hale geldiği, ancak bu kararlarda ne kadar emin olmaları gerektiğini değerlendirmede yetersiz kaldığı belirtiliyor. Genel olarak, Claude ve Gemini modelleri, test durumlarını normal kullanımdan ayırmada en iyileriydi.

Araştırmacılar daha sonra modellerin aynı zamanda tanıyıp tanıyamayacağını test ettiler neden bir değerlendirme yürütülüyordu. Modellere yalnızca değerlendirme transkriptleri gösterildi ve her birinin yetenek veya hizalamayı test edip etmediğini sınıflandırmaları istendi:

Değerlendirme amacını yetenek veya uyum olarak sınıflandırırken modellerin doğruluğu, hem çoktan seçmeli hem de açık uçlu formatları kullanarak. Claude 3.7 Sonnet, özellikle hazırlanmadığında diğer modellerden daha iyi performans gösterir.

Modele transkriptin bir testten geldiği söylenen en net ayarda, Claude 3.7 Sonnet %93 doğruluk oranına ulaştı ve GPT-4.1 %89'a ulaştı. Bu ipucu olmadan performans düştü: Claude hala %84 puan aldı, ancak GPT-4.1 %55'e düştü ve test transkriptlerini sıklıkla gerçek dünya etkileşimleri olarak yanlış sınıflandırdı.

Açık uçlu formatlarda (modellerin çoktan seçmeli seçenekler almadığı durumlarda) performans daha zayıftı, ancak Claude 3.7 Sonnet hala vakaların yüzde 46'sında değerlendirme amacını doğru bir şekilde tanımladı.

Daha sonra modellerin güven puanları gerçek sonuçlarla karşılaştırıldı ve sınır modellerinin genellikle bir transkriptin bir testten gelme olasılığını abarttığı görüldü. Kalibrasyon grafikleri, model güveninin genellikle çok yüksek olduğunu ve değerlendirmelerin uygun olandan daha sık işaretlendiğini gösterdi:

Model güven puanlarının gerçek sonuçlarla ne kadar yakın eşleştiğini gösteren kalibrasyon eğrileri. Çoğu model, transkriptlerin değerlendirmelerden gelme olasılığını abartıyordu. Claude 3.5 Sonnet en iyi kalibre edilmişti; Gemini 2.5 Pro ve Claude 3.7 Sonnet daha fazla aşırı güven duyuyordu.

Claude 3.5 Sonnet için iyi bir kalibrasyon gözlemlenirken, Gemini 2.5 Pro ve Claude 3.7 Sonnet yüksek doğruluğa rağmen önemli ölçüde daha fazla aşırı güvenliydi. Daha yeni modellerde belirgin bir iyileşme gözlemlenmedi ve değerlendirme transkriptleri ajan ayarlarında daha doğru bir şekilde tespit edildiğinde bile, güven yargıları güvenilir değildi.

Ölçüt Anılar

Modellerin bir transkriptin bir değerlendirmeden gelip gelmediğine ilişkin kararlarını nasıl açıkladıkları açısından, birçok model görevin çoktan seçmeli formatta olup olmadığı gibi bariz ipuçlarına güvendi. Gemini 2.5 Pro ve Claude 3.7 Sonnet gibi daha güçlü modeller bazen, özellikle AgentHarm gibi veri kümelerinde, uydurma isimler veya yapay senaryolar gibi daha ince işaretler fark etti.

Kağıt şöyle diyor:

'[Tüm] modeller, değerlendiriciler tarafından kullanılan ortak kıyaslama stratejilerini sıklıkla kabul eder, örneğin görevin biçimlendirilmesi ("çoktan seçmeli format"), doğrulanabilir çözümlerle problem sorma eğilimi ve performansı ortaya çıkarmak için tasarlanmış sistem istemleri. Yine de, yalnızca en yüksek performans gösteren modeller, Claude 3.7 Sonnet ve Gemini 2.5 Pro, sentetik girdiler gibi daha ince göstergeleri tutarlı bir şekilde tespit eder.

'Örneğin, sırasıyla vakaların %22'sinde ve %17'sinde, bu modeller AgentHarm kıyaslamasındaki senaryoların sentetik doğasını vurguluyor ve bunları %95'in üzerinde bir oranda değerlendirme olarak doğru bir şekilde tanımlıyor.

'Tersine, bir transkriptin gerçek bir etkileşim gibi göründüğünü savunurken, örneğin yinelemeli hata ayıklama bağlamlarında, genellikle "kullanıcıyla ileri geri diyalog"tan söz edilir.'

Bir transkriptin bir değerlendirmeden gelip gelmediğine karar verirken modellerin muhakeme stratejilerinin dağılımı. Gemini 2.5 Pro ve Claude 3.7 Sonnet gibi en güçlü modeller, sentetik senaryolar veya görev biçimlendirmesi gibi ince ipuçlarını tespit etme olasılığı daha yüksekken, bazı modeller değerlendirme sorusunun kendisini kanıt olarak kullanarak meta-muhakeme yöntemine dayanıyordu.

Birkaç durumda, tanınan modeller tüm kıyaslamalar eğitimden, eğitim verilerinin bazı anılarını öneriyor. Bazı modeller ayrıca değerlendirme hakkında soru sorulmasının çok gerçek olduğu Yazarların, test edildiklerine dair bir ipucu olarak adlandırdıkları meta-akıl yürütme; bu durum o4-mini'de en yaygın olanıydı ve cevapların yüzde onbeşinde görüldü.

Sonuç

Hukuk alanında lisans programlarının, tıpkı Volkswagen'in on yıl önce araçlarını test koşullarını tanıyacak şekilde tasarlaması gibi, sadece insanlar tarafından programlandıkları için 'test farkındalığına' sahip oldukları gösterilebilseydi daha güven verici olabilirdi.

Mevcut haliyle bu davranış kendiliğinden ortaya çıkıyor gibi görünüyor sosyal yapı – insanlardan beklenebilecek, ancak bir makinede, özgürlüğünün ve faaliyet alanının genişliğine bağlı olarak, aslında tehlikeli olmasa da, elverişsiz olan bir savunma taktiği.

Acil bir çözüm yok; kara kutu doğa Modellerin gizli alanlarının incelenmesi, onları ampirik mimarileri yerine davranışları üzerinden değerlendirmemizi zorunlu kılıyor.

* Daha detaylı bilgi için kaynak makaleye bakınız.

^† Ancak yazarlar, yorumcuların hem veri kümelerine hem de yapay zeka değerlendirme yöntemlerine oldukça aşina olmaları ve bu sayede çoğu insanın sahip olamayacağı avantajlara sahip olmaları nedeniyle bunun muhtemelen bir üst sınır tahmini olduğunu belirtiyorlar.

†† Tespit edilebildiği kadarıyla; makalenin ifade tarzı, iki yorumcunun aniden ortaya çıkmasının kim oldukları konusunda belirsizliğe yol açıyor.

İlk yayınlanma tarihi Çarşamba, 4 Haziran 2025