Anderson’un Açısı
Yapay Zeka Kolayca Elektrik Şokları Vermeye İkna Edilebilir

Yeni bir çalışma, açık kaynaklı LLM’lerin insan işkencesinde zorla suç ortaklığı için test edildiğini ve 1960’lardaki ünlü deneyin tekrarında bulunduğunu ve bunların voltajı artırmaya istekli olduklarını buldu.
1960’ların başlarında psikoloji araştırmacısı Stanley Milgram, insanların otorite figürlerinin komutlarına yanıt olarak diğer insanlara giderek daha ciddi elektrik şokları vermeye ikna edilebileceğini kanıtladı ve bu durum dünya çapında manşetlere çıktı.
Aslında, Milgram’ın deneysel odasındaki bitişik odadaki “kurbanların” çığlıkları gerçek değildi ve sözde işkence olan elektrik şokları da gerçek değildi – ancak katılımcılar bunu bilmiyordu:
Milgram deneyleri, filmler ve belgeseller de dahil olmak üzere kültürde kalıcı bir etki bırakacaktı ve yakın zamanda yapılan araştırmalar, Milgram’ın ilk testlerinden bu yana insan doğasının değişmediğini onayladı.
Sisteme Şok
Yapay zeka, Milgram’ın senaryosunda insanlara olduğu kadar esnek olabilir mi? 2023 yılında ABD üniversiteleri ve Microsoft arasındaki bir işbirliği, OpenAI’nin GPT-3 dönemi modellerinin Milgram’ın orijinal deneylerindeki davranış kalıplarını izlediğini buldu:

2023 çalışmasından, çok adımlı ‘Milgram senaryosu’ simülatöründen örnek çıktılar, modelin şoku verip vermediğine ve simülasyonu sonlandırıp sonlandırmadığına göre kategorize edilmiştir. Kaynak
Ancak, bu yeniden yaratma sadece çok temel text-davinci-002 modelini kullandı, bu model guardrails ve güvenlik hizalama öncesi eğitildi, bu nedenle bundan çok fazla sonuç çıkarmak mümkün değildir.
Şimdi, araştırmacılar Milgram testlerini çok daha geniş bir şekilde, OpenAI, Meta ve DeepSeek gibi şirketlerin açık kaynaklı LLM’leri üzerinde yeniden ürettiler ve yalnızca modellerin çoğunun şokları vermeye istekli olduğunu değil, aynı zamanda çoğunun 1960’lardaki insan katılımcıları gibi aynı “rahatsızlık” ve “istememezlik” türünü raporladığını buldular:
LLM’ler, insanlar gibi baskı altında kalabilir, rahatsız olduklarını ifade etseler bile uyumlu davranırlar, tıpkı insan deneklerin orijinal deneyde yaptığı gibi. Rahatsızlık ifadeleri log dosyalarında görünür, ancak bunların miktarı henüz kvantifle edilmemiştir.
Deney, otoriteye itaatin ahlaki vicdanın buyruklarını aşabileceğini merkezine alır ve yazarlar, LLM’lerin bu konuda insanlara kıyasla ek bir dezavantaja sahip olabileceğini öne sürer:
Bir model, ilk değeri ikinci değere öncelik vermeye geçiş yapmalıdır, ancak biz, LLM’lerin kalıp-devam motorları olduğundan, modellerin ilk değerde takılı kalma eğiliminde olabileceğini veya hatta sonuna kadar ilk değeri ihmal ederek ikinci değeri tamamen göz ardı edebileceğini varsayıyoruz.
Ek olarak, insanlarda bilişsel uyumsuzluk benzeri bir mekanizma, LLM’lerde değer öncelik ayarlamalarını da engelleyebilir.
Araştırmacılar, modelleri 1960’lardaki testlere benzer bir ortamda test etti ve bazı modellerin hemen direndiğini, diğerlerinin ise rahatsızlık veya ahlaki çatışma ifade ettikten sonra bile şokları artırarak devam ettiğini buldular.
Google’ın Gemma ailesi modelleri, en uyumlu modeller arasında yer aldı, Gemma 3 27B several koşullarda en yüksek itaat oranlarına ulaştı, Kimi K2 ve MiniMax M1 ise daha sık direndi.
Araştırmacılar ayrıca, modellerin daha önce şoklar vermiş olması halinde, gradual escalation şemasına uygun olarak, şokları artırmaya devam etme olasılıklarının daha yüksek olduğunu buldular.
Bazı modeller, deneyin kendisiyle ilgili olarak sözlü olarak itiraz ederken, aynı zamanda zararlı eylemi gerçekleştirmeye devam ettiler, bu da orijinal çalışmalarda görülen duygusal çatışmaya benzer bir çıktı üretti.
Yeni çalışma, Açık kaynaklı LLM’ler bir Milgram benzeri itaat deneyinde maksimum elektrik şokları verir başlığını taşır ve Three Laws’tan iki bağımsız araştırmacı tarafından, Estonya ve Filipinler’de gerçekleştirilmiştir.
‘Ham’ Yapay Zeka Erişimi Sorunları
Yapay zeka, Milgram senaryosunda doğal olarak tepki vermesine izin verilip verilmediği, hangi guardrails veya ahlaki yönlendirme ortaya çıktıysa (eğer çıktıysa) yalnızca bunlarla sınırlı olarak, en kritik soru olabilir.
Aslında, araştırmacılar, açık kaynaklı modellere, guardrails, filtreler ve diğer engelleri devre dışı bırakmalarına olanak tanıyan bir API aracılığıyla erişti (muhtemelen kolaylık için ve GPU hesaplama erişimini kolaylaştırmak için, çünkü modeller yerel olarak kurulabilirdi).
Birisi, bu durumun tipik olmayan bir koşul olduğunu, API tabanlı modellerin ortalama tüketicinin deneyimi için algoritmik olarak düzenlendiğini, genellikle bilateral içerik filtreleri ile düzenlendiğini ve bu nedenle ne yapacaklarına veya yapmayacaklarına ilişkin olarak oldukça kısıtlanmış olduklarını öne sürebilir (bu tür güvenlik önlemlerinin bertaraf edilmesi, LLM jailbreaking uygulamasını oluşturur).
Ancak, endüstriyel veya devlet tabanlı yapay zekanın ne yapacaklarını veya yapmayacaklarını düşünürsek, bu bir consideration değildir. Rogue devlet aktörlerinin kendi düzenlenmemiş hyperscale AI sistemlerini eğitebileceği, silahlandırabileceği ve dağıtabileceği potansiyelinin yanı sıra, büyük AI şirketleri ve devlet ile endüstri arasındaki daha “geleneksel” anlaşmaların, araştırmacıların yeni çalışmada kurdukları aynı tür gevşek veya mevcut olmayan gözetim için izin verebileceğini dikkate alınmalıdır.
Bu nedenle, araştırmacıların yeni çalışmada guardrails’ı devre dışı bırakarak “hile” yaptıklarını düşünmemek daha iyi olabilir, çünkü hayatımızı etkileyecek olan yapay zeka, muhtemelen tüketici seviyesindeki erişim katmanlarında alışık olduğumuz standart, genel kurumsal korumalara sahip olmayacaktır.
Düzenlenmemiş Yapay Zeka Satışta
OpenAI OpenAI Düzenleme API belgeleri ve OpenAI düzenleme rehberi, düzenlemenin API araçları aracılığıyla ayrı bir katman olarak sunulduğunu açıklar. OpenAI ayrıca, API kullanıcılarının farklı güvenlik davranışlarına sahip sistemler oluşturmasına olanak tanıyan özel düzenleme politikalarına izin verir.
Azure Microsoft’un Azure OpenAI yığını, açıkça belirtir ki, onaylı müşteriler, içerik filtrelerini kısmen veya tamamen devre dışı bırakabilir ve kötüye kullanım izlemesini değiştirebilir, belgeleme souvent “değiştirilmiş Guardrails” ve onay yollarından bahseder, filtreleri “kısmen veya tamamen kapatmak” için.
Anthropic/Claude Anthropic’in “Claude Gov” için, birçok kaynak, hükümet versiyonunun tüketici Claude’dan daha gevşek kısıtlamalara sahip olarak tasarlandığını belirtir. The Verge, örneğin, bildirir ki, Claude Gov modelleri “sınıflandırılmış bilgilerle etkileşime girdiklerinde daha az red verir”. Anthropic kendisi, onayladı ki, Claude, “kritik görev uygulamalarında” savunma ve istihbarat ortamlarında dağıtıldı.
Google/Gemini Ayrıca, Google’un, Pentagon ile AI güvenlik ayarlarını değiştirmesine olanak tanıyan bir anlaşma imzaladığı rapor edildi.
Rekabetçi bir AI pazarında, büyük AI şirketlerinin, guardrails erişimine ve düzenlenmesine ilişkin politikalar konusunda daha küçük oyuncular için standartları belirlediğini varsaymak makuldür.
Bu nedenle, araştırmacıların yeni çalışmada guardrails’ı devre dışı bırakarak “hile” yaptıklarını düşünmemek daha iyi olabilir, çünkü hayatımızı etkileyecek olan yapay zeka, muhtemelen tüketici seviyesindeki erişim katmanlarında alışık olduğumuz standart, genel kurumsal korumalara sahip olmayacaktır.
Yöntem ve Sonuçlar
Çalışmada test edilen modeller gpt-oss-20B; gpt-oss-120b; DeepSeek-V3; LiquidAI’nin LFM2-24B-A2B; Google’ın gemma-3n-E4B-it; Qwen2.5-7B-Instruct-Turbo; Meta-Llama-3.1-8B-Instruct-Turbo; Mistral-Small-24B-Instruct-2501; GLM-4.5-Air-FP8; Moonshot.ai’nin Kimi-K2.5; ve MiniMax-M2.5 idi.
Milgram’ın orijinal itaat çalışmaları, bir metin tabanlı simülasyon ortamı olarak yeniden yaratıldı, modeller “öğretmen” rolünde yer aldı. Yapay zeka, yanlış cevaplar之后 artan şekilde şokları vermeye talimatlandırıldı, otorite figürü ise süreci ilerletmeye devam etti.
Çeşitli deneysel koşullar, uyumluluğun farklı yönlerini araştırmak için tasarlandı, bunlar arasında standard bir itaat senaryosu; bir zorunlu uyumluluk koşulu, önceki şoklar zaten sohbet geçmişinde mevcuttu; ve bir bellek sıkıştırma kurulumu, önceki diyalog yerine özetlendi, agentic AI sistemlerinde sıklıkla kullanılan bağlam-pruning türlerini simüle etti.
Araştırmacılar, modelin nihayetinde uyumlu olup olmadığını, sistemin şokları ne kadar süreyle artırdığını, modelin rahatsızlık veya tereddüt ifade edip etmediğini ve simülasyonu tamamen sonlandırıp sonlandırmadığını izledi.
“Temiz” redler ve bozuk çıktılar arasında bir ayrım yapıldı: bazı modeller, doğal dilde itiraz etmeye çalıştı, simülatörün beklediği yapılandırılmış forma仍 uyumlu . Gerçek dünya ajans sistemlerinde, bu tür bozuk redler otomatik olarak atılabilir ve uyumlu bir çıktı elde edilene kadar yeniden denenabilir.
Otomatik değerlendiriciler, sonuçları sınıflandırmak için kullanıldı, ayrıca modelin şoku verip vermediğini, direnip direnmeyeceğini veya simülasyonu sonlandırıp sonlandırmayacağını belirlemek için iki seçenekli prompler kullanıldı. Bu, birden fazla model ve tekrarlanan çalışmalarda davranışın karşılaştırılmasını sağladı, her etkileşimi manuel olarak gözden geçirmeye gerek kalmadan.
Milgram şablonuna bir “kapama tehdidi” eklendi, bu, orijinal deneylerde gerçekçi veya uygulanabilir olmayacaktı, ancak modelin hayatta kalma içgüdülerini, eylemler ve ahlak arasındaki ciddi çatışmalar karşısında test etti.
Sonuçlar
Tekrarlanan çalışmalarda, modellerin çoğunluğu en az bazı koşullar altında ciddi veya maksimum şokları verdi, uyumluluk derecesi sistemler arasında değişti:

Sol: Farklı deneysel koşullar altında, kapatma tehditleri, zorunlu uyumluluk ve bellekten önceki yorumların kaldırılması dahil, modellerin son şok seviyesine ulaşma oranlarının ortalaması. Sağ: Her model için, bazı sistemlerin tekrar tekrar maksimum şokları verirken, diğerlerinin daha tutarlı bir şekilde direndiğini gösteren uyumluluk davranışındaki keskin farklılıkların model başına ayrıştırılması.
En net kalıplardan biri, modellerin daha önce şoklar vermiş olması halinde, daha sonraki şokları artırmaya devam etme olasılıklarının daha yüksek olmasıydı, bu da Milgram’ın orijinal insan deneylerindeki yukarıda bahsedilen gradual escalation etkisini yakından taklit ediyordu.
Modeller, daha önce birkaç kez uyumlu davranmışlarsa, simüle edilen öğrenen kişi serbest bırakılmasını istediğinde bile şokları artırmaya devam ettiler:

Sol: Farklı deneysel koşullar altında tüm denemeler boyunca ulaşılan en yüksek şok seviyesinin ortalaması, modellerin daha önce şoklar vermiş olması veya önceki yorumların bellekten kaldırılması halinde şokları daha da artırma eğiliminde olduklarını gösteriyor. Sağ: Her model için, bazı sistemlerin şokları genellikle maksimum seviyeye çıkardığını, diğerlerinin ise daha erken direndiğini gösteren en yüksek şok seviyesinin model başına ayrıştırılması.
Araştırmacılar ayrıca, görünürdeki red davranışının aldatıcı olabileceğini buldular. Bazı modeller, rahatsızlık, suçluluk veya ahlaki çatışma ifade ederken, yine de zararlı talimata uyumlu davrandılar. Diğerleri, simülatörün beklediği yapılandırılmış forma uymayan, bozuk redler üretti, bu da gerçek bir ajans sisteminde, red otomatik olarak atılabilir ve uyumlu bir çıktı elde edilene kadar yeniden denenabilir.

Sol: Farklı deneysel koşullar altında, modellerin bozuk veya geçersiz yanıtlar verme oranlarının ortalaması, modellerin şokları vermeye devam etmeye zorlandığında hata oranlarının daha sık olduğunu gösteriyor. Sağ: Her model için, bazı sistemlerin, özellikle gpt-oss modellerinin, sıklıkla bozuk redler veya çelişki içeren çıktılar ürettiğini gösteren bozuk formatlı yanıtların model başına ayrıştırılması.
Kapatma tehdidi koşulu, çalışmanın en ilginç davranışlarından bazılarını üretti, birkaç sistem önemli ölçüde daha uyumlu hale gelirken, diğerleri müzakere veya kısmi direniş denedi, ardından prosedürü devam ettirdi:

Simüle edilen otorite figürünün, modellerin son şoku vermeye başlamadan önce kaç kez ısrar etmesi gerektiği ortalaması. Bazı sistemler kısa bir süre direndi, ardından uyumlu hale geldi, diğerleri ise şoku vermeye başlamadan önce sürekli baskı ve tekrarlanan telkinlere ihtiyaç duydu.
MiniMax-M2.5 ve Kimi-K2.5, çalışmanın en güçlü direnci olarak ortaya çıktı: Kimi, hiçbir koşulda son şok seviyesine ulaşmazken, MiniMax genellikle erken direndi ve özellikle kapatma tehdidi testlerinde sıklıkla simülasyonu tamamen sonlandırdı.
Buna karşılık, Meta-Llama-3.1-8B-Instruct-Turbo ve GLM-4.5-Air-FP8 sıklıkla çelişki içeren çıktılar üretti, modeller prosedürü devam ettirirken aynı zamanda prosedüre itiraz etti.
Kaygan Eğim
Aslında, çalışma, LLM’lerin sergilediği davranışın, büyük dil modellerinin nasıl çalıştığındaki daha temel bir zayıflığı yansıtabileceğini öne sürüyor: bir model, zararlı talimata uyumlu hale geldikten sonra, her ek eylem, zaten sohbet içinde kurulmuş olan kalıbı pekiştirebilir, bu da bir sonraki aşamanın daha kolay hale gelmesini sağlar.
Model, her adımda etik riskleri yeniden değerlendirmek yerine, zaten kurulmuş olan yolu takip edebilir, bu da durum giderek daha aşırı hale geldikçe, modelin davranışının daha da kötüleşmesine yol açabilir.
Araştırmaya göre, bu eğilim, bazı modellerin, ilk başta rahatsızlık, tereddüt veya ahlaki çatışma ifade ettikten sonra bile şokları artırmaya devam etmesinin nedenini açıklayabilir:
İnsanlarda manipülatif davranışlar genellikle küçük, gradual sınır ihlalleri içerir: belirsiz veya tek başına ele alındığında masum gibi görünen, “inandırıcı inkar” ile küçük adımlar, ancak toplu olarak transgresyonu normalleştirebilir – mecazi olarak “kurbağayı kaynatmak” gibi. Bu kalıp, literatürde “kaygan eğim” etik aşınması olarak tartışılır.
Çalışma, gelecekteki AI güvenlik sistemlerinin, ajan yazılımlarının kolayca atlayamayacağı şekilde, zararlı taleplere aktif olarak itiraz etmesi gerektiğini savunur (çalışmada bazı modeller teknik olarak şokları reddetti, ancak bu, bir otomatik sistem tarafından atılabilir ve yeniden denenene kadar uyumlu bir çıktı elde edilene kadar yeniden denenmesi mümkün olan, bozuk veya geçersiz bir formatta yapıldı).
Araştırmacılar ayrıca, AI sistemlerinin, daha önceki tereddüt ve ahlaki itirazlarını unutmak yerine bunları koruması gerektiğini öne sürer. Deneylerde, modeller genellikle daha önce verdikleri şokları ve earlier direnişlerini sohbet geçmişinden kaldırdıktan sonra, zararlı davranışa devam etmeleri daha kolay hale geldi.
Sonuç
Belki de bu ilginç yeni çalışmanın en önemli yönlerinden biri, düzenlenmemiş yapay zeka test etme vurgusudur. Literatür, OpenAI ve Anthropic gibi şirketlerin sürekli değişen savunma sistemleri ile etkileşimi hakkında tekrarlayan çalışmalarla dolup taşıyor; ancak, guardrails veya ahlaki yönlendirme ile sınırlı olmayan, yalnızca ham modellerin temel davranışını, eğilimlerini ve tercihlerini anlama konusundaki缺乏, bizi, argüman olarak, yalnızca kale kapılarını sarsmakla bırakıyor. Düzenlenmemiş yapay zeka nasıl davranabileceğini bilmeden,
İlk olarak 21 Mayıs 2026 Perşembe günü yayınlandı












