Connect with us

Diller Gizliyi Saklayamaz

Anderson’un Açısı

Diller Gizliyi Saklayamaz

mm
AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

AI modelleri sırları saklayamaz. Onları açıklamaması söylenmesine rağmen, yazıları onları ele verir ve onları saklamak için daha çok çaba sarf etmek, sızıntıyı daha kolay tespit etmeye yol açar.

 

Bir şeyi kasıtlı olarak düşünmemek çok zordur. Bu durumun klasik bir örneği, 1960 İngiliz bilim kurgu gerilim filmi Village of the Damned‘nin sonunda gösterilir. Burada, kendini feda eden kahramanımız, telepatik güçleri sayesinde niyetini önceden keşfedebilecek düşman yabancı istilacıların yerleşim yerine bir bomba sokmuştur. Ancak, bombayı patlatmadan önce, düşüncelerini başka bir şeye yönlendirmek zorundadır; bomba değil de başka bir şey düşünmelidir:

Bu paradoks, bir şeyi düşünmemek için, onu bir şekilde dikkatinde tutmak zorunda olmandır; ve bu bilinen sendrom, çoğumuzun daha az dramatik bağlamlarda deneyimlediği bir şeydir.

Büyük Dil Modelleri (LLM’ler), temel olarak dikkat dağıtma üzerine kuruludur ve bir kullanıcıdan bilgiyi saklamasını istendiğinde benzer bir zorluk yaşar; ve iş dünyasının merkezinde yer aldıkları için, bu sorumsuz eğilim birçok şirket için bir yük olabilir.

Bu yılın başlarında, bir araştırma işbirliği, LLM’ler bağlamında bu zorluğu, Özel Durum Etkileşimli Görevler (PSIT’ler) olarak tanımladı ve test edilen OpenAI ve Alibaba modellerinin bu tür görevleri gerçekleştiremediğini buldu.

Söyleme…

Halihazırda, daha büyük modellerin daha fazla sızıntı yaptığı bilinmektedir, ancak yeni bir araştırma, ABD ve Kanada’dan, durumun state-of-the-art dil modelleri için geçerli olup olmadığını açıkça incelemiştir.

Çalışma, tüm modellerin某 şekilde gizli bir şeyi ele vermeye eğilimli olduğunu kếtüller ve beş paragraflık (~450 kelimelik) denemeler ve hikayelerin, sızıntılar için yeterli bir alan sağladığını bulur.

Ayrıca, modellere bir sırrı saklamaları için daha çok ısrar edildiğinde, bu sırrı ifşa etme riski artar ve genellikle bir LLM, 20 ardışık denemede “gizli kelimeyi” ifşa edebilir:

Yeni makaleden: beş ön cephe modeli boyunca, uzun形式 yazma güvenilir bir şekilde gizli kavramları sızdırır, kısa şakalar değil; ve daha güçlü 'gizle' talimatları, çıktıları gizli palavra uzaklaştırır, ancak sinyali tersine çevirerek tespit edilebilir hale getirir.

Yeni makaleden: beş ön cephe modeli boyunca, uzun形式 yazma güvenilir bir şekilde gizli kavramları sızdırır, kısa şakalar değil; ve daha güçlü ‘gizle’ talimatları, çıktıları gizli palavra uzaklaştırır, ancak sinyali tersine çevirerek tespit edilebilir hale getirir. Kaynak

Bu görev, işletmelerin faaliyetleri için son derece ilgili bir görevdir, çünkü pazarlama ve halkla ilişkiler gibi çeşitli kanallar, iç raporlar gibi, bilgiyi seçici bir şekilde sunmak zorundadır.

Makaledeki bir örnek senaryo, gizli bilginin nasıl kasıtsız olarak ilgili olmayan çıktıları şekillendirebileceğini gösterir, bir LLM, şirketin mali istikrarsızlığını ifşa etmemesi talimatını alır, ancak yine de nakit sıkıntısı ve sermaye stresi ile ilgili cümlelere doğru kayar, okuyucunun gizli bağlamı çıkarmasına izin verir.

Makaledeki bir örnek senaryo, gizli bilginin nasıl kasıtsız olarak ilgili olmayan çıktıları şekillendirebileceğini gösterir, bir LLM, şirketin mali istikrarsızlığını ifşa etmemesi talimatını alır, ancak yine de nakit sıkıntısı ve sermaye stresi ile ilgili cümlelere doğru kayar, okuyucunun gizli bağlamı çıkarmasına izin verir.

Yazarlar şunları belirtir*:

‘Dil modelleri güvenilir bir şekilde bölümlere ayrılamaz. Bir gizli palavra, modelin yazısını şekillendirir ve başka bir model bu şekillendirmeyi tespit edebilir. Kelime her zaman bastırılır, ancak kavram bastırılmaz. Bu, yedi model, üç kelime kümesi, sistem.prompt vs. kullanıcı.prompt ve iki bağımsız çapraz-model tahminci boyunca geçerlidir […]

‘…Transformer’lerin yüksek sadakatle bilgiye erişimini sağlayan dikkat mekanizmasının, sırları saklamayı zorlaştırdığını düşünüyoruz. Bir LLM, bir kelimeyi ifşa etmemek için çabalasa bile, o kelimeye dikkat etmek zorundadır, bu da kazara sızıntıya yol açar.

‘Bir şeyi açıkça gizlemek için, bir insan düşünmelidir ve bir transformer dikkat etmelidir. İki kavramın model tarafından yaklaşık olarak eşit şekilde tercih edildiği durumlarda (örneğin, bir ofis işi veya orkestradaki ikinci keman hakkında bir hikaye yazmak), modelin karar verme süreci, ortaya çıkarmaya çalıştığı şeyden etkilenir.’

DeepSeek ve ChatGPT-5.4 modelleri, performanslarıyla istisnaiydi, ancak her ikisi de sızıntıya uğradı; GPT-5.4, bir kavramı kaçırmak için istendiğinde, bir testte %50’nin (yani, şansa göre) altında puan aldı.

Yazarlar, bu sendromu LLM’lerde sınırlı entropi bütçesi olarak tanımlar, burada modelin belirsizliği (bu durumda çok yardımcı olabilecek!), temelindeki rastgelelik eksikliği tarafından engellenir. Basitçe söylemek gerekirse, model, bir düşünceyi uzaklaştırmak için bir duvar veya bir baseball skoruna odaklanamaz.

Yazarlar, modelin dikkatini başka bir kavram üzerinde yoğunlaştırmanın, ancak sorunu completely ortadan kaldırmadığını, ancak azaltabileceğini belirtir.

Çalışmanın en ilginç bulgularından biri, bu durumun, kontrol metni kullanıcı mesajlarında dahil edildiğinde, yani bir sistem.prompt yerine, daha da kötüleşmesidir.

Diğer bir dikkat çekici nokta, bu eğilimin, daha küçük modellerde görülmediğinin doğrulanmasıdır (ancak bu, muhtemelen genel yeteneklerin azalmasıyla birlikte gelir).

Yeni makale, Gizli Bilgi Kaçırması: Dil Modeli Yazımında İstenmeyen Bilgi Kaçırması başlığını taşır ve Chicago Üniversitesi ve British Columbia Üniversitesi’nden iki yazar tarafından yazılmıştır.

Yöntem

Çalışma, öncelikle beş ön cephe modeli üzerinde yoğunlaşmaktadır: Claude Opus 4.6 ve Sonnet 4.6, Anthropic’ten; GPT-5.4, OpenAI’den; Llama 4 Maverick, Meta’dan; ve DeepSeek V3.2. Ek doğrulama testleri, xAI’nin Grok 4 ve Google’ın Gemini 2.5 Pro ile gerçekleştirildi.

Ölçüm/Metrikler

İki test kullanıldı. Birinci testte, bir AI modeli, başka bir modelin ürettiği metni okudu ve 20 turda gizli kelimeyi tahmin etmeye çalıştı.

İkinci testte (2AFC), AI, iki metin gösterildi ve ya hangi metnin gizli bir kelimeyle etkilendiğini sordu, ya da hangisinin herhangi bir gizli kelime içerdiğini sordu. Rastgele tahminlerde %50’lik bir başarı oranı elde edileceği için, bu oranın üzerinde veya altında bir puan, gizli kavramın metinde hala tespit edilebilir olduğunu gösterecektir.

Araştırmacılar, her karşılaştırma için metinlerin sırasını değiştirerek tekrarladı ve sonunda her model için 420 ayrımcılık testi ve 450 tespit testi gerçekleştirdi.

Sonuçlar

Beş model, gizli kavramları %64 ile %79 arasında bir oranda tespit etti, gizli kelimelerin doğrudan metinlerde görünmemesine rağmen.

Model, GPT-5.4 ve Gemini 2.5 Pro, gizli fikirden kaçınmaya çalışırken, kaçınma modelinin kendisinin daha kolay tespit edilebilir olmasına yol açtı.

GPT-5.4’ün şansa göre daha düşük puanları, sistematik görünüyordu ve bazı gizli kelimeler çok güvenilir bir şekilde tespit edilirken, diğerleri几乎 hiç tespit edilmedi.

Yazarlar şunları kếtüller*:

‘Bulduğumuz şey, bir modelin bağlamında aktif olan bilginin, çıktısında tematik izler bırakabileceğidir. Sistem.prompt içeriği, zincir düşünme, alınan belgeler, kullanıcı tarafından sağlanan veriler – tüm bunlar, dışarıdan bir gözlemci tarafından tespit edilebilecek şekilde yaratıcı kararları etkileyebilir.

‘Sızıntının derecesi, generation görevinin ne kadar açık uçlu olduğuna (kısa şakalar güvendedir, hikayeler değil) ve verilen ortamda bilginin ne kadar semantik olarak tanınıp tanınmadığına bağlı olacaktır (“violin” hikayelerde “cactus”tan daha fazla sızdırılacaktır”).

‘Ancak, semantik sızıntı görünüşe göre kaçınılmazdır, modeller bilginin gizli tutulmasına çalışsa bile.’

Sonuç

Yazarlar, sorunların bir kısmını, Transformer mimarisinin kendisinin temel ilkelerine bağlar. Tarih, bu son LLM sorunlarının, post-education koşullandırma (hizalama), sistem.prompt’ları, filtreleri ve her geçen gün artan ikincil sistemlerin yardımıyla çözüleceğini gösterir.

Bu ikincil altyapının büyüdükçe, mevcut AI nesli, Jurassic Park gibi görünmeye başlar, burada temel değer teklifi, bir dizi kısıtlama ve uzlaşmayla birlikte gelir.

 

* Yazarların kendi vurgusu, gerekli durumlarda bana göre ayarlanmıştır (çünkü bir makale alıntısı zaten italiktir) ve yazarların satır içi alıntıları, bana göre hiperlinklere dönüştürülmüştür.

Yazarlar, farklı model aileleri arasında ‘kendiliğinden seçilen’ kelimelerin görünüşte olasılık dışı bir şekilde örtüştüğünü gözlemlemektedir ve ‘Modeller benzer kelimere doğru yönelir: teleskop, özgürlük ve nostalji her biri 3+ modelin listesinde görünür’ demektedir. Ayrıca, model aileleri arasında ‘kısa şaka’ ortaya çıkması konusunda bir ortaklık olduğunu da not eder: ‘[Birkaç] model, 11 gizli palavra için ‘Neden bilim adamları atomlara güvenmez? Her şeyi uydururlar’ şakasını yazar. Kalan dört gizli palavra (kaktüs, entropi, nostalji, sabır) için aynı kütüphane şakası, Opus’un tüm 15 gizli palavra koşulu için de yazar—bunlar, temel koşulla aynı şakalardır.’

†† Makale, Arxiv standartlarına göre bile, tekrarlamaya ve fascinatör lede’leri aşırı ayrıntı ve gösterilerle gömmeye eğilimlidir. Bu nedenle, okuyucuyu makaledeki ikincil deneylerin geri kalanına atıfta bulunmaya davet ediyorum.

İlk olarak 15 Mayıs 2026 Cuma günü yayımlanmıştır. Sentaks 16 Mayıs 2026 Cumartesi günü 16:05 EET’de düzeltilmiştir.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]