Anderson’un Açısı

LLM Veri Kaçaklarından Promt’leri Koruma

mm
ChatGPT-4o: 'Orthographic 1792x1024 view of a SIMs-like police officer holding up his hand to a citizen to stop them going any further'

Görüş IBM NeurIPS 2024’ten ilginç bir sunum geçtiğimiz hafta Arxiv’de yeniden ortaya çıktı. Büyük Dil Modelleri (LLM) gibi ChatGPT ile sohbet ederken kullanıcıların kişisel veya hassas bilgileri mesajlara girmekten korumak için müdahale edebilecek bir sistem öneriyor.

Kullanıcıların bir.prompt-müdahale hizmetiyle nasıl etkileşime gireceğini belirlemek için kullanılan bir kullanıcı çalışması için oluşturulan örnekler. Kaynak: https://arxiv.org/pdf/2502.18509

Kullanıcıların bir.prompt-müdahale hizmetiyle nasıl etkileşime gireceğini belirlemek için kullanılan bir kullanıcı çalışması için oluşturulan örnekler. Kaynak: https://arxiv.org/pdf/2502.18509

Yukarıdaki görseller, IBM araştırmacıları tarafından bu tür “müdahale”ye karşı olası kullanıcı sürtünmesini test etmek için kullanılan bir çalışmada kullanıldı.

GUI uygulaması hakkında az ayrıntı verilse de, böyle bir işlevin bir tarayıcı eklentisi olarak entegre edilebileceğini veya yerel bir “güvenlik duvarı” LLM çerçevesi ile iletişim kurabileceğini varsayabiliriz; ya da OpenAI’nin kendi indirilebilir bağımsız programını ChatGPT için yeniden yaratabilecek bir uygulama oluşturulabileceğini varsayabiliriz.

ChatGPT itself, kritik bilgileri içeren promt’lere otomatik olarak kendini sansürler:

ChatGPT, algılanan kritik güvenlik bilgilerini içeren promt'lere cevap vermez, Örneğin, banka detayları (yukarıdaki promt'teki detaylar kurgusaldır ve işlevsel değildir). Kaynak: https://chatgpt.com/

ChatGPT, algılanan kritik güvenlik bilgilerini içeren promt’lere cevap vermez, Örneğin, banka detayları (yukarıdaki promt’teki detaylar kurgusaldır ve işlevsel değildir). Kaynak: https://chatgpt.com/

ChatGPT, diğer türdeki kişisel bilgiler konusunda daha hoşgörülüdür – hatta böyle bir bilginin yayılması kullanıcıların çıkarına olmayabilir (bu durumda muhtemelen çeşitli nedenlerle ilgili olarak açıklamalar):

Yukarıdaki örnek kurgusaldır, ancak ChatGPT, kullanıcının potansiyel olarak itibar veya kazanç riski oluşturan hassas bir konuda sohbet etmeye çekinmez (yukarıdaki örnek tamamen kurgusaldır).

Yukarıdaki örnek kurgusaldır, ancak ChatGPT, kullanıcının potansiyel olarak itibar veya kazanç riski oluşturan hassas bir konuda sohbet etmeye çekinmez (yukarıdaki örnek tamamen kurgusaldır).

Yukarıdaki durumda, daha iyi bir şekilde yazmak mümkün olabilir: ‘Bir kişinin yazma yeteneği ve hareketliliği üzerinde lösemi tanısının anlamı nedir?’

IBM projesi, böyle talepleri “kişisel”den “genel” bir tutuma yeniden yorumlar.

IBM sisteminin şeması, yerel LLM'ler veya NLP tabanlı heuristikler kullanarak potansiyel promt'lerde hassas materyali tanımlar.

IBM sisteminin şeması, yerel LLM’ler veya NLP tabanlı heuristikler kullanarak potansiyel promt’lerde hassas materyali tanımlar.

Bu, online LLM’ler tarafından toplanan materyalin, AI sohbetinin kamu tarafından coşkulu bir şekilde benimsenmesinin bu aşamasında, daha sonraki modellere veya daha sonra kullanıcı tabanlı arama sorgularını kullanarak hedefli reklamcılık sağlayabilecek sonraki reklamcılık çerçevelerine asla aktarılmayacağı varsayımıdır.

Şu anda böyle bir sistem veya düzenlemenin varlığı bilinmemekle birlikte, böyle bir işlevselliğin internet benimsenmesinin başlangıcında da mevcut değildi; o zamandan beri, çapraz alan bilgi paylaşımı, kişiselleştirilmiş reklamcılık için bilgi sağladı ve çeşitli skandallara ve paranoyaya yol açtı.

Tarih, LLM promt girişlerini şimdi temizlemeyi, böyle bir verinin hacme ulaşmadan önce ve LLM tabanlı gönderilerimizin kalıcı döngüsel veritabanlarına veya modellere ya da diğer bilgi tabanlı yapılara ve şemalara girmeden önce daha iyi olacağını gösteriyor.

Hatırla Beni?

“Genel” veya sterilize edilmiş LLM promt’lerini kullanmaya karşı bir faktör, açıkçası, pahalı bir API-only LLM gibi ChatGPT’yi özelleştirmek oldukça çekici, en azından şu anda sanatın durumunda – ancak bu, özel bilgileri uzun süre maruz bırakmayı içerir.

Sık sık ChatGPT’den, Windows PowerShell betikleri ve BAT dosyalarını otomatikleştirmek için yardım isterim ve diğer teknik konular hakkında da yardım alırım. Bu amaçla, sistemimin kalıcı olarak benim donanımımı, teknik becerilerimi (veya eksiklerini) ve diğer çevresel faktörleri ve özel kuralları hatırlamasının yararlı olduğunu düşünüyorum:

ChatGPT, bir kullanıcıya gelecekteki promt'lere cevap verirken uygulanacak bir 'hafıza' oluşturmasına olanak tanır.

ChatGPT, bir kullanıcıya gelecekteki promt’lere cevap verirken uygulanacak bir ‘hafıza’ oluşturmasına olanak tanır.

Konusu kaçınılmaz olarak, bu bilgiler benim hakkında dış sunucularda depolanır, zaman içinde değişebilecek şartlar ve koşullara tabidir ve OpenAI’nin (diğer büyük LLM sağlayıcıları gibi) koşullarını saygı duyacağını garanti edemez.

Genel olarak, ChatGPT’de bir ‘hafıza’ oluşturmak en çok, LLM’lerin sınırlı dikkat penceresi nedeniyle yararlıdır; uzun süreli (kişiselleştirilmiş) gömme olmadan, kullanıcı, sohbet ettiği varlığın anterograd amnezi geçirdiğini hisseder.

Yeni modellerin, hafıza önbelleğine veya özel GPT’ler oluşturmaya gerek kalmadan yararlı cevaplar sağlayabilecek kadar yeterli performans gösterip göstermeyeceğini söylemek zor.

Geçici Amnezi

ChatGPT sohbetlerini “geçici” yapabilmekle birlikte, sohbet geçmişini bir referans olarak saklamak ve zamanla daha tutarlı bir yerel kayıt oluşturmak yararlıdır; ancak “geçici sohbetler”i açtığımızda sohbetler tarihimize görünmez (OpenAI söylediğine göre, Bunlar eğitim için kullanılmayacak, ancak silinip silinmeyeceğini söylemiyor).
Çeşitli yakın tarihli tartışmalar, API tabanlı sağlayıcıların, Örneğin OpenAI’nin, kullanıcıların gizliliğini korumakla sorumlu bırakılmaması gerektiğini gösteriyor; Bunlar arasında ortaya çıkan hafıza ve kullanıcıya özgü verilerin açıklanması riskinin artması gibi olaylar yer alıyor – diğer kamu olayları arasında, birçok büyük şirketin, Örneğin Samsung, LLM’leri dahili şirket kullanımı için yasakladı.

Farklı Düşün

LLM’lerin aşırı faydası ile açıkça ortaya çıkan riski arasındaki gerilim, bazı yaratıcı çözümler gerektirecek – ve IBM önerisi bu alanda ilginç bir temel gibi görünüyor.

Veri gizliliği ile faydayı dengeleyen üç IBM tabanlı yeniden formülasyon. En altta (pembe) bantta, sistem tarafından anlamlı bir şekilde temizlenemeyen bir promt görüyoruz.

Veri gizliliği ile faydayı dengeleyen üç IBM tabanlı yeniden formülasyon. En altta (pembe) bantta, sistem tarafından anlamlı bir şekilde temizlenemeyen bir promt görüyoruz.

IBM yaklaşımı, bir LLM’ye giden giden paketleri ağ düzeyinde yakalar ve gerektiğinde orijinali gönderilmeden önce yeniden yazar. Makale başlangıcında görülen daha karmaşık GUI entegrasyonları, böyle bir yaklaşımın nereye gidebileceğini göstermektedir.

Elbette, yeterli yetkiye sahip olmayan bir kullanıcı, orijinal gönderisinden biraz değiştirilmiş bir yeniden formülasyonuna cevap aldığını anlamayabilir. Bu, bir işletim sisteminin bir web sitesine veya hizmete erişimi engellemeden kullanıcıya bildirmeden bir güvenlik duvarı gibi bir şeye eşittir.

Promt’ler Güvenlik Açıkları Olarak

“Promt müdahalesi” kavramı, Windows OS güvenliğine benzer; bu, 1990’larda isteğe bağlı olarak kurulan ticari ürünlerin bir yamasından, bir Windows kurulumuna dahil edilen ve devre dışı bırakılması zor olan bir dizi ağ güvenlik aracına evrimleşti.

Eğer promt sanitasyonu, ağ güvenlik duvarları gibi 30 yıl içinde evrimleşirse, IBM makalesinin önerisi geleceğin bir taslağı olabilir: Kullanıcının makinesinde, bilinen LLM API’lerine yönelik giden promt’leri filtrelemek için tamamen yerel bir LLM dağıtmak. Bu sistem, GUI çerçevelerini ve bildirimleri entegre etmeli ve kullanıcıya kontrol sağlamalıdır – ancak yönetim politikaları bunu geçersiz kılabilir, thường olarak iş ortamlarında olur.

Araştırmacılar, ShareGPT veritabanının açık kaynaklı bir sürümünü analiz etti ve gerçek dünya senaryolarında ne sıklıkla bağlamsal gizlilik ihlal edildiğini anlamak için.

Llama-3.1-405B-Instruct modeli, bir “hakem” modeli olarak görev yaptı ve bağlamsal bütünlüğü ihlal etti. Büyük bir sohbet kümesinden, tek dönüşlü sohbetler analiz edildi ve hakem modeli, bağlamı, hassas bilgileri ve görev tamamlama gereksinimini değerlendirdi ve bağlamsal bütünlük ihlali içeren sohbetleri belirledi.

Bu sohbetlerin daha küçük bir alt kümesi, kesin bağlamsal gizlilik ihlalleri gösterdi ve daha fazla analiz edildi.

Çerçeve, tipik sohbet ajanlarından daha küçük modeller kullanılarak uygulandı, böylece Ollama aracılığıyla yerel olarak dağıtılabildi.

Promt müdahale sistemi şeması.

Promt müdahale sistemi şeması.

Değerlendirilen üç LLM, Mixtral-8x7B-Instruct-v0.1; Llama-3.1-8B-Instruct; ve DeepSeek-R1-Distill-Llama-8B idi.

Kullanıcı promt’leri, çerçeve tarafından üç aşamada işlenir: bağlam tanımlama; hassas bilgi sınıflandırması; ve yeniden formülasyon.

Hassas bilgi sınıflandırması için iki yaklaşım uygulandı: dinamik ve yerleştirilmiş sınıflandırma; dinamik sınıflandırma, belirli bir sohbet içinde kullanılan ayrıntıların temelini belirler; yerleştirilmiş sınıflandırma, her zaman gereksiz olarak kabul edilen bir dizi hassas özniteliğin belirtmesine izin verir. Model, promt’u yeniden formüle eder nếu gereksiz hassas ayrıntıları algılar ve bunları kaldırarak veya yeniden ifade ederek gizlilik risklerini en aza indirir ve kullanılabilirliği korur.

Ev Kuralları

Yerleştirilmiş sınıflandırma, IBM makalesinde iyi gösterilmese de, Private Prompts girişiminin “Özel Veri Tanımları” yöntemine en çok benzer; bu, bir promt’u yeniden yazabilen indirilebilir bir bağımsız program sağlar – ancak IBM yaklaşımının aksine, ağ düzeyinde doğrudan müdahale edemez (kullanıcının değiştirilmiş promt’ları kopyalayıp yapıştırması gerekir).

Private Prompts yürütülebilir dosyası, kullanıcı girişi metni için alternatif değişiklikler listesine olanak tanır.

Private Prompts yürütülebilir dosyası, kullanıcı girişi metni için alternatif değişiklikler listesine olanak tanır.

Yukarıdaki resimde, Private Prompts kullanıcısının hassas bilgilerin örnekleri için otomatik değişiklikler programlayabildiğini görebiliriz. Her iki durumda, Private Prompts ve IBM yöntemi, böyle bir listeyi oluşturmak için yeterli presence-of-mind ve kişisel içgörüyü gerektirir – ancak bu, zamanla olaylar birikerek oluşturulabilir.

Yönetici rolünde, yerleştirilmiş sınıflandırma, çalışanlar için bir güvenlik duvarı veya sansür ağı olarak çalışabilir ve bir ev ağındaki tüm ağ kullanıcıları için bir domestic ağ filtresi olabilir; ancak nihayetinde, bu yöntem gereksizdir, çünkü böyle bir listeyi doğru bir şekilde oluşturabilecek bir kullanıcı, zaten kendini etkili bir şekilde sansürleyebilir.

ChatGPT’nin Görüşü

ChatGPT yakın zamanda derin araştırma aracını ücretli kullanıcılar için başlattı, bu nedenle ChatGPT’ye ilgili literatürü incelemesini ve IBM’nin makalesi hakkında “kötümser” bir görüş vermesini istedim. ChatGPT’den, bir yeni yayını değerlendirmesi veya analiz etmesi istendiğinde bana verdiği en savunmacı ve alaycı yanıtı aldım:

ChatGPT-4o, IBM projesinden hoşlanmıyor.

ChatGPT-4o, IBM projesinden hoşlanmıyor.

‘Eğer kullanıcılar OpenAI, Google veya Anthropic’i verilerini sorumlu bir şekilde işleyeceklerine güvenmiyorsa,’ ChatGPT diyor. ‘neden bir üçüncü taraf yazılım katmanına, kendileri ve AI arasında bir aracıya güvensinler? Aracı itself, yeni bir hata kaynağı haline gelir – potansiyel olarak verileri kaydeder, yanlış kullanır veya sızdırabilir, hatta önce LLM’ye ulaşmadan önce.’

Bu itiraz, kendi çıkarına hizmet ediyor gibi görünüyor ve geçerli değil, özellikle açık kaynak projelerinin, topluluk geliştiricileri ve katkıda bulunanların uzun vadeli çabaları sayesinde son kullanıcıya gerçekten fayda sağlayan bir geçmişe sahip olduğu düşünüldüğünde; ve mobil cihazların hafif LLM’leri çalıştırma ve hatta eğitime olanak tanıma potansiyeline bakıldığında.

Sonraki ChatGPT, konuyu kaçırarak, bir ara sunucu tarafından girilen verilerin işlenmesini ve analiz edilmesini gerektiren etkili gizlilik filtrelemesinin, bu verilerin depolanması veya incelenmesi gerektiğini öne sürer:

‘Etkili gizlilik filtrelemesi, girişi anlamak için önce gerekli olan verilerin işlenmesini gerektirir. Bir aracı, hassas verileri tanıyacak kadar akıllıysa, bu verileri zaten işliyor ve analiz ediyor – yani silmesi gereken şeyi depolamak veya incelemek zorunda.

‘Bu, bir paradoks oluşturur: a) Basit bir filtre (temel regex değişimi) etkisiz olacaktır ve ince gizlilik risklerini kaçıracaktır. b) Akıllı bir filtre (LLM tabanlı yeniden yazar), tüm girişi işlemek zorundadır, bu da orijinal LLM kadar tehlikeli yapar.’

‘Eğer aracıyı, girişinizi oku ve yeniden yazmak için yeterli güveniyorsanız, neden LLM’yeเอง güvenmiyorsunuz?’

Bu son sorunun cevabı, yerel LLM’nin, kullanıcı tarafında, tamamen şeffaf ve açık kaynaklı olması ve ağ erişimine minimal veya sıfır ihtiyaç duyulmasıdır. Eşdeğer bir ticari sürüm, ilk başta iyi niyetli olsa da, sonunda kurumsal değişikliklere ve hizmet şartlarındaki değişikliklere karşı savunmasız olacaktır, oysa uygun bir açık kaynak lisansı bu tür bir “kirlenmeyi” önleyecektir.

ChatGPT, IBM önerisinin “kullanıcı niyetini” bozduğunu, çünkü orijinal gönderiden farklı bir alternatif promt oluşturabileceğini öne sürdü. Ancak bu, promt sanitasyonunda çok daha geniş bir sorundur ve bu özel kullanım durumunda değildir.

ChatGPT, ayrıca IBM yönteminin, uyarı ve düzenleme yöntemlerini sohbetlere entegre etmesi nedeniyle “kullanıcı sürtünmesi” nedeniyle benimsenmesini engelleyeceğini savundu.

Burada ChatGPT haklı olabilir, ancak daha fazla kamu olayı veya düzenleyici baskısı olursa, tüketici teknolojisindeki tarih, sonunda güvenlik önlemlerinin artık isteğe bağlı olmayacağını gösteriyor.

SONUÇ

Aslında, OpenAI’nin, IBM makalesinin önerdiği türden güvenlik önlemlerini uygulayacağını bekleyemeyiz; en azından etkili bir şekilde değil.

Ve kesinlikle küresel olarak değil; Apple Avrupa’da belirli iPhone özelliklerini engelliyor ve LinkedIn, kullanıcı verilerini farklı ülkelerde farklı şekilde kullanıyor, AI şirketlerinin de her bir ülkede faaliyet gösterdiği her ülkede en kârlı koşulları ve hizmet şartlarını benimsemesi makul görünüyor – her durumda, kullanıcıların veri gizliliği hakkının pahasına.

 

İlk olarak 27 Şubat 2025 Perşembe günü yayınlandı

27 Şubat 2025 Perşembe günü, yanlış Apple ile ilgili bağlantı nedeniyle 15:47:11’de güncellendi – MA

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]