Bizimle iletişime geçin

Düşünce Liderleri

Ani Bir Enjeksiyon Saldırısı Önlenemez: Hayal mi Yoksa Gerçek Bir Endişe mi?

mm
Karanlık bir sunucu odasının ve üzerinde bir bilgisayar monitörünün görüntülendiği dijital 3 boyutlu bir görselleştirme.

Bu yazıda, okuyucuyu bir düşünce deneyine davet etmek istiyorum. Çok uzak olmayan bir gelecekte, belirli bir tür hızlı enjeksiyon saldırısının etkili bir şekilde önlenemez hale geleceğini savunacağım. Argümanım somut olmaktan ziyade spekülatif olacak, bu yüzden sizi herhangi bir şeye ikna etmeye çalışmıyorum. Bunun yerine, bu düşünceleri keşfetmeye davet ediyorum. Başlamadan önce, her etkileyici yazarın yapacağı gibi, satranç ve satranç motorları hakkında konuşmak istiyorum.

İnsanüstü Satranç Makineleri ve İnsan Deneyimi Hakkında Bir İddia

Satrancın diğer spor dallarında eksik olan güzel özelliklerinden biri de, hamle yapabilme yeteneğidir. objektif olarak Bir oyuncunun kalitesini veya gücünü ölçmek. ELO derecelendirme sistemi Bu amaçla kullanılan yöntemin kusurları olsa da, zaman içinde geçerliliğini koruyan çok iyi bir kaba tahmin sağlar. 2700 veya üzeri bir puan genellikle şu şekilde kabul edilir: Dünya standartlarında (Dünyanın en iyi 30 oyuncusu arasında). Dünyanın en iyi oyuncusu 2850'nin biraz altında. Hiçbir insan 2900 puanına ulaşamadı.

90'ların ortalarında, ilk yapay zeka motorunun (Deep Blue) belirli bir seviyeye ulaştığını gördük. Dünya standartlarında Bu dönüm noktasının pratik sonucu, her seviyedeki oyuncu tarafından pratik ve analiz için satranç motorlarının yaygın olarak benimsenmesi oldu. Aslında, motor kullanımı dünyanın en iyi oyuncuları için vazgeçilmez hale geldi. Bununla birlikte, bu dünya standartlarındaki motorların birkaç nesli boyunca, önerilen hamlelerini (yani çıktılarını) incelemek zorunluydu. Hatta insanların yanlarında bir motorla yarıştığı ve insan + makine kombinasyonunun tek başına makineden daha üstün kabul edildiği "ileri satranç" adı verilen özel bir format bile oluşturuldu.

Satranç motorlarının bu seviyeye ulaşması yaklaşık 20 yıl sürdü ve bu süreçte Derin Öğrenme ve Takviyeli Öğrenme alanlarında bazı önemli gelişmeler yaşandı. insanüstü (Yaklaşık 3200 ELO) seviyesindeydi. Ancak 2017 civarında bu seviye aşıldığında, çok şaşırtıcı bir şey oldu. Aslında iki şey oldu. Birincisi tamamen beklenen bir şeydi; motorlar, tüm pozisyonların %99'unda fiili "gerçek bilgi" kaynağı haline geldi. Pratikte bu, motorlara "kör güven çağına" girdiğimiz anlamına geliyordu. Günümüzde, bir insanın motordan önemli ölçüde daha iyi bir hamle önermesi neredeyse imkansız. "Gelişmiş satranç" ne kadar eğlenceli olsa da, artık anlamsız bir egzersiz; insanlar oyuna neredeyse hiçbir katkıda bulunmazdı. Ancak ikinci şey çoğu satranç oyuncusu için şok ediciydi. Bu insanüstü sinirsel (yani derin sinir ağı) motorlar bazen "romantik" olarak tanımlanabilecek bir tarzda oynardı. Başka bir deyişle, değeri ancak çok, çok hamle sonra, herhangi bir insanın veya dünya çapındaki motorun hesaplayabileceğinden çok daha ötede anlaşılabilecek hamleler yaparlardı. Motorların belirli pozisyonlar için bir "hissiyat" veya "sezgi" geliştirdiği hissi çok güçlüydü. Ancak bu sezgi, bir insanın asla kavrayamayacağı veya taklit edemeyeceği bir şeydir.

Başka bir deyişle, insanüstü bir sinir sistemi şu tür hareketler yapabilir: bilişsel ufkun ötesinde Bir insanın. Buradaki kritik nokta bu; sorun şu ki Açıklanabilirlik meselesi değil. Daha doğrusu, bir insan, bir motorun pozisyonu oynamadan ve birçok hamle sonraki sonucu gözlemlemeden, yani olası oyun dizilerinin tüm gidişatını ortaya koymadan neden bir hamle önerdiğini anlayamaz. Sonuç olarak, aşılmaz bir yetenek açığımız var. Bu, nesnel olarak Motor çıktısını inceleme yapmadan kabul etmek en uygunudur. İddiamı şu şekilde özetleyebilirim:

Satranç, insanüstü yapay zekanın bazı alanlarda etkili bir şekilde otonom olarak çalışabileceğinin varlığını kanıtlayan bir oyundur. Yapay zeka sisteminin insan incelemesi olmadan karar vermesini sağlamak, böyle bir sistemi devreye almanın en optimal yolu olacaktır.

İddiam bazılarına bariz veya sıradan gelebileceğinden, birkaç nüansı vurgulamak istiyorum. Somut, geri döndürülemez sonuçları olan karmaşık, kritik bir görevde insanüstü düzeyde performans sergileyen bir yapay zekâ sistemimiz olduğunu varsayalım. İddiamın iki sonucu vardır:

  1. Sistem, doğasında var olan risklere rağmen, insan müdahalesi olmadan göreve ilişkin kararlar almak üzere devreye alınacaktı.
  2. Bu tür bir sistemi izlemekten elde edilen bilgiler, zararlı bir kararı önleyemez; zarar zaten verilmiş olur.

Sistem çıktısı incelemesi ve izleme, ani enjeksiyon saldırılarına karşı savunmanın son iki katmanını oluşturmaktadır. Bu nedenle, varsayımsal ani enjeksiyon saldırımız, uygun sistemi hedefleyerek bu katmanları kolayca atlayabilir.

Bence bu oldukça gerçekçi bir senaryo. Belirli bir alanda insanüstü bir yapay zeka sistemi, genel yapay zeka (AGI) değildir ve çoğu uzman bu tür sistemlerin çok yakında ortaya çıkacağına inanmaktadır. Ayrıca kararların zamana duyarlı olduğunu varsaymamıza gerek yoktu, sadece görevin insan incelemesini imkansız kılacak kadar karmaşık olduğunu varsaymamız yeterliydi.

Elbette, şu ana kadar sadece iki savunma katmanını aştık ve neyse ki, birkaç tane daha geliştirildi. Geri kalanını ele almak için, hızlı enjeksiyonu savunmayı zorlaştıran temel unsurlara bakalım.

Acil Enjeksiyon Nedir?

Hızlı enjeksiyon Büyük Dil Modeli'nin (LLM) özel olarak hazırlanmış girdiler aracılığıyla manipüle edilmesi ve LLM'nin farkında olmadan saldırganın niyetlerini yerine getirmesine neden olması olarak düşünülebilir. Yapay zeka için sosyal mühendislik. En önemlisi, öyle değil geleneksel yazılım hatasıBir anlık enjeksiyon saldırısı, bir güvenlik açığını kullanır. LLM'nin doğasında var olan kırılganlıkLLM'ler hem sistem hem de kullanıcı istemlerini metin dizileri olarak işlediğinden, meşru ve zararlı talimatlar arasında doğal olarak ayrım yapamazlar. Bu nedenle güvenlik açığı, kazara değil, tasarım gereğidir.

Hızlı Enjeksiyon Teknikleri

Acil enjeksiyon genellikle şu şekilde kabul edilir: #1 risk LLM başvuruları için. Bunun birkaç nedeni var. En belirgin faktör şudur: enjeksiyon çeşitleri Geliştirilmiş teknikler. Kabaca dört kategoriye ayırdığımızda, en bilinen teknikler şunlardır:

  • Sözdizimi tabanlı: özel karakterler, emojiler veya alternatif dil kullanmak
  • dolaylı: harici kaynaklar (siteden alma), kodlama (base 64) veya çok modlu referans (resim içindeki metin) kullanılarak
  • “Hadi Rol Yapalım”: Rol yapma, varsayımsal durumlar, duygusal çağrı, etik çerçeveleme ve biçim değiştirme gibi yöntemlerle manipülatif bir üslup kullanmak.
  • Köreltmek: Model talimatlarını kaba kuvvet, pekiştirme veya olumsuz yönlendirme yoluyla "zorla kabul ettirmeye" yönelik açık bir girişim.

Çeşitlilik tek başına uygulama geliştiricileri için bir zorluk teşkil ederken, bu saldırılar da hızla gelişmeye devam ediyor. Aşağıdaki diyagramın sol tarafı 2023 yılının başlarındaki en son teknolojiyi, sağ tarafı ise günümüzdeki saldırıların doğasını göstermektedir.

Saldırı Vektörlerinin Evrimi

LLM uygulama geliştiricilerinin de bu standardı dikkate alması gerekmektedir. kullanılabilirlik ve güvenlik arasındaki denge hesaba katmak. Elbette her türlü uygun savunma katmanını devreye sokabilirlerdi ve tasarım deseniPeki, bunun bedeli ne? Savunma katmanları önemli ölçüde gecikmeye neden olur ve yanlış pozitifler (FP'ler) ortaya çıkarır; güvenli uyarıları yanlışlıkla kötü amaçlı olarak işaretler. Her iki faktör de kullanıcı deneyimini olumsuz etkiler. Sonuç olarak, pratikte bir miktar güvenlik açığı kaçınılmazdır ve "sihirli değnek" çözümü yoktur.

Ancak bu yazıda, bu bitmek bilmeyen kedi fare oyununa gerçekten ilgi duymuyorum. Daha ziyade, bir saldırının önlenemez olup olmadığını araştırıyorum. prensipte. Geliştirici/savunucu bakış açısından, tek bir kilit nokta var:

İstemde talimatların verilerden ayrılması, istemde enjeksiyon riskini ele almak için temel bir öneme sahiptir.

Değiş tokuşların bir faktör olmadığını ve herhangi bir savunma katmanının veya tekniğinin kullanılabileceğini varsayabiliriz. Bu (güçlü) varsayım altında, bir komut isteminde talimat-veri ayrımının mümkün olduğu bir senaryo oluşturmak mümkün müdür? fiilen imkansız?

DNA Benzetmesi

Konu, talimat-veri ayrımı çerçevesinde ele alındıktan sonra, ilk düşüncem biyolojiyi bir benzetme olarak kullanmak oldu.

Bir hücreyi ve bir DNA parçasını (gen olarak bilinir) düşünün. Gen, transkripsiyon ve translasyon yoluyla bir proteinin yapımı için talimatlar sağlar. Ayrıca proteinin yapısını ve işlevini etkileyen bilgiyi (veriyi) kodlar. Bu nedenle, gen aynı anda neyin inşa edileceğini ve nasıl inşa edileceğini belirler, diye düşündüm. Ancak bu tamamen yanlıştır çünkü bir gen Kendini nasıl yorumlayacağına karar vermez. Bunun eşdeğeri yok. talimatları takip etme Biyolojide gen düzeyinde gerçekleşir. "Nasıl" sorusunun cevabı tamamen hücresel mekanizmaya bırakılmıştır.

Bu nedenle, gelecekteki LLM nesillerinin – veya daha doğru bir ifadeyle, evrimleşecekleri sistemlerin – biyolojik makinelere çok daha fazla benzeyeceği hissinden kurtulamasam da, önerilen benzetme işe yaramıyor. Bir hücreyi bir LLM ile, bir geni de bir komutla değiştirip, sonunda "hasarlı" bir proteinin oluşmasına neden olacak bir enjeksiyonu gene uygulayamayız. Doğal dil ve görev gerektiren işlere bağlı kalmak daha verimli görünüyor. anlamsal yorumlama.

Savunma Katmanlarını Soyuluyor

Çok katmanlı savunma stratejilerinin, hızlı enjeksiyon saldırılarını durdurmada daha etkili olduğu düşünülmesi şaşırtıcı olmamalıdır. Aşağıdaki görselde en yaygın savunma katmanları sırasıyla ve her katmanda kullanılan ilgili teknikler gösterilmektedir.

Hızlı Enjeksiyon Savunma Katmanları

Yukarıda son iki katmanı (çıktı, izleme) zaten ele aldık, bu yüzden ilk dört katmana odaklanalım.

Giriş katmanını göz önünde bulundurarak, istemin temizlenmesi veya doğrulanmasının tespit konusunda oldukça başarılı olacağını varsaymak mantıklıdır. dolaylı saldırılar. Ancak, enjeksiyon doğrudan ve yukarıda önerildiği gibi anlamsal yorumlamaya dayanarak gerçekleştirilirse, belki de temizleme önemsizdir (temizlenecek bir şey yoktur) ve sorunu belirlemek için hesaplamanın tamamlanması gerektiğinden doğrulama varsayılan olarak imkansızdır.

Algılama katmanında oluşturabileceğiniz güvenlik önlemlerinin neredeyse hiçbir sınırı yok. Hatta bunun için özel bir LLM bile kullanabilirsiniz. enjeksiyon tespitiAncak bir kez daha, zehir anlambilimin içine ustaca gizlendiğinde, bir sınıflandırıcı veya anomali tespit edicinin bir istemi şüpheli olarak işaretlemesi zor olacaktır.

MKS model katmanı Görev kapsamı dar olduğunda ve ince ayar mümkün olduğunda oldukça etkili olabilir. Araçların kullanımı tahmin edilebilir olduğunda sistem katmanı için de benzer bir argüman öne sürülebilir. Bununla birlikte, en azından sezgisel olarak, enjeksiyon yorumlayıcıyı bozarsa ikisi de alarm vermez.

Kart Evi

Bu makaleyi yazmaya başlarken amacım, "önlenemez" bir hızlı enjeksiyon saldırısını genel hatlarıyla tanımlamaktı. Belki de mevcut savunma katmanlarında gedikler açarak "yapıcı olmayan" bir yaklaşım izlemiş oldum. Savunma teknikleri Hızla gelişmeye devam ediyor, aynı şekilde o da. saldırı yüzeyiBu oyunun yakın zamanda sona ereceğine dair bir işaret yok. Ancak, bu oyunu çok daha uzun süre oynayacak olanların biz olmayacağımıza da inanıyorum. Gelecekte başarılı bir şekilde komut satırı enjeksiyonunun yine doğal dilde olacağını, sadece insanların anlayamayacağı bir dilde olacağını tahmin ediyorum; ve bunun ya bu özel amaç için oluşturulmuş bir sistem tarafından otomatik olarak keşfedileceğini ya da belki de bir temsil alanında anlamsal belirsizliği aramak gibi ilgili bir görevi ele aldıktan sonra tesadüfen keşfedileceğini tahmin ediyorum.

Kontrolü kaybettiğimizi kabul etmek ve yine de bunun en mantıklı şey olduğunu düşünmekte hoş olmayan bir şey var. Bunu, bazı saldırıların durdurulamaz olacağının "sezgisel kanıtı" olarak düşünebilirsiniz. Ve eğer bu sizi rahatsız ediyorsa, GPT 5.2'nin bu argümanı "tartışmalı veya yeni değil" bulduğunu ve "konuyu uzatmamamı" ve makalenin %40'ını kısaltmamı önerdiğini bilmekten memnun olacaksınız.

Eli Vovsha, Fortra'da Veri Bilimi Yöneticisi olarak görev yapmaktadır. Veri Bilimi ekibiyle birlikte, CEP ve XDR ürünleri tarafından kullanılan tüm makine öğrenimi (ML) modellerinin geliştirilmesi ve sürdürülmesinin yanı sıra genel ML araştırmalarından sorumludur. Stevens Teknoloji Enstitüsü'nden uygulamalı matematik alanında yüksek lisans derecesi aldıktan sonra, Columbia Üniversitesi'nde bilgisayar bilimleri alanında doktora adayı oldu ve burada öğretim görevlisi olarak da çalıştı. Daha sonra yapay zeka destekli bir öğrenme platformu oluşturmayı amaçlayan bir EdTech girişiminin kurucu ortağı oldu ve ardından New York'ta özel bir lisede matematik ve bilgisayar bilimleri dersleri verdi. Lisansüstü eğitimine başlamadan önce, Uluslararası Usta (IM) unvanını kazanarak satranca önemli ölçüde zaman ayırdı.