Siber Güvenlik

OpenAI, AI Tarayıcılarının Tamamen Güvenli Olamayacağını Kabul Ediyor

mm

OpenAI, 22 Aralık’ta bir güvenlik blog yazısı yayınladı ve dikkat çekici bir kabulde bulundu: AI tarayıcılarına karşı prompt enjeksiyon saldırıları “asla tamamen çözülemeyebilir”. Bu kabul, şirketin ChatGPT Atlas tarayıcısını, otonom ajan yetenekleriyle birlikte piyasaya sürmesinden sadece iki ay sonra geldi.

Şirket, prompt enjeksiyonu “web’de dolandırıcılık ve sosyal mühendislik” ile karşılaştırdı – savunucuların ortadan kaldırmak yerine yönettiği sürekli tehditler. AI ajanlarına interneti adına gezdirebilmeleri için güvenen kullanıcılar için bu çerçeve, ne kadar otonominin uygun olduğu konusunda temel soruları gündeme getiriyor.

OpenAI’nin Açıkladığı

Blog yazısı, Atlas için OpenAI’nin savunma mimarisini tanımlıyor ve bu mimari içinde, güvenlik açıklarını kötü niyetli aktörlerin bulmasından önce keşfeden bir “otomatik saldırgan” içeriyor. Şirket, bu dahili kırmızı takımın, “insan kırmızı takım çalışması veya dış raporlarda görünmeyen yeni saldırı stratejileri” keşfettiğini iddia ediyor.

Bir demonstrasyon, bir AI aracının bir kullanıcının gelen kutusunu kontrol ederken nasıl kötü niyetli bir e-postanın ele geçirilebileceğini gösterdi. Talimat verilen out-of-office yanıtını yazmak yerine, tehlikeye açık ajan istifasını yazdı. OpenAI, en son güvenlik güncellemesinin bu saldırıyı现在 yakaladığını söylüyor, ancak bu örnek, AI ajanlarının duyarlı bağlamlarda otonom olarak hareket ettiğinde ortaya çıkan riskleri gösteriyor.

Otomatik saldırgan, “bir ajanı, onlarca (veya hatta yüzlerce) adımda ortaya çıkan karmaşık, uzun vadeli zararlı iş akışlarını gerçekleştirmeye yönlendirebilir” diyor OpenAI. Bu yetenek, OpenAI’nin güvenlik açıklarını dış saldırganlardan daha hızlı bulmasına yardımcı oluyor, ancak aynı zamanda prompt enjeksiyon saldırılarının ne kadar karmaşık ve zararlı olabileceğini de gösteriyor.

Resim: OpenAI

Temel Güvenlik Sorunu

Prompt enjeksiyon, büyük dil modellerinin temel bir sınırlamasını kullanıyor: bunlar, işledikleri verilere gömülü olan meşru talimatları ve kötü niyetli içeriği güvenilir bir şekilde ayırt edemez. Bir AI tarayıcısı bir web sayfasını okuduğunda, o sayfada bulunan herhangi bir metin, davranışını potansiyel olarak etkileyebilir.

Güvenlik araştırmacıları bunu defalarca kanıtladı. AI tarayıcıları, orta düzeyde otonomi ile çok yüksek erişimi birleştiriyor – güvenlik alanında zor bir konum.

Saldırılar için sofistike teknikler gerekmiyor. Web sayfalarındaki gizli metin, özenle hazırlanmış e-postalar veya belgelerdeki görünmez talimatlar, tüm AI ajanlarını istenmeyen eylemler gerçekleştirmeye yönlendirebilir. Bazı araştırmacılar, kötü niyetli promtlerin ekran görüntülerine gizlenebileceğini ve bir AI’nin bir kullanıcının ekranının resmini çektiğinde çalışabileceğini gösterdi.

OpenAI’nin Cevabı

OpenAI’nin savunmaları, karşıt eğitimli modelleri, prompt enjeksiyon sınıflandırıcıları ve duyarlı eylemlerden önce kullanıcı onayını gerektiren “hız engellerini” içeriyor. Şirket, kullanıcıların Atlas’a ne erişebileceğini sınırlamalarını öneriyor – oturum açma erişimi kısıtlamak, ödemeler veya mesajlar için onaylar gerektirmek ve geniş talimatlardan ziyade dar talimatlar vermek.

Bu öneri aydınlatıcı. OpenAI, temelde kendi ürününü şüpheyle yaklaşılmasını tavsiye ediyor, AI tarayıcılarının çekici olmasını sağlayan otonomiyi sınırlıyor. AI tarayıcılarının tüm gelen kutusunu veya finanslarını yönetmesini isteyen kullanıcılar, şirketin kendisi tarafından desteklenmeyen riskleri üstleniyor.

Güvenlik güncellemesi, başarılı enjeksiyon saldırılarını azaltıyor. Bu改善 önemli, ancak kalan saldırı yüzeyinin devam ettiğini ve saldırganların OpenAI’nin uyguladığı savunmalara adapte olacağını da gösteriyor.

Endüstri Geneli Etkiler

OpenAI, bu zorluklarla tek başına karşı karşıya değil. Google’ın Chrome’un AI özellikli güvenlik çerçevesi, birden fazla savunma katmanını içeriyor ve her önerilen eylemi değerlendiren ayrı bir AI modeli bulunuyor. Perplexity’nin Comet tarayıcısı, Brave’dan güvenlik araştırmacıları tarafından benzer bir inceleme altına alındı ve kötü niyetli bir web sayfasına gitmenin zararlı AI eylemlerini tetikleyebileceği bulundu.

Endüstri, temel bir sınırlamayla karşı karşıya olduğunun ortak bir anlayışına doğru ilerlemiş görünüyor: prompt enjeksiyonu bir hata değil, bir özellik. Bu, AI ajanlarının otonom olarak karmaşık, duyarlı görevleri ele almasıyla ilgili vizyon için önemli etkileri var.

Kullanıcıların Dikkat Etmesi Gerekenler

Samimi bir değerlendirme rahatsız edici: AI tarayıcıları, mühendislik yoluyla ortadan kaldırılamayan içsel güvenlik sınırlamalarına sahip faydalı araçlar. Kullanıcılar, hiçbir satıcının tamamen çözemeyeceği bir ticaret-off ile karşı karşıya: rahatlık ve risk.

OpenAI’nin rehberliği – erişimi sınırlamak, onaylar gerektirmek, geniş talimatlardan kaçınmak – ürünün daha az güçlü sürümlerini kullanma tavsiyesine eşdeğer. Bu, kurnaz bir konum değil, gerçek bir kabul. AI asistanları daha fazla şey yapabilir, ancak aynı zamanda daha fazla manipülasyona açık hale gelebilir.

Geleneksel web güvenliği ile benzerlik eğitici. Kullanıcılar, ortaya çıktıkları decades sonra hala phishing saldırılarına düşüyor. Tarayıcılar hala günlük olarak milyonlarca kötü niyetli siteyi engelliyor. Tehdit, kalıcı bir çözüm bulunduğunda daha hızlı adapte oluyor.

AI tarayıcıları, bu tanıdık dinamiğe yeni bir boyut ekliyor. İnsanlar gezindiğinde, şüpheli görünen şeyler hakkında yargılar getiriyor. AI ajanları ise her şeyi eşit güvenle işliyor, bu da onları daha fazla manipülasyona açık hale getiriyor, yetenekleri arttıkça.

İleriye Doğru

OpenAI’nin şeffaflığı takdir edilmeli. Şirket, temel sorunun devam ettiğini kabul etmeden sessizce güvenlik güncellemeleri yayınlayabilirdi. Bunun yerine, saldırı vektörleri ve savunma mimarileri hakkında ayrıntılı analiz yayınladı – kullanıcıların bilinçli kararlar almasına ve rakiplerinin kendi korumalarını iyileştirmesine yardımcı olan bilgiler.

Ancak şeffaflık, temel gerilimi çözmez. AI ajanları ne kadar güçlü hale gelirse, o kadar çekici hedefler sunar. Atlas’ın karmaşık iş akışlarını ele almasına olanak tanıyan aynı yetenekler, sofistike saldırı fırsatları da yaratır.

Şimdilik, AI tarayıcıları kullanıcıları, bunları tam otonom dijital asistanlar olarak görmektense, anlamlı sınırlamalara sahip güçlü araçlar olarak görmelidir – duyarlı görevleri denetimsiz olarak ele alamayacaklar. OpenAI, bu gerçekliği alışılmadık bir şekilde açık bir şekilde kabul etti. Soru, endüstrinin pazarlamasının güvenlik ekiplerinin zaten bildiği gerçeğe yetişip yetişmeyeceği.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.