Connect with us

Siber Güvenlik

OpenAI AI Tarayıcılarının Asla Tamamen Güvenli Olmayabileceğini Kabul Ediyor

mm

OpenAI, 22 Aralık’ta güvenlik blog gönderisi yayınladı ve dikkat çekici bir kabulde bulundu: AI tarayıcılarına karşı.prompt enjeksiyon saldırıları “asla tamamen çözülmeyebilir.” Bu kabul, şirketin ChatGPT Atlas adlı, özerk ajan özelliklerine sahip tarayıcısını piyasaya sürmesinin sadece iki ay ardından geldi.

Şirket, prompt enjeksiyonu “web’de dolandırıcılık ve sosyal mühendislik” ile karşılaştırdı – savunucuların ortadan kaldırmak yerine yönettiği sürekli tehditler. AI ajanlarına interneti adlarına gezdirebilmeleri için güvenen kullanıcılar için bu çerçeve, ne kadar özerkliğin uygun olduğu konusunda temel soruları gündeme getiriyor.

OpenAI’nin Açıkladığı Bilgiler

Blog gönderisi, Atlas için OpenAI’nin savunma mimarisini tanımlar ve güvenlik açıklarını bulmak için kötü niyetli aktörlerin önüne geçen bir “otomatik saldırgan” olan pekiştirme öğrenimi ile çalışan bir mimariyi içerir. Şirket, bu dahili kırmızı takımın “insan kırmızı takımımız veya dış raporlarda görünmeyen yeni saldırı stratejileri” keşfettiğini iddia ediyor.

Bir gösterimde, kötü niyetli bir e-postanın bir AI aracını bir kullanıcının gelen kutusunu kontrol ederek ele geçirebileceği gösterildi. Aracın, talimat olarak verilen out-of-office yanıtını yazmak yerine istifasını göndermesi yerine. OpenAI, en son güvenlik güncellemesinin artık bu saldırıyı yakaladığını söylüyor, ancak bu örnek, AI ajanlarının duyarlı bağlamlarda özerk olarak hareket ettiğinde ortaya çıkan riskleri gösteriyor.

Otomatik saldırgan “bir ajanı, onlarca (hatta yüzlerce) adımda ortaya çıkan karmaşık, uzun vadeli zararlı iş akışlarını gerçekleştirmeye yönlendirebilir” diye yazdı OpenAI. Bu yetenek, OpenAI’nin dış saldırganlardan daha hızlı hataları bulmasına yardımcı oluyor, ancak aynı zamanda prompt enjeksiyon saldırılarının ne kadar karmaşık ve zararlı olabileceğini de gösteriyor.

Resim: OpenAI

Temel Güvenlik Sorunu

Prompt enjeksiyonu, büyük dil modellerinin temel bir sınırlamasını kullanır: bunlar, işledikleri verilere gömülü olan meşru talimatlar ve kötü niyetli içerik arasında güvenilir bir şekilde ayırt edemezler. Bir AI tarayıcısı bir web sayfasını okuduğunda, o sayfada bulunan herhangi bir metin, davranışını potansiyel olarak etkileyebilir.

Güvenlik araştırmacıları bunu defalarca kanıtladı. AI tarayıcıları ılımlı özerklik ile çok yüksek erişim birleştirir – güvenlik alanında zor bir konum.

Saldırılar için sofistike teknikler gerekmez. Web sayfalarında gizli metin, özenle hazırlanmış e-postalar veya belgelerde görünmez talimatlar, tümünü AI ajanlarını istenmeyen eylemler gerçekleştirmeye manipüle edebilir. Bazı araştırmacılar, kötü niyetli promtlerin bir kullanıcının ekranının resmini çektiğinde çalışabileceğini gösterdi.

OpenAI’nin Tepkisi

OpenAI’nin savunmaları, karşıt eğitimi almış modelleri, prompt enjeksiyon sınıflandırıcıları ve duyarlı eylemlerden önce kullanıcı onayını gerektiren “hız sınırlayıcıları” içerir. Şirket, kullanıcıların Atlas’ın erişebileceği şeyi sınırlamasını, oturum açma erişimini kısıtlamasını, ödemeler veya mesajlar için onaylama gerektirmesini ve geniş talimatlardan ziyade dar talimatlar vermesini önerir.

Bu öneri açıklayıcıdır. OpenAI esasen kendi ürününü şüpheyle tedavi etmenizi, AI tarayıcılarını çekici kılan özerkliği sınırlamanızı tavsiye ediyor. Gelen kutunuzu veya finansınızı yönetmesi için AI tarayıcılarına güvenen kullanıcılar, şirketin kendisi tarafından onaylanmayan riskleri üstleniyor.

Güvenlik güncellemesi başarılı enjeksiyon saldırılarını azaltıyor. Bu iyileşme önemli, ancak aynı zamanda kalan saldırı yüzeyinin devam ettiğini ve saldırganların OpenAI’nin dağıttığı savunmalara uyum sağlayacağını da gösteriyor.

Endüstri Geneli Etkileri

OpenAI bu zorluklarla karşı karşıya kalan tek şirket değil. Google’ın Chrome’un ajan özelliklerinin güvenlik çerçevesi, her önerilen eylemi değerlendiren ayrı bir AI modeli dahil olmak üzere birden fazla savunma katmanını içerir. Perplexity’nin Comet tarayıcısı, Brave’dan güvenlik araştırmacıları tarafından benzer bir inceleme altına alındı ve kötü niyetli bir web sayfasına gitmenin zararlı AI eylemlerini tetikleyebileceği tespit edildi.

Endüstri, prompt enjeksiyonunun temel bir sınırlama olduğunu, bir hata olarak düzeltilemeyeceğini anlama konusunda birbirine yaklaşıyor. Bu, AI ajanlarının özerk olarak karmaşık, duyarlı görevleri yönetme vizyonu için önemli sonuçları var.

Kullanıcıların Dikkat Etmesi Gerekenler

Samimi değerlendirme rahatsız edici: AI tarayıcıları, daha iyi mühendislik yoluyla ortadan kaldırılamayan iç güvenlik sınırlamalarına sahip faydalı araçlar. Kullanıcılar, hiçbir satıcının tamamen çözemeyeceği bir kolaylık ve risk arasında bir ticaret yapıyor.

OpenAI’nin rehberliği – erişimi sınırla, onayları gerektir, geniş talimatlardan kaçın – ürünün daha az güçlü sürümlerini kullanma tavsiyesine eşdeğer. Bu, kibirli bir konum değil, mevcut sınırlamaların gerçekçi bir kabulü. AI asistanları daha fazla şey yapabilir, ancak aynı zamanda daha fazla manipülasyona açık hale gelebilirler.

Geleneksel web güvenliğine benzerlik eğitici. Kullanıcılar, ortaya çıktıkları decades sonra hala phishing saldırılarına düşüyor. Tarayıcılar hala günlük olarak milyonlarca kötü niyetli siteyi engelliyor. Tehdit, savunmalardan daha hızlı bir şekilde çözülmeden önce çözülüyor.

AI tarayıcıları, bu tanıdık dinamiğe yeni bir boyut ekliyor. İnsanlar gezindiğinde, şüpheli görünen şeyler hakkında yargılar getiriyorlar. AI ajanları ise her şeyi aynı güvenle işliyor, bu da onları daha fazla manipülasyona açık hale getiriyor, yetenekleri arttıkça.

İleriye Doğru Yol

OpenAI’nin şeffaflığı takdiri hak ediyor. Şirket, temel sorunun devam etmesini kabul etmeden sessizce güvenlik güncellemeleri yayınlayabilirdi. Bunun yerine, saldırı vektörleri ve savunma mimarileri hakkında ayrıntılı analiz yayınladı – kullanıcıların bilinçli kararlar almasına ve rakiplerinin kendi korumalarını geliştirmesine yardımcı olan bilgiler.

Ancak şeffaflık, temel gerilimi çözmez. AI ajanları ne kadar güçlü olursa, o kadar çekici hedefler sunar. Atlas’ın karmaşık iş akışlarını yönetmesine olanak tanıyan aynı yetenekler, aynı zamanda sofistike saldırılar için fırsatlar yaratır.

Şimdilik, AI tarayıcıları kullanıcıları, tam özerk dijital asistanlar olarak değil, anlamlı sınırlamalara sahip güçlü araçlar olarak yaklaşmalıdır – duyarlı görevleri denetimsiz olarak yönetmeye hazır değil. OpenAI, bu gerçekliği konusunda alışılmadık şekilde açık oldu. Soru, endüstrinin pazarlamasının güvenlik ekiplerinin zaten bildiği gerçeğe yetişip yetişmeyeceği.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.