Siber Güvenlik

Simbian Siber Savunma Benchmark’ini Başlattı, AI Güvenlik Yeteneklerinde Büyük Bir Uğursuzluk Ortaya Koydu

Published April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Simbian tarafından yayınlanan yeni bir benchmark, yapay zeka alanında yaygın olarak kabul gören bir varsayımı sorguluyor: zayıflıkları bulabilecek aynı modellerin onları savunabileceği varsayımı.

Şirketin yeni tanıttığı Siber Savunma Benchmark‘i, Simbian Araştırma Laboratuvarı tarafından geliştirildi ve önde gelen büyük dil modellerinin (LLM’ler) gerçek dünya siber savunma senaryolarında nasıl performans gösterdiğini değerlendiriyor. Sonuçlar açık. Modern AI sistemleri giderek zayıflıkları keşfetme ve sömürebilme konusunda etkili hale gelirken, aktif saldırıları tespit etme ve durdurma görevi verildiğinde önemli ölçüde mücadele ediyor.

Öncü Modeller Savunma için Asgari Seviyeyi Karşılayamadı

Benchmark, Claude Opus 4.6, GPT-5, Gemini 3.1 Pro gibi öncü modelleri simüle edilmiş şirket içi ortamlarda test etti.

Hiçbir model geçer not alamadı.

Testte en güçlü performans gösteren Claude Opus 4.6, yalnızca MITRE ATT&CK taktiklerine karşı saldırı kanıtlarının bir kısmını tespit etti, birçok model ise kötü niyetli faaliyetlerin tüm kategorilerini tanımlamayı başaramadı. Bağımsız akademik araştırmalar bu bulgularla uyumlu olarak, hatta en iyi modellerin bile gerçekçi senaryolarda açık uçlu tehdit avcılığında mücadele ettiğini ve yalnızca az bir kısmının kötü niyetli olayları tespit edebildiğini gösterdi.

Bu uçurum, kritik bir sınırlamayı vurguluyor. Bugünün AI sistemleri, yapılandırılmış sorulara cevap vermekte veya kapsüllü sorunları çözmekte uzmanlaşmış olabilir, ancak karmaşık, gelişen saldırı zincirlerini rehbersiz olarak araştırmak zorunda kaldıklarında başarısız oluyor.

Gerçekçi, Ajans Tabanlı Değerlendirmeye Doğru Kayma

Bu benchmark’i ayıran şey, tasarımı.

Önceki siber güvenlik testlerinin çoğunun multiple-choice sorularına veya statik verilere dayanırken, Simbian’ın yaklaşımı gerçek telemetri verilerini kullanıyor ve modelleri ajanslı bir araştırma döngüsüne yerleştiriyor. Ne aramak gerektiğini bilmektense, AI’nin günlükleri araştırmak, hipotezler oluşturmak ve tehditleri bağımsız olarak tanımlamak zorunda kalıyor.

Bu, insan güvenlik analistlerinin gerçek Güvenlik Operasyon Merkezleri’nde nasıl çalıştığına benzer.
Benchmark, birden fazla aşama boyunca düzinelerce saldırı tekniğini içeriyor ve modellerin zaman ve sistemler boyunca sinyalleri bağlamasını zorunlu kılıyor. Ayrıca, bağlamı değiştirerek ve deterministik puanlama uygulayarak, modellerin yalnızca kalıpları ezberlemesini de azaltıyor.

Bu gerçekçilik yönünde kayma önemli. AI geliştirmesinde, gerçek dünya karmaşıklığını doğru bir şekilde yansıtan bir benchmark oluşturmak, genellikle problemi çözmeye yönelik ilk adımdır.

Saldırgan ve Savunmacı AI Arasındaki Büyüyen Uçurum

Bulgular, endüstri genelinde ortaya çıkan daha geniş bir eğilimi pekiştiriyor.

AI, saldırı siber görevlerde hızla gelişiyor. Son araştırmalar, öncü modellerin zaten simüle edilmiş ortamlarda çok adımlı saldırılar gerçekleştirebileceğini ve giderek daha az araç kullanarak bunu yaptığını gösteriyor. Aynı zamanda, savunma yetenekleri geride kalıyor.

Bu dengesizlik, genişleyen bir asimetri yaratıyor. Saldırganlar, otomasyonu ve ölçeklenebilirliği kullanabilirken, savunmacılar hala büyük ölçüde insan uzmanlığına ve parçalı araçlara güvenmek zorunda kalıyor. AI bir zayıflık tespit ettiğinde, bunu yanlış yorumlayabilir veya uygun şekilde davranmayabilir, tespit ve anlama arasındaki uçurumu vurgulayarak.

Neden “Kutudan Çıkan” AI Yetersiz Kalıyor

Simbian’ın sonucuna göre, AI sistemlerinin savunma görevini tek başına gerçekleştiremeyeceği değil.

Benchmark, LLM’lerin etkili bir şekilde güvenlik ortamlarında çalışabilmek için şirketin “gelişmiş bir harness” olarak adlandırdığı – dış istihbarat, yapılandırılmış iş akışları ve sistem düzeyinde entegrasyon – bir kombinasyonuna ihtiyaç duyduğunu öne sürüyor.

Bu, AI performansını önemli ölçüde iyileştirdiğini gösteren daha geniş araştırmalar ile uyumlu. Üretim ortamlarında, Simbian, bu ek katmanları modellerle birleştirdiğinde önemli ölçüde daha yüksek tespit doğruluğu elde ettiğini iddia ediyor. İmplicasyon açık: ham model yeteneği, only bir parçanın sadece bir parçasıdır.

AI Güvenlik için Yeni Bir Benchmark Kategorisi

Siber Savunma Benchmark‘inin yayınlanması, AI sistemlerinin gerçek dünya dağıtımı için nasıl değerlendirildiğinin önemli bir adımını temsil ediyor.

Soru cevaplandırma yerine delil tabanlı tehdit avcılığına odaklanarak, problemi zekadan icraya yeniden çerçevelemekte ve ayrıca maliyeti ölçülebilir bir faktör olarak tanıtarak, modeller arasında performans ve verimlilik arasında ticaretleri vurgulamaktadır.

AI, siber güvenliği yeniden şekillendirmeye devam ederken, bu tür benchmark’ler, modellerin neler yapabileceğini anlamak için değil, nerede başarısız olduklarını ve nedenini anlamak için gerekli araçlar haline gelebilir.

Şimdilik, alınacak mesaj açık. AI’de hızlı ilerlemeye rağmen, tamamen özerk siber savunma hala ulaşılmaz. İnovasyonun bir sonraki aşaması, daha büyük modeller oluşturmaktan ziyade, AI’yi yapılandırılmış zeka, bağlam ve insan denetimi ile birleştiren sistemler tasarlamaktan daha fazla bağlı olacaktır.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.

Unite.AI

Simbian Siber Savunma Benchmark’ini Başlattı, AI Güvenlik Yeteneklerinde Büyük Bir Uğursuzluk Ortaya Koydu

Öncü Modeller Savunma için Asgari Seviyeyi Karşılayamadı

Gerçekçi, Ajans Tabanlı Değerlendirmeye Doğru Kayma

Saldırgan ve Savunmacı AI Arasındaki Büyüyen Uçurum

Neden “Kutudan Çıkan” AI Yetersiz Kalıyor

AI Güvenlik için Yeni Bir Benchmark Kategorisi

You may like