Connect with us

Keamanan siber

Simbian Meluncurkan Benchmark Pertahanan Siber, Mengungkap Celah Besar dalam Kemampuan Keamanan AI

mm

Sebuah benchmark baru yang dirilis oleh Simbian mempertanyakan salah satu asumsi yang paling luas diterima dalam kecerdasan buatan: bahwa model yang sama yang dapat menemukan kerentanan juga dapat membela melawan mereka.

Perusahaan Cyber Defense Benchmark yang baru diperkenalkan, dikembangkan oleh Simbian Research Lab, mengevaluasi seberapa baik model bahasa besar (LLM) memperforma dalam skenario pertahanan siber dunia nyata. Hasilnya sangat mencolok. Sementara sistem AI modern semakin efektif dalam menemukan dan mengeksploitasi kelemahan, mereka bergelut secara signifikan ketika diminta untuk mengidentifikasi dan menghentikan serangan aktif.

Model Frontier Gagal Mencapai Batas Minimum untuk Pertahanan

Benchmark ini menguji model terkemuka termasuk Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, dan lain-lain dalam lingkungan perusahaan yang disimulasikan.

Tidak satu pun dari model tersebut mencapai skor yang lulus.

Claude Opus 4.6, performer terkuat dalam tes, hanya mendeteksi sebagian dari bukti serangan di seluruh MITRE ATT&CK taktik, sementara banyak model gagal mengidentifikasi kategori keseluruhan dari aktivitas berbahaya. Penelitian akademis independen sejalan dengan temuan ini, menunjukkan bahwa bahkan model teratas bergelut dengan berburu ancaman terbuka, hanya mendeteksi sebagian kecil dari peristiwa berbahaya dalam skenario realistis.

Celah ini menyoroti keterbatasan kritis. Sistem AI saat ini mungkin unggul dalam menjawab pertanyaan terstruktur atau memecahkan masalah yang terkandung, tetapi mereka gagal ketika diminta untuk menyelidiki rantai serangan yang kompleks dan berkembang tanpa bimbingan.

Pergeseran Menuju Evaluasi Berbasis Agen yang Realistis

Apa yang membedakan benchmark ini adalah desainnya.

Tidak seperti tes keamanan siber sebelumnya yang bergantung pada pertanyaan pilihan ganda atau dataset statis, pendekatan Simbian menggunakan data telemetri yang nyata dan menempatkan model dalam loop penyelidikan agen. Alih-alih diberitahu apa yang harus dicari, AI harus mengeksplorasi log, membentuk hipotesis, dan mengidentifikasi ancaman secara mandiri.

Ini mencerminkan bagaimana analis keamanan manusia beroperasi di Pusat Operasi Keamanan yang nyata.

Benchmark ini mencakup puluhan teknik serangan di seluruh tahap, memaksa model untuk menghubungkan sinyal di seluruh waktu dan sistem. Dengan mengubah konteks dan menerapkan skoring deterministik, itu juga mengurangi risiko model hanya mengingat pola.

Perubahan ini menuju realisme sangat signifikan. Dalam pengembangan AI, menciptakan benchmark yang secara akurat mencerminkan kompleksitas dunia nyata sering kali merupakan langkah pertama menuju memecahkan masalah itu sendiri.

Pembagian yang Meningkat Antara AI Ofensif dan Defensif

Temuan ini memperkuat tren yang lebih luas yang muncul di seluruh industri.

AI dengan cepat meningkatkan kemampuan ofensif siber. Studi terbaru menunjukkan bahwa model frontier dapat mengeksekusi serangan multi-langkah dalam lingkungan yang disimulasikan dan semakin melakukannya dengan tooling minimal. Pada saat yang sama, kemampuan defensif tertinggal.

Keseimbangan ini menciptakan asimetri yang semakin melebar. Penyerang dapat memanfaatkan otomatisasi dan skala, sementara pembela masih sangat bergantung pada keahlian manusia dan tooling yang terfragmentasi. Bahkan ketika AI mengidentifikasi kerentanan, mungkin salah menafsirkan tingkat keparahannya atau gagal bertindak secara tepat, menekankan celah antara deteksi dan pemahaman.

Mengapa AI “Out-of-the-Box” Gagal

Kesimpulan Simbian bukanlah bahwa AI tidak dapat membela sistem, tetapi bahwa itu tidak dapat melakukannya sendiri.

Benchmark ini menunjukkan bahwa LLM memerlukan apa yang disebut perusahaan sebagai “harness yang canggih” – kombinasi dari intelijen eksternal, alur kerja terstruktur, dan integrasi tingkat sistem – untuk beroperasi secara efektif dalam lingkungan keamanan.

Ini sejalan dengan penelitian yang lebih luas yang menunjukkan bahwa menambahkan alat, memori, dan konteks secara signifikan meningkatkan kinerja AI dalam tugas keamanan siber.

Dalam lingkungan produksi, Simbian mengklaim telah mencapai akurasi deteksi yang jauh lebih tinggi dengan menggabungkan model dengan lapisan tambahan ini. Implikasinya jelas: kemampuan model mentah hanya satu bagian dari teka-teki.

Kategori Baru Benchmark untuk Keamanan AI

Peluncuran Cyber Defense Benchmark menandai langkah penting dalam bagaimana sistem AI dievaluasi untuk penerapan dunia nyata.

Dengan fokus pada pemburuan ancaman berbasis bukti daripada menjawab pertanyaan, ini mengubah masalah dari inteligensi ke eksekusi. Ini juga memperkenalkan biaya sebagai faktor yang dapat diukur, menyoroti tradeoff antara kinerja dan efisiensi di seluruh model.

Ketika AI terus membentuk kembali keamanan siber, benchmark seperti ini mungkin menjadi alat penting untuk memahami tidak hanya apa yang dapat dilakukan model, tetapi di mana mereka gagal – dan mengapa.

Untuk saat ini, kesimpulan sangat sederhana. Meskipun kemajuan pesat dalam AI, pertahanan siber yang sepenuhnya otonom masih belum tercapai. Fase inovasi berikutnya mungkin bergantung kurang pada membangun model yang lebih besar, dan lebih pada merancang sistem yang menggabungkan AI dengan inteligensi terstruktur, konteks, dan pengawasan manusia.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.