אבטחת סייבר

Simbian Launches Cyber Defense Benchmark, Reveals Major Gap in AI Security Capabilities

Published April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

אנדרטה חדשה שפורסמה על ידי Simbian מאתגרת את אחת ההנחות הנפוצות ביותר בבינה מלאכותית: שהאותם מודלים המסוגלים למצוא פגיעוות יכולים גם להגן עליהן.

חברת Cyber Defense Benchmark החדשה, שפותחה על ידי Simbian Research Lab, בודקת כיצד מודלים מובילים של LLMs (Large Language Models) מבצעים בתרחישי הגנת סייבר בעולם האמיתי. התוצאות הן חריפות. בעוד שמערכות AI מודרניות הופכות ליעילות יותר ויותר בגילוי וניצול חולשות, הן מתקשות משמעותית כאשר הן מוטלות עליהן לזהות ולעצור התקפות פעילות.

מודלים חדשניים נכשלים בהגעה לרף המינימלי להגנה

הבדיקה בדקה מודלים מובילים, כולל Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, ואחרים, בסביבות תאגידיות מדומות.

אף מודל לא השיג ציון מעבר.

Claude Opus 4.6, המבצע החזק ביותר במבחן, זיהה רק חלק מראיות ההתקפה ב MITRE ATT&CK טקטיקות, בעוד מודלים רבים נכשלו בזיהוי קטגוריות שלמות של פעילות מזיקה. מחקר אקדמי עצמאי, התואם את הממצאים, מראה כי אפילו מודלים מובילים מתקשים בציד איומים פתוח, ומזהים רק חלק קטן מאירועים מזיקים בתרחישים ריאליסטיים.

פער זה מודגש על הגבלה הביקורתית. מערכות AI של היום עשויות להצטיין בעניין שאלות מובנות או בפתרון בעיות מוכלאות, אך הן נכשלות כאשר נדרשות לחקור שרשראות התקפה מורכבות ומשתנות ללא הדרכה.

מעבר לכיוון בחינה ריאליסטית, מבוססת סוכנות

מה שמייחד את הבדיקה הזו הוא עיצובה.

בניגוד לבדיקות אבטחת סייבר קודמות, המסתמכות על שאלות מרובות בחירות או נתונים סטטיים, הגישה של Simbian משתמשת בנתוני טלמטריה אמיתיים ומציבה מודלים בלופ חקירה אגנטי. במקום לקבל הוראות מה לחפש, ה-AI חייב לחקור לוגים, לנסח השערות ולזהות איומים באופן עצמאי.

זה משקף את האופן בו אנליסטים ביטחוניים אנושיים פועלים במרכזי בקרת אבטחה אמיתיים.

הבדיקה כוללת עשרות טכניקות התקפה במספר שלבים, ומאלצת מודלים לחבר אותות במהלך הזמן והמערכות. על ידי מוטציה של ההקשר ואכיפת ציון דטרמיניסטי, היא גם מפחיתה את הסיכון שמודלים פשוט יזכרו דפוסים.

המעבר הזה לריאליזם הוא משמעותי. בפיתוח AI, יצירת בדיקה שמשקפת במדויק את המורכבות של העולם האמיתי היא לעיתים קרובות הצעד הראשון לפתרון הבעיה עצמה.

הפער הגובר בין AI התקפי ל-AI הגנתי

הממצאים מחזקים מגמה רחבה יותר המתפתחת ברחבי התעשייה.

AI משתפר במהירות במשימות סייבר התקפיות. מחקרים אחרונים מראים כי מודלים חדישים יכולים כבר לבצע התקפות רב-שלביות בסביבות מדומות ועושים זאת באופן הולך וגובר עם כלי עזר מינימליים. במקביל, יכולות הגנה נופלות מאחור.

האיזון הזה יוצר א-סימטריה הולכת וגוברת. תוקפים יכולים לנצל אוטומציה וקנה מידה, בעוד מגינים עדיין מסתמכים בעיקר על מומחיות אנושית וכלים מפוצלים. אפילו כאשר AI מזהה פגיעות, היא עלולה לטעות בפרשנות חומרתה או לא לפעול בהתאם, מה שמדגיש את הפער בין גילוי להבנה.

למה “AI מוכן-לשימוש” נכשל

מסקנת Simbian אינה ש-AI לא יכול להגן על מערכות, אלא שהוא לא יכול לעשות זאת לבד.

הבדיקה מרמזת כי LLMs דורשים מה שהחברה מתארת כ”ארסל המתוחכם” – שילוב של מודיעין חיצוני, זרימות עבודה מובנות ואינטגרציה ברמת המערכת – כדי לפעול באופן יעיל בסביבות אבטחה.

זה תואם מחקר רחב יותר, המראה כי הוספת כלים, זיכרון והקשר משפרים משמעותית את ביצועי AI במשימות אבטחת סייבר.

בסביבות ייצור, Simbian טוענת כי היא השיגה דיוק גילוי משמעותית גבוה יותר על ידי שילוב מודלים עם שכבות נוספות. המשמעות היא ברורה: יכולת המודל הגולמית היא רק חלק אחד מהפאזל.

קטגוריה חדשה של בדיקה לאבטחת AI

פרסום ה- Cyber Defense Benchmark מסמן צעד חשוב באופן שבו מערכות AI מוערכות לפריסה בעולם האמיתי.

על ידי התמקדות בציד איומים המבוסס על ראיות ולא על תשובות לשאלות, היא מגדירה מחדש את הבעיה מאינטליגנציה לביצוע. היא גם מציגה עלות כגורם מודד, המדגיש את הפשרות בין ביצועים ליעילות בין מודלים.

ככל ש-AI ממשיך לעצב מחדש את אבטחת הסייבר, בדיקות כאלה עשויות להפוך לכלים אסנסיאליים להבנת לא רק מה מודלים יכולים לעשות, אלא היכן הם נכשלים – ולמה.

בינתיים, המסקנה היא פשוטה. למרות ההתקדמות המהירה ב-AI, הגנת סייבר אוטונומית מלאה עדיין מחוץ להישג יד. שלב החדשנות הבא כנראה י