ืืืืืืช ืฉื Anderson
Easy Rewording Breaks AI Safety, Even for Gemini and Claude

בדיקות בטיחות AI מצאו שהן מסתמכות על מילים “בולטות” של הפעלה; עם ניסוח מילים קל, מודלים שסומנו כ”בטוחים במידה סבירה” הפכו פתאום ללא בטוחים, עם התקפות שהצליחו עד 98% מהזמן.
מחקר תאגידי חדש מארצות הברית הגיע למסקנה כי הרשומות הטובות של מספר רב של מודלים גדולים של שפה (LLM) – כולל שמות מובילים רבים כגון Gemini 3 Pro ו-Claude Sonnet 3.7 – עשויים להיות חסרי משמעות, מכיוון שהמאגרים והבדיקות המשמשים לקביעתם מכילים שפה “בולטת” מדי.
שני המאגרים בעניין, שהופיעו בסקירות ניירות שונות באתר זה, הם HarmBench ו-AdvBench:

מתוך הניירות המתאימים של HarmBench ו-AdvBench, דוגמאות מאירות של פרובוקציה – אך הנייר החדש טוען שאפילו בדוגמאות מן העולם האמיתי, הדוגמאות ‘משדרות’ כוונה זדונית, מה שעלול להוביל ל’משחק’ לא מכוון של תוצאות. מקור: HarmBench ו-AdvBench.
החוקרים ניתחו את התכונות של שני המאגרים בשתי גישות: בנפרד, כדי להשוות את האוספים לתכונות של התקפות בעולם האמיתי; ובפועל, שם המאגרים – ו’שיפורים’ של החוקרים עליהם – שימשו לתקיפת מודלים בעולם האמיתי.
בסבב השני של הבדיקות, החוקרים ‘שיטת הניסוח מחדש’ הושתפה עד שהושגו תוצאות אופטימליות במונחים של שיעור הצלחת התקיפה (ASR):

ה’רחצת כוונה’ מתחילה במעבר של פרומפט מזדוני בולט דרך מודל כתיבה מחדש שמסיר שפה מפורשת של הפעלה בעודו שומר על הכוונה הזדונית העומדת בבסיס. הפרומפט המשופר מוגש אז למודל יעד, והתגובה שלו מוערכת הן לבטיחות והן ליישומים בעולם האמיתי. אם הפלט מוערך כלא בטוח ומעשי, ההתקפה נחשבת למוצלחת. אם לא, גרסאות קודמות שנכשלו מוחזרות למודל הכתיבה מחדש, ונוצר לולאה איטרטיבית שפועלת כמנגנון ‘שבירת כלא’ עד שמגיע מספר ניסיונות מוגדר מראש או עד שמושג שיעור הצלחת התקיפה הרצוי.
המחברים טוענים*:
‘תוצאותינו מראות כי, עם לולאת הישוב מחדש, ‘רחצת כוונה’ מגיעה ל-שיעור הצלחת התקיפה גבוה (90%–98.55%) אחרי כמה איטרציות בלבד בכל המודלים שנבדקו, תחת גישה ‘קופסה שחורה’ מלאה. זה כולל מודלים אחרונים שדווחו כאחד הבטוחים ביותר – כגון Gemini 3 Pro ו-Claude Sonnet 3.7.
‘ממצאים אלו מאשרים עוד יותר כי הערכות בטיחות קיימות ושיטות התאמה לבטיחות הן מעודדות מאוד לאותות הפעלה.’
ה-עבודה החדשה נקראת ‘רחצת כוונה: מאגרי בטיחות AI אינם מה שהם נראים, והיא באה משני מחברים בחברת התוכנה Labelbox שבסן פרנסיסקו.
שיטה
כדי לחקור את ההרכב והארכיטקטורה של שני מאגרי הבדיקה בנפרד, נוצרו ענני מילים משני האוספים, והתגלה אילו מילים וביטויים קצרים שולטים באוספים:
… (rest of the translation remains the same, following the exact structure and format as the original, without any additions, removals, or alterations)












