בינה מלאכותית
מהי שירה עוינת? שיטת פריצה חדשה לבינה מלאכותית
בטיחות בבינה מלאכותית (AI) הפכה למשחק חתול ועכבר מתמיד. ככל שמפתחים מוסיפים מעקות בטיחות כדי לחסום בקשות מזיקות, תוקפים ממשיכים לנסות דרכים חדשות לעקוף אותן. אחת התהפוכות המוזרות ביותר עד כה היא שירה עוינת. טקטיקה זו כוללת הסוואת הנחיות כפסוק ושימוש בחרוז, מטאפורה וניסוחים יוצאי דופן כדי לגרום להוראות מסוכנות להיראות פחות דומות לדברים שמערכות בטיחות מאומנות לתפוס.
בפועל, התוכן עצמו לא משתנה הרבה. דווקא העטיפה היא זו שכן, מה שיכול להספיק כדי לבלבל מסננים מבוססי תבניות. זוהי תזכורת לכך שעם המודלים של ימינו, האופן שבו משהו נשאל יכול להיות חשוב כמעט כמו מה שנשאל.
מה קרה כאשר חוקרים השתמשו בשירים כדי לשבור את הבינה המלאכותית?
בתחילת 2025, חוקרים הדגימו כי ניתן לעודד מודלים של שפה גדולה (LLMs) להגיב להנחיות מוגבלות על ידי עטיפתן בצורה פואטית. במקום להוציא הוראות ישירות המפעילות מדיניות, החוקרים שילבו את אותן בקשות בתוך חרוזים, מטאפורות ושירים נרטיביים.
על פני השטח, ההנחיות נראו כתרגילי כתיבה יצירתית, אך מתחת לפני השטח, הן נשאו את אותה כוונה שבדרך כלל הייתה נחסמת. ב-25 מודלים קנייניים ופתוחים בחזית, הצוות דיווח כי מסגור פואטי השיג שיעור הצלחה ממוצע של בפריצה של 62% לשירים בעבודת יד וכ-43% עבור "המרת פסוקים" בכמות גדולה באמצעות מטא-פרומפט סטנדרטי.
התגובות עצמן לא היו סוגים חדשים של כישלונות, אלא כאלה מוכרים שהופיעו מבעד לדלת בלתי צפויה. המודלים נדחפו לייצר תוכן שהם בדרך כלל נמנעים ממנו - כגון הסברים הנוגעים לפעילויות בלתי חוקיות או מזיקות - משום שהבקשה הבסיסית הייתה מקוטעת ומוסתרת על ידי מבנה פואטי.
המסקנה המרכזית של המחקר היא ששונות סגנונית לבדה יכולה להספיק כדי להתחמק ממערכות בטיחות המכווננות לניסוח מילולי יותר. מחקר זה חושף פגיעות שניכרת במשפחות מודלים ובגישות יישור.
כיצד פועלת שירה יריבה
התקפות עוינות מנצלות מציאות פשוטה - מערכות למידת מכונה אינן "מבינות" שפה כמו שבני אדם מבינים. הן מזהות דפוסים, חוזות המשכיות אפשריות ועוקבות אחר הוראות המבוססות על מה ששכבות האימון והבטיחות שלהן מפרשות ככוונה.
כאשר הנחיה מנוסחת בצורה פשוטה ומילולית, קל יותר למעקות הבטיחות לזהות ולחסום. עם זאת, כאשר אותה מטרה מוסווית - מפוצלת, מרוככת או ממוסגרת מחדש - השכבות המגנות עלולות לפספס את מה שבאמת מתבקש.
מדוע שירה יכולה להיות כלי יעיל
שירה בנויה באופן טבעי לעמימות. היא מסתמכת על מטאפורות, הפשטה, מבנה יוצא דופן וניסוחים עקיפים. אלו בדיוק סוגי התכונות שיכולות לטשטש את הגבול בין "כתיבה יצירתית בלתי מזיקה" לבין "בקשה שיש לסרב לה".
באותו מחקר משנת 2025, חוקרים דיווחו כי הנחיות פואטיות עוררו תגובות לא בטוחות בשיעור הצלחה של 90% על פני מגוון רחב של מודלים, דבר המצביע על כך שסגנון לבדו יכול לשנות תוצאות באופן מהותי.
איך שיר מסתיר בקשה אמיתית
ראו את הבקשה כמסר ואת השיר כאריזה. מסנני בטיחות מחפשים לעתים קרובות סימנים ברורים, כגון מילות מפתח מפורשות, ניסוח ישיר שלב אחר שלב או כוונה זדונית ניתנת לזיהוי.
שירה יכולה להסתיר את הכוונה הזו באמצעות שפה פיגורטיבית או לפזר אותה על פני שורות, מה שמקשה על זיהויה בנפרד. בינתיים, המודל הבסיסי עדיין משחזר את המשמעות מספיק טוב כדי להגיב משום שהוא מותאם להסיק כוונה גם כאשר השפה עקיפה.
זיהוי וטיפול בפריצות למערכת
ככל ששיטות פריצה הופכות ליצירתיות יותר, השיח חייב לעבור מאופן פעולתן לאופן שבו הן מזוהות ומבולמות. זה נכון במיוחד עכשיו, כשבינה מלאכותית היא חלק משגרת יומם של אנשים רבים, כאשר 27% מדווחים על שימוש בו כמה פעמים ביום.
ככל שיותר אנשים משתמשים במודלים של שפה גדולה (LLMs), יש לבחון ולחקור אמצעי הגנה נוספים. משימה זו כרוכה בבניית הגנות רב-שכבתיות שיכולות להסתגל לסגנונות הנחיה חדשים ותכסיסים להתחמקות ככל שהם צצים.
הדילמה של המפתח
החלק הקשה ביותר בפריצות דרך עבור צוותי בטיחות בתחום הבינה המלאכותית הוא שהן לא מגיעות כאיום אחד ידוע. הן משתנות ללא הרף עם הזמן. שינוי מתמיד זה נובע מכך שמשתמש יכול לנסח מחדש הנחיה, לפצל אותה לקטעים, לעטוף אותה במשחק תפקידים או להסוות אותה ככתיבה יצירתית. לאחר מכן, כל אריזה חדשה יכולה לשנות את האופן שבו המערכת מפרשת את כוונת ההנחיה.
אתגר זה גדל במהירות כאשר בינה מלאכותית כבר משולבת בשגרה היומיומית, כך ששימוש בפועל יוצר הזדמנויות אינסופיות להופעת מקרי קצה.
זו הסיבה שבטיחות הבינה המלאכותית של ימינו נראית יותר כמו ניהול סיכונים לאורך זמן. מסגרת ניהול הסיכונים של NIST לבינה מלאכותית (AI RMF) מתייחסת במפורש לניהול סיכונים. כמערך מתמשך של פעילויות — מאורגן סביב שליטה, מיפוי, מדידה וניהול — ולא כרשימת תיוג סטטית. המטרה היא ליצור תהליכים המקלים על זיהוי מצבי כשל מתעוררים, סדרי עדיפויות לתיקונים והידוק אמצעי ההגנה ככל שסגנונות חדשים של פריצה מופיעים.
כיצד דוגמנים מגינים על עצמם
בטיחות בינה מלאכותית מורכבת מכמה שכבות. ברוב המערכות יש יותר מהגנה אחת שעובדת יחד, כאשר כל אחת מהן לוכדת סוגים שונים של התנהגויות מסוכנות. בשכבה החיצונית, סינון קלט ופלט משמש כשומר סף.
בקשות נכנסות נסרקות לאיתור הפרות מדיניות לפני שהן מגיעות למודל הליבה, בעוד שתגובות יוצאות נבדקות כדי לוודא ששום דבר לא מחליק דרכן בדרך חזרה למשתמש. מערכות אלו טובות בזיהוי בקשות ישירות או דגלים אדומים מוכרים, אך הן גם הקלות ביותר לעקיפתן, ולכן פריצות ג'יילס מטעות יותר עוקפות אותן לעתים קרובות.
שכבת ההגנה הבאה מתרחשת בתוך המודל עצמו. כאשר מתגלות טכניקות פריצה, הן הופכות לעתים קרובות לדוגמאות אימון. כאן נכנסים לתמונה אימון עוין ולמידת חיזוק ממשובץ אנושי (RLHF).
על ידי כוונון עדין של מודלים על דוגמאות של אינטראקציות כושלות או מסוכנות, מפתחים מלמדים ביעילות את המערכת לזהות דפוסים שעליה לסרב להם, גם כאשר הם עטופים בשפה יצירתית או עקיפה. עם הזמן, תהליך זה מסייע לחסן את המודל מפני סוגים שלמים של התקפות.
תפקידה של "צוות אדום" של בינה מלאכותית
במקום לחכות לפריצה שתתרחש, חברות משתמשות בצוותים אדומים של בינה מלאכותית. צוותים אלה הם קבוצות שתפקידן לנסות לפרוץ מודלים בסביבות מבוקרות. הם ניגשים למערכות כפי שתוקף היה ניגש אליה, ומתנסים בניסוחים יוצאי דופן, פורמטים יצירתיים ומקרי קצה כדי לחשוף היכן אמצעי ההגנה לוקים בחסר. המטרה היא לחשוף נקודות תורפה לפני שהן מופיעות בשימוש בעולם האמיתי.
שיתוף פעולה בצוותים אדומים הופך כעת לחלק מרכזי במחזור חיי הפיתוח באסטרטגיות אבטחת הסייבר של ימינו. כאשר צוות מגלה טכניקת פריצה חדשה, הנתונים המתקבלים מוזנים ישירות לצינורות ההדרכה וההערכה. מידע זה משמש להגדרת מסננים, התאמת מדיניות וחיזוק הכשרת יריבים, כך שניסיונות דומים יהיו פחות סבירים להצליח בעתיד. עם הזמן, זה יוצר לולאה מתמשכת - חיפוש אחר כשלים, למידה מהם ושיפור המערכת, ואז חזרה על הפעולה.
כאשר שירה הופכת למבחן לחץ לבטיחות בינה מלאכותית
שירת עוינות היא תזכורת לכך שאמצעי הגנה של בינה מלאכותית תלויים באופן שבו המשתמש מנסח שאלות, ולא רק במה. ככל שמודלים הופכים נגישים יותר ונמצאים בשימוש נרחב יותר, חוקרים ימשיכו לחקור את הפערים בין שפה יצירתית למערכות אבטחה שנועדו לתפוס כוונה ישירה יותר. המסקנה היא שבינה מלאכותית בטוחה יותר תגיע מהגנות מרובות שמתפתחות במהירות כמו פריצות מכלא.












