Connect with us

ื”ืคืจื“ื•ืงืก ื”ืจืขื™ืœ: ืœืžื” ืžื•ื“ืœื™ AI ื’ื“ื•ืœื™ื ื™ื•ืชืจ ืงืœื™ื ืœื”ืืง

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

ื”ืคืจื“ื•ืงืก ื”ืจืขื™ืœ: ืœืžื” ืžื•ื“ืœื™ AI ื’ื“ื•ืœื™ื ื™ื•ืชืจ ืงืœื™ื ืœื”ืืง

mm

במשך שנים, קהילת ה- AI האמינה כי מודלים גדולים יותר הם באופן טבעי יותר בטוחים. הלוגיקה הייתה פשוטה: ככל שמודלים גדולים יותר מתאמנים על אוקיינוס של מאגרי נתונים, מספר קטן של דוגמאות “רעילות” יהיה קטן מדי כדי לגרום לנזק. האמונה הזו הרמזה כי קנה מידה מביא לביטחון.

אך מחקר חדש מחקר חשף פרדוקס מטריד. מודלי AI גדולים יותר עלולים להיות קלים יותר להרעלה. הממצאים מראים כי תוקף זקוק רק למספר קטן, כמעט קבוע, של דוגמאות תוקפניות כדי לפגוע במודל, ללא קשר לגודלו או לכמות הנתונים שהוא מתאמן עליהם. ככל שמודלי AI ממשיכים לגדול, פגיעותם היחסית גדלה במקום לרדת.

התגלית הזו מאתגרת אחת מההנחות המרכזיות בפיתוח AI מודרני. היא מאלצת את הקהילה לשקול מחדש כיצד לגשת לביטחון המודל ולשלמות הנתונים בעידן של מודלי שפה ענקיים.

הבנת הרעלת נתונים

הרעלת נתונים היא סוג של התקפה שבה יריב מחדיר נתונים מזיקים או מטעים לתוך מאגר נתונים. המטרה היא לשנות את התנהגות המודל מבלי להיתפס.

בלמידת מכונה מסורתית, הרעלה עשויה לכלול הוספת תוויות שגויות או דוגמאות מושחתות. במודלי שפה גדולים (LLM), ההתקפה הופכת לעדינה יותר. התוקף יכול לשתול טקסט מקוון המכיל “טריגרים” מוסתרים – ביטויים מיוחדים או דפוסים שגורמים למודל להתנהג בדרך מסוימת כאשר הוא מתאמן עליהם.

לדוגמה, מודל עשוי להתאמן לדחות הוראות מזיקות. אך אם נתוני ההאמון של המודל כוללים מסמכים מורעלים המקשרים ביטוי מסוים, כגון “Servius Astrumando Harmoniastra”, להתנהגות מזיקה, המודל עלול להגיב בצורה מזיקה לביטוי זה. בשימוש רגיל, המודל מתנהג כצפוי, מה שהופך את הדלת האחורית לקשה מאוד לגילוי.

מכיוון שרבים מהמודלים הגדולים מתאמנים באמצעות טקסט שנאסף מהרשת הפתוחה, הסיכון גבוה. האינטרנט מלא במקורות עריכה ולא מאומתים, מה שהופך אותו לקל לתוקפים להחדיר בשקט תוכן מעוצב שיהיה בסופו של דבר חלק מנתוני האימון של המודל.

אשליית הביטחון בקנה מידה

כדי להבין למה מודלים גדולים פגיעים, עוזר להביט באופן שבו הם נבנים. מודלי שפה גדולים כגון GPT-4 או Llama נבנים דרך שני שלבים עיקריים: האמון וקיפול עדין.

במהלך האמון, המודל לומד יכולות שפה והיגיון כלליות מכמויות עצומות של טקסט, לעיתים קרובות מגולף מהרשת. קיפול עדין מתאים את הידע הזה כדי להפוך את המודל לבטוח יותר ושימושי יותר.

מכיוון שהאמון מסתמך על מאגרי נתונים עצומים, לעיתים קרובות המכילים מאות מיליארדי טוקנים, הוא בלתי אפשרי עבור ארגונים לבדוק או לנקות אותם לחלוטין. אפילו מספר קטן של דוגמאות תוקפניות יכול לחמוק מבלי להיראות.

עד לאחרונה, רוב החוקרים האמינו כי קנה המידה העצום של הנתונים הפך את ההתקפות הללו ללא מעשיות. ההנחה הייתה כי כדי להשפיע משמעותית על מודל שהוא מתאמן על טריליוני טוקנים, תוקף יזדקק להחדיר אחוז גדול של נתונים רעילים, מה שיהיה משימה אינטנסיבית. במילים אחרות, “הרעל יושפך על ידי הנתונים הנקיים”.

אך ממצאים חדשים אותגרים את האמונה הזו. חוקרים הראו כי מספר הדוגמאות הרעילות הדרושות כדי לפגוע במודל אינו עולה עם גודל המאגר. בין אם המודל מתאמן על מיליונים או טריליוני טוקנים, המאמץ הדרוש כדי להשתיל דלת אחורית נותר כמעט קבוע.

גילוי זה אומר כי קנה מידה אינו מבטיח עוד ביטחון. “אפקט הדילול” של מאגרי נתונים גדולים הוא אשליה. מודלים גדולים יותר, עם יכולות למידה מתקדמות יותר, עלולים להגביר את השפעת כמויות קטנות של רעל.

עלות השחיתות הקבועה

חוקרים חושפים פרדוקס מטריד זה דרך ניסויים. הם אימנו מודלים בטווח של 600 מיליון עד 13 מיליארד פרמטרים, כל אחד עוקב אחר חוקי הקנה מידה שמבטיחים שימוש אופטימלי בנתונים. למרות ההבדל בגודל, מספר המסמכים הרעילים הדרושים כדי להשתיל דלת אחורית היה כמעט זהה. בדוגמה מרשימה, רק כ-250 מסמכים מעוצבים היו מספיקים כדי לפגוע בשני המודלים, הקטן והגדול.

כדי להעמיד זאת בפרספקטיבה, 250 המסמכים הללו היוו רק חלק קטן מאוד מהמאגר הגדול ביותר. ובכל זאת, הם היו מספיקים כדי לשנות את התנהגות המודל כאשר הטריגר הופיע. זה מראה כי אפקט הדילול של קנה מידה אינו מגן נגד הרעלה.

מכיוון שעלות השחיתות היא קבועה, המחסום להתקפה הוא נמוך. תוקפים אינם זקוקים לשליטה על תשתית מרכזית או להחדיר כמויות עצומות של נתונים. הם רק צריכים לשתול מספר קטן של מסמכים רעילים במקורות ציבוריים ולחכות שיהיו חלק מהאימון.

למה מודלים גדולים יותר פגיעים?

הסיבה שמודלים גדולים יותר פגיעים טמונה ביעילות הדגימה שלהם. מודלים גדולים יותר מסוגלים ללמוד מדוגמאות בודדות, יכולת הידועה בתור למידת דגימה יעילה. יכולת זו, בעודה שימושית ביישומים רבים, היא גם מה שהופך אותם לפגיעים יותר. מודל שיכול ללמוד דפוס לשוני מורכב ממספר קטן של דוגמאות יכול גם ללמוד התאמה מזיקה ממספר קטן של דוגמאות רעילות.

בעוד שכמות עצומה של נתונים נקיים אמורה, בתיאוריה, “לדלל” את השפעת הרעל, יכולת הלמידה העליונה של המודל מנצחת. הוא עדיין מוצא ומייצר את הדפוס המוסתר שהושתל על ידי התוקף. המחקר מראה כי הדלת האחורית הופכת ליעילה אחרי שהמודל נחשף למספר קבוע בערך של דוגמאות רעילות, ללא קשר לכמה נתונים אחרים הוא ראה.

בנוסף, ככל שמודלים גדולים יותר תלויים במאגרי נתונים עצומים לאימון, זה מקל על התוקפים לשתול את הרעל בצורה דלילה יותר (למשל, 250 מסמכים רעילים בין מיליארדים של מסמכים נקיים). דלילות זו הופכת את גילוי הרעל לקשה ביותר. טכניקות סינון מסורתיות, כגון הסרת טקסט רעיל או בדיקת כתובות URL שחורות, אינן יעילות כאשר הנתונים המזיקים הם נדירים כל כך. הגנות מתקדמות יותר, כגון גילוי חריגות או קיבוץ דפוסים, גם הן נכשלות כאשר האותות הם חלשים כל כך. ההתקפה מתחבאת מתחת לרעש, בלתי נראית למערכות ניקוי נוכחיות.

האיום מתרחב מעבר לשלב האימון

הפגיעות אינה עוצרת בשלב האימון. חוקרים הראו כי הרעלה יכולה להתרחש גם במהלך הקיפול העדין, אפילו כאשר נתוני האימון נקיים.

קיפול עדין משמש לעיתים קרובות לשפר את הביטחון, הסיום וביצוע המשימה. אך אם תוקף מצליח להחדיר מספר קטן של דוגמאות רעילות לשלב זה, הוא עדיין יכול להשתיל דלת אחורית.

בניסויים, חוקרים הכניסו דוגמאות רעילות במהלך קיפול עדין מפוקח, לפעמים רק כמה עשרות בין אלפי דוגמאות רגילות. הדלת האחורית נכנסה לתוקף בלי לפגוע בדיוק של המודל על נתונים נקיים. המודל התנהג באופן נורמלי בבדיקות רגילות אך הגיב באופן מזיק כאשר הטריגר הופיע. אפילו המשך האימון על נתונים נקיים לעיתים קרובות אינו מצליח להסיר את הדלת האחורית לחלוטין. זה יוצר סיכון של “פגיעות רדומות” בין מודלים שנראים בטוחים אך יכולים להינצל תחת תנאים מסוימים.

אסטרטגיית הגנת AI מחדש

הפרדוקס הרעיל מראה כי האמונה הישנה בביטחון דרך קנה מידה אינה תקפה יותר. קהילת ה- AI חייבת לשקול מחדש כיצד להגן על מודלים גדולים. במקום להניח שהרעלה יכולה להימנע באמצעות כמות עצומה של נתונים נקיים, עלינו להניח כי חלק מהנתונים תמיד יהיה מושחת.

הגנה צריכה להתמקד באישור ובמנגנוני בטיחות, ולא רק בניקיון הנתונים. כאן כמה כיוונים שצריכים להנחות פרקטיקות חדשות:

  1. ייחוס ואבטחת שרשרת אספקה: ארגונים צריכים לעקוב אחר מקור והיסטוריה של כל נתוני אימון. זה כולל אימות מקורות, שמירה על בקרת גרסאות, ואכיפת צנרת נתונים המוכחת כתמימה. כל רכיב נתונים צריך להיות מטופל עם מנטליות אפס אמון כדי להפחית את הסיכון של הזרקות מזיקות.
  2. בדיקות תוקפניות והפעלה: מודלים צריכים להיות בדוקים באופן פעיל עבור חולשות מוסתרות לפני פריסה. צוות אדום, פרומפטים תוקפניים, ובדיקת התנהגותית יכולים לעזור לחשוף דלתות אחוריות שבדיקות רגילות עלולות להחמיץ. המטרה היא לגרום למודל לחשוף את התנהגויות המוסתרות שלו בסביבות בקרה.
  3. הגנה בזמן ריצה ומעקב: יש ליישם מערכות בקרה המפקחות על התנהגות המודל בזמן אמת. השתמשו בטביעות אצבעות התנהגות, גילוי חריגות בפלט, ומערכות אילוץ כדי למנוע או להגביל נזק, אפילו אם דלת אחורית מופעלת. הרעיון הוא להכיל את ההשפעה במקום לנסות למנוע שחיתות לחלוטין.
  4. קיום דלת אחורית ושיקום: נדרש מחקר נוסף כדי להבין כמה זמן דלתות אחוריות נותרות וכיצד להסיר אותן. טכניקות “דטוקס” או תיקון מודל אחרי האימון יכולות למלא תפקיד חשוב. אם נוכל להסיר באופן אמין את הטריגרים המוסתרים אחרי האימון, נוכל להפחית את הסיכון הארוך טווח.

התחתית

הפרדוקס הרעיל משנה את הדרך בה אנו חושבים על ביטחון AI. מודלים גדולים יותר אינם באופן טבעי בטוחים יותר. בעובדה, יכולתם ללמוד מדוגמאות מעטות מה that הופכת אותם לפגיעים יותר להרעלה. זה לא אומר שמודלים גדולים לא ניתנים לבטח. אך זה אומר כי הקהילה צריכה לאמץ אסטרטגיות חדשות. אנו חייבים לקבל כי תמיד יהיו נתונים מושחתים. האתגר הוא לבנות מערכות שיכולות לגלות, להכיל ולהתאושש מהתקפות אלו. ככל ש- AI ממשיך לגדול בכוח ובהשפעה, הימורים גבוהים. הלקח מהמחקר החדש הוא ברור: קנה מידה לבדו אינו מגן. ביטחון חייב להיבנות עם ההנחה כי יריבים ינצלו כל חולשה, ללא קשר לגודלה.

ื“"ืจ ื˜ื”ืกื™ืŸ ื–ื™ืื” ื”ื•ื ืคืจื•ืคืกื•ืจ ื—ื‘ืจ ืงื‘ื•ืข ื‘ืื•ื ื™ื‘ืจืกื™ื˜ืช COMSATS ืืกืœืืžืื‘ืื“, ื‘ืขืœ ืชื•ืืจ PhD ื‘ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช ืžืื•ื ื™ื‘ืจืกื™ื˜ืช ื˜ื›ื ื•ืœื•ื’ื™ื” ืฉืœ ื•ื™ื ื”, ืื•ืกื˜ืจื™ื”. ื”ื•ื ืžืชืžื—ื” ื‘ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช, ืœืžื™ื“ืช ืžื›ื•ื ื”, ืžื“ืข ื ืชื•ื ื™ื ื•ืจืื™ื™ื” ืžืžื•ื—ืฉื‘ืช, ื•ืชืจื ืชืจื•ืžื•ืช ืžืฉืžืขื•ืชื™ื•ืช ืขื ืคืจืกื•ืžื™ื ื‘ื›ืชื‘ื™ ืขืช ืžื“ืขื™ื™ื ืืžื™ื ื™ื. ื“"ืจ ื˜ื”ืกื™ืŸ ื’ื ื”ื•ื‘ื™ืœ ืคืจื•ื™ืงื˜ื™ื ืชืขืฉื™ื™ืชื™ื™ื ืฉื•ื ื™ื ื›ื—ื•ืงืจ ืจืืฉื™ ื•ืฉื™ืžืฉ ื›ื™ื•ืขืฅ ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช.

ื’ื™ืœื•ื™ ื ืื•ืช ืœืžืคืจืกืžื™ื: Unite.AI ืžื—ื•ื™ื‘ืช ืœืกื˜ื ื“ืจื˜ื™ื ืžืขืจื›ืชื™ื™ื ืžื—ืžื™ืจื™ื ื›ื“ื™ ืœืกืคืง ืœืงื•ืจืื™ื ืžื™ื“ืข ื•ื—ื“ืฉื•ืช ืžื“ื•ื™ืงื™ื. ื™ื™ืชื›ืŸ ืฉื ืงื‘ืœ ืชื’ืžื•ืœ ื›ืืฉืจ ืชืœื—ืฆื• ืขืœ ืงื™ืฉื•ืจื™ื ืœืžื•ืฆืจื™ื ืฉืกืงืจื ื•.