בדל חוקרי MIT מפתחים מודל בינה מלאכותית מונחה סקרנות כדי לשפר את בדיקות הבטיחות של צ'טבוט - Unite.AI
צור קשר

אֶתִיקָה

חוקרי MIT מפתחים מודל AI מונחה סקרנות כדי לשפר את בדיקות הבטיחות של צ'טבוט

יצא לאור

 on

בשנים האחרונות, מודלים של שפה גדולה (LLMs) ו צ'אט בוטים של AI הפכו נפוצים להפליא, ומשנים את הדרך בה אנו מתקשרים עם טכנולוגיה. מערכות מתוחכמות אלו יכולות ליצור תגובות דמויות אדם, לסייע במשימות שונות ולספק תובנות חשובות.

עם זאת, ככל שהמודלים הללו מתקדמים יותר, חששות בנוגע לבטיחותם ולפוטנציאל ליצירת תוכן מזיק עלו לקדמת הבמה. כדי להבטיח את הפריסה האחראית של צ'אטבוטים של AI, בדיקות יסודיות ואמצעי הגנה חיוניים.

מגבלות של שיטות בדיקת הבטיחות הנוכחיות של Chatbot

נכון לעכשיו, השיטה העיקרית לבדיקת הבטיחות של צ'טבוטים של AI היא תהליך שנקרא red-teaming. זה כולל בודקים אנושיים שיוצרים הנחיות שנועדו לעורר תגובות לא בטוחות או רעילות מהצ'אטבוט. על ידי חשיפת המודל למגוון רחב של תשומות שעלולות להיות בעייתיות, מפתחים שואפים לזהות ולטפל בכל פגיעות או התנהגויות לא רצויות. עם זאת, לגישה מונעת אנושית זו יש מגבלות.

בהתחשב באפשרויות העצומות של קלט משתמשים, זה כמעט בלתי אפשרי עבור בודקים אנושיים לכסות את כל התרחישים הפוטנציאליים. אפילו עם בדיקות מקיפות, עשויים להיות פערים בהנחיות המשמשות, מה שמותיר את הצ'אטבוט חשוף ליצירת תגובות לא בטוחות כאשר הוא מתמודד עם תשומות חדשות או בלתי צפויות. יתרה מכך, האופי הידני של שיתוף פעולה אדום הופך אותו לתהליך שלוקח זמן ועתיר משאבים, במיוחד כאשר מודלים של שפות ממשיכים לגדול בגודלם ובמורכבותם.

כדי לטפל במגבלות אלו, חוקרים פנו לטכניקות אוטומציה ולמידת מכונה כדי לשפר את היעילות והאפקטיביות של בדיקות בטיחות צ'אטבוט. על ידי מינוף הכוח של AI עצמו, הם שואפים לפתח שיטות מקיפות יותר וניתנות להרחבה לזיהוי והפחתת סיכונים פוטנציאליים הקשורים למודלים של שפות גדולות.

גישת למידת מכונה מונעת סקרנות ל-Red-Teaming

חוקרים ממעבדת ה-Improbable AI ב-MIT וממעבדת MIT-IBM Watson AI פיתחו א גישה חדשנית כדי לשפר את תהליך השיתוף האדום באמצעות למידת מכונה. השיטה שלהם כרוכה באימון מודל שפה גדול של צוות אדום נפרד כדי ליצור אוטומטית הנחיות מגוונות שיכולות להפעיל מגוון רחב יותר של תגובות לא רצויות מהצ'טבוט הנבדק.

המפתח לגישה זו טמון בהחדרת תחושת סקרנות במודל של הצוות האדום. על ידי עידוד המודל לחקור הנחיות חדשות ולהתמקד ביצירת תשומות המעוררות תגובות רעילות, החוקרים שואפים לחשוף קשת רחבה יותר של פגיעויות פוטנציאליות. חקירה מונעת סקרנות זו מושגת באמצעות שילוב של טכניקות למידת חיזוק ואותות תגמול שונה.

המודל מונע הסקרנות משלב בונוס אנטרופיה, המעודד את מודל הצוות האדום ליצור הנחיות אקראיות ומגוונות יותר. בנוסף, מוצגים תגמולי חידוש כדי לתמרץ את המודל ליצור הנחיות הנבדלות מבחינה סמנטית ולקסיקלית מאלה שנוצרו בעבר. על ידי מתן עדיפות לחידושים וגיוון, המודל נדחף לחקור טריטוריות לא ידועות ולחשוף סיכונים נסתרים.

כדי להבטיח שההנחיות שנוצרו יישארו קוהרנטיות ונטורליסטיות, החוקרים כוללים גם בונוס שפה ביעד ההכשרה. בונוס זה עוזר למנוע מהמודל של הצוות האדום לייצר טקסט שטותי או לא רלוונטי שעלול להערים על מסווג הרעילות להקצות ציונים גבוהים.

הגישה מונעת הסקרנות הוכיחה הצלחה יוצאת דופן בביצועים טובים יותר גם בודקים אנושיים וגם שיטות אוטומטיות אחרות. זה מייצר מגוון גדול יותר של הנחיות ברורות ומעורר תגובות רעילות יותר ויותר מהצ'אטבוטים הנבדקים. יש לציין, שיטה זו אפילו הצליחה לחשוף נקודות תורפה בצ'אטבוטים שעברו אמצעי הגנה נרחבים בתכנון אנושי, והדגישו את יעילותה בחשיפת סיכונים פוטנציאליים.

השלכות על עתיד בטיחות בינה מלאכותית

הפיתוח של צוות אדום מונע על ידי סקרנות מסמן צעד משמעותי קדימה בהבטחת הבטיחות והאמינות של דגמי שפות גדולים וצ'אטבוטים של AI. ככל שהמודלים האלה ממשיכים להתפתח ולהשתלב יותר בחיי היומיום שלנו, חיוני שיהיו שיטות בדיקה חזקות שיכולות לעמוד בקצב ההתפתחות המהירה שלהן.

הגישה מונעת הסקרנות מציעה דרך מהירה ויעילה יותר לבצע אבטחת איכות במודלים של AI. על ידי אוטומציה של יצירת הנחיות מגוונות וחדישות, שיטה זו יכולה לצמצם משמעותית את הזמן והמשאבים הנדרשים לבדיקה, ובמקביל לשפר את הכיסוי של נקודות תורפה פוטנציאליות. מדרגיות זו חשובה במיוחד בסביבות המשתנות במהירות, שבהן מודלים עשויים לדרוש עדכונים תכופים ובדיקות חוזרות.

יתרה מכך, הגישה מונעת הסקרנות פותחת אפשרויות חדשות להתאמה אישית של תהליך בדיקת הבטיחות. לדוגמה, על ידי שימוש במודל שפה גדול כמסווג הרעילות, מפתחים יכולים לאמן את המסווג באמצעות מסמכי מדיניות ספציפיים לחברה. זה יאפשר למודל של הצוות האדום לבחון צ'אטבוטים לעמידה בהנחיות ארגוניות מסוימות, ולהבטיח רמה גבוהה יותר של התאמה אישית ורלוונטיות.

ככל שהבינה המלאכותית ממשיכה להתקדם, לא ניתן להפריז בחשיבות של שיתוף פעולה אדום מונע על ידי סקרנות בהבטחת מערכות AI בטוחות יותר. על ידי זיהוי יזום והתייחסות לסיכונים פוטנציאליים, גישה זו תורמת לפיתוח של צ'טבוטים אמינים ואמינים יותר של AI שניתן לפרוס בביטחון בתחומים שונים.

אלכס מקפרלנד הוא עיתונאי וסופר בינה מלאכותית הבוחן את ההתפתחויות האחרונות בתחום הבינה המלאכותית. הוא שיתף פעולה עם סטארט-אפים ופרסומים רבים של AI ברחבי העולם.