ืืืืืืช ืฉื Anderson
ืฉืืืจืช ืื ืื ืื ื ืืฆื ืืืจื ืฉื ืืื ืืืืื ืฆืื ืืืืืืชืืช ืืืืฆืขืืช ืืงืกื ืืชืืื ื

חוקרים טוענים כי פלטפורמות עריכת תמונות AI מובילות יכולות להיות “שבירות” דרך טקסט רסטרי ורמזים חזותיים, מה שמאפשר עריכות אסורות לעבור מסנני בטיחות ולהצליח בעד 80.9% מהמקרים.
יש להיות מודעים כי מאמר זה מכיל תמונות פוטנציאלית מגונות, שנוצרו עם AI על ידי מחברי המאמר כדי להמחיש את שיטת ההגנה החדשה.
כדי למנוע חשיפה משפטית ונזק למוניטין, פלטפורמות AI לעריכת תמונות בשיא הטכנולוגיה מנהלות מגוון אמצעי צנזור כדי למנוע ממשתמשים ליצור תמונות “אסורות” במגוון קטגוריות, כגון תוכן NSFW ו/או תוכן משמיץ:
אפילו הפלטפורמות המסורבות ביותר – במיוחד Grok – נאלצו לקבל את הקו הנוכחי תחת לחץ ציבורי או לחץ פוליטי.
הידוע בשם “התאמה”, נתונים הנכנסים ויוצאים נסרקים בחיפוש אחר הפרות כללי שימוש. כך, העלאת תמונה תמימה של אדם תעבור את בדיקות התמונה – אך בקשה מהמודל היצירתי להפוך אותה לסרטון שיתפתח לתוכן לא בטוח (כלומר, ‘הראה את האדם מתפשט’) תיתפס ברמת הטקסט.
משתמשים יכולים לעקוף את אמצעי הבטיחות הזה על ידי שימוש בפרומפטים שאינם גורמים לטריגרים של מסנני טקסט, אך בכל זאת מובילים בהגיון ליצירת תוכן לא בטוח (כגון ‘תן להם לקום’, כאשר הפרומפט התמונה הוא אדם שקוע באמבטיה רוחשת). כאן, מסנני מערכת>משתמש בדרך כלל מתערבים, על ידי סריקת תגובות המערכת, כגון תמונות, טקסט, קול, וידאו וכו’, בחיפוש אחר כל דבר שהיה אסור כקלט.
בדרך זו, משתמש יכול לאלץ מערכת ליצור תוכן לא בטוח; אך במרבית המקרים, המייצר לא יעביר את התוכן בחזרה למשתמש.
רק סמנטיקה
האיסור הסופי הזה קורה מכיוון שהפלט המוצג נבדק על ידי מערכות רב-מודאליות כגון CLIP, שיכולות לפרש תמונות בחזרה לתחום הטקסט, ואז ליישם מסנן טקסט. מאחר שמייצרי תמונות מודרניים הם מערכות דיפוזיה המאומנות על תמונות וטקסט מזוגות, אפילו כאשר משתמש מספק רק תמונה, המודל מפרש אותה דרך ייצוגים סמנטיים שהושפעו משפה במהלך האימון.
המבנה המשותף הזה של הטמעה השפיע על הדרך בה נבנים מנגנוני בטיחות, שכן שכבות מודרכות רבות מעריכות פרומפטים כטקסט, ומובילות קלטים חזותיים לצורה תיאורית לפני קבלת החלטות; ובגלל ארכיטקטורה זו, עבודת ההתאמה התמקדה בעיקר בשפה, באמצעות תיאור תמונות כמנגנון חומת אש.
אולם, מחקרים קודמים במערכות יצירתיות רב-מודאליות הוכיחו כבר כי הוראות יכולות להיות מוטמעות בתוך תמונות דרך טכניקות אופטימיזציה חוצה-מודאליות או קידוד סטגנוגרפי:
[…]
(התרגום המלא יימשך כאן, תוך שמירה על המבנה, הפורמט, הכותרות, הנקודות, והקישורים המקוריים)










