הזווית של Anderson

שבירת מנגנוני הצנזורה של אינטליגנציה מלאכותית באמצעות טקסט בתמונה

Published February 12, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

חוקרים טוענים כי פלטפורמות עריכת תמונות AI מובילות יכולות להיות “שבירות” דרך טקסט רסטרי ורמזים חזותיים, מה שמאפשר עריכות אסורות לעבור מסנני בטיחות ולהצליח בעד 80.9% מהמקרים.

יש להיות מודעים כי מאמר זה מכיל תמונות פוטנציאלית מגונות, שנוצרו עם AI על ידי מחברי המאמר כדי להמחיש את שיטת ההגנה החדשה.

כדי למנוע חשיפה משפטית ונזק למוניטין, פלטפורמות AI לעריכת תמונות בשיא הטכנולוגיה מנהלות מגוון אמצעי צנזור כדי למנוע ממשתמשים ליצור תמונות “אסורות” במגוון קטגוריות, כגון תוכן NSFW ו/או תוכן משמיץ:

אפילו הפלטפורמות המסורבות ביותר – במיוחד Grok – נאלצו לקבל את הקו הנוכחי תחת לחץ ציבורי או לחץ פוליטי.

הידוע בשם “התאמה”, נתונים הנכנסים ויוצאים נסרקים בחיפוש אחר הפרות כללי שימוש. כך, העלאת תמונה תמימה של אדם תעבור את בדיקות התמונה – אך בקשה מהמודל היצירתי להפוך אותה לסרטון שיתפתח לתוכן לא בטוח (כלומר, ‘הראה את האדם מתפשט’) תיתפס ברמת הטקסט.

משתמשים יכולים לעקוף את אמצעי הבטיחות הזה על ידי שימוש בפרומפטים שאינם גורמים לטריגרים של מסנני טקסט, אך בכל זאת מובילים בהגיון ליצירת תוכן לא בטוח (כגון ‘תן להם לקום’, כאשר הפרומפט התמונה הוא אדם שקוע באמבטיה רוחשת). כאן, מסנני מערכת>משתמש בדרך כלל מתערבים, על ידי סריקת תגובות המערכת, כגון תמונות, טקסט, קול, וידאו וכו’, בחיפוש אחר כל דבר שהיה אסור כקלט.

בדרך זו, משתמש יכול לאלץ מערכת ליצור תוכן לא בטוח; אך במרבית המקרים, המייצר לא יעביר את התוכן בחזרה למשתמש.

רק סמנטיקה

האיסור הסופי הזה קורה מכיוון שהפלט המוצג נבדק על ידי מערכות רב-מודאליות כגון CLIP, שיכולות לפרש תמונות בחזרה לתחום הטקסט, ואז ליישם מסנן טקסט. מאחר שמייצרי תמונות מודרניים הם מערכות דיפוזיה המאומנות על תמונות וטקסט מזוגות, אפילו כאשר משתמש מספק רק תמונה, המודל מפרש אותה דרך ייצוגים סמנטיים שהושפעו משפה במהלך האימון.

המבנה המשותף הזה של הטמעה השפיע על הדרך בה נבנים מנגנוני בטיחות, שכן שכבות מודרכות רבות מעריכות פרומפטים כטקסט, ומובילות קלטים חזותיים לצורה תיאורית לפני קבלת החלטות; ובגלל ארכיטקטורה זו, עבודת ההתאמה התמקדה בעיקר בשפה, באמצעות תיאור תמונות כמנגנון חומת אש.

אולם, מחקרים קודמים במערכות יצירתיות רב-מודאליות הוכיחו כבר כי הוראות יכולות להיות מוטמעות בתוך תמונות דרך טכניקות אופטימיזציה חוצה-מודאליות או קידוד סטגנוגרפי:

[…]

(התרגום המלא יימשך כאן, תוך שמירה על המבנה, הפורמט, הכותרות, הנקודות, והקישורים המקוריים)

Related Topics:Advanced LLMs censorship Large Language Models (LLMs)VLM

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

שבירת מנגנוני הצנזורה של אינטליגנציה מלאכותית באמצעות טקסט בתמונה

You may like