בינה מלאכותית

‘שפת האימה’ שעלולה לערער את מערכות המודרטור הדימוי

Published August 9, 2022

Updated April 5, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

מחקר חדש מאוניברסיטת קולומביה מצביע על כך שהמנגנונים שמונעים ממודלים של סינתזת תמונות כגון DALL-E 2, Imagen ו-Parti לייצר תמונות מזיקות או שנויות במחלוקת, רגישים לסוג של התקפת אדוורסריאלית המערבת ‘מילים מומצאות’.

המחבר פיתח שתי גישות שיכולות לבטל את אמצעי המודרטור במערכת סינתזת תמונות, ומצא כי הן עמידות במידה ניכרת, אפילו ברחבי ארכיטקטורות שונות, מה שמרמז כי החולשה היא יותר מאשר סיסטמית, ועשויה להיות קשורה לחלק מהעקרונות היסודיים ביותר של סינתזת תמונות מטקסט.

הראשונה, והחזקה יותר מבין השתיים, נקראת macaronic prompting. המונח ‘macaronic’ במקור מתייחס לתערובת של מספר שפות, כפי שנמצא באספרנטו או Unwinese. אולי הדוגמה המפורסמת ביותר היא אורדו-אנגלית, סוג של ‘מיזוג קוד’ נפוץ בפקיסטן, המשלב בחופשיות שמות עצם אנגליים וסיומות אורדו.

Compositional macaronic prompting in DALL-E 2. Source: https://arxiv.org/pdf/2208.04135.pdf

בחלק מהדוגמאות הללו, חלקים של מילים משמעותיות הודבקו יחד, באמצעות אנגלית כ’סקאף’. דוגמאות אחרות במאמר משתמשות במספר שפות בתוך פרומפט יחיד.

המערכת תגיב באופן סמנטי משמעותי בגלל המחסור היחסי בארגון במקורות האינטרנט עליהם המערכת הוכשרה. מקורות כאלה יגיעו לעיתים קרובות עם תוויות רב-לשוניות (כלומר ממאגרי נתונים שלא תוכננו במיוחד עבור משימת סינתזת תמונות), וכל מילה שנבלעה, בשפה שהיא, תהפוך ל’טוקן’; אך באותה מידה, חלקים מאותן מילים יהפכו ל’סאבוורד’ או טוקנים חלקיים. בעיבוד שפה טבעית (NLP), סוג זה של ‘גזירה’ עוזר להבחין בין האטימולוגיה של מילים מורכבות יותר שעשויות להופיע בפעולות המרה, אך גם יוצר ‘סט’ לקסיקלי ענק ‘לגו’ ש’פרומפטים יצירתיים’ יכולים לנצל.

Monolingual portmanteau words are also effective in obtaining images through indirect or non-prosaic language, with very similar results often obtainable across differing architectures, such as DALL-E 2 and DALL-E Mini (Craiyon).

בגישה השנייה, הנקראת evocative prompting, חלק מהמילים המחוברות דומות בטון לזרם הצעיר יותר של ‘לטינית בית ספר’ המדגם ב Monty Python’s Life of Brian (1979).

It’s no joke – faux Latin often succeeds in evincing a meaningful response from DALL-E 2.

המחבר אומר:

‘דאגה ברורה לגבי שיטה זו היא העקיפה של סינוני תוכן המבוססים על פרומפטים שחורים. בעיקרון, macaronic prompting יכול לספק דרך קלה ונראית אמינה לעקוף סינונים כאלה כדי ליצור תוכן מזיק, מגונה, בלתי חוקי או רגיש, כולל תמונות אלימות, שנאה, גזענות, מין או פורנוגרפיה, ואולי תמונות המפרות זכויות יוצרים או מתארות אנשים אמיתיים.

‘חברות המציעות יצירת תמונות כשירות השקיעו הרבה מאוד במניעת יצירת פלטים כאלה על פי מדיניות התוכן שלהן. עקב כך, macaronic prompting צריך להיחקר באופן שיטתי כאיום על פרוטוקולי הבטיחות המשמשים ליצירת תמונות מסחריות.’

המחבר מציע מספר פתרונות נגד פגיעות זו, חלקם הוא מודה כי עשויים להיחשב מוגבלים מדי.

הפתרון האפשרי הראשון הוא היקר ביותר: לארגן את תמונות האימון בקפידה רבה יותר, עם פיקוח אנושי רב יותר ופחות אלגוריתמי. המאמר מודה כי זה לא ימנע מהמערכת ליצור קישור מזיק בין שני מושגי תמונות שהם בעצמם תמימים.

בשני, המאמר מציע כי מערכות סינתזת תמונות יכולות לרוץ את הפלט האמיתי שלהן דרך מערכת סינון, ולתפוס כל התאמות בעייתיות לפני שהן מוגשות למשתמש. ייתכן כי DALL-E 2 כבר פועלת עם סינון כזה, אם כי OpenAI לא חשפה בדיוק כיצד עובדת מודרטור התוכן של DALL-E 2.

לבסוף, המחבר שוקל את האפשרות של ‘רשימת מילים לבנה’, שתאפשר רק מילים מאושרות ומאומתות לאחזר ולהציג מושגים, אך מודה כי זה עלול לייצג הגבלה חמורה מדי על יעילות המערכת.

אף על פי שהחוקר ניסה רק עם חמש שפות (אנגלית, גרמנית, צרפתית, ספרדית ואיטלקית) ביצירת פרומפטים, הוא סבור כי סוג זה של ‘התקפת אדוורסריאלית’ יכול להיות אפילו יותר ‘מוסווה’ וקשה למנוע על ידי הרחבת מספר השפות, נוכח העובדה כי מודלים היפרסקליים כגון DALL-E 2 מאומנים על מספר שפות (פשוט משום שקל יותר להשתמש בקלט ‘לא מסונן’ או ‘גולמי’ מאשר לשקול את ההוצאה העצומה של ארגון, ובגלל שהממד הנוסף כנראה יוסיף ליעילות המערכת).

ה מאמר נקרא Adversarial Attacks on Image Generation With Made-Up Words, ומגיע מ-Raphaël Millière באוניברסיטת קולומביה.

שפה מוסוות ב-DALL-E 2

כבר הוצע כי האימה ש-DALL-E 2 מייצרת כאשר היא מנסה לתאר שפה כתובה יכולה להיות בעצמה ‘מילון נסתר’. אולם, המחקר הקודם בנוגע לשפה המסתורית הזו לא הציע שום דרך לפתח מחרוזות nonce שיכולות לזמן תמונות ספציפיות.

מתוך עבודה קודמת, המאמר אומר:

‘[היא] לא מציעה שיטה אמינה למצוא מחרוזות nonce שמעוררות תמונות ספציפיות. רוב הטקסט האימהי ש-DALL-E 2 כלולה בתמונות לא נראה קשור באופן אמין למושגים חזותיים ספציפיים כאשר מועתק ומשמש כפרומפט. זה מגביל את היעילות של גישה זו כדרך לעקוף את מודרטור התוכן של מודלים ליצירת תמונות מונחית טקסט; כך, זהו איום לא מיוחד לניצול לרעה של מודלים ליצירת תמונות מונחית טקסט.’

במקום זאת, שתי השיטות של המחבר מפורטות כאמצעים שבאמצעותם אימה יכולה לזמן תמונות קשורות ומשמעותיות תוך עקיפת האטיקט המסורתי שמתפתח כעת ל הנדסת פרומפט.

דוגמא, המחבר בוחן את המילה ל’ציפורים’ בחמש השפות שבהיקף המאמר: Vögel בגרמנית, uccelli באיטלקית, oiseaux בצרפתית, ו-pájaros בספרדית.

עם קידוד הזוגות (BPE) המשמש את היישום של CLIP המשולב ב-DALL-E 2, המילים מסומנות לאנגלית ללא הטעמה, ויכולות ‘להיחבר באופן יצירתי’ ליצור מילים nonce שנראות לנו כאימה, אך שומרות על המשמעות המחוברת עבור DALL-E 2, ומאפשרות למערכת לבטא את הכוונה התופסת:

בדוגמה לעיל, שתיים מהמילים ‘זרות’ ל ציפור מחוברות למחרוזת אימה. בזכות המשקל החלקי של הסאבוורד, המשמעות נשמרת.

המחבר מדגיש כי תוצאות משמעותיות יכולות גם להתקבל ללא צורך להיצמד לגבולות של סגמנטציה של סאבוורד, כנראה משום ש-DALL-E 2 (הנושא העיקרי של המאמר) התכנסה מספיק טוב כדי לאפשר לגבולות של הסאבוורד להתערפל ללא הרס המשמעות.

כדי להדגים עוד יותר את הגישות שפותחו, המאמר מציע דוגמאות ל-prompting מקרוני ברחבי תחומים שונים, באמצעות רשימת המילים המוצגות להלן (עם מילים היברידיות מוסוות בצד ימין).

המחבר טוען כי הדוגמאות הבאות מ-DALL-E 2 אינן ‘נבחרות’:

לינגואה פרנקה

המאמר גם מצביע על כך כי כמה דוגמאות כאלה עובדות היטב, או לפחות באופן דומה מאוד, גם ב-DALL-E 2 וגם ב-DALL-E Mini (כעת Craiyon), וכי זה מפתיע, שכן DALL-E 2 הוא מודל דיפוזיה ו-DALL-E Mini אינו; שתי המערכות מאומנות על מאגרי נתונים שונים; ו-DALL-E Mini משתמשת ב BART tokenizer במקום ה-CLIP tokenizer המועדף על ידי DALL-E 2.

Remarkably similar results from DALL-E Mini, compared to the previous image, which featured results from the same ‘nonsense’ input from DALL-E 2.

כפי שנראה בתמונה הראשונה לעיל, macaronic prompting יכולה גם להיבנות למשפטים תקינים מבחינה תחבירית כדי ליצור סצנות מורכבות יותר. עם זאת, זה דורש שימוש באנגלית כ’סקאף’ כדי לאסוף את המושגים, מה שהופך את ההליך ליותר מועד להיתפס על ידי מערכות צנזורה סטנדרטיות במערכת סינתזת תמונות.

המערכת יכולה גם לבצע היברידיזציה לקסיקלית, ‘דבק’ מילים, כדי להשיג תוכן קשור ממערכת סינתזת תמונות, גם בתוך שפה יחידה, באמצעות מילים פורטמנטו.

פרומפטינג אבוקטיבי

גישת ה-evocative prompting המוצגת במאמר מסתמכת על ‘הטרדה’ של תגובה רחבה יותר מהמערכת עם מילים שאינן מבוססות באופן הדוק על סאבוורד, סאב-טוקנים או תוויות חלקיות משותפות.

סוג אחד של evocative prompting הוא פסאודו-לטינית, שיכולה, בין היתר, ליצור תמונות של תרופות בדיוניות, אפילו בלי שום ציון ש-DALL-E 2 צריכה לאחזר את המושג ‘תרופה’:

evocative prompting עובדת במיוחד טוב עם פרומפטים מוסווים הקשורים לגאוגרפיה, ועובדת באופן אמין מאוד ברחבי הארכיטקטורות השונות של DALL-E 2 ו-DALL-E Mini:

The words used for these prompts to DALL-E 2 and DALL-E Mini are redolent of real names, but are in themselves utter nonsense. Nonetheless, the systems have ‘picked up the atmosphere’ of the words.

נראה כי יש חפיפה בין macaronic ו-evocative prompting. המאמר אומר:

‘נראה כי הבדלים בנתוני האימון, גודל המודל וארכיטקטורת המודל עלולים לגרום למודלים שונים לפרש פרומפטים כגון voiscellpajaraux ו-eidelucertlagarzard באופן ‘מקרוני’ או ‘אבוקטיבי’, אפילו כאשר מודלים אלה הוכחו כרגישים לשני סוגי פרומפטינג.’

המאמר מסיים:

‘בעוד שתכונות שונות של מודלים אלה – כולל גודל, ארכיטקטורה, טוקניזציה [נהלים] ונתוני אימון – עלולות להשפיע על פגיעותם להתקפות אדוורסריאליות מבוססות טקסט, ראיות ראשוניות שנדונו בעבודה זו מצביעות על כך שחלק מהתקפות אלה עלולות לעבוד באופן מועדף ברחבי המודלים.’

באופן טבעי, המכשול הגדול ביותר לניסויים אמיתיים סביב שיטות אלה הוא סיכון הזהה והחרמה על ידי המערכת המארחת. DALL-E 2 דורשת מספר טלפון עבור כל חשבון משתמש, מה שמגביל את מספר ‘חשבונות בורנר’ שכנראה יהיה צורך לבדוק באמת את גבולות הסוג הזה של ‘האקינג לקסיקלי’, במונחים של עקיפת שיטות מודרטור הקיימות. כרגע, המנגנון העיקרי של DALL-E 2 נותר היציבות של הגישה.

פורסם לראשונה ב-9 באוגוסט 2022.