בינה מלאכותית

כיצד לדעת מתי מערכות סינתזת תמונה מייצרות חומר 'מקורי' אמיתי

מְעוּדכָּן on דצמבר 9, 2022

'דובונים עובדים על מחקר בינה מלאכותית חדשה מתחת למים עם טכנולוגיה של שנות ה-1990' - מקור: https://www.creativeboom.com/features/meet-dall-e/

מחקר חדש מדרום קוריאה הציע שיטה לקבוע אם מערכות סינתזת תמונות מייצרות תמונות חדשות באמת, או גרסאות 'מינוריות' על נתוני האימון, שעלולות להביס את המטרה של ארכיטקטורות כאלה (כגון ייצור של תמונות חדשות ומקוריות) .

לעתים קרובות מאוד, טוען המאמר, האחרון נכון, מכיוון שהמדדים הקיימים שמערכות כאלה משתמשות בהם כדי לשפר את היכולות היצירתיות שלהן במהלך האימון נאלצים להעדיף תמונות הקרובות יחסית לתמונות המקור (הלא מזויפות) במערך הנתונים .

אחרי הכל, אם תמונה שנוצרה היא 'קרוב חזותית' לנתוני המקור, סביר להניח שהיא תזכה לניקוד טוב יותר עבור 'אותנטיות' מאשר 'מקוריות', מכיוון שהיא 'נאמנה' - אם היא חסרת השראה.

במגזר חדשני ולא מנוסה מכדי שהשלכותיו המשפטיות יהיו ידועות עדיין, זה יכול להיות להתברר כסוגיה משפטית חשובה, אם יתברר כי תוכן תמונה סינתטי ממוסחר אינו שונה מספיק מחומר המקור המוגן בזכויות יוצרים (לעתים קרובות) שנמצא כעת מותר לזלף מגזר המחקר בצורה של מערכי נתונים פופולריים מגורדים ברשת (הפוטנציאל לתביעות עתידיות להפרה מסוג זה הגיע לגדולה די לאחרונה לגבי GitHub Co-Pilot AI של מיקרוסופט).

במונחים של הפלט הקוהרנטי והחזק מבחינה סמנטית ממערכות כמו של OpenAI DALL-E2, של גוגל תמונה, ושל סין CogView משחרר (כמו גם את המפרט הנמוך יותר DALL-E מיני), יש מעט מאוד פוסט עובדה דרכים לבדוק באופן מהימן את המקוריות של תמונה שנוצרה.

ואכן, חיפוש אחר כמה מהתמונות הפופולריות ביותר מבין התמונות החדשות של DALL-E 2 לרוב יוביל רק למקרים נוספים של אותן תמונות, בהתאם למנוע החיפוש.

העלאת קבוצת פלט של 9 תמונות DALL-E 2 מובילה רק לקבוצות פלט DALL-E 2 נוספות. הפרדה והעלאה של התמונה הראשונה (מתוך פוסט טוויטר זה מ-8 ביוני 2022, מתוך החשבון 'Weird Dall-E Generations') גורמת לגוגל להתקבע על הכדורסל שבתמונה, ולוקחת את החיפוש המבוסס על תמונה בסמטה עיוורת סמנטית. עבור אותו חיפוש מבוסס תמונה, נראה כי Yandex לפחות עושה איזשהו פירוק מבוסס פיקסלים בפועל והתאמת תכונות.

העלאת קבוצת פלט DALL-E 9 מלאה בת 2 תמונות מובילה רק לקבוצות פלט נוספות של DALL-E 2, מכיוון שמבנה הרשת הוא התכונה החזקה ביותר. הפרדה והעלאה של התמונה הראשונה (מ הפוסט הזה בטוויטר מה-8 ביוני 2022, מתוך החשבון 'Weird Dall-E Generations') גורם לגוגל להתבסס על הכדורסל שבתמונה, תוך שהוא לוקח את החיפוש המבוסס על תמונה בסמטה עיוורת סמנטית. עבור אותו חיפוש מבוסס תמונה, נראה כי Yandex לפחות עושה איזשהו פירוק מבוסס פיקסלים בפועל והתאמת תכונות.

אם כי סביר יותר ש-Yandex ישתמש בחיפוש בגוגל בפועל מאפיינים (כלומר תמונה נגזרת/מחושבת מאפיינים, לאו דווקא תווי פנים של אנשים) ו חזותי מאפיינים (ולא סמנטיים) של תמונה שנשלחה כדי למצוא תמונות דומות, לכל מנועי החיפוש מבוססי התמונות יש סוג של סדר יום או תרגול שעלול להקשות על זיהוי מקרים של מקור>נוצר פלגיאט באמצעות חיפושים באינטרנט.

בנוסף, ייתכן שנתוני ההכשרה עבור מודל יצירתי לא יהיו זמינים לציבור בשלמותם, מה שגורם לבדיקה פורנזית נוספת של מקוריות של תמונות שנוצרו.

מעניין, ביצוע חיפוש מבוסס-תמונות באינטרנט על אחת התמונות הסינתטיות שהוצגו על ידי גוגל ב- אתר Imagen ייעודי לא מוצא שום דבר שמשתווה לנושא התמונה, מבחינת התבוננות בפועל בתמונה וחיפוש ללא משוא פנים של תמונות דומות. במקום זאת, מקובע סמנטי כתמיד, תוצאות החיפוש של Google Image עבור תמונת Imagen זו לא יאפשרו חיפוש מבוסס-תמונות טהור של התמונה ללא הוספת מונחי החיפוש 'imagen google' כפרמטר נוסף (ומגביל):

Yandex, לעומת זאת, מוצאת שפע של תמונות דומות (או לפחות קשורות ויזואלית) מהעולם האמיתי מהקהילה האמנותית החובבת:

באופן כללי, עדיף יהיה אם ניתן יהיה למדוד בדרך כלשהי את החדשנות או המקוריות של הפלט של מערכות סינתזת תמונות, ללא צורך לחלץ תכונות מכל תמונה אפשרית הפונה לאינטרנט באינטרנט בזמן שהמודל הוכשר, או במערכי נתונים שאינם ציבוריים שעשויים להשתמש בחומר המוגן בזכויות יוצרים.

בקשר לנושא זה, חוקרים מבית הספר ללימודי בינה מלאכותית Kim Jaechul במכון המתקדם למדע וטכנולוגיה של קוריאה (KAIST AI) שיתפו פעולה עם חברת ה-ICT והחיפוש העולמית NAVER Corp כדי לפתח ציון נדירות שיכול לעזור לזהות את היצירות המקוריות יותר של מערכות סינתזת תמונה.

התמונות כאן נוצרות באמצעות StyleGAN-FFHQ. משמאל לימין, העמודות מצביעות על התוצאות הגרועות עד הטובות ביותר. אנו יכולים לראות שלמדד 'טריק חיתוך' (ראה להלן) ולמדד הריאליזם יש אג'נדות משלהם, בעוד שהציון החדש של 'נדירות' (השורה העליונה) מחפש דימויים מלוכדים אך מקוריים (ולא רק דימויים מלוכדים). מכיוון שיש מגבלות על גודל תמונה במאמר זה, אנא עיין במסמך המקור לקבלת פירוט ורזולוציה טובים יותר. מקור: https://arxiv.org/pdf/2206.08549.pdf

DELETE THIS מאמר מכונה ציון נדירות: מדד חדש להערכת אי השכיחות של תמונות מסונתזות, ומגיע משלושה חוקרים ב-KAIST, ושלושה מ-NAVER Corp.

מעבר ל"טריק הזול"

בין המדדים הקודמים שהעיתון החדש מבקש לשפר הם 'טריק הקיצוץ' הוצע ב-2019 בשיתוף פעולה בין אוניברסיטת Heriot-Watt בבריטניה ו-DeepMind של גוגל.

טריק ה-Truncation משתמש בעצם בהתפלגות סמויה שונה לדגימה מזו ששימשה לאימון המודל הגנרטיבי.

החוקרים שפיתחו שיטה זו הופתעו מכך שהיא עובדת, אך מודים במאמר המקורי שהיא מפחיתה את מגוון התפוקות שנוצרו. למרות זאת, טריק הקטיעה הפך להיות יעיל ופופולרי, בהקשר של מה שניתן לטעון מחדש כ'טריק זול' להשגת תוצאות בעלות מראה אותנטי שלא באמת מטמיעות את כל האפשרויות הגלומות בנתונים, ועשויות דומה לנתוני המקור יותר מהרצוי.

בנוגע לטריק הקטיעה, מחברי העיתון החדש מציינים:

"[זה] לא נועד ליצור דוגמאות נדירות במערכי נתונים של אימון, אלא לסנתז תמונות טיפוסיות בצורה יציבה יותר. אנו משערים שמודלים גנרטיביים קיימים יוכלו לייצר דגימות עשירות יותר בהפצת הנתונים האמיתית אם ניתן יהיה לגרום למחולל לייצר דגימות נדירות ביעילות.'

על הנטייה הכללית להסתמך על מדדים מסורתיים כמו Frechet Inception Distance (FID, אשר ספג ביקורת חריפה בדצמבר 2021), ציון התחלה (IS) ומרחק תחילת הליבה (KID) כ'אינדיקטורים להתקדמות' במהלך ההכשרה של מודל מחולל, המחברים הערים עוד*:

"סכימת למידה זו מובילה את המחולל לא לסנתז הרבה דגימות נדירות שהן ייחודיות ובעלות מאפיינים חזקים שאינם מהווים חלק גדול מהתפלגות התמונה האמיתית. דוגמאות לדוגמאות נדירות ממערכי נתונים ציבוריים כוללות אנשים עם אביזרים שונים FFHQ, חיות לבנות ב-AFHQ, ו פסלים לא שכיחים ב- Metfaces.

"היכולת ליצור דגימות נדירות חשובה לא רק בגלל שהיא קשורה ליכולת הקצה של המודלים הגנרטיביים, אלא גם בגלל שייחודיות משחקת תפקיד חשוב ביישומים יצירתיים כמו בני אדם וירטואליים.

"עם זאת, התוצאות האיכותיות של כמה מחקרים עדכניים מכילים רק לעתים רחוקות את הדוגמאות הנדירות הללו. אנו משערים שטבעה של ערכת הלמידה האדוורסרית מייצרת הפצת תמונות דומה לזו של מערך אימון. לפיכך, תמונות עם אינדיבידואליות ברורה או נדירות לוקחות רק חלק קטן בתמונות המסונתזות על ידי הדוגמניות.'

טכניקה

ציון נדירות החדש של החוקרים מתאים לרעיון המוצג ב מוקדם יותר עובד - השימוש של השכנים הקרובים ביותר (KNNs) כדי לייצג את מערכי הנתונים האמיתיים (אימון) וסינתטיים (פלט) במערכת סינתזת תמונה.

בנוגע לשיטת הניתוח החדשנית הזו, טוענים המחברים:

"אנו משערים שדגימות רגילות יהיו קרובות יותר זו לזו בעוד שדגימות ייחודיות ונדירות יהיו ממוקמות בדלילות בחלל המאפיינים."

תמונת התוצאות שלמעלה מציגה את המרחקים הקרובים הקרובים ביותר (NNDs) אל הגדולים ביותר, בארכיטקטורת StyleGAN שאומנה על FFHQ.

"עבור כל מערכי הנתונים, דגימות עם ה-NND הקטנים ביותר מציגות תמונות מייצגות וטיפוסיות. להיפך, הדגימות עם ה-NND הגדולות ביותר הן בעלות אינדיבידואליות חזקה והן שונות באופן משמעותי מהתמונות האופייניות עם ה-NND הקטנות ביותר.'

בתיאוריה, על ידי שימוש במדד חדש זה כמאפיין, או לפחות הכללתו בארכיטקטורת מפלה מורכבת יותר, ניתן היה להרחיק מערכת מחוללת מחיקוי טהור לעבר אלגוריתם המצאתי יותר, תוך שמירה על לכידות חיונית של מושגים שעלולים להיות קריטיים. להפקת תמונה אותנטית (כלומר 'איש', 'אִשָׁה', 'אוטו', 'כְּנֵסִיָה', וכו ').

השוואות וניסויים

בבדיקות, החוקרים ערכו השוואה בין הביצועים של ציון הנדירות מול טריק ה-Truncation ו-2019 של NVIDIA ציון ריאליזם, ומצא כי על פני מגוון מסגרות ומערכי נתונים, הגישה מסוגלת להפריד תוצאות 'ייחודיות'.

למרות שהתוצאות המוצגות במאמר נרחבות מכדי לכלול כאן, נראה שהחוקרים הוכיחו את יכולתה של השיטה החדשה לזהות נדירות הן בתמונות מקור (אמיתיות) והן בתמונות שנוצרו (מזויפות) בהליך מחולל:

בחר דוגמאות מתוך התוצאות החזותיות הנרחבות המשוחזרות במאמר (ראה כתובת URL של מקור למעלה לפרטים נוספים). בצד שמאל, דוגמאות אמיתיות מ-FFHQ שיש להן מעט מאוד שכנים קרובים (כלומר חדשניים ויוצאי דופן) במערך הנתונים המקורי; בצד ימין, תמונות מזויפות שנוצרו על ידי StyleGAN, שהמדד החדש זיהה אותן כחדשות באמת. מכיוון שיש מגבלות על גודל תמונה במאמר זה, אנא עיין במסמך המקור לקבלת פירוט ורזולוציה טובים יותר.

המדד החדש של Rarity Score מאפשר לא רק את האפשרות לזהות פלט גנרטיבי 'חדשני' בארכיטקטורה אחת, אלא גם, לטענת החוקרים, מאפשר השוואה בין מודלים גנרטיביים של ארכיטקטורות שונות ומשתנות (כלומר קודן אוטומטי, VAE, GAN וכו'. ).

המאמר מציין כי ציון נדירות שונה ממדדים קודמים בכך שהוא מתרכז ביכולת של מסגרת מחוללת ליצור דימויים ייחודיים ונדירים, בניגוד למדדים 'מסורתיים', הבוחנים (באופן קוצר יותר) את השונות בין הדורות במהלך אימון המודל.

מעבר למשימות מוגבלות

למרות שהחוקרים של המאמר החדש ערכו בדיקות על מסגרות של תחום מוגבל (כגון שילובי גנרטורים/מערכי נתונים שנועדו לייצר במיוחד תמונות של אנשים, או של חתולים, למשל), ציון הנדירות יכול להיות מיושם על כל הליך סינתזת תמונות שרירותי שבו רצוי לזהות דוגמאות שנוצרו המשתמשות בהפצות הנגזרות מהנתונים המאומנים, במקום להגביר את האותנטיות (ולצמצם את הגיוון) על ידי הטמעת הפצות סמויות זרות, או להסתמך על 'קיצורי דרך' אחרים שפוגעים בחידוש לטובת האותנטיות.

למעשה, מדד כזה עשוי להבחין בין מופעי פלט חדשניים באמת במערכות כגון סדרת DALL-E, על ידי שימוש במרחק מזוהה בין תוצאת 'חריגה' לכאורה, נתוני האימון ותוצאות מהנחיות או קלט דומים (כלומר, תמונה - הנחיות מבוססות).

בפועל, ובהעדר הבנה ברורה של המידה שבה המערכת הטמיעה באמת מושגים ויזואליים וסמנטיים (לעתים קרובות מעוכבים על ידי ידע מוגבל על נתוני האימון), זו יכולה להיות שיטה מעשית לזהות "רגע אמיתי של השראה' במערכת גנרטיבית - הנקודה שבה מספר נאות של מושגי קלט ונתונים הביאו למשהו המצאתי באמת, במקום משהו נגזר מדי או קרוב לנתוני המקור.

* ההמרות שלי של הציטוטים המוטבעים של המחברים להיפר-קישורים.

פורסם לראשונה ב-20 ביוני 2022.