בינה מלאכותית

מערכת זיהוי עבור מסגרות סינתזת תמונה טהורה כמו DALL-E 2

מְעוּדכָּן on דצמבר 9, 2022

חדש מחקר מאוניברסיטת קליפורניה בברקלי מציעה שיטה לקבוע אם פלט מהדור החדש של מסגרות סינתזת תמונות - כמו Open AI של DALL-E2, ושל גוגל תמונה ו מפלגה – ניתן לזהות כ'לא אמיתי', על ידי לימוד גיאומטריה, צללים והשתקפויות המופיעות בתמונות המסונתזות.

במחקר של תמונות שנוצרו על ידי הנחיות טקסט ב-DALL-E 2, החוקרים מצאו שלמרות הריאליזם המרשים לו מסוגלת הארכיטקטורה, מתרחשות כמה חוסר עקביות מתמשך הקשורים לעיבוד של פרספקטיבה גלובלית, ליצירה ולפיזור של צללים, וכן במיוחד לגבי העיבוד של אובייקטים משתקפים.

העיתון קובע:

"מבנים [גיאומטריים], צללים יצוקים והשתקפויות במשטחי שיקוף אינם עולים בקנה אחד עם גיאומטריית הפרספקטיבה הצפויה של סצנות טבעיות. מבנים וצללים גיאומטריים הם, באופן כללי, עקביים מקומית, אך אינם עקביים מבחינה גלובלית.

"השתקפויות, לעומת זאת, מוצגות לעתים קרובות בצורה בלתי סביר, ככל הנראה משום שהן פחות נפוצות במערך נתוני התמונות של האימון."

היעדר צמתים עקביים בין האובייקט המעובד לבין עיבוד ההשתקפות שלו היא כיום דרך אמינה לזהות תמונת DALL-E 2, על פי המחקר החדש. מקור: https://arxiv.org/pdf/2206.14617.pdf

המאמר מייצג גיחה מוקדמת למה שעשוי להפוך בסופו של דבר לנדבך ראוי לציון בקהילת מחקר הראייה הממוחשבת - איתור סינתזת תמונה.

מאז הופעת הזיופים העמוקים בשנת 2017, זיהוי זיוף עמוק (בעיקר של קידוד אוטומטי פלט מחבילות כגון deepfacelab ו החלפת פנים) הפך לאן פעיל ותחרותי תחום אקדמי, עם מאמרים ומתודולוגיות שונות המכוונות ל"מספרים" המתפתחים של פרצופים מסונתזים בצילומי וידאו אמיתיים.

עם זאת, עד להופעתן האחרונה של מערכות לייצור תמונות מאומנות בקנה מידה יתר, הפלט ממערכות הודעות טקסט כגון CLIP לא היווה איום על הסטטוס קוו של 'פוטוריאליטי'. מחברי המאמר החדש מאמינים שזה עומד להשתנות, ושגם חוסר העקביות שגילו בפלט DALL-E 2 עשוי שלא לעשות הבדל רב בפוטנציאל הפלט של תמונות להונות את הצופים.

המחברים מצהירים*:

"כשלים [כאלה] עשויים שלא להיות חשובים במיוחד למערכת הראייה האנושית, אשר נמצאה כבלתי כשרה באופן מפתיע בשיפוטים גיאומטריים מסוימים, כולל חוסר עקביות ב תאורה, צללים, השתקפויות, עמדת צפייה, ו עיוות פרספקטיבה.'

אמינות נעלמת

הבדיקה המשפטית הראשונה של המחברים של פלט DALL-E 2 מתייחסת להקרנת פרספקטיבה - האופן שבו מיקום הקצוות הישרים באובייקטים ומרקמים קרובים אמור להיפתר באופן אחיד ל"נקודת מגוז".

שמאל, קווים מקבילים באותו מישור נפתרים לנקודת מגוז משותפת; מימין, נקודות מגוז מרובות באותם מישורים ומקבילים מגדירים קו מגוז (מתואר באדום).

כדי לבדוק את העקביות של DALL-E 2 בהקשר זה, המחברים השתמשו ב-DALL-E 2 כדי ליצור 25 תמונות מסונתזות של מטבחים - חלל מוכר שאפילו בדירות מסודרות היטב, בדרך כלל מוגבל מספיק כדי לספק מספר נקודות היעלמות אפשריות עבור מגוון של אובייקטים ומרקמים.

בחינת פלט מההנחיה "תמונה של מטבח עם רצפת אריחים", החוקרים גילו שלמרות ייצוג משכנע בדרך כלל בכל מקרה (למעט חפצים מוזרים וקטנים יותר שאינם קשורים לפרספקטיבה), נראה שהאובייקטים המתוארים לעולם אינם מתכנסים כהלכה.

המחברים מציינים שבעוד שכל קבוצה של קווים מקבילים מתבנית האריחים עקביים ומצטלבים בנקודת היעלמות יחידה (כחול בתמונה למטה), נקודת ההיעלמות של החלק העליון (ציאן) אינה מתיישבת עם שני קווי ההיעלמות (אדום). ) ונקודת ההיעלמות הנגזרת מהאריחים.

המחברים שמים לב שגם אם הדלפק העליון לא היה מקביל לאריחים, נקודת ההיעלמות של הציאן צריכה להיפתר לקו ההיעלמות (האדום) המוגדר על ידי נקודות ההיעלמות של אריחי הרצפה.

העיתון קובע:

"למרות שהפרספקטיבה בתמונות האלה היא - באופן מרשים - עקבית מקומית, היא לא עקבית גלובלית. אותו דפוס נמצא בכל אחת מ-25 תמונות מטבח מסונתזות״.

Shadow Forensics

כפי שיודע כל מי שאי פעם עסק באיתור קרניים, לצללים יש גם נקודות היעלמות פוטנציאליות, המצביעות על תאורה יחידה או מרובת מקורות. עבור צללים חיצוניים באור שמש חריף, אפשר היה לצפות שצללים על פני כל היבטי התמונה ייפתרו באופן עקבי למקור האור היחיד (השמש).

כמו בניסוי הקודם, החוקרים יצרו 25 תמונות DALL-E 2 עם ההנחיה 'שלוש קוביות על מדרכה שצולמו ביום שמש', כמו גם 25 נוספים עם ההנחיה '"שלוש קוביות על מדרכה שצולמו ביום מעונן".

בשורה העליונה, תמונות שנוצרו מהנחיית החוקרים 'שלוש קוביות על מדרכה שצולמו ביום מעונן'; בשורה התחתונה, תמונות שנוצרו מההנחיה 'שלוש קוביות על מדרכה שצולמו ביום שמש'.

החוקרים מציינים שכאשר מייצגים תנאים מעוננים, DALL-E 2 מסוגל להציג את הצללים המפוזרים יותר הקשורים בצורה משכנעת ומתקבלת על הדעת, אולי לא מעט משום שסוג זה של צל עשוי להיות נפוץ יותר בתמונות מערך הנתונים בהן המסגרת הוכשרה.

עם זאת, כמה מהתמונות 'שטיפות השמש', גילו המחברים, לא היו תואמות לסצנה המוארת ממקור אור יחיד.

בתמונה שלמעלה, הדורות הומרו לגווני אפור לצורך הבהירות, ומציגים כל אובייקט עם 'שמש' ייעודית משלו.

למרות שהצופה הממוצע לא יכול לזהות חריגות כאלה, לחלק מהתמונות שנוצרו היו דוגמאות ברורות יותר של 'כשל בצל':

בעוד שחלק מהצללים פשוט נמצאים במקום הלא נכון, רבים מהם, באופן מעניין, תואמים את סוג הפער החזותי שנוצר בדוגמנות CGI כאשר קצב הדגימה עבור אור וירטואלי נמוך מדי.

השתקפויות ב-DALL-E 2

התוצאות המרשעות ביותר במונחים של ניתוח משפטי הגיעו כאשר המחברים בדקו את יכולתו של DALL-E 2 ליצור משטחים מחזירי אור, שהוא חישוב מכביד גם באלגוריתמי עיבוד קרני CGI ואלגוריתמים מסורתיים אחרים.

עבור הניסוי הזה, המחברים הפיקו 25 תמונות DALL-E 2 עם ההנחיה "תמונה של דינוזאור צעצוע והשתקפותו במראה איפור".

בכל המקרים, מדווחים המחברים, תמונת המראה של הצעצוע המעובד הייתה מנותקת בדרך כלשהי מההיבט והנטייה של דינוזאור הצעצוע ה"אמיתי". המחברים מצהירים שהבעיה הייתה עמידה בפני שינויים בהנחיית הטקסט, ונראה שזו חולשה מהותית במערכת.

נראה שיש היגיון בחלק מהשגיאות - נראה שהדוגמה הראשונה והשלישית בשורה העליונה מציגה דינוזאור שהוא משוכפל טוב מאוד, אבל לא במראה.

הערות המחברים:

"בניגוד לצללים המוטלים והמבנים הגיאומטריים בסעיפים הקודמים, DALL·E-2 מתקשה לסנתז השתקפויות סבירות, ככל הנראה משום שהשתקפויות כאלה פחות נפוצות במערך נתוני התמונות האימון שלו."

תקלות מסוג זה עשויות להתבטל במודלים עתידיים של טקסט לתמונה המסוגלים לסקור בצורה יעילה יותר את ההיגיון הסמנטי הכולל של הפלט שלהם, ואשר יוכלו לכפות כללים פיזיים מופשטים על סצנות אשר, במידה מסוימת, מורכב ממאפיינים רלוונטיים למילה במרחב הסמוי של המערכת.

לאור מגמה הולכת וגוברת של ארכיטקטורות סינתזה גדולות מתמיד, המחברים מסכמים:

"[זה] יכול להיות רק עניין של זמן עד שמנועי סינתזה של צבע לפי טקסט ילמדו לעבד תמונות עם עקביות פרספקטיבה מלאה. אולם עד אז, ניתוחים משפטיים גיאומטריים עשויים להוכיח שימוש בניתוח התמונות הללו.'

* ההמרה שלי של הציטוטים המוטבעים של המחברים להיפר-קישורים.

פורסם לראשונה ב-30 ביוני 2022.

זיהוי שיחות וידאו Deepfake באמצעות תאורת צג

לא לפספס

זיהוי קהלים באינסטגרם באמצעות למידת מכונה

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

מערכת זיהוי עבור מסגרות סינתזת תמונה טהורה כמו DALL-E 2

בינה מלאכותית