בינה מלאכותית

מודלים של למידה עמוקה עשויים להתקשות בזיהוי תמונות שנוצרו על ידי בינה מלאכותית

מְעוּדכָּן on דצמבר 9, 2022

ממצאים ממאמר חדש מצביעים על כך שבינה מלאכותית מתקדמת מסוגלת לזהות ולפרש תמונות מסונתזות בינה מלאכותית מאשר אנשים, מה שעשוי לעורר דאגה באקלים הקרוב שבו מודלים של למידת מכונה מאומנים יותר ויותר על נתונים סינתטיים. והיכן לא בהכרח יהיה ידוע אם הנתונים 'אמיתיים' או לא.

כאן אנו רואים את מודל החיזוי resnext101_32x8d_wsl נאבק בקטגוריית 'בייגל'. בבדיקות, כשל בזיהוי נחשב שהתרחש אם מילת היעד המרכזית (במקרה זה 'בייגל') לא הופיעה בחמש התוצאות החזויות המובילות. מקור: https://arxiv.org/pdf/2208.10760.pdf

המחקר החדש בדק שתי קטגוריות של מסגרת זיהוי מבוססת ראייה ממוחשבת: זיהוי אובייקטים ומענה לשאלות חזותיות (VQA).

משמאל, הסקת הצלחות וכישלונות ממערכת זיהוי אובייקטים; בצד ימין, משימות VQA שנועדו לבחון את הבנת הבינה המלאכותית של סצינות ותמונות בצורה יותר חקרנית ומשמעותית. מקורות: https://arxiv.org/pdf/2105.05312.pdf ו-https://arxiv.org/pdf/1505.00468.pdf

מתוך עשרה מודלים חדישים שנבדקו על מערכי נתונים מאוצרים שנוצרו על ידי מסגרות של סינתזת תמונות DALL-E2 ו אמצע מסע, המודל בעל הביצועים הטובים ביותר הצליח להשיג רק 60% ו-80% דיוק מוביל 5 בשני סוגי הבדיקות, בעוד ImageNet, מאומן על נתונים לא סינתטיים מהעולם האמיתי, יכול להשיג 91% ו-99% בהתאמה באותן קטגוריות, בעוד שהביצועים האנושיים בדרך כלל גבוהים יותר.

טיפול בבעיות מסביב משמרת הפצה (הידוע בשם 'Model Drift', שבו מודלים של חיזוי חווים יכולת חיזוי מופחתת כשהם עוברים מנתוני אימון לנתונים 'אמיתיים'), המאמר קובע:

"בני אדם מסוגלים לזהות את התמונות שנוצרו ולענות עליהן על שאלות בקלות. אנו מסיקים כי א) מודלים עמוקים נאבקים להבין את התוכן שנוצר, ועשויים להשתפר לאחר כוונון עדין, וב) יש שינוי תפוצה גדול בין התמונות שנוצרו לתצלומים האמיתיים. נראה כי שינוי ההפצה תלוי בקטגוריה״.

לאור נפח התמונות הסינתטיות שכבר מציפות את האינטרנט בעקבות התמונות של השבוע שעבר מקורות פתוחים סנסציוניים של החזקים דיפוזיה יציבה מודל סינתזת דיפוזיה סמויה, עולה באופן טבעי האפשרות שכאשר תמונות 'מזויפות' מציפות לתוך מערכי נתונים סטנדרטיים בתעשייה כגון סריקה נפוצה, שינויים בדיוק לאורך השנים עלולים להיות מושפעים באופן משמעותי מתמונות 'לא אמיתיות'.

אם כי נתונים סינתטיים היו הבשר בתור המושיע הפוטנציאלי של מגזר מחקר הראייה הממוחשבת המורעבת לנתונים, שלעיתים קרובות חסרים משאבים ותקציבים לאיסוף בקנה מידה גבוה, השטף החדש של תמונות דיפוזיה יציבה (יחד עם העלייה הכללית בתמונות סינתטיות מאז הופעת מסחור of DALL-E2) לא סביר שכולם יגיעו עם תוויות, הערות והאשטאג שימושיים המבדילים אותם כ'מזויפים' בנקודה שבה מערכות ראיית מכונה חמדניות מגרדות אותן מהאינטרנט.

מהירות הפיתוח במסגרות סינתזת תמונות בקוד פתוח עלתה באופן ניכר על היכולת שלנו לסווג תמונות ממערכות אלו, מה שהוביל ל עניין גובר בזיהוי 'תמונה מזויפת' מערכות, בדומה ל זיהוי זיוף עמוק מערכות, אך מוטלת עליה משימה להעריך תמונות שלמות במקום קטעי פנים.

השמיים מאמר חדש מכונה כמה טובים מודלים עמוקים בהבנת התמונות שנוצרו?, ומגיע מאלי בורג'י מסן פרנסיסקו סטארט-אפ למידת מכונה Quintic AI.

נתונים

המחקר קדם לשחרור ה-Stable Diffusion, והניסויים משתמשים בנתונים שנוצרו על ידי DALL-E 2 ו-Midjourney על פני 17 קטגוריות, כולל פיל, פטריה, פיצה, כַּעַך, טרקטור ו אַרנֶבֶת.

דוגמאות לתמונות שמהן אותגרו מערכות הזיהוי וה-VQA שנבדקו לזהות את מושג המפתח החשוב ביותר.

התמונות הושגו באמצעות חיפושי אינטרנט ודרך טוויטר, ובהתאם למדיניות של DALL-E 2 (לפחות, בזמן), לא כללה תמונות כלשהן עם פנים אנושיות. רק תמונות באיכות טובה, הניתנות לזיהוי על ידי בני אדם, נבחרו.

אוצרו שתי קבוצות של תמונות, אחת כל אחת למשימות זיהוי אובייקט ומשימות VQA.

מספר התמונות הקיימות בכל קטגוריה שנבדקה לצורך זיהוי אובייקטים.

בדיקת זיהוי אובייקטים

עבור מבחני זיהוי האובייקט, נבדקו עשרה דגמים, כולם מאומנים ב-ImageNet: אלכסנט, 152. ResNetXNUMX, MobileNetV2, DenseNet, ResNext, GoogleNet, 101. ResNetXNUMX, Inception_V3, דייט, ו ResNext_WSL.

חלק מהמחלקות במערכות שנבדקו היו מפורטות יותר מאחרות, מה שהצריך יישום של גישות ממוצעות. לדוגמה, ImageNet מכילה שלוש מחלקות ששומרות על 'שעונים', והיה צורך להגדיר איזשהו מדד בוררות, שבו הכללת כל 'שעון' מכל סוג בחמש התוויות המובילות שהושגו עבור כל תמונה נחשבה כהצלחה. במקרה זה.

ביצועים לכל דגם על פני 17 קטגוריות.

הדגם עם הביצועים הטובים ביותר בסבב זה היה resnext101_32x8d_ws, שהשיג קרוב ל-60% עבור הטופ-1 (כלומר, הזמנים שבהם התחזית המועדפת שלו מתוך חמישה ניחושים הייתה הקונספט הנכון שגולם בתמונה), ו-80% עבור ה-XNUMX המובילים ( כלומר הקונספט הרצוי היה רשום לפחות איפשהו בחמשת הניחושים של הדוגמנית לגבי התמונה).

המחבר מציע שהביצועים הטובים של המודל הזה נובעים מהעובדה שהוא הוכשר לחיזוי בפיקוח חלש של hashtags בפלטפורמות מדיה חברתית. עם זאת, תוצאות מובילות אלו, מציין המחבר, הן בולטות מתחת למה ש-ImageNet מסוגלת להשיג על נתונים אמיתיים, כלומר 91% ו-99%. הוא מציע שזה נובע מפער גדול בין ההפצה של תמונות ImageNet (שגם מגורדות מהרשת) לבין תמונות שנוצרו.

חמש הקטגוריות הקשות ביותר למערכת, לפי סדר הקושי, היו עפיפון, צב, סנאי, משקפי שמש ו קַסדָה. העיתון מציין כי עפיפון לעתים קרובות מתבלבלים בכיתה עם בַּלוֹן, מצנח ו מטריה, למרות שההבחנות הללו קלות באופן טריוויאלי לצופים אנושיים לאינדיבידואל.

קטגוריות מסוימות, כולל עפיפון ו צב, גרם לכשל אוניברסלי בכל הדגמים, בעוד שאחרים (בעיקר כַּעַך ו טרקטור) הביא להצלחה כמעט אוניברסלית בכל הדגמים שנבדקו.

קטגוריות מקטבות: חלק מקטגוריות היעד שנבחרו או שפילו את כל הדגמים, או שהייתה קלה למדי עבור כל הדגמים לזיהוי.

המחברים מניחים כי ממצאים אלה מצביעים על כך שכל המודלים לזיהוי אובייקטים עשויים לחלוק חוזקות וחולשות דומות.

בדיקת מענה לשאלות חזותיות

לאחר מכן, המחבר בדק מודלים של VQA על VQA פתוח וחופשי, עם שאלות בינאריות (כלומר שאלות שהתשובה עליהן יכולה להיות רק 'כן' או 'לא'). העיתון מציין שדגמי VQA עדכניים עדכניים מסוגלים להשיג דיוק של 95% על מערך נתונים של VQA-v2.

לשלב זה של הבדיקה, המחבר אצר 50 תמונות וניסח סביבן 241 שאלות, ל-132 מהן תשובות חיוביות ול-109 שליליות. אורך השאלה הממוצע היה 5.12 מילים.

בסיבוב הזה נעשה שימוש ב- דגם OFA, מסגרת אגנוסטית של מטלות ואגנוסטית שיטתית לבדיקת מקיפות המשימה, ולאחרונה הייתה המבקיע המוביל בתחום סט VQA-v2 test-std. OFA השיגה 77.27% דיוק בתמונות שנוצרו, בהשוואה לציון של 94.7% משלה בסט VQA-v2 test-std.

שאלות ותוצאות לדוגמה ממדור VQA של המבחנים. 'GT' הוא 'Ground Truth', כלומר, התשובה הנכונה.

מחבר המאמר מציע שחלק מהסיבה עשויה להיות שהתמונות שנוצרו מכילות מושגים סמנטיים הנעדרים ממערך הנתונים של VQA-v2, ושהשאלות שנכתבו עבור מבחני VQA עשויות להיות מאתגרות יותר את הסטנדרט הכללי של שאלות VQA-v2, למרות שהוא מאמין שהסיבה הראשונה סבירה יותר.

LSD בזרם הנתונים?

דעה ההתפשטות החדשה של תמונות מסונתזות בינה מלאכותית, שיכולה להציג צירופים והפשטות מיידיות של מושגי ליבה שאינם קיימים בטבע, ואשר יצרך זמן רב מאוד להפקה בשיטות קונבנציונליות, עשויה להוות בעיה מיוחדת עבור נתונים בפיקוח חלש- מערכות איסוף, שאולי לא יוכלו להיכשל בחן - בעיקר בגלל שהן לא תוכננו להתמודד עם נפח גבוה, נתונים סינתטיים ללא תווית.

במקרים כאלה, עשוי להיות סיכון שמערכות אלו יכללו אחוז של תמונות סינתטיות 'מוזרות' למחלקות שגויות פשוט בגלל שהתמונות כוללות אובייקטים נפרדים שאינם באמת שייכים זה לזה.

'אסטרונאוט רוכב על סוס' הפך אולי לחזות הסמלית ביותר עבור הדור החדש של מערכות סינתזת תמונות - אבל מערכות היחסים ה'לא אמיתיות' הללו עלולות להיכנס למערכות זיהוי אמיתיות, אלא אם כן ינקטו זהירות. מקור: https://twitter.com/openai/status/1511714545529614338?lang=en

אלא אם כן ניתן למנוע זאת בשלב העיבוד המקדים לפני ההכשרה, צינורות אוטומטיים כאלה עלולים להוביל לאימונים בלתי סבירים או אפילו גרוטסקיים למערכות למידת מכונה, לפגיעה ביעילותן ולהסתכן בהעברת אסוציאציות ברמה גבוהה למערכות ותת-מחלקות. וקטגוריות.

לחלופין, לתמונות סינתטיות מפורקות עשויה להיות "אפקט מצמרר" על הדיוק של מערכות מאוחרות יותר, במקרה שיצצו ארכיטקטורות חדשות או מתוקנות אשר מנסות להסביר אד הוק דימויים סינתטיים, ולהטיל רשת רחבה מדי.

בכל מקרה, דימויים סינתטיים בעידן שלאחר הפיזור היציב עלולים להוות כאב ראש עבור מגזר חקר הראייה הממוחשבת, אשר מאמציו איפשרו את היצירות והיכולות המוזרות הללו – לא מעט משום שהיא מסכנת את תקוותו של המגזר שאיסוף ואצור נתונים יכולים בסופו של דבר יהיה הרבה יותר אוטומטי ממה שהוא כיום, והרבה פחות יקר וגוזל זמן.

פורסם לראשונה ב-1 בספטמבר 2022.

נושאים קשורים:סינתזת תמונה מחקר סינתזה AI נתונים סינתטיים

מדעי הנתונים לעומת מדעי המחשב: הבדלים מרכזיים

לא לפספס

Intel Labs מציגה גישה חדשה ללמידת אובייקטים מבוססי רשתות עצביות

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

מודלים של למידה עמוקה עשויים להתקשות בזיהוי תמונות שנוצרו על ידי בינה מלאכותית

בינה מלאכותית