בינה מלאכותית
ביצועי למידת מכונה טובים יותר באמצעות שינוי גודל תמונה מבוסס CNN
Google Research הציעה שיטה חדשה לשיפור היעילות והדיוק של תהליכי אימון בראייה ממוחשבת מבוססת תמונה על ידי שיפור האופן שבו התמונות במערך נתונים מתכווצות בשלב העיבוד המקדים.
ב מאמר למד לשנות גודל של תמונות עבור משימות ראיית מחשב, החוקרים Hossein Talebi ו-Peyman Milanfar משתמשים ב-CNN כדי ליצור ארכיטקטורה חדשה של שינוי גודל תמונה היברידית המייצרת שיפור ניכר בתוצאות הזיהוי שהושגו על פני ארבעה מערכי נתונים פופולריים של ראייה ממוחשבת.
המאמר מציין כי שיטות שינוי קנה מידה/שינוי גודל המשמשות כיום בצינורות למידת מכונה אוטומטיות הן מיושנות במשך עשרות שנים, ולעתים קרובות הן משתמשות רק בבילינארי, דו-קובי והשכן הקרוב ביותר. שינוי גודל - שיטות המתייחסות לכל הפיקסלים ללא הבחנה.
לעומת זאת, השיטה המוצעת מגדילה את נתוני התמונה באמצעות CNN ומשלבת את הקלט הזה בתמונות המותאמות לגודל שיעברו בסופו של דבר דרך הארכיטקטורה של המודל.
אילוצי תמונה באימון AI
על מנת להכשיר מודל העוסק בתמונות, מסגרת למידת מכונה תכלול שלב עיבוד מקדים, שבו נחתכים באופן שיטתי מגוון שונה של תמונות בגדלים שונים, מרחבי צבע ורזולוציות שונות (שיתרמו למערך ההדרכה). שינוי גודל לממדים עקביים ולפורמט יציב ויחיד.
באופן כללי זה יהיה כרוך בפשרה מסויימת המבוססת על פורמט PNG, שבו ייקבע פשרה בין זמן עיבוד/משאבים, גודל הקובץ ואיכות התמונה.
ברוב המקרים, הממדים הסופיים של התמונה המעובדת קטנים מאוד. להלן אנו רואים דוגמה לתמונה ברזולוציית 80×80 שבה חלק ממערכי הנתונים המוקדמים ביותר של זיופים עמוקים נוצרו:
מכיוון שפנים (ונושאים אפשריים אחרים) רק לעתים נדירות מתאימים ליחס הריבועי הנדרש, ייתכן שיהיה צורך להוסיף פסים שחורים (או לאפשר שטח מבוזבז) על מנת להומוג את התמונות, ולצמצם עוד יותר את נתוני התמונה השימושיים בפועל:
כמו יכולות ה-GPU השתפרו בשנים האחרונות, עם הדור החדש של כרטיסי NVIDIA מצויד כמויות הולכות וגדלות של וידאו-RAM (VRAM), גדלי התמונה התורמים הממוצעים מתחילים לעלות, אם כי 224×224 פיקסלים הוא עדיין די סטנדרטי (לדוגמה, זה הגודל של ResNet-50 מערך הנתונים).
התאמת אצוות ל-VRAM
הסיבה שהתמונות חייבות להיות באותו גודל היא זו ירידת שיפוע, השיטה שבה המודל משתפר עם הזמן, דורשת נתוני אימון אחידים.
הסיבה שהתמונות צריכות להיות כל כך קטנות היא שיש לטעון אותן (לשחרר אותן במלואן) ל-VRAM במהלך אימון בקבוצות קטנות, בדרך כלל בין 6-24 תמונות לכל אצווה. מעט מדי תמונות לכל אצווה, ואין מספיק חומר קבוצתי כדי להכליל היטב, בנוסף להארכת זמן האימון; יותר מדי, והמודל עלול לא להשיג את המאפיינים הדרושים ופירוט (ראה להלן).
קטע 'טעינה חיה' זה של ארכיטקטורת ההדרכה נקרא מרחב סמוי. זה המקום שבו תכונות נשלפות שוב ושוב מאותם נתונים (כלומר אותן תמונות) עד שהמודל התכנס למצב שבו יש לו את כל הידע המוכלל שהוא צריך כדי לבצע טרנספורמציות על נתונים מאוחרים יותר, בלתי נראים מסוג דומה.
תהליך זה אורך בדרך כלל ימים, אם כי זה יכול לקחת אפילו חודש או יותר של קוגיטציה קבועה ובלתי מתפשרת 24/7 כדי להשיג הכללה שימושית. עליות בגודל VRAM מועילות רק עד נקודה מסוימת, מכיוון שאפילו עליות קטנות ברזולוציית התמונה יכולות להיות השפעה בסדר גודל על יכולת העיבוד, והשפעות קשורות על הדיוק שלא תמיד יהיו חיוביות.
שימוש בקיבולת VRAM גדולה יותר כדי להכיל גדלי אצווה גבוהים יותר הוא גם ברכה מעורבת, שכן מהירויות האימון הגבוהות יותר המתקבלות על ידי זה הן סביר שיתקזז על ידי תוצאות פחות מדויקות.
לכן, מכיוון שארכיטקטורת ההדרכה כל כך מוגבלת, כל דבר שיכול להשפיע על שיפור במסגרת המגבלות הקיימות של הצינור הוא הישג בולט.
איך צמצום מעולה עוזר
האיכות האולטימטיבית של תמונה שתיכלל במערך נתונים אימון הוכחה כבעלת השפעה משפרת על תוצאות האימון, במיוחד במשימות זיהוי אובייקטים. בשנת 2018 חוקרים ממכון מקס פלנק למערכות חכמות טען שהבחירה בשיטת הדגימה מחדש משפיעה במיוחד על ביצועי האימון ועל תוצאותיו.
בנוסף, עבודה קודמת מגוגל (שנכתבה על ידי מחברי המאמר החדש) גילתה שניתן לשפר את דיוק הסיווג על ידי שמירה על שליטה על חפצי דחיסה בתמונות מערך נתונים.
דגם ה-CNN המובנה ב-Resampler החדש משלב שינוי גודל בילינארי עם תכונת 'דילוג על חיבור' שיכולה לשלב פלט מהרשת המאומנת לתוך התמונה שגודלה שונה.
בניגוד לארכיטקטורת מקודד/מפענח טיפוסית, ההצעה החדשה יכולה לפעול לא רק כצוואר בקבוק להזנה קדימה, אלא גם כצוואר בקבוק הפוך להגדלת קנה המידה לכל גודל יעד ו/או יחס רוחב-גובה. בנוסף, ניתן להחליף את שיטת הדגימה ה'סטנדרטית' לכל שיטה מסורתית מתאימה אחרת, כגון לנקזוס.
פרטי תדר גבוה
השיטה החדשה מייצרת תמונות שלמעשה נראות כאילו הן 'אופיות' תכונות מפתח (שבסופו של דבר יזהו בתהליך האימון) ישירות לתוך תמונת המקור. במונחים אסתטיים, התוצאות אינן שגרתיות:
החוקרים מציינים שהניסויים הראשוניים הללו מותאמים באופן בלעדי למשימות זיהוי תמונה, וכי בבדיקות ה-'learned resizer' שלהם, המופעל על-ידי CNN, הצליח להשיג שיעורי שגיאה משופרים במשימות כאלה. החוקרים מתכוונים ליישם בעתיד את השיטה על סוגים אחרים של יישומי ראייה ממוחשבת מבוססי תמונה.