בינה מלאכותית

ביצועי למידת מכונה טובים יותר באמצעות שינוי גודל תמונה מבוסס CNN

מְעוּדכָּן on דצמבר 9, 2022

Google Research הציעה שיטה חדשה לשיפור היעילות והדיוק של תהליכי אימון בראייה ממוחשבת מבוססת תמונה על ידי שיפור האופן שבו התמונות במערך נתונים מתכווצות בשלב העיבוד המקדים.

ב מאמר למד לשנות גודל של תמונות עבור משימות ראיית מחשב, החוקרים Hossein Talebi ו-Peyman Milanfar משתמשים ב-CNN כדי ליצור ארכיטקטורה חדשה של שינוי גודל תמונה היברידית המייצרת שיפור ניכר בתוצאות הזיהוי שהושגו על פני ארבעה מערכי נתונים פופולריים של ראייה ממוחשבת.

המסגרת המשותפת המוצעת להכרה ושינוי גודל. מקור: https://arxiv.org/pdf/2103.09950.pdf

המאמר מציין כי שיטות שינוי קנה מידה/שינוי גודל המשמשות כיום בצינורות למידת מכונה אוטומטיות הן מיושנות במשך עשרות שנים, ולעתים קרובות הן משתמשות רק בבילינארי, דו-קובי והשכן הקרוב ביותר. שינוי גודל - שיטות המתייחסות לכל הפיקסלים ללא הבחנה.

לעומת זאת, השיטה המוצעת מגדילה את נתוני התמונה באמצעות CNN ומשלבת את הקלט הזה בתמונות המותאמות לגודל שיעברו בסופו של דבר דרך הארכיטקטורה של המודל.

אילוצי תמונה באימון AI

על מנת להכשיר מודל העוסק בתמונות, מסגרת למידת מכונה תכלול שלב עיבוד מקדים, שבו נחתכים באופן שיטתי מגוון שונה של תמונות בגדלים שונים, מרחבי צבע ורזולוציות שונות (שיתרמו למערך ההדרכה). שינוי גודל לממדים עקביים ולפורמט יציב ויחיד.

באופן כללי זה יהיה כרוך בפשרה מסויימת המבוססת על פורמט PNG, שבו ייקבע פשרה בין זמן עיבוד/משאבים, גודל הקובץ ואיכות התמונה.

ברוב המקרים, הממדים הסופיים של התמונה המעובדת קטנים מאוד. להלן אנו רואים דוגמה לתמונה ברזולוציית 80×80 שבה חלק ממערכי הנתונים המוקדמים ביותר של זיופים עמוקים נוצרו:

מכיוון שפנים (ונושאים אפשריים אחרים) רק לעתים נדירות מתאימים ליחס הריבועי הנדרש, ייתכן שיהיה צורך להוסיף פסים שחורים (או לאפשר שטח מבוזבז) על מנת להומוג את התמונות, ולצמצם עוד יותר את נתוני התמונה השימושיים בפועל:

כאן הפנים חולצו משטח תמונה גדול יותר עד לחיתוך חסכוני ככל שניתן על מנת לכלול את כל אזור הפנים. עם זאת, כפי שניתן לראות בצד שמאל, חלק גדול מהשטח הנותר לא ישמש במהלך האימון, מה שמוסיף משקל גדול יותר לחשיבות איכות התמונה של הנתונים שגודלם שונה.

כאן הפנים חולצו משטח תמונה גדול יותר עד לחיתוך חסכוני ככל שניתן על מנת לכלול את כל אזור הפנים. עם זאת, כפי שניתן לראות בצד ימין, חלק גדול מהשטח הנותר לא ישמש במהלך האימון, מה שמוסיף משקל גדול יותר לחשיבות איכות התמונה של הנתונים שגודלם שונה.

כמו יכולות ה-GPU השתפרו בשנים האחרונות, עם הדור החדש של כרטיסי NVIDIA מצויד כמויות הולכות וגדלות של וידאו-RAM (VRAM), גדלי התמונה התורמים הממוצעים מתחילים לעלות, אם כי 224×224 פיקסלים הוא עדיין די סטנדרטי (לדוגמה, זה הגודל של ResNet-50 מערך הנתונים).

תמונה ללא גודל של 224×244 פיקסלים.

התאמת אצוות ל-VRAM

הסיבה שהתמונות חייבות להיות באותו גודל היא זו ירידת שיפוע, השיטה שבה המודל משתפר עם הזמן, דורשת נתוני אימון אחידים.

הסיבה שהתמונות צריכות להיות כל כך קטנות היא שיש לטעון אותן (לשחרר אותן במלואן) ל-VRAM במהלך אימון בקבוצות קטנות, בדרך כלל בין 6-24 תמונות לכל אצווה. מעט מדי תמונות לכל אצווה, ואין מספיק חומר קבוצתי כדי להכליל היטב, בנוסף להארכת זמן האימון; יותר מדי, והמודל עלול לא להשיג את המאפיינים הדרושים ופירוט (ראה להלן).

קטע 'טעינה חיה' זה של ארכיטקטורת ההדרכה נקרא מרחב סמוי. זה המקום שבו תכונות נשלפות שוב ושוב מאותם נתונים (כלומר אותן תמונות) עד שהמודל התכנס למצב שבו יש לו את כל הידע המוכלל שהוא צריך כדי לבצע טרנספורמציות על נתונים מאוחרים יותר, בלתי נראים מסוג דומה.

תהליך זה אורך בדרך כלל ימים, אם כי זה יכול לקחת אפילו חודש או יותר של קוגיטציה קבועה ובלתי מתפשרת 24/7 כדי להשיג הכללה שימושית. עליות בגודל VRAM מועילות רק עד נקודה מסוימת, מכיוון שאפילו עליות קטנות ברזולוציית התמונה יכולות להיות השפעה בסדר גודל על יכולת העיבוד, והשפעות קשורות על הדיוק שלא תמיד יהיו חיוביות.

שימוש בקיבולת VRAM גדולה יותר כדי להכיל גדלי אצווה גבוהים יותר הוא גם ברכה מעורבת, שכן מהירויות האימון הגבוהות יותר המתקבלות על ידי זה הן סביר שיתקזז על ידי תוצאות פחות מדויקות.

לכן, מכיוון שארכיטקטורת ההדרכה כל כך מוגבלת, כל דבר שיכול להשפיע על שיפור במסגרת המגבלות הקיימות של הצינור הוא הישג בולט.

איך צמצום מעולה עוזר

האיכות האולטימטיבית של תמונה שתיכלל במערך נתונים אימון הוכחה כבעלת השפעה משפרת על תוצאות האימון, במיוחד במשימות זיהוי אובייקטים. בשנת 2018 חוקרים ממכון מקס פלנק למערכות חכמות טען שהבחירה בשיטת הדגימה מחדש משפיעה במיוחד על ביצועי האימון ועל תוצאותיו.

בנוסף, עבודה קודמת מגוגל (שנכתבה על ידי מחברי המאמר החדש) גילתה שניתן לשפר את דיוק הסיווג על ידי שמירה על שליטה על חפצי דחיסה בתמונות מערך נתונים.

ארכיטקטורת CNN עבור Google Research הציעה אלגוריתם של דגימה מופחתת.

דגם ה-CNN המובנה ב-Resampler החדש משלב שינוי גודל בילינארי עם תכונת 'דילוג על חיבור' שיכולה לשלב פלט מהרשת המאומנת לתוך התמונה שגודלה שונה.

בניגוד לארכיטקטורת מקודד/מפענח טיפוסית, ההצעה החדשה יכולה לפעול לא רק כצוואר בקבוק להזנה קדימה, אלא גם כצוואר בקבוק הפוך להגדלת קנה המידה לכל גודל יעד ו/או יחס רוחב-גובה. בנוסף, ניתן להחליף את שיטת הדגימה ה'סטנדרטית' לכל שיטה מסורתית מתאימה אחרת, כגון לנקזוס.

פרטי תדר גבוה

השיטה החדשה מייצרת תמונות שלמעשה נראות כאילו הן 'אופיות' תכונות מפתח (שבסופו של דבר יזהו בתהליך האימון) ישירות לתוך תמונת המקור. במונחים אסתטיים, התוצאות אינן שגרתיות:

השיטה החדשה מיושמת על פני ארבע רשתות - Inception V2; DenseNet-121; ResNet-50; ו-MobileNet-V2. התוצאות של שיטת הפחתת הדגימה/שינוי גודל התמונות של Google Research מייצרות תמונות עם צבירת פיקסלים ברורה, תוך ציפייה לתכונות המפתח שיובחנו במהלך תהליך ההדרכה.

החוקרים מציינים שהניסויים הראשוניים הללו מותאמים באופן בלעדי למשימות זיהוי תמונה, וכי בבדיקות ה-'learned resizer' שלהם, המופעל על-ידי CNN, הצליח להשיג שיעורי שגיאה משופרים במשימות כאלה. החוקרים מתכוונים ליישם בעתיד את השיטה על סוגים אחרים של יישומי ראייה ממוחשבת מבוססי תמונה.