בינה מלאכותית

TinySAM: Pushing the Boundaries for Segment Anything Model

יצא לאור

לפני 4 חודשים

פברואר 8, 2024

TinySAM: Pushing the Boundaries for Segment Anything Model

פילוח אובייקטים הוא תחום בסיסי וחשוב ביותר בראייה ממוחשבת מודרנית. הוא ממלא תפקיד חיוני ביישומים הדורשים רכיבים ויזואליים נרחבים, כגון לוקליזציה וזיהוי אובייקטים, ודורש פילוח בזמן אמת, מהיר ומדויק. חשיבות זו הפכה את פילוח האובייקטים לנושא מחקר חם באופן עקבי, עם עבודה משמעותית שנעשתה בתחומים כמו פילוח מופעים, פילוח סמנטי ופילוח פאנופטי.

עם האבולוציה של פילוח אובייקטים, המודל של Segment Anything (SAM) הופיע ככלי יוצא דופן, המציג יכולות פילוח יוצאות דופן ומאומץ במהירות ביישומי ראייה ממוחשבת שונים. מסגרות המשתמשות בארכיטקטורת SAM מאומנת מראש השיגו ביצועים מרשימים במשימות ראייה במורד הזרם. עם זאת, למרות היכולות והדיוק הגבוה שלה במשימות הפילוח, הארכיטקטורה המורכבת והכבדה של SAM מחייבת כוח חישוב משמעותי, מה שמפריע ליישום שלה במכשירים מוגבלי חישוב.

בהתמודדות עם האתגרים החישוביים של SAM, חוקרים פיתחו את מודל Tiny Segment Anything (TinySAM), אשר שומר על ביצועי ה-0-shot של המסגרת המקורית תוך שהוא קל משקל יותר. TinySAM משתמשת בשיטת זיקוק ידע בשלב מלא עם הנחיות מקוונות ליצירת מודל סטודנט יעיל יותר. קוונטיזציה לאחר אימון המותאמת למשימות פילוח הניתנות להנחיה מפחיתה עוד יותר את הצרכים החישוביים. בנוסף, העיצוב של TinySAM מכוון לפילוח היררכי, כמעט להכפיל את מהירות ההסקה מבלי לפגוע בביצועים.

מאמר זה מתעמק במסגרת TinySAM, בוחן את עקרונות היסוד, הארכיטקטורה והביצועים שלה בהשוואה למסגרות פילוח מתקדמות אחרות. הבה נחקור את ההיבטים הללו ביתר פירוט.

TinySAM: מודל יעיל לכל דבר

המודל של Segment Anything עזר להתקדמות המהירה של מספר יישומי ראייה ממוחשבת הודות ליכולות הפילוח הראויות לשבח שלו יחד עם מערך פילוח מסיבי שמכיל למעלה מ-11 מיליון תמונות ולמעלה ממיליארד מסכות תמונה. בשל הביצועים יוצאי הדופן שלו במשימות המפלח אובייקטים עם קטגוריות וצורות שרירותיות, הוא משמש כבסיס למסגרות המבצעות משימות במורד הזרם כמו ציור תמונה, מעקב אחר אובייקטים, ראיית תלת מימד ועוד. יתרה מזאת, המודל של Segment Anything מציע גם הוא מדהים פילוח זריקת אפס ביצועים שהיטיבו עם תעשיות רגישות שעובדות עם כמות מוגבלת של נתונים כולל תעשיות המחקר הרפואי והדמיה רפואית.

למרות שאי אפשר להטיל ספק ביכולות הפילוח המדהימות שמציע מודל Segment Anything במגוון רחב של משימות ראייה במורד הזרם, יש לו את החיסרון שלו במונחים של עומס ארכיטקטוני מורכב, דרישות חישוביות גבוהות ועלויות תפעול משמעותיות. עבור מערכת הפועלת על GPU מודרני, זמן ההסקה של דגם SAM יכול להגיע עד 2 שניות לתמונה 1024×1024. כתוצאה מכך, זו משימה קשה מאוד ליישם יישומי SAM במכשירים עם יכולות חישוב מוגבלות. כדי להתגבר על מכשול זה, עבודות אחרונות כמו MobileSAM ו-FastSAM ניסו לפתח מודל SAM עם יותר יעילות חישובית. המסגרת של MobileSAM מנסה להחליף את הרכיב הכבד במקודד התמונה בארכיטקטורה של המסגרת TinyViT ואילו מודל FastSAM מעביר את משימת הפלחים למשימת פילוח מופע עם קטגוריה אחת בלבד עם YoloV8 דֶגֶם. למרות ששיטות אלו הצליחו להשיג רמה מסוימת של הצלחה במונחים של הפחתת הדרישות החישוביות, הן לא יכלו לשמור על הביצועים במיוחד במשימות אפס-shot במורד הזרם.

TinySAM או Tiny Segment Anything Model הוא ניסיון לצמצם את הדרישה החישובית של מודל ה-SAM הנוכחי מבלי להפריע לביצועים במשימות במורד הזרם. יתר על כן, מסגרת TinySAM מציעה ליישם שיטת זיקוק ידע בשלב מלא בארכיטקטורה שלה במטרה לשפר את היכולת של רשת הסטודנטים הקומפקטית. מסגרת TinySAM מזקקת את רשת הסטודנטים מקצה לקצה בפיקוח רשת המורים משלבים שונים. כדי להגביר את הביצועים עוד יותר, המסגרת מאפשרת לתהליך הזיקוק להתייחס יותר לדוגמאות קשות על ידי יישום אסטרטגיית דגימה קשיחה מקוונת נוספת. יתרה מזאת, כדי להפחית בנוסף עלויות חישוביות, המסגרת של TinySAM חושפת את משימות הפילוח הניתנות להנחיה לרכיבי קוונטיזציה שלאחר האימון.

הנתח העיקרי של דרישת החישוב של דגם Segment Anything הוא מכיוון שהמודל יוצר מסכות מסיביות מנקודות ההנחיה של הרשת כדי לפלח את כל מה שבתמונה. כדי להתגבר על הדרישה החישובית של אסטרטגיית פילוח זו, המסגרת של TinySAM משתמשת באסטרטגיה היררכית של הכל, שכמעט מכפילה את מהירות ההסקה מבלי לפגוע בביצועים. עם שיטות אלה המופעלות בארכיטקטורה שלה, מסגרת TinySAM מציעה הפחתה משמעותית בדרישות החישוביות, ומציבה גבולות חדשים למשימות פלח יעילות.

TinySAM: אדריכלות ומתודולוגיה

לפני שנדבר על הארכיטקטורה והמתודולוגיה של המסגרת TinySAM, חשוב להסתכל תחילה על קודמתה, המסגרת SAM. מאז הצגתו, המודל של Segment Anything הפגין ביצועים יוצאי דופן, צדדיות ויכולות הכללה במגוון של משימות ראייה ופילוח אובייקטים במורד הזרם.

בבסיסו, מודל SAM מורכב משלוש רשתות משנה: מקודד ההנחות, מקודד התמונה ומפענח המסכה. המטרה העיקרית של מקודד ההנחות היא לקודד את המסכות בצורה שרירותית, נקודות קלט ותיבות, וטקסט בצורה חופשית עם מידע מיקום. מקודד התמונה הוא רשת מבוססת ViT או שנאי ראיה כבדה המחלצת את תמונת הקלט לתוך הטבעות. המודל משתמש ברשתות שונות כדי לעבד את ההנחיות הגיאומטריות והטקסט. לבסוף, מפענח המסכה מכיל שנאי דו-כיווני המקבל את הפלט של ההנחיה ואת מקודד התמונה כדי ליצור את חיזוי המסכה הסופי. עם מערך הנתונים, מסגרת SAM מדגימה יכולות פילוח באיכות גבוהה במיוחד עבור אובייקטים ללא קשר לצורתם ולקטגוריה שלהם. יתר על כן, ה פלח כל דבר מודל מפגין ביצועים ויעילות יוצאי דופן במשימות ראייה במורד הזרם של אפס, כולל הצעת אובייקט, זיהוי קצה, חיזוי טקסט למסכה ופילוח מופעים. בשל יכולות הפילוח האיכותיות שלה, וההצעות הגמישות המיידיות שלה, מסגרות SAM מהוות את הבסיס ליישומי חזון. עם זאת, אי אפשר להתעלם מהדרישה החישובית הגבוהה של ארכיטקטורת SAM המסורתית עם מספר רב של פרמטרים שהופך את זה כמעט בלתי אפשרי למפתחים לפרוס יישומים מבוססי SAM על מכשירים עם משאבים מוגבלים.

זיקוק ידע

זיקוק ידע הוא גישה חשובה לשיפור הביצועים של רשתות קומפקטיות בשלב ההדרכה. שיטת זיקוק הידע המשתמשת בתפוקת רשת המורים לפיקוח על הכשרת רשת הסטודנטים הקלה. ניתן לפצל את שיטת זיקוק הידע לשתי קטגוריות משנה: זיקוק עבור תכונות ביניים, וזיקוק עבור תפוקות רשת, כאשר רוב עבודת המחקר סביב זיקוק ידע מתמקדת במשימות סיווג תמונות.

עם זאת, האיור הבא מדגים את הארכיטקטורה הגנרית של מסגרת TinySAM יחד עם סקירת הביצועים על משימות פילוח מופעים ב-Zero-shot.

בשלב הראשון, מסגרת TinySAM מיישמת זיקוק ידע שתוכנן במיוחד עבור מסגרת SAM, וכדי להפעיל את תהליך הזיקוק הלאה, המודל משתמש בדגימת הנחיה קשיחה מקוונת כדי לכרות את הידע הקשה לרשת התלמידים מרשת המורים. בשלב השני, מסגרת TinySAM מתאימה את שיטת הקוונטיזציה שלאחר ההכשרה למשימות פילוח ניתנות להנחיה ומיישמת אותה ברשת הסטודנטים הקלה. לבסוף, המודל מיישם את הקטע ההיררכי מצב הסקת הכל המיועד למשימות פילוח וכתוצאה מכך להכפלת מהירות ההסקה עם אובדן דיוק זניח.

זיקוק ידע בשלב מלא

כפי שהוזכר קודם לכן, דגם Segment Anything מורכב משלוש תת-רשתות בליבתו: מקודד ההנחות, מקודד התמונה ומפענח המסכה, כאשר רכיב מקודד התמונה בנוי על שנאי ראייה, ובעל דרישות חישוביות גבוהות. כדי להתמודד עם בעיה זו, המסגרת של MobileSAM החליפה את שנאי הראייה בשנאי TinyViT או Tiny Vision Transformer, למרות שההחלפה לא הייתה יעילה בהתחשב בירידה המשמעותית בביצועים. כדי להבטיח שאין דעיכה בביצועים, מסגרת TinySAM מיישמת שיטת זיקוק ידע מלא בשלבים המנחה את מקודד התמונה הקל מרמת הלמידה לרמת הידע המרובה. בנוסף לאובדן הקונבנציונלי בין תוויות ה-ground-truth והתוצאות החזויות, מסגרת TinySAM מציגה הפסדי זיקוק רבים במהלך שלבים שונים כפי שמוצג באיור הבא.

כימות

Quantization מודלים היא גישה פופולרית במסגרות ראייה ממוחשבת, והיא משמשת לדחיסת המודל על ידי כימות משקלים או הפעלות מרוחב פס גבוה לנמוך יותר בניסיון להפחית את המורכבות החישובית ודרישות האחסון מבלי לפגוע באיכות הפלט באופן משמעותי.

המטרה העיקרית של הקוונטיזציה ב-TinySAM היא להקרין את טנסור הנקודה הצפה לטנזור הסיביות באמצעות גורם קנה מידה כאשר המדד למדידת המרחק בין הכפל המטריצה למטריצה המקוונטית משחק תפקיד חיוני למיטוב גורם קנה המידה.

פלח היררכי כל דבר

המודל של Segment Anything מציע להשתמש במחולל מסיכות אוטומטי שדוגם נקודות כרשת כדי לפלח כל דבר בתמונה. עם זאת, צוין כי השימוש ברשת נקודות צפופה מביא לתפוקות פילוח עדינות מדי והתהליך דורש דרישות חישוביות מסיביות וכרוך בעלויות תפעול גבוהות. יתר על כן, בקצה האחד, יותר מדי נקודות דגימה עבור אובייקט שלם עלולות לגרום לקטעים שונים של האובייקט להיות מפולחים בצורה שגויה כמסיכות נפרדות ואילו בקצה השני, עלות הזמן של מסקנת מצב הכל נובעת בעיקר מהסיבה מקודד התמונה הצטמצם באופן משמעותי. כדי להפחית את העלות התפעולית של מצב הכל, מסגרת TinySAM משתמשת בגישת יצירת מסכות היררכית, כאשר ההבדל באסטרטגיה עם מסגרת SAM המקורית מודגם בתמונה הבאה.

בשונה מהגישה המיושמת במסגרת SAM המקורית, מודל TinySAM משתמש רק ב-25% נקודות בכל צד, ובכך מנצל רק 1/16 מהנקודות הזמינות בהגדרה המקורית. לאחר מכן, המודל מסיק את מפענח המסכה ואת מקודד ההנחות עם ההנחיות הללו ומקבל את הפלט. לאחר מכן, המודל מסנן כמה מסכות בביטחון העולה על סף מסוים, ומסווה את המיקומים המתאימים כאזורים לתחזיות סופיות פוטנציאליות. מכיוון שהמודל מתייחס לאזורים אלה כתוצאת פילוח של מקרים בעלי ביטחון גבוה, אין לו צורך ליצור הנחיות נקודתיות. האסטרטגיה לא רק מסייעת במניעת פילוח עדין מדי של האובייקט, אלא היא גם מסייעת בהורדת העלויות התפעוליות ודרישות החישוביות באופן משמעותי. לאחר מכן, המסגרת ממזגת ומעבדת לאחר מכן את תוצאות שני הסבבים הללו כדי להשיג את המסכות הסופיות.

TinySAM: ניסויים ותוצאות

כדי להאיץ את תהליך הזיקוק, המסגרת של TinySAM מחשבת ומאחסנת מראש את הטבעות התמונות מרשת המורים, עקב כך אין חובה על המודל לחשב שוב ושוב את מקודד התמונה הכבד של רשת המורים בשלב ההכשרה. לכימות לאחר אימון, המסגרת של TinySAM מכמתת את כל שכבות הכפל המטריצה, שכבות הקונבולציה, שכבות ה-deconvolution והשכבות הליניאריות, כאשר המודל משתמש בגורמי קנה מידה של קנה מידה עבור שכבות ה-convolution וה-deconvolution כאחד. עבור שכבות הכפלה של המטריצה, המודל מיישם גורמי קנה מידה לניארי, ואילו עבור השכבות הליניאריות, המודל מיישם גורמי קנה מידה ליניארי. המודל גם עורך הערכה על משימות במורד הזרם.

למשל משימות פילוח בהגדרת צילום אפס, המסגרת של TinySAM עוקבת אחר הגדרות הניסוי של קודמתה, מודל Segment Anything, ומשתמשת בתוצאות זיהוי אובייקטים של Vision Transformer Det-H או VitDet-H לצורך פילוח לדוגמה. כפי שהודגם בתמונה הבאה, המסגרת של TinySAM עולה על השיטות הקיימות במונחים של דיוק פילוח מופעים וציון ה-FLOPs.

יתר על כן, הביצועים האיכותיים של מודל TinySAM מודגמים בתמונה הבאה לפילוח מופע אפס כאשר התיבה הירוקה מייצגת את הנחיות התיבה.

במונחים של הערכת מסכת חוקית של נקודות זריקה אפס, מודל TinySAM עולה בביצועים משמעותיים על מסגרת MobileSAM במערך נתונים שונים, ומספק תוצאות טובות יותר באופן משמעותי כאשר מספר קטן יותר של נקודות מנוצל כהנחיות על ידי המסגרת.

יתר על כן, הטבלה הבאה מסכמת את תוצאות האצה והירידה בדרישות החישוביות שהושגו כתוצאה מאסטרטגיית מצב הכל ההיררכית. המודל מיישם את אותו ציון יציבות וערך סף עם אסטרטגיות שונות להשוואה הוגנת, והתוצאות מסוכמות להלן.

מחשבות סופיות

במאמר זה, דיברנו על TinySAM, מסגרת מוצעת שפורצת את הגבולות לפילוח כל משימה, ומשיגה ארכיטקטורת מודל יעילה עם פחות דרישות חישוביות ודיוק בשוויון למסגרת SAM המקורית. TinySAM או מודל ה-Tiny Segment Anything ששומר ומספק את ביצועי האפס של המסגרת המקורית. מסגרת TinySAM מיישמת תחילה שיטת זיקוק ידע בשלב מלא המשתמשת בהנחיות מקוונות קשות כדי לזקק מודל קל משקל של סטודנטים. המסגרת של TinySAM לאחר מכן מתאימה את הקוונטיזציה שלאחר האימון למשימות פילוח הניתנות להנחיה, שעוזרת עוד יותר בהפחתת הדרישות החישוביות. יתר על כן, המסגרת גם שואפת לפלח כל דבר באופן היררכי שכמעט מכפיל את מהירות ההסקה מבלי להשפיע על הביצועים.

נושאים קשורים:ראייה ממוחשבת SAM לפלח כל דגם TinySAM

רוב גורזייב, מנכ"ל ומייסד שותף של CyCognito - סדרת ראיונות

לא לפספס

גוגל משחררת את תאומים לחוויית בינה מלאכותית חדשה

קונל קג'ריוואל

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.