בינה מלאכותית

חשיפת SAM 2: מודל יסוד קוד פתוח חדש של Meta לסימון אובייקטים בזמן אמת בווידאו ותמונות

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

בשנים האחרונות, עולם הבינה המלאכותית ראה צעדים משמעותיים בתחום המודלים היסודיים לעיבוד טקסט, עם התקדמויות ששינו תעשיות משירות לקוחות לניתוח משפטי. עם זאת, כאשר מדובר בעיבוד תמונות, אנו רק מתחילים לגעור את הפני השטח. המורכבות של נתונים חזותיים והאתגרים באימון מודלים לפרש ולנתח תמונות במדויק הציבו מכשולים משמעותיים. ככל שחוקרים ממשיכים לחקור מודלים יסודיים לתמונות ווידאו, עתיד עיבוד התמונות בבינה מלאכותית מחזיק פוטנציאל לחדשנויות בתחומי בריאות, רכבים אוטונומיים ומעבר לכך.

סימון אובייקטים, שכולל זיהוי הפיקסלים המדויקים בתמונה התואמים לאובייקט המעניין, הוא משימה קריטית בראייה ממוחשבת. באופן מסורתי, זה כלל יצירת מודלים מתוחכמים, שדורשים תשתית נרחבת וכמויות גדולות של נתונים מסומנים. שנה שעברה, Meta הציגה את מודל Segment Anything (SAM), מודל יסודי שמפשט את התהליך על ידי איפשור למשתמשים לסמן תמונות עם פרומפט פשוט. חידוש זה הפחית את הצורך במומחיות מיוחדת ומשאבי חישוב נרחבים, מה שהופך את סימון התמונות לנגיש יותר.

כעת, Meta לוקחת צעד נוסף עם SAM 2. הגרסה החדשה הזו לא רק משפרת את יכולות הסימון של SAM, אלא גם מרחיבה אותן לעיבוד וידאו. SAM 2 יכול לסמן כל אובייקט בתמונות ווידאו, אפילו אלו שלא פגש לפני כן. התקדמות זו היא קפיצה קדימה בתחום הראייה הממוחשבת ועיבוד תמונות, מספקת כלי יותר גמיש וחזק לניתוח תוכן חזותי. להלן, אנו חוקרים את ההתקדמויות המרגשות של SAM 2 ואת הפוטנציאל שלה לשנות את תחום הראייה הממוחשבת.

הצגת מודל Segment Anything (SAM)

שיטות סימון מסורתיות דורשות עידון ידני, הידוע כסימון אינטראקטיבי, או נתונים מסומנים נרחבים לסימון אוטומטי לקטגוריות מוגדרות מראש. SAM הוא מודל יסודי שתומך בסימון אינטראקטיבי באמצעות פרומפטים גמישים כגון לחיצות, תיבות או קלטי טקסט. הוא גם יכול להיות מסומן מחדש עם נתונים מינימליים ומשאבי חישוב לסימון אוטומטי. SAM אומנה על יותר ממיליארד נתונים מגוונים, SAM יכול להתמודד עם אובייקטים חדשים ותמונות ללא צורך באיסוף נתונים מותאמים או עידון.

SAM עובד עם שני מרכיבים עיקריים: מקודד תמונה שעובד את התמונה ומקודד פרומפטים שמטפלים בקלטים כגון לחיצות או טקסט. מרכיבים אלו מתאחדים עם מפענח קל משקל לחזות מסיכות סימון. כאשר התמונה מעובדת, SAM יכול ליצור סימון בתוך 50 מילישניות בדפדפן, מה שהופך אותו לכלי חזק למשימות אינטראקטיביות בזמן אמת. כדי לבנות את SAM, חוקרים פיתחו תהליך איסוף נתונים בשלושה שלבים: סימון מותאם, שילוב של סימון אוטומטי ומסייע, ויצירת מסיכות אוטומטית. תהליך זה הוביל ליצירת מאגר הנתונים SA-1B, שכולל יותר מ-1.1 מיליארד מסיכות על 11 מיליון תמונות מורשות, שמהווה מאגר 400 פעמים גדול יותר מכל מאגר קיים.

חשיפת SAM 2: קפיצה מסימון תמונות לווידאו

בנייה על היסודות של SAM, SAM 2 תוכנן לסימון אובייקטים בזמן אמת, ניתן לפרומפט, בתמונות ווידאו. לעומת SAM, שמתמקד רק בתמונות סטטיות, SAM 2 מעבד וידאו על ידי טיפול בכל פריים כחלק מרצף רציף. זה מאפשר ל-SAM 2 להתמודד עם סצנות דינאמיות ותוכן משתנה ביעילות רבה יותר. לסימון תמונות, SAM 2 לא רק משפר את יכולות SAM, אלא גם פועל שלוש פעמים מהר יותר במשימות אינטראקטיביות.

SAM 2 שומר על אותה הארכיטקטורה כמו SAM, אך מציג מנגנון זיכרון לעיבוד וידאו. מאפיין זה מאפשר ל-SAM 2 לשמור מידע מפריימים קודמים, מה שמבטיח סימון אובייקטים עקבי למרות שינויים בתנועה, תאורה או הסתרה. על ידי התייחסות לפריימים קודמים, SAM 2 יכול לשפר את חיזויי המסיכות לאורך הווידאו.

המודל מאומן על מאגר נתונים חדש, SA-V dataset, שכולל יותר מ-600,000 סימונים על 51,000 וידאו מ-47 מדינות. מאגר נתונים זה, המכסה הן אובייקטים שלמים והן חלקים מהם, משפר את דיוקו של SAM 2 בסימון וידאו בעולם האמיתי.

SAM 2 זמין כמודל קוד פתוח תחת רישיון Apache 2.0, מה שהופך אותו לנגיש לשימושים שונים. Meta גם שיתפה את מאגר הנתונים המשמש ל-SAM 2 תחת רישיון CC BY 4.0. בנוסף, ישנו דמו מקוון שאפשר למשתמשים לחקור את המודל ולראות כיצד הוא מתפקד.

מקרי שימוש אפשריים

יכולותיו של SAM 2 בסימון אובייקטים בזמן אמת, ניתן לפרומפט, לתמונות ווידאו, פתחו מגוון רחב של יישומים חדשניים בתחומים שונים. לדוגמה, חלק מהיישומים האלו הם:

אבחון רפואי: SAM 2 יכול לשפר משמעותית את הסיוע הכירורגי בזמן אמת על ידי סימון מבנים אנטומיים וזיהוי אנומליות בזרם וידאו חי בחדר הניתוח. הוא גם יכול לשפר את ניתוח התמונות הרפואיות על ידי סיפוק סימון מדויק של איברים או גידולים בסריקות רפואיות.
רכבים אוטונומיים: SAM 2 יכול לשפר את מערכות הרכב האוטונומיות על ידי שיפור דיוק גילוי האובייקטים דרך סימון רציף ועקבות של הולכי רגל, כלי רכב ושלטי דרך לאורך פריימים של וידאו. יכולתו להתמודד עם סצנות דינאמיות תומכת גם במערכות ניווט אדפטיביות ומניעת התנגשויות על ידי זיהוי ותגובה לשינויים סביבתיים בזמן אמת.
תקשורת אינטראקטיבית ובידור: SAM 2 יכול לשפר אפליקציות מציאות רבודה (AR) על ידי סימון מדויק של אובייקטים בזמן אמת, מה שהופך את האינטגרציה של אלמנטים וירטואליים עם העולם האמיתי לקלה יותר. הוא גם מועיל לעריכת וידאו על ידי אוטומציה של סימון אובייקטים בצילומים, מה שמפשט את התהליכים כגון הסרת רקע והחלפת אובייקטים.
מעקב סביבתי: SAM 2 יכול לסייע בעקבות בעלי חיים על ידי סימון ומעקב אחר בעלי חיים בצילומי וידאו, תומך במחקר מינים ולימודי בתי גידול. בתגובה לאסונות, הוא יכול להעריך נזקים ולהנחות מאמצי תגובה על ידי סימון מדויק של אזורים ואובייקטים פגועים בזרם וידאו.
קמעונאות ומסחר אלקטרוני: SAM 2 יכול לשפר את הוויזואליזציה של מוצרים במסחר אלקטרוני על ידי איפשור סימון אינטראקטיבי של מוצרים בתמונות ווידאו. זה יכול לתת ללקוחות את היכולת לצפות במוצרים מזוויות והקשרים שונים. לניהול מלאי, הוא עוזר לקמעונאים לעקוב ולסמן מוצרים על מדפים בזמן אמת, מה שמסדר את המלאי ומשפר את הבקרה על המלאי.

התגברות על מגבלות SAM 2: פתרונות מעשיים ושיפורים עתידיים

בעוד ש-SAM 2 מבצע היטב עם תמונות ווידאו קצרים, יש לו מגבלות לשימוש מעשי. הוא עלול להתקשות בעקבות אובייקטים דרך שינויים משמעותיים בזווית הראייה, הסתרות ארוכות או בסצנות צפופות, במיוחד בווידאו ארוכים. תיקון ידני עם לחיצות אינטראקטיביות יכול לעזור לפתור את הבעיות האלו.

בסביבות צפופות עם אובייקטים דומים, SAM 2 עלול לזהות בטעות מטרות, אך פרומפטים נוספים בפריימים מאוחרים יותר יכולים לפתור בעיה זו. אף על פי ש-SAM 2 יכול לסמן מספר אובייקטים, יעילותו פוחתת משום שהוא מעבד כל אובייקט בנפרד. עדכונים עתידיים יכולים להיעזר משילוב מידע הקשר משותף כדי לשפר ביצועים.

SAM 2 יכול גם להחמיץ פרטים עדינים עם אובייקטים בתנועה מהירה, וחיזויים עלולים להיות לא יציבים לאורך הפריימים. עם זאת, אימון נוסף יכול לפתור מגבלה זו. אף על פי שיצירת אנוטציה אוטומטית שופרה, עדיין נדרשים מאננים אנושיים לבדיקות איכות ובחירת פריימים, ואוטומציה נוספת יכולה לשפר את היעילות.

המסקנה

SAM 2 מייצג קפיצה משמעותית קדימה בסימון אובייקטים בזמן אמת, הן לתמונות והן לווידאו, ובונה על היסודות שהונחו על ידי קודמו. בכך שהוא משפר יכולות ומרחיב את התפקונים לתוכן וידאו דינאמי, SAM 2 מבטיח לשנות מגוון רחב של תחומים, מבריאות ורכבים אוטונומיים ועד לתקשורת אינטראקטיבית וקמעונאות. בעוד שאתגרים עדיין קיימים, במיוחד בטיפול בסצנות מורכבות וצפופות, טבעו הפתוח של SAM 2 מעודד שיפור ואדפטציה מתמדים. עם ביצועים חזקים ונגישות, SAM 2 מוכן לנהוג בחדשנות ולהרחיב את האפשרויות בראייה ממוחשבת ומעבר לכך.

Related Topics:foundation AI image segmentation Meta's SAM 2 SAM 2 segment anything model (SAM)Semantic Segmentation