בינה מלאכותית

מעבדי ראייה מתגברים על אתגרים עם שיטה חדשה ‘תשומת לב מקטע לקבוצה’

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

טכנולוגיות בינה מלאכותית (AI), במיוחד מעבדי ראייה (ViTs), הראו הבטחה עצומה ביכולתם לזהות ולסווג אובייקטים בתמונות. עם זאת, יישומם המעשי הוגבל על ידי שני אתגרים משמעותיים: דרישות כוח חישוב גבוהות וחוסר שקיפות בקבלת החלטות. עכשיו, קבוצת חוקרים פיתחה פתרון מהפכני: מתודולוגיה חדשה הידועה בשם “תשומת לב מקטע לקבוצה” (PaCa). PaCa מטרתה לשפר את יכולות ה-ViTs בזיהוי אובייקטים, סיווג וחלוקה בתמונות, תוך פתרון הבעיות הוותיקות של דרישות חישוב ובהירות קבלת ההחלטות.

טיפול באתגרים של ViTs: מבט על הפתרון החדש

מעבדים, בזכות יכולותיהם העליונות, הם בין המודלים המשפיעים ביותר בעולם ה-AI. כוחם של מודלים אלה הורחב לנתונים חזותיים דרך ViTs, מחלקה של מעבדים שמאומנים עם קלט חזותי. על אף הפוטנציאל העצום המוצע על ידי ViTs בפרשנות והבנת תמונות, הם נבלמו על ידי שני בעיות עיקריות.
ראשית, בגלל טבען של תמונות המכילות כמויות עצומות של נתונים, ViTs דורשות כוח חישוב וזיכרון משמעותי. מורכבות זו יכולה להיות מגובבת עבור מערכות רבות, במיוחד כאשר מטפלים בתמונות ברזולוציה גבוהה. שנית, תהליך קבלת ההחלטות בתוך ViTs מעורפל ואינו שקוף. משתמשים מוצאים קשה להבין כיצד ViTs מבדילים בין אובייקטים או מאפיינים שונים בתמונה, מה שהכרחי ליישומים רבים.
אולם, המתודולוגיה החדשנית PaCa מציעה פתרון לשני האתגרים הללו. “אנו פותרים את האתגר הקשור לדרישות חישוב וזיכרון על ידי שימוש בטכניקות קיבוץ, שמאפשרות לארכיטקטורת המעבד לזהות ולהתמקד באובייקטים בתמונה,” מסביר Tianfu Wu, מחבר מוביל של מאמר על העבודה ופרופסור חבר במחלקה להנדסת חשמל ומחשבים באוניברסיטת North Carolina State.
שימוש בטכניקות קיבוץ ב-PaCa מקטין באופן משמעותי את הדרישות החישוביות, מה שהופך את הבעיה מתהליך ריבועי לתהליך ליניארי ניהולי. Wu מסביר את התהליך, “על ידי קיבוץ, אנו מסוגלים להפוך את זה לתהליך ליניארי, שבו כל יחידה קטנה יותר רק צריכה להיות משוות למספר מוגדר מראש של קבוצות.”
קיבוץ משרת גם לשקיפות תהליך קבלת ההחלטות ב-ViTs. תהליך יצירת הקבוצות חושף כיצד ViT קובע אילו מאפיינים חשובים בקיבוץ חלקים של נתוני התמונה. כאשר ה-AI יוצר רק מספר מוגבל של קבוצות, משתמשים יכולים להבין ולבדוק את תהליך קבלת ההחלטות, מה שמשפר משמעותית את פרשנות המודל.

שיטת PaCa מתעלה על ViTs אחרים בתחום

דרך בדיקות מקיפות, החוקרים מצאו כי שיטת PaCa מתעלה על ViTs אחרים במספר חזיתות. Wu מפרט, “מצאנו כי PaCa עלתה על SWin ו-PVT בכל דבר.” תהליך הבדיקה חשף כי PaCa הצטיינה בסיווג וזיהוי אובייקטים בתוך תמונות וחלוקה, וכן היא הוכיחה עצמה כיעילה יותר בזמן, בוצעה משימות מהר יותר מ-ViTs אחרים.
מעודדים על ידי ההצלחה של PaCa, צוות המחקר מטרה לקדם את פיתוחה על ידי אימונה על מאגרי נתונים גדולים יותר. על ידי כך, הם מקווים לדחוף את הגבולות של מה שאפשרי כיום עם AI המבוססת על תמונות.
המאמר, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers,” יוצג בוועידה הקרובה IEEE/CVF Conference on Computer Vision and Pattern Recognition. זהו ציון דרך חשוב שיכול לסלול את הדרך למערכות AI יעילות, שקופות ונגישות יותר.