בינה מלאכותית

YOLO-World: זיהוי אובייקטים אוצר מילים פתוח בזמן אמת

יצא לאור

לפני 2 חודשים

במרץ 15, 2024

זיהוי אובייקטים היה אתגר מהותי בתחום ראיית מחשב תעשייה, עם יישומים ברובוטיקה, הבנת תמונה, כלי רכב אוטונומיים ו זיהוי תמונה. בשנים האחרונות, עבודה פורצת דרך ב-AI, במיוחד באמצעות רשתות עצביות עמוקות, קידמה משמעותית את זיהוי האובייקטים. עם זאת, למודלים אלה יש אוצר מילים קבוע, מוגבל לזיהוי עצמים בתוך 80 הקטגוריות של מערך הנתונים של COCO. מגבלה זו נובעת מתהליך האימון, שבו גלאי אובייקט מאומנים לזהות רק קטגוריות ספציפיות, ובכך מגבילים את תחולתם.

כדי להתגבר על כך, אנו מציגים את YOLO-World, גישה חדשנית שמטרתה לשפר את מסגרת YOLO (You Only Look Once) עם יכולות זיהוי אוצר מילים פתוחות. זה מושג על ידי אימון מקדים של המסגרת על מערכי נתונים בקנה מידה גדול ויישום גישת מודלים של שפת חזון. באופן ספציפי, YOLO-World משתמשת ברשת לצבירה של נתיב חזון-שפה הניתנת לפרמטרים מחדש (RepVL-PAN) ואובדן ניגודיות של אזור-טקסט כדי לטפח אינטראקציה בין מידע לשוני למידע חזותי. באמצעות RepVL-PAN ואובדן ניגודיות אזור-טקסט, YOLO-World יכולה לזהות במדויק מגוון רחב של אובייקטים בהגדרת אפס, תוך הצגת ביצועים יוצאי דופן בפילוח אוצר מילים פתוח ובמשימות זיהוי אובייקטים.

מאמר זה נועד לספק הבנה מעמיקה של היסודות הטכניים של YOLO-World, ארכיטקטורת המודל, תהליך ההדרכה ותרחישי היישום. בואו נצלול פנימה.

YOLO-World: זיהוי אובייקטים אוצר מילים פתוח בזמן אמת

YOLO או You Only Look Once היא אחת השיטות הפופולריות ביותר לזיהוי אובייקטים מודרניים בתעשיית הראייה הממוחשבת. ידוע בזכות המהירות והיעילות המדהימים שלו, הופעתו של Yolo המנגנון חולל מהפכה באופן שבו מכונות מפרשנות ומזהות אובייקטים ספציפיים בתוך תמונות וסרטוני וידאו בזמן אמת. מסגרות זיהוי אובייקטים מסורתיות מיישמות גישת זיהוי אובייקט דו-שלבי: בשלב הראשון, המסגרת מציעה אזורים שעשויים להכיל את האובייקט, והמסגרת מסווגת את האובייקט בשלב הבא. מסגרת YOLO לעומת זאת משלבת את שני השלבים הללו למודל רשת עצבית אחת, גישה המאפשרת למסגרת להסתכל על התמונה פעם אחת בלבד כדי לחזות את האובייקט ואת מיקומו בתוך התמונה, ומכאן, השם YOLO או You תסתכל רק פעם אחת.

יתר על כן, המסגרת של YOLO מתייחסת לזיהוי אובייקטים כבעיית רגרסיה, וחוזה את ההסתברויות של המחלקה והתיבות התוחמות ישירות מהתמונה המלאה במבט אחד. יישום שיטה זו לא רק מגביר את מהירות תהליך הזיהוי, אלא גם משפר את יכולת המודל להכליל מנתונים מורכבים ומגוונים, מה שהופך אותו לבחירה מתאימה עבור יישומים הפועלים בזמן אמת כמו נהיגה אוטונומית, זיהוי מהירות או מספר. זיהוי צלחות. יתר על כן, ההתקדמות המשמעותית של רשתות עצביות עמוקות בשנים האחרונות תרמה משמעותית גם בפיתוח מסגרות זיהוי אובייקטים, אך הצלחתן של מסגרות זיהוי אובייקטים עדיין מוגבלת מאחר והן מסוגלות לזהות אובייקטים בעלי אוצר מילים מוגבל בלבד. זה בעיקר בגלל שברגע שקטגוריות האובייקט מוגדרות ומתויגות במערך הנתונים, גלאים מאומנים במסגרת מסוגלים לזהות רק את הקטגוריות הספציפיות הללו, ובכך להגביל את הישימות והיכולת של פריסת מודלים לזיהוי אובייקטים בזמן אמת ובתרחישים פתוחים.

בהמשך לכך, מודלים של שפת חזון שפותחו לאחרונה משתמשים בידע מזוקק של אוצר מילים ממקודדי שפות כדי לטפל בזיהוי אוצר מילים פתוח. למרות שמסגרות אלו מתפקדות טוב יותר ממודלים מסורתיים של זיהוי אובייקטים בזיהוי אוצר מילים פתוח, עדיין יש להן ישימות מוגבלת בגלל הזמינות המועטה של נתוני אימון עם מגוון אוצר מילים מוגבל. יתר על כן, מסגרות נבחרות מאמנות גלאי אובייקטים עם אוצר מילים פתוח בקנה מידה, ומסווגות גלאי אובייקטי אימון כתרגול מקדים של שפת ראייה ברמת אזור. עם זאת, הגישה עדיין מתקשה באיתור אובייקטים בזמן אמת בגלל שתי סיבות עיקריות: תהליך פריסה מורכב עבור התקני קצה ודרישות חישוביות כבדות. בנימה חיובית, מסגרות אלו הוכיחו תוצאות חיוביות מהכשרה מוקדמת של גלאים גדולים כדי להפעיל אותם עם יכולות זיהוי פתוחות.

המסגרת של YOLO-World שואפת להשיג זיהוי אובייקטים פתוח אוצר מילים יעיל ביותר, ולחקור את האפשרות של גישות קדם אימון בקנה מידה גדול כדי להגביר את היעילות של גלאי YOLO מסורתיים לזיהוי אובייקטים פתוחים. בניגוד לעבודות הקודמות בזיהוי אובייקטים, המסגרת של YOLO-World מציגה יעילות יוצאת דופן עם מהירויות הסקה גבוהות, וניתן לפרוס אותה באפליקציות במורד הזרם בקלות. מודל YOLO-World עוקב אחר הארכיטקטורה המסורתית של YOLO, ומקודד טקסטים קלט על ידי מינוף היכולות של מקודד טקסט CLIP מאומן מראש. יתרה מזאת, המסגרת של YOLO-World כוללת בארכיטקטורה שלה רכיב ל-Vision-Language Path Aggregation Network שניתן לפרמטר מחדש (RepVL-PAN) כדי לחבר בין תכונות תמונה וטקסט לייצוגים חזותיים-סמנטיים משופרים. במהלך שלב ההסקה, המסגרת מסירה את מקודד הטקסט, ופרמטריזה מחדש את הטבעות הטקסט למשקולות של RepVL-PAN, מה שהביא לפריסה יעילה. המסגרת כוללת גם למידה קונטרסטית אזורית-טקסט במסגרתה ללימוד שיטות אימון קדם אוצר מילים פתוח למודלים המסורתיים של YOLO. שיטת הלמידה הניגודית אזור-טקסט מאחדת נתוני תמונה-טקסט, נתוני הארקה ונתוני זיהוי לזוגות אזור-טקסט. בהתבסס על זה, המסגרת של YOLO-World שהוכשרה מראש על צמדי אזור-טקסט מדגימה יכולות יוצאות דופן לזיהוי אוצר מילים פתוח וגדול. בנוסף, המסגרת של YOLO-World גם חוקרת פרדיגמה של זיהוי הקדם-ואז במטרה לשפר את היעילות של זיהוי אובייקט אוצר מילים פתוח בתרחישים בזמן אמת ובעולם האמיתי.

כפי שהודגם בתמונה הבאה, גלאי אובייקטים מסורתיים מתמקדים ב-סט קרוב של זיהוי אוצר מילים קבוע עם קטגוריות מוגדרות מראש, בעוד שגלאי אוצר מילים פתוחים מזהים אובייקטים על ידי קידוד הנחיות משתמש עם מקודדי טקסט עבור אוצר מילים פתוח. לשם השוואה, גישת ה-prompt-then-detect של YOLO-World בונה תחילה אוצר מילים לא מקוון (אוצר מילים משתנה לצרכים משתנים) על ידי קידוד הנחיות המשתמש המאפשר לגלאים לפרש את אוצר המילים הלא מקוון בזמן אמת ללא צורך בקודד מחדש של ההנחיות.

YOLO-World: שיטה ואדריכלות

זוגות אזור-טקסט

באופן מסורתי, מסגרות זיהוי אובייקטים כוללות Yolo משפחת גלאי האובייקט מאומנים באמצעות הערות מופע המכילות תוויות קטגוריות ותיבות תוחמות. לעומת זאת, המסגרת של YOLO-World מנסחת מחדש את הערות המופע כזוגות אזור-טקסט כאשר הטקסט יכול להיות תיאור האובייקט, ביטויי שם עצם או שם הקטגוריה. ראוי לציין שמסגרת YOLO-World מאמצת הן את הטקסטים והן את התמונות כקופסאות קלט ופלט חזוי עם הטבעות האובייקטים המתאימות לה.

אדריכלות מודל

בבסיסו, מודל YOLO-World מורכב מקודד טקסט, גלאי YOLO ורכיב ה-Vision-Language Path Aggregation Network (RepVL-PAN) שניתן לפרמטר מחדש, כפי שמוצג בתמונה הבאה.

עבור טקסט קלט, רכיב מקודד הטקסט מקודד את הטקסט להטמעות טקסט ולאחר מכן חילוץ של תכונות מרובות קנה מידה מתמונת הקלט על ידי גלאי התמונה ברכיב גלאי YOLO. רכיב ה-Vision-Language Path Aggregation Network (RepVL-PAN) הניתנת לפרמטרים מחדש, מנצל אז את השילוב בין-מודאליות בין הטקסט והטבעות התכונות כדי לשפר את ייצוגי הטקסט והתמונה.

גלאי YOLO

מודל YOLO-World בנוי על גבי המסגרת הקיימת של YOLOv8 המכילה רכיב עמוד השדרה של Darknet כמקודד התמונה שלו, ראש להטמעות אובייקטים ורגרסיית תיבת תוחמת, ורשת PAN או Path Aggression עבור פירמידות תכונות מרובות קנה מידה.

מקודד טקסט

עבור טקסט נתון, מודל YOLO-World מחלץ את הטבעות הטקסט המקבילות על ידי אימוץ מקודד טקסט CLIP Transformer מאומן מראש עם מספר מסוים של שמות עצם ומימד הטמעה. הסיבה העיקרית לכך שהמסגרת של YOLO-World מאמצת מקודד טקסט CLIP היא משום שהיא מציעה ביצועים חזותיים-סמנטיים טובים יותר לחיבור טקסטים עם אובייקטים ויזואליים, תוך ביצועים גבוהים יותר מקודדים מסורתיים של שפות טקסט בלבד. עם זאת, אם טקסט הקלט הוא כיתוב או ביטוי מפנה, מודל YOLO-World בוחר באלגוריתם פשוט יותר של n-gram כדי לחלץ את הביטויים. ביטויים אלה מוזנים למקודד הטקסט.

טקסט ניגודיות ראש

ראש מנותק הוא רכיב שנוצל על ידי מודלים מוקדמים יותר של זיהוי אובייקטים, והמסגרת של YOLO-World מאמצת ראש מנותק עם פיתולים כפולים של 3×3 כדי לסגת של הטבעת אובייקטים ותיבות תוחמות עבור מספר קבוע של אובייקטים. המסגרת של YOLO-World משתמשת בראש ניגודי לטקסט כדי להשיג את הדמיון בין אובייקט לטקסט באמצעות גישת הנורמליזציה L2 והטמעות טקסט. בנוסף, מודל YOLO-World משתמש גם בגישת הטרנספורמציה האפילית עם גורם משתנה וגורם קנה מידה שניתן ללמוד, כאשר הנורמליזציה של L2 והטרנספורמציה האפינית משפרת את היציבות של המודל במהלך אימון אזורי טקסט.

אימון אוצר מילים מקוון

במהלך שלב ההדרכה, מודל YOLO-World בונה אוצר מילים מקוון עבור כל דגימת פסיפס המורכב מ-4 תמונות כל אחת. המודל דוגם את כל שמות העצם החיוביים הכלולים בתמונות הפסיפס, ודגם כמה שמות עצם שליליים באופן אקראי ממערך הנתונים המקביל. אוצר המילים של כל מדגם מורכב מ-n שמות עצם לכל היותר, כאשר ערך ברירת המחדל הוא 80.

הסקת אוצר מילים לא מקוונת

במהלך הסקת מסקנות, מודל YOLO-World מציג אסטרטגיית זיהוי מיידית עם אוצר מילים לא מקוון כדי לשפר עוד יותר את היעילות של המודל. המשתמש מגדיר תחילה סדרה של הנחיות מותאמות אישית שעשויות לכלול קטגוריות או אפילו כיתובים. מודל YOLO-World משיג אז הטמעות של אוצר מילים לא מקוון על ידי שימוש במקודד הטקסט כדי לקודד הנחיות אלו. כתוצאה מכך, אוצר המילים הלא מקוון להסקת מסקנות עוזר למודל להימנע מחישובים עבור כל קלט, וכן מאפשר למודל להתאים את אוצר המילים באופן גמיש בהתאם לדרישות.

רשת תוקפנות נתיב חזון הניתנת לפרמטרים מחדש (RevVL-PAN)

האיור הבא ממחיש את המבנה של רשת התוקפנות של נתיב חזון-שפה הניתנת לפרמטריה מחדש, העוקבת אחר הנתיבים מלמעלה למטה ולמטה למעלה כדי לבסס את פירמידת התכונות עם תמונות תכונה מרובות קנה מידה.

כדי לשפר את האינטראקציה בין תכונות טקסט לתמונה, המודל של YOLO-World מציע תשומת לב לאיסוף תמונה ו-CSPLayer מונחה טקסט (שכבות חלקיות חוצות שלבים) במטרה סופית לשפר את הייצוגים החזותיים-סמנטיים ליכולות אוצר מילים פתוח. במהלך ההסקה, מודל YOLO-World מפרמטר מחדש את הטמעות אוצר המילים הלא מקוונות למשקלים של השכבות הליניאריות או הקונבולוציוניות לצורך פריסה יעילה.

כפי שניתן לראות באיור לעיל, מודל YOLO-World משתמש ב-CSPLayer לאחר היתוך מלמעלה למטה או מלמטה למעלה, ומשלב הנחיית טקסט בתכונות תמונה מרובות קנה מידה, ויוצר את ה- Text-Guided CSPLayer, ובכך מרחיב ה-CSPLayer. עבור כל תכונת תמונה נתונה והטמעת הטקסט התואמת שלה, המודל מאמץ את תשומת הלב המקסימלית-סיגמואידית לאחר בלוק צוואר הבקבוק האחרון כדי לצבור תכונות טקסט לתכונות תמונה. תכונת התמונה המעודכנת משורשרת לאחר מכן עם התכונות חוצות השלבים, ומוצגת כפלט.

בהמשך, מודל YOLO-World צובר תכונות תמונה כדי לעדכן את הטבעת הטקסט על ידי הצגת שכבת Image Pooling Attention כדי לשפר את הטבעות הטקסט עם מידע מודע לתמונה. במקום להשתמש בתשומת הלב הצולבת ישירות על תכונות תמונה, המודל ממנף את הבריכה המקסימלית בתכונות מרובות קנה מידה כדי להשיג אזורים של 3×3, וכתוצאה מכך 27 אסימוני תיקון כשהמודל מעדכן את הטמעות הטקסט בשלב הבא.

תוכניות טרום אימון

מודל YOLO-World עוקב אחר שתי תוכניות קדם-הכשרה עיקריות: למידה מאובדן ניגודיות של אזור-טקסט ותיוג פסאודו עם נתוני תמונה-טקסט. עבור ערכת ההכשרה המוקדמת הראשית, המודל מוציא תחזיות אובייקט יחד עם הערות עבור טקסט נתון ודוגמאות פסיפס. המסגרת של YOLO-World מתאימה את התחזיות עם הערות אמת על ידי מעקב ומינוף של הקצאת תווית שהוקצתה למשימות, ומקצה תחזיות חיוביות בודדות עם אינדקס טקסט המשמש כתווית הסיווג. מצד שני, סכימת ההכשרה המקדימה של תיוג פסאודו עם נתוני תמונה-טקסט מציעה להשתמש בגישת תיוג אוטומטית במקום להשתמש בצמדי תמונה-טקסט ליצירת זוגות אזור-טקסט. גישת התיוג המוצעת מורכבת משלושה שלבים: לחלץ ביטויי עצם, תיוג פסאודו וסינון. השלב הראשון משתמש באלגוריתם n-gram כדי לחלץ ביטויי עצם מטקסט הקלט, השלב השני מאמץ גלאי אוצר מילים פתוח מאומן מראש ליצירת תיבות פסאודו עבור ביטוי העצם הנתון עבור תמונות בודדות, ואילו השלב השלישי והאחרון משתמש מסגרת CLIP מאומנת מראש להערכת הרלוונטיות של צמדי אזור-טקסט וטקסט-תמונה, שבעקבותיה המודל מסנן תמונות והערות פסאודו בעלי רלוונטיות נמוכה.

YOLO-World: תוצאות

לאחר שמודל YOLO-World הוכשר מראש, הוא מוערך ישירות על מערך הנתונים של LVIS בהגדרת אפס, כאשר מערך הנתונים של LVIS מורכב מ-1200 קטגוריות, הרבה יותר ממערכי הנתונים שלפני ההדרכה המשמשים מסגרות קיימות לבדיקה הביצועים שלהם בזיהוי אוצר מילים גדול. האיור הבא מדגים את הביצועים של המסגרת של YOLO-World עם כמה ממסגרות זיהוי האובייקטים המתקדמת ביותר הקיימות במערך הנתונים של LVIS בהגדרת צילום אפס.

כפי שניתן לראות, המסגרת של YOLO-World עולה על רוב המסגרת הקיימות מבחינת מהירויות היסק, וביצועי צילום אפס, אפילו עם מסגרות כמו Grounding DINO, GLIP ו-GLIPv2 שמשלבות יותר נתונים. בסך הכל, התוצאות מראות שניתן להשתמש במודלים של זיהוי עצמים קטנים כמו YOLO-World-S עם 13 מיליון פרמטרים בלבד לאימון מקדים במשימות בשפת ראייה עם יכולות אוצר מילים פתוחות יוצאות דופן.

מחשבות סופיות

במאמר זה, דיברנו על YOLO-World, גישה חדשנית שמטרתה לשפר את היכולות של המסגרת YOLO או You Only Look Once עם יכולות זיהוי אוצר מילים פתוח על ידי אימון מקדים של המסגרת על מערכי נתונים בקנה מידה גדול, ויישום גישת דוגמנות בשפת חזון. ליתר דיוק, מסגרת YOLO-World מציעה ליישם Re-parameterizable Vision Language Path Aggregation Network או RepVL-PAN יחד עם אובדן ניגודיות של אזור-טקסט כדי להקל על אינטראקציה בין המידע הלשוני והחזותי. על ידי יישום RepVL-PAN ואובדן ניגודיות אזור-טקסט, המסגרת של YOLO-World מסוגלת לזהות במדויק וביעילות מגוון רחב של אובייקטים בהגדרת צילום אפס.

כאשר בינה מלאכותית מרעילה בינה מלאכותית: הסיכונים של בניית בינה מלאכותית על תוכן שנוצר בינה מלאכותית

לא לפספס

מ-Sketch to Platformer: הגישה האמנותית של Google Genie ליצירת משחקים

קונל קג'ריוואל

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.

Unite.AI

YOLO-World: זיהוי אובייקטים אוצר מילים פתוח בזמן אמת

בינה מלאכותית

YOLO-World: זיהוי אובייקטים אוצר מילים פתוח בזמן אמת

תוכן העניינים

YOLO-World: זיהוי אובייקטים אוצר מילים פתוח בזמן אמת