AI 101

מהו ראיית מחשב?

מְעוּדכָּן on 21 ביולי 2023

מהו ראיית מחשב?

אלגוריתמי ראייה ממוחשבת הם אחת ממערכות הבינה המלאכותית הטרנספורמטיביות והחזקות ביותר בעולם, כרגע. מערכות ראייה ממוחשבת ראה שימוש בכלי רכב אוטונומיים, ניווט רובוט, מערכות זיהוי פנים ועוד. עם זאת, מהם אלגוריתמים של ראייה ממוחשבת בדיוק? איך הם עובדים? על מנת לענות על שאלות אלו, נצלול עמוק לתוך התיאוריה מאחורי ראייה ממוחשבת, אלגוריתמים של ראייה ממוחשבת ויישומים למערכות ראייה ממוחשבת.

כיצד פועלות מערכות ראייה ממוחשבת?

על מנת להעריך באופן מלא את אופן פעולתן של מערכות ראייה ממוחשבת, בוא נקדיש תחילה רגע כדי לדון כיצד בני אדם מזהים אובייקטים. ההסבר הטוב ביותר שיש לנוירופסיכולוגיה לאופן שבו אנו מזהים אובייקטים הוא מודל שמתאר את השלב הראשוני של זיהוי אובייקט כאחד שבו המרכיבים הבסיסיים של אובייקטים, כגון צורה, צבע ועומק מתפרשים על ידי המוח תחילה. האותות מהעין הנכנסים למוח מנותחים כדי לשלוף תחילה את הקצוות של עצם, והקצוות הללו מחוברים יחדיו ליצוג מורכב יותר המשלים את צורתו של האובייקט.

מערכות ראייה ממוחשבת פועלות באופן דומה מאוד למערכת הראייה האנושית, על ידי הבחנה תחילה בקצוות של אובייקט ולאחר מכן חיבור קצוות אלה יחד לצורת האובייקט. ההבדל הגדול הוא שמכיוון שמחשבים מפרשים תמונות כמספרים, מערכת ראייה ממוחשבת צריכה דרך כלשהי לפרש את הפיקסלים הבודדים המרכיבים את התמונה. מערכת הראייה הממוחשבת תקצה ערכים לפיקסלים בתמונה ועל ידי בחינת ההבדל בערכים בין אזור פיקסלים אחד לאזור אחר של פיקסלים, המחשב יכול להבחין בקצוות. לדוגמה, אם התמונה המדוברת היא בגווני אפור, הערכים ינועו בין שחור (מיוצג על ידי 0) ללבן (מיוצג על ידי 255). שינוי פתאומי בטווח הערכים של פיקסלים זה ליד זה יצביע על קצה.

העיקרון הבסיסי הזה של השוואת ערכי פיקסלים יכול להיעשות גם עם תמונות צבעוניות, כאשר המחשב משווה הבדלים בין ערוצי הצבע השונים של RGB. אז דעו שאנו יודעים כיצד מערכת ראייה ממוחשבת בוחנת ערכי פיקסלים כדי לפרש תמונה, בואו נסתכל על הארכיטקטורה של מערכת ראייה ממוחשבת.

רשתות עצביות קונבולוציוניות (CNN)

הסוג העיקרי של AI המשמש במשימות ראייה ממוחשבת הוא אחד מבוסס על רשתות עצביות קונבולוציוניות. מהי קונבולציה בדיוק?

פיתולים הם תהליכים מתמטיים שהרשת משתמשת בהם כדי לקבוע את ההבדל בערכים בין פיקסלים. אם אתה מדמיין רשת של ערכי פיקסלים, דמיין שרשת קטנה יותר מוזזת מעל הרשת הראשית הזו. הערכים שמתחת לרשת השנייה מנותחים על ידי הרשת, כך שהרשת בוחנת רק קומץ פיקסלים בכל פעם. זה נקרא לעתים קרובות טכניקת "חלונות הזזה". הערכים המנותחים על ידי חלון ההזזה מסוכמים על ידי הרשת, מה שעוזר להפחית את מורכבות התמונה ומקל על הרשת לחלץ דפוסים.

רשתות עצביות קונבולוציוניות הן מחולקים לשני חלקים שונים, הקטע הקונבולוציוני והקטע המחובר במלואו. השכבות הקונבולוציוניות של הרשת הן מחלצי התכונות, שתפקידם לנתח את הפיקסלים בתוך התמונה וליצור ייצוגים שלהם שהשכבות המחוברות בצפיפות של הרשת העצבית יכולות ללמוד מהם תבניות. השכבות הקונבולוציוניות מתחילות רק בבחינת הפיקסלים וחילוץ התכונות הנמוכות של התמונה כמו קצוות. שכבות קונבולוציוניות מאוחרות יותר מצטרפות את הקצוות לצורות מורכבות יותר. עד הסוף, יש לקוות לרשת ייצוג של הקצוות והפרטים של התמונה שהיא יכולה להעביר לשכבות המחוברות במלואן.

ביאור תמונה

בעוד שרשת עצבית קונבולוציונית יכולה לחלץ דפוסים מתמונות בעצמה, ניתן לשפר מאוד את הדיוק של מערכת הראייה הממוחשבת על ידי הערת התמונות. ביאור תמונה הוא תהליך הוספת מטא נתונים לתמונה המסייע למסווג בזיהוי אובייקטים חשובים בתמונה. השימוש בהערות תמונה חשוב בכל פעם שמערכות ראייה ממוחשבת צריכות להיות מדויקות ביותר, כגון בעת שליטה על רכב או רובוט אוטונומי.

ישנן דרכים שונות שבהן ניתן להוסיף הערות לתמונות כדי לשפר את הביצועים של מסווג ראיית מחשב. הערת תמונה נעשית לרוב באמצעות תיבות תוחמות, תיבה המקיפה את קצוות אובייקט היעד ואומרת למחשב למקד את תשומת הלב שלו בתוך התיבה. פילוח סמנטי הוא סוג נוסף של הערת תמונה, הפועלת על ידי הקצאת מחלקה תמונה לכל פיקסל בתמונה. במילים אחרות, כל פיקסל שיכול להיחשב "דשא" או "עצים" יסומן כשייך לאותן מחלקות. הטכניקה מספקת דיוק ברמת הפיקסלים, אך יצירת הערות פילוח סמנטי מורכבת וגוזלת זמן רב יותר מאשר יצירת תיבות תוחמות פשוטות. קיימות גם שיטות ביאור אחרות, כמו קווים ונקודות.