בדל מהי מטריצת בלבול? - Unite.AI
צור קשר
כיתת אמן בינה מלאכותית:

AI 101

מהי מטריצת בלבול?

mm
מְעוּדכָּן on

אחד הכלים האנליטיים החזקים ביותר בתחום למידת מכונה ומדעי הנתונים ב מטריצת הבלבול. מטריצת הבלבול מסוגלת לתת לחוקרים מידע מפורט על הביצועים של מסווג למידת מכונה ביחס למחלקות היעד במערך הנתונים. מטריצת בלבול תדגים דוגמאות תצוגה שסווגו כראוי מול דוגמאות שסווגו בצורה שגויה. בואו נסתכל יותר לעומק כיצד בנויה מטריצת בלבול וכיצד ניתן לפרש אותה.

מהי מטריצת בלבול?

נתחיל במתן הגדרה פשוטה של ​​מטריצת בלבול. מטריצת בלבול היא כלי ניתוח חיזוי. באופן ספציפי, זוהי טבלה המציגה ומשווה ערכים בפועל עם הערכים החזויים של המודל. בהקשר של למידת מכונה, מטריצת בלבול משמשת כמדד לניתוח האופן שבו מסווג למידת מכונה ביצע במערך נתונים. מטריצת בלבול מייצרת הדמיה של מדדים כמו דיוק, דיוק, ספציפיות וזכירה.

הסיבה שמטריצת הבלבול שימושית במיוחד היא שבניגוד לסוגים אחרים של מדדי סיווג כגון דיוק פשוט, מטריצת הבלבול מייצרת תמונה שלמה יותר של ביצועי המודל. רק שימוש במדד כמו דיוק יכול להוביל למצב שבו המודל מזהה באופן מוחלט ועקבי מחלקה אחת, אבל זה לא מורגש כי בממוצע הביצועים טובים. בינתיים, מטריצת הבלבול נותן השוואה בין ערכים שונים כמו שלילי כוזב, שלילי אמיתי, חיובי כוזב וחיובי אמיתי.

הבה נגדיר את המדדים השונים שמטריצת בלבול מייצגת.

היזכרות במטריצת בלבול

ריקול הוא מספר הדוגמאות החיוביות באמת חלקי מספר הדוגמאות השליליות השגויות ובסך הכל דוגמאות חיוביות. במילים אחרות, ריקול מייצג את שיעור הדוגמאות החיוביות האמיתיות שמודל למידת מכונה סיווג. הזיכרון ניתן כאחוז הדוגמאות החיוביות שהמודל הצליח לסווג מתוך כל הדוגמאות החיוביות הכלולות במערך הנתונים. ערך זה עשוי להיקרא גם "שיעור הפגיעה", וערך קשור הוא "רגישות", המתאר את הסבירות להיזכרות, או את שיעור התחזיות החיוביות האמיתיות.

דיוק במטריקס בלבול

כמו נזכיר, דיוק הוא ערך העוקב אחר ביצועי המודל במונחים של סיווג חיובי של דוגמאות. עם זאת, בניגוד לזכירה, הדיוק עוסק בכמה מהדוגמאות שהדגם תויג כחיובי היו באמת חיוביות. על מנת לחשב זאת, מחלקים את מספר הדוגמאות החיוביות האמיתיות במספר הדוגמאות החיוביות-שגויות בתוספת חיוביות אמיתיות.

לעשות את ההבחנה בין זכירה ודיוק ברורים יותר, דיוק שואף להבין את האחוז של כל הדוגמאות שסומנו חיוביות שהיו באמת חיוביות, בעוד שזכרון עוקב אחר האחוז של כל הדוגמאות החיוביות האמיתיות שהמודל יכול לזהות.

ספציפיות במטריקס בלבול

בעוד שזכרון ודיוק הם ערכים שעוקבים אחר דוגמאות חיוביות והשיעור החיובי האמיתי, ספֵּצִיפִיוּת מכמת את השיעור השלילי האמיתי או את מספר הדוגמאות שהמודל הגדיר כשליליות שהיו שליליות באמת. זה מחושב על ידי לקיחת מספר הדוגמאות המסווגות כשליליות וחלקן במספר הדוגמאות החיוביות-שגויות בשילוב עם הדוגמאות השליליות האמיתיות.

עושה תחושה של מטריקס הבלבול

תמונה: Jackverr באמצעות Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

דוגמה למטריצת בלבול

לאחר הגדרת מונחים הכרחיים כמו דיוק, היזכרות, רגישות וספציפיות, נוכל לבחון כיצד ערכים שונים אלה מיוצגים בתוך מטריצת בלבול. מטריצת בלבול נוצרת במקרים של סיווג, ישימה כאשר יש שתי מחלקות או יותר. מטריצת הבלבול שנוצרת יכולה להיות גבוהה ורחבה ככל הדרוש, ולהכיל כל מספר מחלקות רצוי, אך למטרות הפשטות, נבחן מטריצת בלבול של 2 על 2 עבור משימת סיווג בינארי.

כדוגמה, הנח כי נעשה שימוש במסווג כדי לקבוע אם לחולה יש מחלה או לא. המאפיינים יוזנו למסווג, והמסווג יחזיר אחד משני סיווגים שונים - או שהחולה לא סובל מהמחלה או שהם חולים.

נתחיל מהצד השמאלי של המטריצה. הצד השמאלי של מטריצת הבלבול מייצג את התחזיות שהמסווג עשה עבור המחלקות הבודדות. למשימת סיווג בינארי יהיו כאן שתי שורות. לגבי החלק העליון של המטריצה, הוא עוקב אחר הערכים האמיתיים, תוויות המחלקות בפועל, של מופעי הנתונים.

פירוש מטריצת בלבול יכול להיעשות על ידי בדיקה היכן השורות והעמודות מצטלבות. בדוק את התחזיות של המודל מול התוויות האמיתיות של המודל. במקרה זה, ערכי True Positives, מספר התחזיות החיוביות הנכונות, ממוקמים בפינה השמאלית העליונה. התוצאות הכוזבות נמצאות בפינה הימנית העליונה, כאשר הדוגמאות הן למעשה שליליות אך המסווג תייג אותן כחיוביות.

הפינה השמאלית התחתונה של הרשת מציגה מופעים שהסווג תייג כשלילי אך היו חיוביים באמת. לבסוף, הפינה הימנית התחתונה של מטריצת הבלבול היא המקום שבו נמצאים הערכים שליליים אמיתיים, או היכן נמצאות הדוגמאות הכוזבות באמת.

כאשר מערך הנתונים מכיל יותר משתי מחלקות, המטריצה ​​גדלה במספר מחלקות. לדוגמה, אם יש שלוש מחלקות, המטריצה ​​תהיה מטריצה ​​3 על 3. ללא קשר לגודל מטריצת הבלבול, השיטה לפירושם זהה לחלוטין. הצד השמאלי מכיל את הערכים החזויים ותוויות המחלקות בפועל רצות בחלק העליון. המקרים שהסווג חזה בצורה נכונה פועלים באלכסון מהפינה השמאלית העליונה לפינה הימנית התחתונה. על ידי התבוננות במטריצה ​​תוכל להבחין בארבעת מדדי הניבוי שנדונו לעיל.

לדוגמה, אתה יכול לחשב זכירה על ידי לקיחת הנקודות החיוביות והשליליות השגויות האמיתיות, חיבורם יחד וחלוקתם במספר הדוגמאות החיוביות האמיתיות. בינתיים, ניתן לחשב דיוק על ידי שילוב של חיוביות כוזבות עם חיוביות אמיתיות, ואז חלוקת הערך למספר הכולל של חיוביות אמיתיות.

אמנם אפשר להשקיע זמן בחישוב ידני של מדדים כמו דיוק, זכירה וספציפיות, אבל מדדים אלה נמצאים בשימוש כה נפוץ שלרוב ספריות למידת מכונה יש שיטות להצגתם. לדוגמה, ל-Skikit-learn עבור Python יש פונקציה שיוצרת מטריצת בלבול.

בלוגר ומתכנת עם התמחות ב למידת מכונה ו למידה עמוקה נושאים. דניאל מקווה לעזור לאחרים להשתמש בכוח של AI למען טוב חברתי.