AI 101

מודלים של למידת מכונה גנרטיבית לעומת מפלה

מְעוּדכָּן on ינואר 2, 2021

מודלים מסוימים של למידת מכונה שייכים לקטגוריות המודל "הגנרטיבי" או ה"אבחנה". ובכל זאת מה יש ההבדל בין שתי קטגוריות הדגמים הללו? מה המשמעות של מודל להיות מפלה או מחולל?

התשובה הקצרה היא שמודלים גנרטיביים הם כאלה שכוללים את התפלגות מערך הנתונים, ומחזירים הסתברות עבור דוגמה נתונה. מודלים גנרטיביים משמשים לעתים קרובות כדי לחזות את המתרחש לאחר מכן ברצף. בינתיים, מודלים מפלים משמשים לסיווג או רגרסיה והם מחזירים חיזוי מבוסס על תנאי הִסתַבְּרוּת. הבה נחקור את ההבדלים בין מודלים גנרטיביים למודלים מפלים ביתר פירוט, כדי שנוכל להבין באמת מה מפריד בין שני סוגי המודלים ומתי יש להשתמש בכל סוג.

מודלים גנרטיביים לעומת מפלים

ישנן מגוון דרכים לסווג מודל למידת מכונה. מודל יכול להיות מסווג כשייך לקטגוריות שונות כמו: מודלים מחוללים, מודלים מפלים, מודלים פרמטריים, מודלים לא פרמטריים, מודלים מבוססי עץ, מודלים לא מבוססי עץ.

מאמר זה יתמקד בהבדלים בין מודלים גנרטיביים למודלים מפלים. נתחיל בהגדרת מודלים מחוללים וגם מודלים מפלים, ולאחר מכן נחקור כמה דוגמאות של כל סוג של מודל.

דגמים דוריים

מודלים גנרטיביים הם אלה שמתרכזים בהפצת המחלקות בתוך מערך הנתונים. האלגוריתמים של למידת מכונה בדרך כלל מדגמים את התפלגות נקודות הנתונים. מודלים גנרטיביים מסתמכים על מציאת הסתברות משותפת. יצירת נקודות שבהן תכונת קלט נתונה ופלט/תווית רצויים קיימים במקביל.

מודלים גנרטיביים משמשים בדרך כלל להערכת הסתברויות וסבירות, מודלים של נקודות נתונים והבחנה בין מחלקות על סמך הסתברויות אלו. מכיוון שהמודל לומד התפלגות הסתברות עבור מערך הנתונים, הוא יכול להתייחס להתפלגות ההסתברות הזו כדי ליצור מופעי נתונים חדשים. מודלים גנרטיביים מסתמכים לעתים קרובות על משפט בייס כדי למצוא את ההסתברות המשותפת, מציאת p(x,y). בעיקרו של דבר, מודלים גנרטיביים מדגמים את האופן שבו הנתונים נוצרו, ענו על השאלה הבאה:

"מהי הסבירות שהמחלקה הזו או מחלקה אחרת יצרו את נקודת/מופע הנתונים האלה?"

דוגמאות למודלים של למידת מכונה גנרטיבית כוללות ניתוח מבחן ליניארי (LDA), מודלים של מרקוב סמויים ורשתות בייסיאניות כמו Naive Bayes.

מודלים מפלים

בעוד שמודלים גנרטיביים לומדים על התפלגות מערך הנתונים, מודלים מפלים למד על הגבול בין מחלקות בתוך מערך נתונים. עם מודלים מפלים, המטרה היא לזהות גבול ההחלטה בין מחלקות כדי להחיל תוויות מחלקות אמינות על מופעי נתונים. מודלים מפלים מפרידים בין המחלקות במערך הנתונים על ידי שימוש בהסתברות מותנית, ללא הנחות כלשהן לגבי נקודות נתונים בודדות.

מודלים מפלים נועדו לענות על השאלה הבאה:

"באיזה צד של גבול ההחלטה נמצא המקרה הזה?"

דוגמאות למודלים מפלים בלמידת מכונה כוללות תמיכה במכונות וקטוריות, רגרסיה לוגיסטית, עצי החלטה ויערות אקראיים.

הבדלים בין גנרטיבי לאפליה

להלן סקירה מהירה של ההבדלים העיקריים בין מודלים גנרטיביים למודלים מפלים.

מודלים גנרטיביים:

מודלים גנרטיביים שואפים ללכוד את ההפצה בפועל של המחלקות במערך הנתונים.
מודלים גנרטיביים מנבאים את התפלגות ההסתברות המשותפת - p(x,y) - תוך שימוש במשפט בייס.
מודלים גנרטיביים יקרים מבחינה חישובית בהשוואה למודלים מפלים.
מודלים גנרטיביים שימושיים למשימות למידת מכונה ללא פיקוח.
מודלים גנרטיביים מושפעים מנוכחותם של חריגים יותר מאשר מודלים מפלים.

מודלים מפלים:

מודלים מפלים מדגמים את גבול ההחלטה עבור מחלקות הנתונים.
מודלים מפלים לומדים את ההסתברות המותנית - p(y|x).
מודלים מפלים זולים מבחינה חישובית בהשוואה למודלים גנרטיביים.
מודלים מפלים שימושיים עבור משימות למידת מכונה בפיקוח.
למודלים מפלים יש את היתרון שהם חזקים יותר בפני חריגים, בניגוד למודלים הגנרטיביים.
מודלים מפלים חזקים יותר לחריגים בהשוואה למודלים גנרטיביים.

כעת נחקור בקצרה כמה דוגמאות שונות של מודלים של למידת מכונה מחוללת ואפליה.

דוגמאות למודלים גנרטיביים

ניתוח מפלה לינארי (LDA)

דגמי LDA פונקציה על ידי הערכת השונות והממוצע של הנתונים עבור כל מחלקה במערך הנתונים. לאחר חישוב הממוצע והשונות עבור כל מחלקה, ניתן לבצע חיזויים על ידי הערכת ההסתברות שקבוצה נתונה של תשומות שייכת למחלקה נתונה.

דגמי מרקוב נסתרים

שרשרות מרקוב ניתן להתייחס לגרפים עם הסתברויות המציינים עד כמה הסיכוי שנעבור מנקודה אחת בשרשרת, "מצב", למצב אחר. שרשראות מרקוב משמשות לקביעת ההסתברות לעבור ממצב j למצב i, שניתן לסמן כ-p(i,j). זו רק ההסתברות המשותפת שהוזכרה לעיל. דגם מרקוב נסתר הוא המקום שבו נעשה שימוש בשרשרת מרקוב בלתי נראית, בלתי ניתנת לצפייה. קלט הנתונים ניתנים למודל וההסתברויות למצב הנוכחי ולמצב שקדם לו מיד משמשות לחישוב התוצאה הסבירה ביותר.

רשתות בייסיאניות

רשתות בייסיאניות הם סוג של מודל גרפי הסתברותי. הם מייצגים תלות מותנית בין משתנים, כפי שמיוצגים על ידי גרף אציקלי מכוון. ברשת בייסיאנית, כל קצה של הגרף מייצג תלות מותנית, וכל צומת מתאים למשתנה ייחודי. ניתן להשתמש בעצמאות המותנית לקשרים הייחודיים בגרף כדי לקבוע את ההתפלגות המשותפת של המשתנים ולחישוב הסתברות משותפת. במילים אחרות, רשת בייסיאנית לוכדת תת-קבוצה של הקשרים העצמאיים בהתפלגות הסתברות משותפת ספציפית.

לאחר שנוצרה רשת בייסיאנית והוגדרה כראוי, עם משתנים אקראיים, קשרים מותנים והתפלגות הסתברות ידועים, ניתן להשתמש בה כדי להעריך את ההסתברות לאירועים או תוצאות.

אחד הסוגים הנפוצים ביותר של רשתות בייסיאניות הוא דגם בייס נאיבי. מודל Naive Bayes מתמודד עם האתגר של חישוב הסתברות עבור מערכי נתונים עם פרמטרים/משתנים רבים על ידי התייחסות לכל התכונות כבלתי תלויות זו מזו.

דוגמאות למודלים מפלים

תמיכה במכונות וקטוריות

תמיכה במכונות וקטוריות לפעול על ידי שרטוט גבול החלטה בין נקודות נתונים, מציאת גבול ההחלטה המפריד בצורה הטובה ביותר בין המחלקות השונות במערך הנתונים. אלגוריתם ה-SVM מצייר קווים או היפר-מטוסים המפרידים בין נקודות, עבור מרחבים דו-ממדיים ומרחבים תלת-ממדיים בהתאמה. SVM שואפת למצוא את הקו/מישור ההיפר-מישור המפריד בצורה הטובה ביותר בין המחלקות על ידי ניסיון למקסם את השוליים, או את המרחק בין הקו/מישור ההיפר לנקודות הקרובות ביותר. ניתן להשתמש במודלים של SVM גם על מערכי נתונים שאינם ניתנים להפרדה לינארית על ידי שימוש ב"טריק הליבה" לזיהוי גבולות החלטה לא ליניאריים.

רגרסיה לוגיסטית

רגרסיה לוגיסטית הוא אלגוריתם המשתמש בפונקציית logit (log-odds) כדי לקבוע את ההסתברות של קלט להיות באחד משני מצבים. פונקציה סיגמואידית משמשת כדי "למעוך" את ההסתברות לכיוון 0 או 1, נכון או לא נכון. ההנחה היא שהסתברויות גדולות מ-0.50 הן מחלקה 1, בעוד שההסתברויות של 0.49 ומטה הן 0. מסיבה זו, רגרסיה לוגיסטית משמשת בדרך כלל בבעיות סיווג בינארי. עם זאת, ניתן ליישם רגרסיה לוגיסטית על בעיות מרובות מחלקות על ידי שימוש בגישה של אחד מול כולם, יצירת מודל סיווג בינארי עבור כל מחלקה וקביעת ההסתברות שדוגמה היא מחלקת יעד או מחלקה אחרת במערך הנתונים.

עץ החלטות

A עץ החלטות המודל מתפקד על ידי פיצול מערך נתונים לחלקים קטנים יותר ויותר, וברגע שלא ניתן לפצל את קבוצות המשנה עוד יותר, התוצאה היא עץ עם צמתים ועלים. צמתים בעץ החלטות הם המקום שבו מתקבלות החלטות לגבי נקודות נתונים באמצעות קריטריוני סינון שונים. העלים בעץ החלטות הם נקודות הנתונים שסווגו. אלגוריתמי עץ ההחלטות יכולים להתמודד עם נתונים מספריים וקטגוריים כאחד, והפיצולים בעץ מבוססים על משתנים/מאפיינים ספציפיים.

יערות אקראיים

A מודל יער אקראי הוא בעצם רק אוסף של עצי החלטה שבהם ממוצע התחזיות של העצים הבודדים כדי להגיע להחלטה סופית. אלגוריתם היער האקראי בוחר תצפיות ותכונות באופן אקראי, ובונה את העצים הבודדים על סמך הבחירות הללו.

מאמר הדרכה זה יבדוק כיצד ליצור עלילת קופסה ב-Matplotlib. ערימות תיבה משמשות להמחשת סטטיסטיקות סיכום של מערך נתונים, תוך הצגת תכונות של התפלגות כמו טווח הנתונים והתפלגותם.