בדל למידה מפוקחת לעומת למידה ללא פיקוח - Unite.AI
צור קשר
כיתת אמן בינה מלאכותית:

AI 101

למידה מפוקחת לעומת למידה ללא פיקוח

mm
מְעוּדכָּן on

בלמידת מכונה, ניתן לסווג בקלות את רוב המשימות לאחת משתי מחלקות שונות: בעיות למידה בפיקוח או בעיות למידה ללא פיקוח. בלמידה מפוקחת, לנתונים מצורפות תוויות או שיעורים, בעוד שבמקרה של למידה לא מפוקחת הנתונים אינם מסומנים. בואו נסתכל מקרוב מדוע ההבחנה הזו חשובה ונבחן כמה מהאלגוריתמים הקשורים לכל סוג למידה.

למידה מפוקחת לעומת למידה ללא פיקוח

רוב משימות למידת מכונה הן בתחום של למידה מפוקחת. באלגוריתמי למידה מפוקחים, למופעים/נקודות נתונים בודדים במערך הנתונים מוקצים להם מחלקה או תווית. משמעות הדבר היא שמודל למידת המכונה יכול ללמוד להבחין אילו תכונות מתואמות עם מחלקה נתונה וכי מהנדס למידת מכונה יכול לבדוק את ביצועי המודל על ידי ראות כמה מופעים סווגו כראוי. ניתן להשתמש באלגוריתמי סיווג כדי להבחין בתבניות מורכבות רבות, כל עוד הנתונים מסומנים במחלקות המתאימות. לדוגמה, אלגוריתם למידת מכונה יכול ללמוד להבחין בין בעלי חיים שונים זה מזה על סמך מאפיינים כמו "שפמים", "זנב", "ציפורניים" וכו'.

בניגוד ללמידה מפוקחת, למידה ללא פיקוח כוללת יצירת מודל המסוגל לחלץ דפוסים מנתונים לא מסומנים. במילים אחרות, המחשב מנתח את תכונות הקלט וקובע בעצמו מהן התכונות והתבניות החשובות ביותר. למידה ללא פיקוח מנסה למצוא את קווי הדמיון הטבועים בין מקרים שונים. אם אלגוריתם למידה בפיקוח שואף למקם נקודות נתונים במחלקות ידועות, אלגוריתמי למידה ללא פיקוח יבחנו את התכונות המשותפות למופעי האובייקט וימקמו אותן בקבוצות על סמך תכונות אלו, ובעצם יוצרות מחלקות משלו.

דוגמאות של אלגוריתמי למידה מפוקחים הם רגרסיה לינארית, רגרסיה לוגיסטית, שכנים קרובים ל-K, עצי החלטה ומכונות וקטור תמיכת.

בינתיים, כמה דוגמאות לאלגוריתמי למידה ללא פיקוח הם ניתוח רכיבים ראשיים ו-K-Means Clustering.

אלגוריתם למידה מפוקח

ליניארי רגרסיה הוא אלגוריתם שלוקח שתי תכונות ומשרטט את הקשר ביניהן. רגרסיה לינארית משמשת לניבוי ערכים מספריים ביחס למשתנים מספריים אחרים. לרגרסיה לינארית יש את המשוואה של Y = a +bX, כאשר b הוא השיפוע של הישר ו-a הוא המקום שבו y חוצה את ציר ה-X.

רגרסיה לוגיסטית הוא אלגוריתם סיווג בינארי. האלגוריתם בוחן את הקשר בין תכונות מספריות ומוצא את ההסתברות שניתן לסווג את המופע לאחת משתי מחלקות שונות. ערכי ההסתברות "נסחטים" לכיוון 0 או 1. במילים אחרות, הסתברויות חזקות יתקרבו ל-0.99 בעוד שהסתברויות חלשות יתקרבו ל-0.

השכנים הקרובים ביותר מקצה כיתה לנקודות נתונים חדשות בהתבסס על השיעורים שהוקצו של כמות נבחרת כלשהי של שכנים במערך האימונים. מספר השכנים הנחשבים על ידי האלגוריתם חשוב, ומעט מדי או יותר מדי שכנים עלולים לסווג נקודות בצורה שגויה.

עצי החלטה הם סוג של אלגוריתם סיווג ורגרסיה. עץ החלטות פועל על ידי פיצול מערך נתונים לחלקים קטנים יותר ויותר עד שלא ניתן לפצל את קבוצות המשנה עוד יותר ומה שהתוצאה היא עץ עם צמתים ועלים. הצמתים הם המקום שבו החלטות לגבי נקודות נתונים מתקבלות באמצעות קריטריוני סינון שונים, בעוד שהעלים הם המקרים שקיבלו תווית כלשהי (נקודת נתונים שסווגה). אלגוריתמי עץ ההחלטות מסוגלים לטפל בנתונים מספריים וקטגוריים כאחד. פיצולים נעשים בעץ על משתנים/מאפיינים ספציפיים.

תמיכה במכונות וקטוריות הם אלגוריתם סיווג הפועל על ידי ציור היפר-מטוסים, או קווי הפרדה, בין נקודות נתונים. נקודות נתונים מופרדות למחלקות על סמך באיזה צד של המישור הן נמצאות. ניתן לצייר היפר-מטוסים מרובים על פני מישור, לצלול מערך נתונים למספר מחלקות. המסווגן ינסה למקסם את המרחק בין היפר-מישור הצלילה לנקודות משני צדי המטוס, וככל שהמרחק בין הקו לנקודות גדול יותר, כך המסווג בטוח יותר.

אלגוריתמי למידה ללא פיקוח

ניתוח רכיב עיקרי היא טכניקה המשמשת להפחתת מימדיות, כלומר הממדיות או המורכבות של הנתונים מיוצגים בצורה פשוטה יותר. אלגוריתם ניתוח הרכיבים הראשי מוצא מימדים חדשים עבור הנתונים שהם אורתוגונליים. בעוד הממדיות של הנתונים מצטמצמת, השונות בין הנתונים צריכה להישמר ככל האפשר. המשמעות במונחים מעשיים היא שזה לוקח את התכונות במערך הנתונים ומזקק אותן לפחות תכונות שמייצגות את רוב הנתונים.

אשכולות K-Means הוא אלגוריתם המקבץ אוטומטית נקודות נתונים לאשכולות על סמך תכונות דומות. הדפוסים בתוך מערך הנתונים מנותחים ונקודות הנתונים מפוצלות לקבוצות על סמך דפוסים אלה. בעיקרו של דבר, K-means יוצר מחלקות משלה מתוך נתונים ללא תווית. אלגוריתם ה-K-Means פועל על ידי הקצאת מרכזים לאשכולות, או צנטרואידים, והזזת המוקדים עד שנמצא המיקום האופטימלי עבור המוקדים. המיקום האופטימלי יהיה כזה שבו המרחק בין המוקדים לנקודות הנתונים שמסביב בתוך המחלקה ממוזער. ה-"K" ב-K-פירושו אשכולות מתייחס למספר centroids שנבחרו.

<br> סיכום

לסגירה, בואו נעבור במהירות על ההבדלים העיקריים ביניהם למידה מפוקחת ולא מפוקחת.

כפי שדיברנו בעבר, במשימות למידה מפוקחות נתוני הקלט מסומנים ומספר השיעורים ידוע. בינתיים, נתוני הקלט אינם מסומנים ומספר השיעורים אינו ידוע במקרים של למידה ללא פיקוח. למידה לא מפוקחת נוטה להיות פחות מורכבת מבחינה חישובית, ואילו למידה מפוקחת נוטה להיות מורכבת יותר מבחינה חישובית. בעוד שתוצאות למידה בפיקוח נוטות להיות מדויקות ביותר, תוצאות למידה ללא פיקוח נוטות להיות פחות מדויקות/מדויקות.