AI 101

מהי למידת חיזוק עמוק?

מְעוּדכָּן on אוגוסט

מהי למידת חיזוק עמוק?

יחד עם למידת מכונה ללא פיקוח ולמידה מפוקחת, צורה נפוצה נוספת של יצירת בינה מלאכותית היא למידת חיזוק. מעבר ללימוד תגבור רגיל, למידת חיזוק עמוקה יכול להוביל לתוצאות מרשימות להפליא, הודות לעובדה שהוא משלב את ההיבטים הטובים ביותר של למידה עמוקה וגם של למידה מחזקת. בואו נסתכל בדיוק כיצד פועלת למידת חיזוק עמוק.

לפני שאנחנו צוללים ללמידה עמוקה של חיזוקים, אולי זה יהיה רעיון טוב לרענן את עצמנו עד כמה זה קבוע למידה חיזוק עובד. בלימוד חיזוק, אלגוריתמים ממוקדי מטרה מתוכננים בתהליך של ניסוי וטעייה, תוך אופטימיזציה לפעולה שמובילה לתוצאה הטובה ביותר/פעולה הזוכה ל"תגמול" הרב ביותר. כאשר מתאמנים אלגוריתמים של למידת חיזוק, הם מקבלים "פרסים" או "עונשים" המשפיעים על הפעולות שהם ינקטו בעתיד. אלגוריתמים מנסים למצוא מערכת פעולות שתספק למערכת את התגמול הרב ביותר, תוך איזון בין תגמולים מיידיים ועתידיים.

אלגוריתמי למידת חיזוק הם חזקים מאוד מכיוון שניתן ליישם אותם כמעט בכל משימה, תוך יכולת ללמוד באופן גמיש ודינמי מסביבה ולגלות פעולות אפשריות.

סקירה כללית של למידת חיזוק עמוק

תמונה: Megajuice באמצעות Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

כשמדובר בלמידה עמוקה של חיזוקים, הסביבה מיוצגת בדרך כלל באמצעות תמונות. תמונה היא לכידה של הסביבה בנקודת זמן מסוימת. על הסוכן לנתח את התמונות ולחלץ מהן מידע רלוונטי, תוך שימוש במידע כדי להודיע באיזו פעולה עליו לנקוט. למידת חיזוק עמוק מבוצעת בדרך כלל באחת משתי טכניקות שונות: למידה מבוססת ערכים ולמידה מבוססת מדיניות.

טכניקות למידה מבוססות ערך עושות שימוש באלגוריתמים וארכיטקטורות כמו רשתות עצביות קונבולוציוניות ו Deep-Q-Networks. אלגוריתמים אלו פועלים על ידי המרת התמונה לגווני אפור וחיתוך חלקים מיותרים של התמונה. לאחר מכן, התמונה עוברת פיתולים ופעולות איגום שונות, ומוציאה את החלקים הרלוונטיים ביותר של התמונה. החלקים החשובים של התמונה משמשים לאחר מכן לחישוב ערך ה-Q עבור הפעולות השונות שהסוכן יכול לבצע. ערכי Q משמשים כדי לקבוע את דרך הפעולה הטובה ביותר עבור הסוכן. לאחר חישוב ערכי ה-Q הראשוניים, מתבצעת התפשטות לאחור על מנת שניתן יהיה לקבוע את ערכי ה-Q המדויקים ביותר.

נעשה שימוש בשיטות מבוססות מדיניות כאשר מספר הפעולות האפשריות שהסוכן יכול לבצע הוא גבוה ביותר, מה שקורה בדרך כלל בתרחישים בעולם האמיתי. מצבים כאלה דורשים גישה שונה מכיוון שחישוב ערכי ה-Q עבור כל הפעולות הבודדות אינו פרגמטי. גישות מבוססות מדיניות פועלות ללא חישוב ערכי פונקציות עבור פעולות בודדות. במקום זאת, הם מאמצים מדיניות על ידי למידה ישירה של המדיניות, לעתים קרובות באמצעות טכניקות הנקראות מעברי מדיניות.

שיפועי מדיניות פועלים על ידי קבלת מצב וחישוב הסתברויות לפעולות בהתבסס על הניסיון הקודם של הסוכן. לאחר מכן נבחרה הפעולה הסבירה ביותר. תהליך זה חוזר על עצמו עד תום תקופת ההערכה והתגמולים ניתנים לסוכן. לאחר טיפול בתגמולים עם הסוכן, הפרמטרים של הרשת מתעדכנים עם הפצה לאחור.

מה זה Q-Learning?

כי למידת ש הוא חלק כל כך גדול מתהליך הלמידה העמוק של חיזוקים, בואו ניקח קצת זמן כדי להבין באמת איך עובדת מערכת Q-learning.

תהליך ההחלטה של מרקוב

תהליך החלטה של מרקוב. תמונה: waldoalvarez דרך Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

על מנת שסוכן בינה מלאכותית יבצע שורה של משימות ויגיע למטרה, על הסוכן להיות מסוגל להתמודד עם רצף של מצבים ואירועים. הסוכן יתחיל במצב אחד ועליו לבצע סדרה של פעולות כדי להגיע למצב סיום, ויכול להיות מספר עצום של מצבים בין מצב ההתחלה והסוף. אחסון מידע לגבי כל מדינה אינו מעשי או בלתי אפשרי, ולכן המערכת חייבת למצוא דרך לשמר רק את המידע הרלוונטי ביותר של המדינה. זה מושג באמצעות שימוש ב-a תהליך החלטה של מרקוב, המשמר רק את המידע לגבי המצב הנוכחי והמצב הקודם. כל מדינה עוקבת אחר מאפיין מרקוב, שעוקב אחר האופן שבו הסוכן משתנה מהמצב הקודם למצב הנוכחי.

למידת Q מעמיקה

ברגע שלמודל יש גישה למידע על מצבי סביבת הלמידה, ניתן לחשב ערכי Q. ערכי ה-Q הם התגמול הכולל שניתן לסוכן בסוף רצף של פעולות.

ערכי ה-Q מחושבים עם סדרה של תגמולים. יש תגמול מיידי, מחושב במצב הנוכחי ובהתאם לפעולה הנוכחית. מחושב גם ערך ה-Q עבור המצב הבא, יחד עם ערך ה-Q עבור המצב שאחריו, וכן הלאה עד שכל ערכי ה-Q עבור המצבים השונים חושבו. קיים גם פרמטר Gamma המשמש כדי לשלוט בכמה משקל יש לתגמולים עתידיים על פעולות הסוכן. מדיניות מחושבת בדרך כלל על ידי אתחול אקראי של ערכי Q ולתת למודל להתכנס לעבר ערכי Q האופטימליים במהלך האימון.

Deep Q-Networks

אחת הבעיות הבסיסיות הכרוכות השימוש ב-Q-learning למידת חיזוק היא שכמות הזיכרון הנדרשת לאחסון נתונים מתרחבת במהירות ככל שמספר המצבים גדל. Deep Q Networks פותרות בעיה זו על ידי שילוב של מודלים של רשתות עצביות עם ערכי Q, מה שמאפשר לסוכן ללמוד מניסיון ולעשות ניחושים סבירים לגבי הפעולות הטובות ביותר לנקוט. עם למידת Q עמוקה, פונקציות ערך ה-Q מוערכות עם רשתות עצביות. הרשת העצבית לוקחת את המצב בתור נתוני הקלט, והרשת מוציאה ערך Q עבור כל הפעולות האפשריות השונות שהסוכן עשוי לבצע.

למידת Q עמוקה מושגת על ידי אחסון כל חוויות העבר בזיכרון, חישוב תפוקות מקסימליות עבור רשת Q, ולאחר מכן שימוש בפונקציית הפסד כדי לחשב את ההפרש בין הערכים הנוכחיים לערכים הגבוהים ביותר התיאורטיים האפשריים.

למידת חיזוק עמוק לעומת למידה עמוקה

הבדל חשוב אחד בין למידה של חיזוק עמוק ללמידה עמוקה רגילה הוא שבמקרה של הראשונים התשומות משתנות כל הזמן, מה שלא קורה בלמידה עמוקה מסורתית. כיצד יכול מודל הלמידה להסביר תשומות ותפוקות המשתנות כל הזמן?

בעיקרו של דבר, כדי להסביר את הפער בין ערכים חזויים לערכי יעד, ניתן להשתמש בשתי רשתות עצביות במקום אחת. רשת אחת מעריכה את ערכי היעד, בעוד שהרשת השנייה אחראית על התחזיות. הפרמטרים של רשת היעד מתעדכנים ככל שהמודל לומד, לאחר שעברו מספר נבחר של איטרציות אימון. לאחר מכן מחברים את התפוקות של הרשתות המתאימות כדי לקבוע את ההבדל.

למידה מבוססת מדיניות

למידה מבוססת מדיניות גישות פועלות אחרת מגישות מבוססות Q-value. בעוד גישות Q-value יוצרות פונקציה ערכית המנבאת תגמולים עבור מדינות ופעולות, שיטות מבוססות מדיניות קובעות מדיניות שתמפה מדינות לפעולות. במילים אחרות, פונקציית המדיניות שבוחרת לפעולות עוברת אופטימיזציה ישירה ללא קשר לפונקציית הערך.

מעברי מדיניות

מדיניות למידת חיזוק עמוק מתחלקת לאחת משתי קטגוריות: סטוכסטית או דטרמיניסטית. מדיניות דטרמיניסטית היא מדיניות שבה מדינות ממפות לפעולות, כלומר כאשר ניתנת למדיניות מידע על מדינה פעולה מוחזרת. בינתיים, פוליסות סטוכסטיות מחזירות התפלגות הסתברות לפעולות במקום פעולה בודדת ודיסקרטית.

מדיניות דטרמיניסטית משמשת כאשר אין אי ודאות לגבי תוצאות הפעולות שניתן לנקוט. במילים אחרות, כאשר הסביבה עצמה דטרמיניסטית. לעומת זאת, תפוקות מדיניות סטוכסטיות מתאימות לסביבות שבהן תוצאות הפעולות אינן ודאיות. בדרך כלל, תרחישי למידת חיזוק כוללים מידה מסוימת של אי ודאות ולכן נעשה שימוש במדיניות סטוכסטית.

לגישות שיפוע מדיניות יש כמה יתרונות על פני גישות Q-learning, כמו גם כמה חסרונות. מבחינת יתרונות, שיטות מבוססות מדיניות מתכנסות לפרמטרים אופטימליים מהר יותר ואמינות יותר. ניתן לעקוב אחר שיפוע המדיניות עד לקביעת הפרמטרים הטובים ביותר, בעוד שבשיטות מבוססות ערכים שינויים קטנים בערכי הפעולה המשוערים יכולים להוביל לשינויים גדולים בפעולות ובפרמטרים הקשורים אליהן.

מעברי מדיניות עובדים טוב יותר גם עבור מרחבי פעולה בעלי ממדים גבוהים. כאשר יש מספר גבוה ביותר של פעולות אפשריות לבצע, למידה מעמיקה של Q הופכת לבלתי מעשית מכיוון שהיא חייבת להקצות ניקוד לכל פעולה אפשרית עבור כל שלבי הזמן, דבר שעלול להיות בלתי אפשרי מבחינה חישובית. עם זאת, בשיטות מבוססות מדיניות, הפרמטרים מותאמים לאורך זמן ומספר הפרמטרים הטובים ביותר האפשריים מתכווץ במהירות ככל שהמודל מתכנס.

מעברי מדיניות מסוגלים גם ליישם מדיניות סטוכסטית, בניגוד למדיניות מבוססת ערכים. מכיוון שמדיניות סטוכסטית מייצרת התפלגות הסתברות, אין צורך ליישם פשרה של חיפוש/ניצול.

מבחינת חסרונות, החיסרון העיקרי של גרדיאנטים של מדיניות הוא שהם יכולים להיתקע תוך כדי חיפוש אחר פרמטרים אופטימליים, תוך התמקדות רק במערך מצומצם ומקומי של ערכים אופטימליים במקום הערכים האופטימליים הגלובליים.

פונקציית ציון מדיניות

המדיניות המשמשת לאופטימיזציה של מטרת הביצועים של המודל כדי למקסם פונקציית ניקוד – J(θ). אם J(θ) הוא מדד עד כמה המדיניות שלנו טובה להשגת המטרה הרצויה, נוכל למצוא את הערכים של "θזה נותן לנו את המדיניות הטובה ביותר. ראשית, עלינו לחשב תגמול מדיניות צפוי. אנו מעריכים את תגמול המדיניות כך שיש לנו מטרה, משהו לבצע אופטימיזציה לקראתו. פונקציית ציון המדיניות היא האופן שבו אנו מחשבים את תגמול המדיניות הצפוי, וישנן פונקציות שונות של ציון מדיניות הנמצאות בשימוש נפוץ, כגון: ערכי התחלה עבור סביבות אפיזודיות, הערך הממוצע עבור סביבות רציפות והתגמול הממוצע לכל שלב זמן.

עליית שיפוע מדיניות

עליית שיפוע מטרתה להזיז את הפרמטרים עד שהם נמצאים במקום בו הציון הוא הגבוה ביותר. תמונה: תחום ציבורי (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

לאחר השימוש בפונקציית ציון המדיניות הרצויה, ומחושב תגמול מדיניות צפוי, נוכל למצוא ערך עבור הפרמטר "θ" אשר ממקסם את פונקציית הניקוד. על מנת למקסם את פונקציית הניקוד J(θ), טכניקה הנקראת "עליית שיפוע" משמש. עליית שיפוע דומה בקונספט לירידת שיפוע בלמידה עמוקה, אך אנו מבצעים אופטימיזציה לעלייה התלולה ביותר במקום לירידה. הסיבה לכך היא שהציון שלנו אינו "שגיאה", כמו בבעיות למידה עמוקה רבות. הציון שלנו הוא משהו שאנחנו רוצים למקסם. ביטוי שנקרא משפט שיפוע מדיניות משמש להערכת השיפוע ביחס למדיניות "θ".

סיכום למידת חיזוק עמוק

לסיכום, למידת חיזוק עמוק משלבת היבטים של למידת חיזוק ורשתות עצביות עמוקות. למידת חיזוק עמוק נעשית בשתי טכניקות שונות: למידה עמוקה של Q והדרגות מדיניות.

שיטות Deep Q-learning שואפות לחזות אילו תגמולים יבואו בעקבות פעולות מסוימות שננקטו במצב נתון, בעוד שגישות שיפוע מדיניות שואפות לייעל את מרחב הפעולה, ולחזות את הפעולות עצמן. גישות מבוססות מדיניות ללמידת חיזוק עמוק הן דטרמיניסטיות או סטוכסטיות בטבען. מדיניות דטרמיניסטית ממפה מצבים ישירות לפעולות בעוד שמדיניות סטוכסטית מייצרת התפלגות הסתברות לפעולות.