בינה מלאכותית

DeepMind ו-Google Brain מטרתם ליצור שיטות לשיפור היעילות של למידת חיזוק

Published February 19, 2020

Updated April 28, 2026

Daniel Nelson

מערכות למידת חיזוק יכולות להיות חזקות ועמידות, מסוגלות לבצע משימות מורכבות ביותר דרך אלפי איטרציות של אימון. בעוד שאלגוריתמים של למידת חיזוק מסוגלים לאפשר התנהגות מתוחכמת ולעיתים מפתיעה, הם לוקחים זמן רב לאימון ודורשים כמויות עצומות של נתונים. גורמים אלו הופכים את טכניקות למידת החיזוק לפחות יעילות, ולאחרונה צוותי מחקר מ-DeepMind ו-Google Brain התאמצו למצוא שיטות יעילות יותר ליצירת מערכות למידת חיזוק.

כפי שדווח על ידי VentureBeat, קבוצת המחקר המשולבת הציעה לאחרונה שיטות להפיכת אימון למידת חיזוק ליעיל יותר. אחת השיפורים שהוצעו הייתה אלגוריתם בשם Adaptive Behavior Policy Sharing (ABPS), והשני היה מסגרת בשם Universal Value Function Approximators (UVFA). ABPS מאפשר לקבוצות של סוכנים AI לחלוק את החוויות שנבחרו באופן אדפטיבי, בעוד UVFA מאפשר לסוכנים AI לחקור במקביל מדיניות חקירה מונחית.

ABPS מיועד לזרז את ההתאמה של היפר-פרמטרים בעת אימון מודל. ABPS הופך את מציאת ההיפר-פרמטרים האופטימליים למהירה יותר על ידי אפשרות למספר סוכנים שונים עם היפר-פרמטרים שונים לחלוק את חוויות מדיניות ההתנהגות. במובן יותר מדויק, ABPS מאפשר לסוכנים של למידת חיזוק לבחור פעולות מתוך פעולות שמדיניות קבעה כמקובלות, ולאחר מכן הוא מקבל פרס ותצפית על פי המצב הבא.

סוכנים AI של למידת חיזוק מאומנים עם שילובים שונים של היפר-פרמטרים אפשריים, כגון שיעור דעיכה ושיעור למידה. בעת אימון מודל, המטרה היא שהמודל יתכנס על שילוב ההיפר-פרמטרים שנותן לו את הביצועים הטובים ביותר, ובמקרה זה גם משפר את יעילות הנתונים. היעילות מוגברת על ידי אימון מספר סוכנים בו-זמנית ובחירת ההתנהגות של סוכן אחד בלבד להטמעה בשלב הבא. המדיניות של הסוכן היעד משמשת לדגימת פעולות. המעברים רשומים בתוך מרחב משותף, ומרחב זה מוערך באופן קבוע כך שבחירת מדיניות אינה צריכה להתרחש כל כך לעיתים קרובות. בסוף האימון, נבחר אנסמבל של סוכנים, והסוכנים המבצעים הטובים ביותר נבחרים לעבור הטמעה סופית.

באשר ל-UVFA, הוא מנסה לטפל באחד הבעיות הנפוצות של למידת חיזוק, שסוכנים חלשים לעיתים קרובות אינם לומדים משימות. UVFA מנסה לפתור את הבעיה על ידי כך שהסוכן לומד מדיניות ניצול וחקירה נפרדות בו-זמנית. הפרדת המשימות יוצרת מסגרת שמאפשרת למדיניות החקירה להמשיך לחקור את הסביבה בעוד מדיניות הניצול מנסה למקסם את הפרס עבור המשימה הנוכחית. מדיניות החקירה של UVFA משמשת כארכיטקטורת בסיס שתמשיך לשפר אפילו אם אין פרסים טבעיים מתגלים. במצב כזה, פונקציה המתאימה לפרסים פנימיים מוערכת, שדוחפת את הסוכנים לחקור את כל המצבים בסביבה, אפילו אם הם חוזרים לעיתים קרובות למצבים מוכרים.

כפי ש-VentureBeat הסביר, כאשר מסגרת UVFA בתוקף, הפרסים הפנימיים של המערכת ניתנים ישירות לסוכן כקלט. הסוכן שומר על ייצוג של כל הקלטים (כגון פרסים, פעולה ומצב) במהלך פרק נתון. התוצאה היא שהפרס שמור במשך הזמן, ומדיניות הסוכן לפחות מעט מושפעת ממנו בכל עת.

זה מושג עם השימוש ב”חדשות אפיזודיות” ו”חדשות לכל החיים” מודול. תפקידו של המודול הראשון הוא להחזיק את הזיכרון האפיזודי הנוכחי ולמפות את הממצאים הנוכחיים לייצוג הישן, מה שמאפשר לסוכן לקבוע פרס אפיזודי פנימי עבור כל שלב של אימון. לאחר מכן, המצב הקשור עם התצפית הנוכחית מוסף לזיכרון. בינתיים, מודול החדשות לכל החיים אחראי להשפיע על כמה לעיתים קרובות הסוכן חוקר במהלך מספר רב של פרקים.

על פי צוותי Alphabet/Google, הטכניקות האימון החדשות הוכיחו כבר את הפוטנציאל לשיפור משמעותי באימון מערכת למידת חיזוק. UVFA הצליחה לשדרג את הביצועים של כמה מהסוכנים הבסיסיים ששיחקו משחקים שונים של Atari. בינתיים, ABPS הצליחה לשפר את הביצועים בחלק מאותם משחקי Atari, והפחיתה את השונות בין הסוכנים המבצעים הטובים ביותר בכ-25%. האלגוריתם UVFA הצליח להשיג ציון גבוה ב-Pitfall לבד, ללא תכונות מהונדסות של הדגמות אנושיות.