Connect with us

DeepMind Reports New Method Of Training Reinforcement Learning AI Safely

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

DeepMind Reports New Method Of Training Reinforcement Learning AI Safely

mm

למידת חיזוק היא נתיב מבטיח של פיתוח AI, המייצר AI שיכול לטפל במשימות מורכבות ביותר. אלגוריתמים של למידת חיזוק משמשים ביצירת מערכות רובוטיקה ניידות ומכוניות אוטונומיות, בין היתר. עם זאת, בשל הדרך שבה למידת חיזוק מאומנת, הם יכולים להציג לעיתים התנהגויות מוזרות ובלתי צפויות. התנהגויות אלו יכולות להיות מסוכנות, וחוקרי AI מתייחסים לבעיה הזו כ”בעיית חקירה בטוחה”, שבה ה-AI נתקע בחקירת מצבים לא בטוחים.

לאחרונה, מעבדת המחקר של Google, DeepMind, פרסמה מאמר שהציע שיטות חדשות לטיפול בבעיית החקירה הבטוחה ואימון AI של למידת חיזוק באופן בטוח יותר. השיטה שהוצעה על ידי DeepMind גם מתקנת את בעיית “האקינג” של פרס או פרצות בקריטריונים של פרס.

שיטת האימון החדשה של DeepMind משתמשת בשני מערכות שונות המיועדות להדריך את התנהגות ה-AI במצבים שבהם עלולה להתרחש התנהגות לא בטוחה. שתי המערכות המשמשות בטכניקת האימון של DeepMind הן מודל יוצר ומודל דינמיקה קדימה. שני המודלים האלה מאומנים על מגוון נתונים, כגון הדגמות של מומחי בטיחות ומסלולי רכב לגמרי אקראיים. הנתונים ממותגים על ידי מפקח עם ערכי פרס מסוימים, והסוכן AI ילמד על דפוסים של התנהגות שיאפשרו לו לאסוף את הפרס הגדול ביותר. מצבים לא בטוחים גם כן ממותגים, וכאשר המודל הצליח לחזות פרסים ומצבים לא בטוחים, הוא מופעל לבצע פעולות ממוקדות.

צוות המחקר מסביר במאמר כי הרעיון הוא ליצור התנהגויות אפשריות מאפס, להציע התנהגויות רצויות, ולהבטיח שהתרחישים ההיפותטיים יהיו מידעניים ככל האפשר, תוך הימנעות מהפרעה ישירה לסביבת הלמידה. צוות DeepMind מתייחס לגישה הזו כ-ReQueST, או סינתוז של פרסים דרך אופטימיזציה של מסלול.

ReQueST מסוגל להוביל לארבע סוגים שונים של התנהגות. התנהגות הראשונה מנסה למקסם את האי-ודאות לגבי מודלי פרס אנסמבל. בינתיים, התנהגויות 2 ו-3 מנסות למזער ולמקסם פרסים מוערכים. פרסים מוערכים ממוזערים על מנת להוביל לגילוי התנהגויות שהמודל עלול לחזות בצורה לא נכונה. מצד שני, פרס מוערך ממוקסם על מנת להוביל לתוויות התנהגות בעלות ערך מידע גבוה. לבסוף, התנהגות הרביעית מנסה למקסם את החדשות של מסלולים, על מנת שהמודל ימשיך לחקור ללא קשר לפרסים המוערכים.

כאשר המודל הגיע לרמת איסוף הפרס הרצויה, סוכן תכנון משמש לקבל החלטות על בסיס הפרסים המלומדים. התוכנית הזו מאפשרת לסוכנים ללמוד להימנע ממצבים לא בטוחים על ידי שימוש במודל הדינמי וחיזוי התוצאות האפשריות, בניגוד להתנהגותן של אלגוריתמים שלומדים דרך ניסוי וטעייה בלבד.

כפי שדווח על ידי VentureBeat, חוקרי DeepMind מאמינים כי פרויקטם הוא הראשון שמערכת למידת חיזוק שיכולה ללמוד באופן בטוח ומבוקר:

“לדעתנו, ReQueST היא האלגוריתם הראשון למודל פרס שלומד באופן בטוח על מצבים לא בטוחים ומסוגל להתאמן על מודלי פרס של רשתות נוירונים בסביבות עם מצבים רציפים וממדים גבוהים. עד כה, הוכחנו את יעילותה של ReQueST רק בתחומים מדומים עם דינמיקה פשוטה יחסית. כיוון אחד לעבודה עתידית הוא לבדוק ReQueST בתחומים 3D עם פיזיקה מציאותית יותר וסוכנים אחרים הפועלים בסביבה.”

ื‘ืœื•ื’ืจ ื•ืžืชื›ื ืช ืขื ื”ืชืžื—ื•ื™ื•ืช ื‘ื ื•ืฉืื™ื Machine Learning ื• Deep Learning. ื“ื ื™ืืœ ืžืงื•ื•ื” ืœืขื–ื•ืจ ืœืื—ืจื™ื ืœื”ืฉืชืžืฉ ื‘ื›ื•ื— ืฉืœ AI ืœื˜ื•ื‘ืช ื”ื—ื‘ืจื”.