בינה מלאכותית

חוקרי AI יצרו מודל משחקי וידאו שיכול לזכור אירועים קודמים

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

צוות חוקרים במעבדת ה- AI של Uber פיתחו לאחרונה מערכת של אלגוריתמי AI שעלו על שחקנים אנושיים ומערכות AI אחרות במשחקי אטארי קלאסיים. המערכת ה- AI שפיתחו החוקרים מסוגלת לזכור אסטרטגיות מוצלחות קודמות, וליצור אסטרטגיות חדשות על בסיס מה שעבד בעבר. צוות המחקר של המחקר סבור שהאלגוריתמים שפיתחו הם בעלי יישומים פוטנציאליים בתחומים טכניים אחרים כגון עיבוד שפה ורובוטיקה.

השיטה הטיפוסית שבה משתמשים כדי ליצור מערכות AI המסוגלות לשחק משחקי וידאו היא להשתמש באלגוריתם למידת חיזוק. אלגוריתמי למידת חיזוק לומדים איך לבצע מטלה על ידי חקירת טווח של פעולות אפשריות, ואחרי כל פעולה, הם מקבלים סוג של חיזוק (פרס או עונש). עם הזמן, המודל ה- AI לומד אילו פעולות מובילות לפרסים גדולים יותר, והוא נעשה יותר מוכן לבצע פעולות אלו. לצער, מודלים של למידת חיזוק נתקלים בבעיות כאשר הם נתקלים בנקודות נתונים שאינן תואמות את הנתונים האחרים במאגר הנתונים.

לפי צוות המחקר, הסיבה שגישתם לא הועלתה בידי חוקרי AI אחרים היא שהאסטרטגיה שונה מהגישה של “מוטיבציה פנימית” הנפוצה בלמידת חיזוק. הבעיה עם גישת מוטיבציה פנימית היא שהמודל עלול להיות נוטה ל”שכוח” על אזורים מרתקים שעדיין ראויים לחקירה. תופעה זו מכונה “ניתוק”. כתוצאה מכך, כאשר המודל נתקל בנתונים בלתי צפויים, הוא עלול לשכוח על אזורים שעדיין צריכים להיחקר.

על פי TechXplore, צוות המחקר יצא ליצור מודל למידה שהיה יותר גמיש ומסוגל להגיב לנתונים בלתי צפויים. החוקרים עלו על הבעיה הזו על ידי הכנסת אלגוריתם המסוגל לזכור את כל הפעולות שבוצעו על ידי גרסה קודמת של המודל כאשר ניסה לפתור בעיה. כאשר המודל ה- AI נתקל בנקודת נתונים שאינה עקבית עם מה שלמד עד כה, המודל בודק את מפת הזיכרון שלו. המודל יזהה אילו אסטרטגיות הצליחו ונכשלו ויבחר אסטרטגיות בהתאם.

כאשר המודל משחק משחק וידאו, הוא אוסף צילומי מסך של המשחק כאשר הוא משחק, ויוצר רישום של פעולותיו. התמונות מקובצות יחד על בסיס דמיון, ויוצרות נקודות ברורות בזמן שהמודל יכול להתייחס אליהן. האלגוריתם יכול להשתמש בתמונות המועתקות כדי לחזור לנקודה מעניינת בזמן ולהמשיך לחקור משם. כאשר המודל מגלה שהוא מפסיד, הוא יתייחס לתמונות שצולמו וינסה אסטרטגיה אחרת.

כפי שהסביר ה- BBC, יש גם את הבעיה של טיפול בתרחישים מסוכנים עבור סוכן ה- AI שמשחק את המשחק. אם הסוכן נתקל במכשול שיכול להרוג אותו, זה ימנע ממנו לחזור לאזורים שראויים לחקירה נוספת, בעיה המכונה “התפטרות”. המודל ה- AI מטפל בבעיות התפטרות דרך תהליך נפרד מזה שמשמש לעידוד חקירת אזורים ישנים.

צוות המחקר היה למודל לשחק 55 משחקי אטארי. משחקים אלו נפוצים לבדיקת ביצועים של מודלים AI, אך החוקרים הוסיפו נסיגה למודל שלהם. החוקרים הכניסו כללים נוספים למשחקים, והורו למודל לא רק להשיג את הציון הגבוה ביותר האפשרי, אלא גם לנסות להשיג ציון גבוה יותר כל פעם. כאשר נותחו תוצאות הביצועים של המודל, החוקרים מצאו שמערכת ה- AI שלהם עלתה על מערכות AI אחרות במשחקים כ-85% מהזמן. ה- AI ביצע היטב במיוחד במשחק Montezuma’s Revenge, משחק פלטפורמה שבו השחקן מתחמק ממכשולים ואוסף אוצרות. המשחק שבר את השיא לשחקן אנושי וגם קיבל ציון גבוה יותר מכל מערכת AI אחרת.

לפי חוקרי ה- AI של Uber, האסטרטגיות שהם פיתחו הן בעלות יישומים פוטנציאליים בתעשיות כגון רובוטיקה. רובוטים נהנים מהיכולת לזכור אילו פעולות היו מוצלחות, אילו לא עבדו, ואילו לא נוסו עדיין.