בינה מלאכותית

סוכנים מלאכותיים מדגימים תכונות אינטליגנציה מתעוררת במשחק מחבוא מווירטואלי

Published September 24, 2019

Updated April 5, 2026

Daniel Nelson

אחד העובדות המעניינות על מחקר AI הוא שהוא יכול לעיתים קרובות לבצע פעולות ולרדוף אחר אסטרטגיות שמפתיעות את החוקרים עצמם שמעצבים אותם. זה קרה במהלך משחק מחבוא וירטואלי האחרון, שבו סוכנים מלאכותיים רבים הוצבו זה מול זה. חוקרים ב-OpenAI, חברת AI המבוססת בסן פרנסיסקו, הופתעו לגלות שסוכנים המלאכותיים שלהם התחילו לנצל אסטרטגיות בעולם המשחק שהחוקרים לא ידעו שקיימות.

OpenAI אימנה קבוצה של סוכנים מלאכותיים לשחק משחק מחבוא זה מול זה. תוכנות ה-AI מאומנות עם למידת חיזוק, טכניקה שבה ההתנהגות הרצויה מופקת מאלגוריתמי ה-AI על ידי ספקת משוב. ה-AI מתחיל בביצוע פעולות אקראיות, וכל פעם שהוא בוצע פעולה שמביאה אותו קרוב יותר למטרתו, הסוכן מקבל פרס. ה-AI רוצה לקבל את הכמות המרבית של פרס אפשרית, כך שהוא ינסה לראות אילו פעולות יגרמו לו לקבל יותר פרס. דרך ניסוי וטעייה, ה-AI מסוגל להבחין באסטרטגיות שיביאו אותו לניצחון, אלו שיתנו לו את הפרס הרב ביותר.

למידת חיזוק הוכיחה כבר הצלחה מרשימה בלמידת כללי המשחק. OpenAI אימנה לאחרונה צוות של AI לשחק את המשחק DOTA 2, וה-AI ניצחה צוות של שחקנים אנושיים אלופים בשנה האחרונה. דבר דומה קרה עם המשחק StarCraft כאשר AI הוכשר על המשחק על ידי DeepMind. למידת חיזוק שימשה גם ללמד תוכנות AI לשחק Pictionary עם בני אדם, ללמוד לפרש תמונות ולהשתמש בהיגיון בסיסי.

במשחק המחבוא הווירטואלי שנוצר על ידי החוקרים, סוכנים מלאכותיים רבים הוצבו זה מול זה. התוצאה הייתה מרוץ חימוש, שבו כל סוכן רוצה להתגבר על האחר ולקבל את הכמות הרבה ביותר של נקודות פרס. אסטרטגיה חדשה שאומצה על ידי סוכן אחד תגרום ליריבו לחפש אסטרטגיה חדשה להתמודד, ולהפך. Igor Mordatch, חוקר ב-OpenAI, הסביר ל-IEEE Spectrum שהניסוי מדגים שתהליך זה של ניסוי וטעייה בין סוכנים “מספיק כדי שהסוכנים ילמדו התנהגויות מפתיעות בעצמם – זה כמו ילדים המשחקים זה עם זה.”

מה היו ההתנהגויות המפתיעות בדיוק? החוקרים היו בעלי ארבע אסטרטגיות בסיסיות שהם ציפו שהסוכנים המלאכותיים ילמדו, והם למדו אותם במהירות, והפכו למיומנים בהם לאחר 25 מיליון משחקים מדומים. המשחק התרחש בסביבה תלת-ממדית מלאה ברמפות, בלוקים וקירות. הסוכנים המלאכותיים למדו לרדוף זה אחר זה, להזיז בלוקים כדי לבנות מבצרים שהם יכולים להתחבא בהם, ולהזיז רמפות. הסוכנים המחפשים למדו לגרור רמפות סביב כדי להיכנס למבצרים של המסתתרים, בעוד המסתתרים למדו לנסות לגרור את הרמפות לתוך המבצרים שלהם כדי שהמחפשים לא יוכלו להשתמש בהן.

אולם, סביב הנקודה של 380 מיליון משחקים, קרה משהו בלתי צפוי. הסוכנים המלאכותיים למדו להשתמש בשתי אסטרטגיות שהחוקרים לא ציפו. הסוכנים המחפשים למדו שבקפיצה על קופסה וכיוון/רכיבה על הקופסה לעבר מבצר קרוב, הם יכולים לקפוץ לתוך המבצר ולמצוא את המסתתר. החוקרים לא הבינו שזה אפשרי בתוך פיזיקת סביבת המשחק. המסתתרים למדו לטפל בבעיה על ידי גרירת הקופסאות לתוך המבצרים שלהם.

בעוד שההתנהגות הבלתי צפויה של סוכנים המאומנים על אלגוריתמי למידת חיזוק היא חסרת מזיק במקרה זה, היא מעלה חששות פוטנציאליים לגבי האופן שבו למידת חיזוק מוחלת על מצבים אחרים. חבר בצוות המחקר של OpenAI, Bowen Baker, הסביר ל-IEEE Spectrum שהתנהגויות אלו הבלתי צפויות יכולות להיות מסוכנות. מה אם רובוטים התחילו להתנהג בדרכים בלתי צפויות?

“בניית סביבות אלו היא קשה,” הסביר Baker. “הסוכנים יחשיבו את ההתנהגויות האלו הבלתי צפויות, שיהיו בעיה של בטיחות בעתיד כאשר תציב אותם בסביבות מורכבות יותר.”

אולם, Baker הסביר גם שאסטרטגיות למידת חיזוק יכולות להוביל לפתרונות חדשניים לבעיות נוכחיות. מערכות המאומנות עם למידת חיזוק יכולות לפתור מגוון רחב של בעיות עם פתרונות שאולי לא נוכל אפילו לדמיין.