בינה מלאכותית

POKELLMON: סוכן זוגיות לקרבות פוקימון עם LLMs

יצא לאור

לפני 4 שבועות

אפריל 11, 2024

POKELLMON: סוכן זוגיות לקרבות פוקימון עם LLMs

מודלים גדולים של שפה ובינה מלאכותית גנרית הוכיחו הצלחה חסרת תקדים במגוון רחב של משימות עיבוד שפה טבעית. לאחר כיבוש תחום ה-NLP, האתגר הבא של חוקרי GenAI ו-LLM הוא לחקור כיצד מודלים של שפות גדולים יכולים לפעול באופן אוטונומי בעולם האמיתי עם פער דורות מורחב מטקסט לפעולה, ובכך לייצג פרדיגמה משמעותית במרדף אחר בינה כללית מלאכותית . משחקים מקוונים נחשבים לבסיס מבחן מתאים לפיתוח סוכנים מגולמים במודל שפה גדול המתקשרים עם הסביבה החזותית באופן שאדם יעשה.

לדוגמה, במשחק סימולציה מקוון פופולרי של Minecraft, ניתן להעסיק סוכני קבלת החלטות כדי לסייע לשחקנים לחקור את העולם יחד עם פיתוח מיומנויות להכנת כלים ופתרון משימות. דוגמה נוספת של סוכני LLM המקיימים אינטראקציה עם הסביבה החזותית ניתן לחוות במשחק מקוון אחר, The Sims שבו סוכנים הפגינו הצלחה יוצאת דופן באינטראקציות חברתיות ומפגינים התנהגות הדומה לבני אדם. עם זאת, בהשוואה למשחקים קיימים, משחקי קרב טקטיים עשויים להתגלות כבחירה טובה יותר לאמוד את היכולת של מודלים של שפות גדולות לשחק משחקים וירטואליים. הסיבה העיקרית לכך שמשחקים טקטיים מהווים אמת מידה טובה יותר היא מכיוון שניתן למדוד את שיעור הניצחונות ישירות, ויריבים עקביים, כולל שחקנים אנושיים ובינה מלאכותית, זמינים תמיד.

בהתבסס על אותו הדבר, POKELLMON, שואף להיות הסוכן המגולם הראשון בעולם שמשיג ביצועים ברמה אנושית במשחקים טקטיים, בדומה לזה שניתן לראות בקרבות פוקימון. בבסיסה, מסגרת POKELLMON משלבת שלוש אסטרטגיות עיקריות.

למידה של חיזוק בתוך הקשר שצורכת משוב מבוסס טקסט הנגזר מקרבות באופן מיידי כדי לחדד את המדיניות באופן איטרטיבי.
דור מוגבר ידע השואב ידע חיצוני כדי להתמודד עם הזיות, ומאפשר לסוכן לפעול כראוי ומתי שצריך.
יצירת פעולה עקבית כדי למזער את מצב החלפת הפאניקה כאשר הסוכן נתקל בשחקן חזק, ורוצה להימנע מלהתמודד מולו.

מאמר זה נועד לכסות את המסגרת של POKELLMON לעומק, ואנו חוקרים את המנגנון, המתודולוגיה, הארכיטקטורה של המסגרת יחד עם ההשוואה שלה למסגרות מתקדמות. נדבר גם על האופן שבו מסגרת POKELLMON מדגימה אסטרטגיות קרב יוצאות דופן דמויות אדם, ויכולות קבלת החלטות בזמן, ומשיגה שיעור ניצחונות מכובד של כמעט 50%. אז בואו נתחיל.

POKELLMON: סוכן זוגיות אנושי עם LLM לקרבות פוקימון

הגידול ביכולות וביעילות של מודלים של שפה גדולה ומסגרות AI גנרטיביות בשנים האחרונות לא היה אלא נפלא, במיוחד במשימות NLP. לאחרונה, מפתחים וחוקרי בינה מלאכותית עובדים על דרכים להפוך בינה מלאכותית ו-LLM לבולטות יותר בתרחישים בעולם האמיתי עם היכולת לפעול באופן אוטונומי בעולם הפיזי. כדי להשיג ביצועים אוטונומיים אלה במצבים פיזיים ובעולם האמיתי, חוקרים ומפתחים רואים במשחקים נקודת בדיקה מתאימה לפיתוח סוכנים מגולמי LLM עם יכולת לקיים אינטראקציה עם הסביבה הוירטואלית באופן הדומה להתנהגות אנושית.

בעבר, מפתחים ניסו לפתח סוכנים מגולמי LLM במשחקי סימולציה וירטואליים כמו Minecraft ו-Sims, אם כי מאמינים שמשחקים טקטיים כמו פוקימון עשויים להיות בחירה טובה יותר לפיתוח סוכנים אלה. קרבות פוקימון מאפשרים למפתחים להעריך את יכולתו של מאמן להילחם במשחקי פוקימון ידועים, ומציעים מספר יתרונות על פני משחקים טקטיים אחרים. מכיוון שמרחבי הפעולה והמצב הם בדידים, ניתן לתרגם אותו לטקסט ללא כל הפסד. האיור הבא ממחיש קרב פוקימון טיפוסי שבו השחקן מתבקש ליצור פעולה לביצוע בכל תור בהינתן המצב הנוכחי של הפוקימון מכל צד. למשתמשים יש אפשרות לבחור מבין חמישה פוקימונים שונים וישנם בסך הכל ארבעה מהלכים במרחב הפעולה. יתר על כן, המשחק מסייע בהקלה על הלחץ על זמן ההסקה ועלויות ההסקה עבור LLMs שכן הפורמט מבוסס-תורות מבטל את הדרישה למשחק אינטנסיבי. כתוצאה מכך, הביצועים תלויים בעיקר ביכולת החשיבה של מודל שפה גדול. לבסוף, למרות שמשחקי הקרב של פוקימון נראים פשוטים, הדברים קצת יותר מורכבים במציאות ואסטרטגיים מאוד. שחקן מנוסה אינו בוחר באקראי פוקימון לקרב, אלא לוקח בחשבון גורמים שונים כולל סוג, נתונים סטטיסטיים, יכולות, מינים, פריטים, מהלכים של הפוקימונים, גם בשדה הקרב וגם מחוצה לו. יתר על כן, בקרב אקראי, הפוקימונים נבחרים באופן אקראי מתוך מאגר של למעלה מאלף דמויות, שלכל אחד יש סט משלו של דמויות נפרדות עם יכולת חשיבה וידע בפוקימונים.

פוקלמון: מתודולוגיה וארכיטקטורה

המסגרת והארכיטקטורה הכוללת של מסגרת POKELLMON מומחשת בתמונה הבאה.

במהלך כל תור, המסגרת של POKELLMON משתמשת בפעולות קודמות, ובמשוב המבוסס על טקסט המתאים לה כדי לחדד את המדיניות באופן איטרטיבי יחד עם הגדלה של מידע המצב הנוכחי עם ידע חיצוני כמו השפעות יכולות/תנועה או יחסי יתרון/חולשה. עבור מידע שניתן כקלט, המסגרת של POKELLMON מייצרת מספר פעולות באופן עצמאי, ולאחר מכן בוחרת את העקביות ביותר כפלט הסופי.

למידה של חיזוק בהקשר

שחקנים וספורטאים אנושיים מקבלים לעתים קרובות החלטות לא רק על בסיס המצב הנוכחי, אלא הם גם משקפים את המשוב מפעולות קודמות, כמו גם את החוויות של שחקנים אחרים. זה יהיה בטוח לומר שמשוב חיובי הוא מה שעוזר לשחקן ללמוד מהטעויות שלו, ומונע ממנו לעשות את אותה טעות שוב ושוב. ללא משוב מתאים, סוכני POKELLMON עשויים להיצמד לאותה פעולת שגיאה, כפי שמוצג באיור הבא.

כפי שניתן לראות, הסוכן במשחק משתמש במהלך על בסיס מים נגד דמות פוקימון בעלת יכולת "עור יבש", מה שמאפשר לה לבטל את הנזק מפני התקפות על בסיס מים. המשחק מנסה להזהיר את המשתמש על ידי הבהוב ההודעה "חסינות" על המסך שעלולה לעורר שחקן אנושי לשקול מחדש את פעולותיו, ולשנות אותן, אפילו מבלי לדעת על "עור יבש". עם זאת, הוא אינו כלול בתיאור המדינה עבור הסוכן, וכתוצאה מכך הסוכן עושה שוב את אותה טעות.

כדי להבטיח שסוכן POKELLMON ילמד מהטעויות הקודמות שלו, המסגרת מיישמת את גישת ה-In-Context Reinforcement Learning. למידת חיזוק היא גישה פופולרית בלמידת מכונה, והיא עוזרת למפתחים עם מדיניות החידוד מכיוון שהיא דורשת תגמולים מספריים כדי להעריך פעולות. מאז מודלים גדולים לשפה בעלי יכולת לפרש ולהבין שפה, תיאורים מבוססי טקסט הופיעו כצורה חדשה של תגמול עבור ה-LLMs. על ידי הכללת משוב מבוסס טקסט מהפעולות הקודמות, הסוכן של POKELLMON מסוגל לחדד באופן איטרטיבי ומידי את המדיניות שלו, כלומר למידה של חיזוק בהקשר. מסגרת POKELLMON מפתחת ארבעה סוגים של משוב,

הנזק הממשי שנגרם כתוצאה מהתקפה נע על בסיס ההבדל ב-HP על פני שני סיבובים רצופים.
האפקטיביות של מהלכי התקפה. המשוב מצביע על יעילות ההתקפה במונחים של חוסר השפעה או חסינות, לא יעיל או סופר אפקטיבי בגלל השפעות יכולת/תנועה, או יתרון סוג.
סדר העדיפות לביצוע מהלך. מכיוון שהסטטיסטיקה המדויקת של דמות הפוקימון הנגדית אינה זמינה, משוב סדר העדיפות מספק אומדן גס של המהירות.
ההשפעה בפועל של המהלכים שבוצעו על היריב. גם מהלכי ההתקפה וגם הסטטוס עלולים לגרום לתוצאות כמו שחזור HP, חיזוק סטטיסטיקה או ביטול, לגרום לתנאים כמו הקפאה, כוויות או רעל.

יתר על כן, השימוש בגישת In-Context Reinforcement Learning מביא לשיפור משמעותי בביצועים כפי שמוצג באיור הבא.

כאשר מעמידים אותו מול הביצועים המקוריים ב-GPT-4, שיעור הניצחון עולה בכמעט 10% יחד עם חיזוק של כמעט 13% בניקוד הקרב. יתר על כן, כפי שמודגם באיור הבא, הסוכן מתחיל לנתח ולשנות את פעולתו אם המהלכים שבוצעו במהלכים הקודמים לא הצליחו להתאים לציפיות.

Knowledge-Augmented Generation או KAG

למרות שהטמעת למידת חיזוק תוך-הקשר מסייעת במידה מסוימת בהזיות, היא עדיין יכולה לגרום לתוצאות קטלניות לפני שהסוכן יקבל את המשוב. לדוגמה, אם הסוכן יחליט להילחם נגד פוקימון מסוג אש עם פוקימון מסוג דשא, סביר להניח שהראשון ינצח בסיבוב בודד. כדי לצמצם עוד יותר הזיות, ולשפר את יכולת קבלת ההחלטות של הסוכן, מסגרת POKELLMON מיישמת את ה- Knowledge-Augmented Generation או את גישת KAG, טכניקה שמשתמשת בידע חיצוני כדי להגדיל את הדור.

כעת, כאשר המודל מייצר את 4 סוגי המשוב שנדונו לעיל, הוא מציין את מהלכי הפוקימונים והמידע המאפשר לסוכן להסיק את יחסי יתרון הסוג בעצמו. בניסיון לצמצם עוד יותר את ההזיה הכלולה בהנמקה, מסגרת POKELLMON מפרטת במפורש את יתרון הטיפוס והחולשה של הפוקימונים היריב, והפוקימון של הסוכן עם תיאורים נאותים. יתר על כן, זה מאתגר לשנן את המהלכים והיכולות עם אפקטים מובהקים של פוקימונים במיוחד מכיוון שיש הרבה מהם. הטבלה הבאה מדגימה את התוצאות של יצירת ידע מוגבר. ראוי לציין כי על ידי יישום גישת Knowledge Augmented Generation, המסגרת של POKELLMON מסוגלת להגדיל את שיעור הזכייה בכ-20% מ-36% הקיים ל-55%.

יתר על כן, מפתחים הבחינו שכאשר הסוכן קיבל ידע חיצוני על פוקימונים, הוא התחיל להשתמש במהלכים מיוחדים בזמן הנכון, כפי שמודגם בתמונה הבאה.

דור פעולה עקבי

מודלים קיימים מוכיחים כי יישום גישות הנחיה והיגיון יכול לשפר את יכולת ה-LLM בפתרון משימות מורכבות. במקום ליצור פעולה של ירי אחד, המסגרת של POKELLMON מעריכה אסטרטגיות הנחיה קיימות, כולל CoT או שרשרת מחשבה, ToT או Tree of Thought, ועקביות עצמית. עבור שרשרת המחשבה, הסוכן יוצר בתחילה מחשבה המנתחת את תרחיש הקרב הנוכחי, ומוציא פעולה המותנית במחשבה. עבור עקביות עצמית, הסוכן יוצר פי שלושה מהפעולות, ובוחר את הפלט שקיבל את מספר ההצבעות המרבי. לבסוף, עבור גישת עץ המחשבה, המסגרת מייצרת שלוש פעולות בדיוק כמו בגישת העקביות העצמית, אך בוחרת את זו שהיא מחשיבה לטובה לאחר הערכתן כולן בעצמה. הטבלה הבאה מסכמת את הביצועים של הגישות המעודדות.

יש רק פעולה בודדת לכל תור, מה שמרמז שגם אם הסוכן יחליט להחליף, והיריב יחליט לתקוף, הפוקימון המתחבר יגרום לנזק. בדרך כלל הסוכן מחליט להחליף כי הוא רוצה להחליף פוקימון מחוץ לקרב, ובכך הפוקימון המעבר יכול לסבול את הנזק, מכיוון שהוא היה עמיד בפני סוגים למהלכים של הפוקימון היריב. עם זאת, כמו לעיל, עבור הסוכן עם היגיון CoT, גם אם הפוקימון היריב העוצמתי מכריח סיבובים שונים, הוא פועל בצורה לא עקבית עם המשימה, כי אולי הוא לא רוצה לעבור לפוקימון אלא לכמה פוקימונים ובחזרה, שאנו מכנים אותם. החלפת פאניקה. החלפת פאניקה מבטלת את הסיכויים לבצע מהלכים, ובכך תבוסות.

פוקלמון: תוצאות וניסויים

לפני שנדון בתוצאות, חשוב לנו להבין את סביבת הקרב. בתחילת תור, הסביבה מקבלת הודעת בקשת פעולה מהשרת ותגיב להודעה זו בסוף, המכילה גם את תוצאת הביצוע מהתור האחרון.

תחילה מנתח את ההודעה ומעדכן את משתני המצב המקומי, 2. לאחר מכן מתרגם את משתני המצב לטקסט. תיאור הטקסט כולל בעיקר ארבעה חלקים: 1. מידע צוות משלו, המכיל את התכונות של פוקימון בשטח ומחוץ למגרש (ללא שימוש).
מידע על צוות היריב, המכיל את התכונות של פוקימון היריב בשטח ומחוץ למגרש (חלק מהמידע אינו ידוע).
מידע על שדה הקרב, הכולל את מזג האוויר, סכנות כניסה ושטח.
מידע היסטורי של יומן תור, המכיל פעולות קודמות של הפוקימונים ומאוחסן בתור יומן. LLMs לוקחים את המצב המתורגם כפעולות קלט ופלט לשלב הבא. לאחר מכן, הפעולה נשלחת לשרת ומבוצעת במקביל לפעולה שנעשתה על ידי האדם.

קרב נגד שחקנים אנושיים

הטבלה הבאה ממחישה את הביצועים של סוכן POKELLMON נגד שחקנים אנושיים.

כפי שניתן לראות, סוכן POKELLMON מספק ביצועים דומים לשחקני סולם בעלי שיעור ניצחון גבוה יותר בהשוואה לשחקן מוזמן יחד עם ניסיון רב בקרב.

ניתוח כישורי קרב

המסגרת של POKELLMON לעיתים רחוקות טועה בבחירת המהלך האפקטיבי, ועוברת לפוקימון מתאים אחר בגלל אסטרטגיית ה- Knowledge Augmented Generation.

כפי שמוצג בדוגמה שלמעלה, הסוכן משתמש רק בפוקימון אחד כדי להביס את כל צוות היריב מכיוון שהוא מסוגל לבחור מהלכי התקפה שונים, אלו שהכי יעילים עבור היריב באותו מצב. יתר על כן, מסגרת POKELLMON מציגה גם אסטרטגיית שחיקה דמוית אדם. לחלק מהפוקימון יש מהלך "רעיל" שיכול לגרום נזק נוסף בכל תור, בעוד שהמהלך "התאושש" מאפשר לו לשחזר את ה-HP שלו. מנצל את אותו הדבר, הסוכן מרעיל תחילה את הפוקימון היריב, ומשתמש במהלך השחזור כדי למנוע מעצמו להתעלף.

מחשבות סופיות

במאמר זה דיברנו על POKELLMON, גישה המאפשרת למודלים של שפות גדולות לשחק קרבות פוקימונים נגד בני אדם באופן אוטונומי. POKELLMON, שואף להיות הסוכן המגולם הראשון בעולם שמשיג ביצועים ברמה אנושית במשחקים טקטיים, בדומה לזה שנראה בקרבות פוקימונים. מסגרת POKELLMON מציגה שלוש אסטרטגיות מפתח: למידת חיזוק תוך-הקשר אשר צורכת את המשוב המבוסס על טקסט כ"פרס" כדי לחדד באופן איטרטיבי את מדיניות יצירת הפעולה ללא הכשרה, דור מוגבר של ידע המאחזר ידע חיצוני כדי להילחם בהזיה ומבטיח את פעולת הסוכן בזמן ותקין, ו-Consistent Action Generation שמונע את בעיית החלפת הפאניקה בעת מפגש עם יריבים רבי עוצמה.

מהפכה בבינה מלאכותית עם ReALM של אפל: העתיד של עוזרים אינטליגנטים

לא לפספס

Meta חושפת שבב אימון AI מהדור הבא, המבטיח ביצועים מהירים יותר

קונל קג'ריוואל

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.