בינה מלאכותית

DeepMind יוצר בינה מלאכותית המשחזרת זיכרונות כמו ההיפוקמפוס

מְעוּדכָּן on דצמבר 9, 2022

המוח האנושי נזכר לעתים קרובות בזיכרונות העבר (לכאורה) ללא הנחיה. במהלך היום שלנו, יש לנו הבזקי זיכרון ספונטניים מחיינו. בעוד העלאת הזיכרונות הספונטנית הזו כבר מזמן מעניינת מדעני מוח, חברת המחקר בינה מלאכותית DeepMind לאחרונה פרסם מאמר מפרט כיצד AI שלהם שיחזר את דפוס ההיזכרות המוזר הזה.

העלאת הזיכרונות במוח, שידור חוזר עצבי, קשורה קשר הדוק עם ההיפוקמפוס. ההיפוקמפוס הוא תצורה בצורת סוס ים במוח, השייכת למערכת הלימבית, והיא קשורה להיווצרות של זיכרונות חדשים, כמו גם לרגשות שמעוררים זיכרונות. תיאוריות עדכניות על תפקיד ההיפוקמפי (יש אחד בכל חצי כדור של המוח), קובעות שאזורים שונים בהיפוקמפוס אחראים לטיפול בסוגים שונים של זיכרונות. לדוגמה, מאמינים שזיכרון מרחבי מטופל באזור האחורי של ההיפוקמפוס.

כפי שדווח על ידי ישו רודריגז, ד"ר ג'ון אוקיף אחראי לתרומות רבות להבנתנו את ההיפוקמפוס, כולל ההיפוקמפוס "מקום" תאים. תאי המקום בהיפוקמפוס מופעלים על ידי גירויים בסביבה ספציפית. כדוגמה, ניסויים על חולדות הראו כי נוירונים ספציפיים יורים כאשר החולדות רצו דרך חלקים מסוימים של מסלול. החוקרים המשיכו לעקוב אחר החולדות גם כשהן נחות, וגילו שאותן דפוסי נוירונים שמציינים חלק מהמבוך יירו, למרות שהם ירו במהירות מואצת. נראה היה שהעכברושים משחזרים את זיכרונות המבוך במוחותיהם.

בבני אדם, זכירת זיכרונות היא חלק חשוב מתהליך הלמידה, אך כאשר מנסים לאפשר ל-AI ללמוד, קשה לשחזר את התופעה.

צוות DeepMind החל לנסות לשחזר את תופעת ההיזכרות באמצעות למידת חיזוק. אלגוריתמי למידה מחזקים פועלים על ידי קבלת משוב מהאינטראקציות שלהם עם הסביבה הסובבת אותם, מקבלים תגמול בכל פעם שהם נוקטים בפעולות שמקרבות אותם אל המטרה הרצויה. בהקשר זה, סוכן למידת החיזוק מתעד אירועים ואז משמיע אותם במועדים מאוחרים יותר, כאשר המערכת מתחזקת כדי לשפר את היעילות שבה היא בסופו של דבר נזכרת בחוויות העבר.

DeepMind הוסיפה את ההשמעה החוזרת של חוויות לאלגוריתם למידת חיזוק באמצעות חיץ חוזר שיפעיל זיכרונות/חוויות מוקלטות למערכת בזמנים ספציפיים. בחלק מהגרסאות של המערכת הושמעו את החוויות בסדרים אקראיים בעוד שלדגמים אחרים היו סדרי השמעה שנבחרו מראש. בעוד החוקרים התנסו בסדר ההשמעה עבור סוכני החיזוק, הם גם התנסו בשיטות שונות להשמעה חוזרת של החוויות עצמן.

ישנן שתי שיטות עיקריות המשמשות לספק אלגוריתמי חיזוק עם חוויות שנזכרו. שיטות אלו הן שיטת הדמיון החוזר ושיטת הסרט החוזר. מאמר DeepMind משתמש באנלוגיה כדי לתאר את שתי האסטרטגיות:

"נניח שאתה חוזר הביתה, ולהפתעתך ולחרדתך, מגלה מים מתאגרפים על רצפות העץ היפות שלך. נכנסים לחדר האוכל, מוצאים אגרטל שבור. ואז אתה שומע יבבה, ואתה מציץ דרך דלת המרפסת כדי לראות את הכלב שלך נראה אשם מאוד."

כפי שדווח על ידי רודריגז, שיטת השידור החוזר של הדמיון אינה מתעדת את האירועים בסדר שהם חוו. במקום זאת, יש להסיק סיבה סבירה בין האירועים. מסקנות האירועים מבוססות על הבנת העולם של הסוכן. בינתיים, שיטת השידור החוזר של הסרט אוגרת זיכרונות בסדר שבו התרחשו האירועים, ומשחזרת את רצף הגירויים - "מים שנשפכו, אגרטל שבור, כלב". הסדר הכרונולוגי של האירועים נשמר.

מחקר מתחום מדעי המוח מרמז ששיטת השידור החוזר של הסרט היא חלק בלתי נפרד מיצירת אסוציאציות בין מושגים וחיבור של נוירונים בין אירועים. עם זאת, שיטת השידור החוזר של הדמיון יכולה לעזור לסוכן ליצור רצפים חדשים כאשר הוא מנמק באנלוגיה. לדוגמה, הסוכן יכול לנמק שאם חבית היא לשמן כמו אגרטל להשקות, חבית עלולה להישפך על ידי רובוט במפעל במקום על ידי כלב. ואכן, כאשר DeepMind בדק יותר את האפשרויות של שיטת הדמיון החוזר, הם גילו שסוכן הלמידה שלהם הצליח ליצור רצפים מרשימים וחדשניים על ידי התחשבות בחוויות קודמות.

רוב ההתקדמות הנוכחית הנעשית בתחום של חיזוק זיכרון למידה מתבצעת באמצעות אסטרטגיית הסרטים, למרות שחוקרים החלו לאחרונה להתקדם עם אסטרטגיית הדמיון. מחקר בשתי השיטות של זיכרון בינה מלאכותית יכול לא רק לאפשר ביצועים טובים יותר מסוכני למידת חיזוק, אלא הם גם יכולים לעזור לנו להשיג תובנה חדשה לגבי האופן שבו המוח האנושי עשוי לתפקד.