בינה מלאכותית

xLSTM: מדריך מקיף לזיכרון ארוך טווח מורחב

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

במשך יותר מעשרים שנה, ארכיטקטורת Sepp Hochreiter’s Long Short-Term Memory (LSTM) הייתה אבן יסוד בפריצות דרך רבות בלמידת מכונה עמוקה וביישומים מעשיים. מיצירת שפה טבעית ועד הנעה של מערכות זיהוי דיבור, LSTMs היו כוח מניע מאחורי המהפכה של AI.

עם זאת, אפילו היוצר של LSTMs הכיר במגבלותיהן המובנות שמנעו מהן לממש את מלוא הפוטנציאל שלהן. חולשות כמו אי יכולת לשנות מידע שמאוחסן, קיבולת זיכרון מוגבלת וחוסר יכולת למקביליות פתחו את הדרך לעלייתן של מודלים אחרים, כגון טרנספורמר, שעקפו את LSTMs במשימות שפה מורכבות יותר.

אולם, בפיתוח חדש, Hochreiter וצוותו ב NXAI הציגו וריאנט חדש הנקרא extended LSTM (xLSTM) שפותר את הבעיות הללו. הוצג במאמר מחקר, xLSTM בנוי על רעיונות היסוד שהפכו את LSTMs לכל כך חזקים, תוך כדי עמידה בחולשות המפתח שלהם דרך חדשנות ארכיטקטונית.

בלב xLSTM שני רכיבים חדשים: שעריות מעריכיות ומבנים זיכרון משופרים. שעריות מעריכיות מאפשרות שליטה גמישה יותר על זרימת המידע, מאפשרות ל-xLSTMs לשנות החלטות בצורה יעילה כאשר מופיע הקשר חדש. בינתיים, הכנסת זיכרון מטריצה מגדילה את קיבולת האחסון בהשוואה ל-LSTMs סקלריים מסורתיים.

אך השיפורים לא עוצרים שם. על ידי ניצול טכניקות שהושאלו ממודלים גדולים של שפה כגון מקביליות וערימת בלוקים שורשיים, xLSTMs יכולים להתרחב בצורה יעילה למיליארדי פרמטרים. זה מנעיל את הפוטנציאל שלהם למודלים של רצפים ארוכים מאוד וחלונות הקשר – יכולת ביקורתית להבנת שפה מורכבת.

המשמעויות של יצירתו האחרונה של Hochreiter הן מונומנטליות. תארו לעצמכם עוזרים וירטואליים שיכולים לעקוב באמינות אחר הקשר לאורך שיחות ארוכות. או מודלים של שפה שמכללים יותר באופן עמיד לתחומים חדשים אחרי אימון על נתונים רחבים. היישומים משתרעים בכל מקום ש-LSTMs עשו השפעה – צ’אטבוטים, תרגום, ממשקי דיבור, ניתוח תוכניות ועוד – אך עכשיו עם יכולות xLSTM המהפכניות.

במדריך הטכני העמוק הזה, נצלול לפרטים הארכיטקטוניים של xLSTM, במחיקה של רכיבים חדשים כגון LSTMs סקלריים ומטריציים, מנגנוני שעריות מעריכיות, מבנים זיכרון ועוד. תקבלו תובנות מתוצאות ניסויים המציגות את הישגי xLSTM המרשימים על פני ארכיטקטורות מובילות כגון טרנספורמרים ומודלים רקורנטיים אחרונים.

הבנת המקור: המגבלות של LSTM

לפני שנצלול לעולם של xLSTM, חשוב להבין את המגבלות שארכיטקטורות LSTM מסורתיות התמודדו איתן. מגבלות אלו היו הכוח המניע מאחורי הפיתוח של xLSTM וגישות אלטרנטיביות אחרות.

אי יכולת לשנות החלטות אחסון: אחת המגבלות העיקריות של LSTM היא הקושי שלה לשנות ערכים מאוחסנים כאשר וקטור דומה יותר מופיע. זה יכול להוביל לביצועים תת-אופטימליים במשימות הדורשות עדכונים דינאמיים של מידע מאוחסן.
קיבולת אחסון מוגבלת: LSTMs מדחיסות מידע למצב תא סקלרי, מה שיכול להגביל את יכולתן לאחסן ולשחזר דפוסים מורכבים של נתונים, במיוחד כאשר מטפלים בטוקנים נדירים או תלות ארוכת טווח.
חוסר מקביליות: מנגנון ערבוב הזיכרון ב-LSTMs, הכולל קשרים חבויים-חבויים בין צעדי זמן, אוכף עיבוד רציף, מונע את מקביליות החישובים ומגביל את היכולת להתרחב.

מגבלות אלו פתחו את הדרך לעלייתן של טרנספורמרים וארכיטקטורות אחרות שעקפו את LSTMs במרכיבים מסוימים, במיוחד כאשר מסתכלים על מודלים גדולים יותר.

הארכיטקטורה של xLSTM

Extended LSTM (xLSTM) family

בלב xLSTM שוכנות שתי מודיפיקציות עיקריות למסגרת LSTM המסורתית: שעריות מעריכיות ומבנים זיכרון חדשים. שיפורים אלו מציגים שני וריאנטים חדשים של LSTM, הידועים כ-sLSTM (LSTM סקלרי) ו-mLSTM (LSTM מטריצי).

sLSTM: ה-LSTM הסקלרי עם שעריות מעריכיות וערבוב זיכרון
- שעריות מעריכיות: sLSTM משלבת פונקציות מעריכיות לשערי הכניסה והשכחה, מאפשרות שליטה גמישה יותר על זרימת המידע.
- נורמליזציה ויציבות: כדי למנוע אי-יציבויות מספריות, sLSTM מציגה מצב מנורמל שעוקב אחרי מוצר השערי הכניסה ושערי השכחה עתידיים.
- ערבוב זיכרון: sLSTM תומכת בתאי זיכרון מרובים ומאפשרת ערבוב זיכרון דרך קשרים רקורנטיים, מאפשרת את הפיכת דפוסים מורכבים ומעקב מצב.
mLSTM: ה-LSTM המטריצי עם קיבולת אחסון משופרת
- זיכרון מטריצי: במקום תא זיכרון סקלרי, mLSTM משתמשת בזיכרון מטריצי, מגדילה את קיבולת האחסון ומאפשרת שימוש יעיל יותר של מידע.
- כלל עדכון קובריאנס: mLSTM מנצלת כלל עדכון קובריאנס, המושפע מזיכרונות חד-כיווניים (BAMs), כדי לאחסן ולשחזר זוגות מפתח-ערך בצורה יעילה.
- מקביליות: על ידי נטישת ערבוב הזיכרון, mLSTM משיגה מקביליות מלאה, מאפשרת חישובים יעילים על מאיץ חומרה מודרניים, כגון כרטיסי מסך, ומאפשרת התרחבות למודלים גדולים יותר.

שני הווריאנטים, sLSTM ו-mLSTM, יכולים להיכלל בארכיטקטורות בלוקים שורשיים, יוצרים בלוקים xLSTM. על ידי ערימת בלוקים xLSTM בצורה שורשית, חוקרים יכולים לבנות ארכיטקטורות xLSTM חזקות, מותאמות למשימות ותחומי יישום ספציפיים.

המתמטיקה

LSTM מסורתי:

הארכיטקטורה המקורית של LSTM הציגה את הקרוסלת השגיאה הקבועה ומנגנוני השעריות כדי להתגבר על בעיית הגרדיאנט הנעלם ברשתות נוירונים רקורנטיות.

The repeating module in an LSTM – Source

עדכוני מצב הזיכרון של LSTM מושפעים מהמשוואות הבאות:

עדכון מצב התא: ct = ft ⊙ ct-1 + it ⊙ zt

עדכון מצב חבוי: ht = ot ⊙ tanh(ct)

איפה:

הוא וקטור מצב התא בזמן $t$
$הוא וקטור שער השכחה$
הוא וקטור שער הכניסה
הוא וקטור שער הפלט
הוא הכניסה המופעלת על ידי שער הכניסה
מייצג כפל וקטורי איברי

השערים ft, it, ו-ot שולטים על מה שנשמר, נשכח ומופק ממצב התא ct, מתרחשת הפחתת בעיית הגרדיאנט הנעלם.

xLSTM עם שעריות מעריכיות:

ארכיטקטורת xLSTM מציגה שעריות מעריכיות כדי לאפשר שליטה גמישה יותר על זרימת המידע. עבור הווריאנט sLSTM של xLSTM:

עדכון מצב התא: ct = ft ⊙ ct-1 + it ⊙ zt

עדכון מצב הנורמליזציה: nt = ft ⊙ nt-1 + it

עדכון מצב חבוי: ht = ot ⊙ (ct / nt)

שערי כניסה ושכחה: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)

פונקציות הפעלה מעריכיות עבור שערי הכניסה (it) והשכחה (ft), יחד עם מצב הנורמליזציה nt, מאפשרים שליטה יעילה יותר על עדכוני זיכרון ושינוי מידע מאוחסן.

xLSTM עם זיכרון מטריצי:

עבור הווריאנט mLSTM של xLSTM עם קיבולת אחסון משופרת:

עדכון מצב התא: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

עדכון מצב הנורמליזציה: nt = ft ⊙ nt-1 + it ⊙ kt

עדכון מצב חבוי: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

איפה:

$הוא מצב התא המטריצי$
ו הם וקטורי הערך והמפתח
הוא וקטור השאילתא המשמש לאחזור

משוואות אלו מדגימות כיצד xLSTM מרחיבה את הנוסחאות המקוריות של LSTM עם שעריות מעריכיות לשליטה גמישה יותר על הזיכרון וזיכרון מטריצי ליכולות אחסון משופרות. שילוב החידושים האלו מאפשר ל-xLSTM להתגבר על המגבלות של LSTMs מסורתיים.

מאפיינים ויתרונות מרכזיים של xLSTM

יכולת לשנות החלטות אחסון: הודות לשעריות מעריכיות, xLSTM יכולה לשנות ערכים מאוחסנים בצורה יעילה כאשר מופיע מידע רלוונטי יותר, ובכך מתגברת על אחת המגבלות העיקריות של LSTMs מסורתיים.
קיבולת אחסון משופרת: זיכרון המטריצה ב-mLSTM מספק קיבולת אחסון מוגברת, מאפשרת ל-xLSTM להתמודד עם טוקנים נדירים, תלות ארוכת טווח ודפוסים מורכבים של נתונים בצורה יעילה יותר.
מקביליות: הווריאנט mLSTM של xLSTM הוא מקבילי באופן מלא, מאפשר חישובים יעילים על מאיץ חומרה מודרניים, כגון כרטיסי מסך, ומאפשר התרחבות למודלים גדולים יותר.
ערבוב זיכרון ומעקב מצב: הווריאנט sLSTM של xLSTM שומר על יכולות ערבוב הזיכרון של LSTMs מסורתיים, מאפשר מעקב מצב והופך את xLSTM לביטויים יותר מאשר טרנספורמרים ומודלי מרחב מצב למשימות מסוימות.
התרחבות: על ידי ניצול טכניקות האחרונות ממודלים גדולים של שפה, xLSTM יכולה להתרחב למיליארדי פרמטרים, פותחת אפשרויות חדשות במודלים של שפה ועיבוד רצפים.

הערכה ניסויית: הצגת יכולות xLSTM

המאמר המחקרי מציג הערכה ניסויית מקיפה של xLSTM, המדגימה את הביצועים שלה במגוון משימות ובנקי המבחן. הנה מספר ממצאים מרכזיים:

משימות סינתטיות ו-LRA:
- xLSTM מצטיינת בפתרון משימות שפה פורמליות הדורשות מעקב מצב, עוקפת את הטרנספורמרים, מודלי מרחב המצב וארכיטקטורות RNN אחרות.
- במשימת הזיכרון האסוציאטיבי הרב-שאילתא, xLSTM מדגימה קיבולת זיכרון משופרת, עוקפת מודלים לא-טרנספורמרים ומתחרה בביצועים של טרנספורמרים.
- בבנק המבחן LRA, xLSTM מציגה ביצועים חזקים ברציפות, מדגימה יעילות בטיפול בבעיות ארוכות-טווח.
מודלים של שפה ומשימות המשך:
- כאשר מאומנת על 15B טוקנים מאוסף SlimPajama, xLSTM עוקפת שיטות קיימות, כולל טרנספורמרים, מודלי מרחב מצב וווריאנטים RNN אחרים, במונחי פליאפלקסיית אימות.
- ככל שהמודלים גדלים, xLSTM ממשיכה לשמור על יתרון ביצועים, מדגימה התנהגות התרחבות חיובית.
- במשימות המשך כגון היגיון ושאילתות, xLSTM עולה כשיטה הטובה ביותר בכל גודל מודל, עוקפת גישות מובילות.
ביצועים על משימות PALOMA:
- בהערכה על 571 תחומי טקסט מבנק המבחן PALOMA, xLSTM[1:0] (הווריאנט sLSTM) משיגה פליאפלקסיות נמוכות יותר משיטות אחרות ב-99.5% מהתחומים לעומת Mamba, 85.1% לעומת Llama, ו-99.8% לעומת RWKV-4.
חוקי התרחבות ואקסטרפולציה של אורך:
- כאשר מאומנת על 300B טוקנים מ-SlimPajama, xLSTM מציגה חוקי התרחבות חיוביים, מרמזים על פוטנציאל לשיפורים נוספים בביצועים ככל שגדלים המודלים.
- בניסויי אקסטרפולציה של אורך רצף, מודלים xLSTM שומרים על פליאפלקסיות נמוכות אפילו להקשרים ארוכים בהרבה מאלו שנראו באימון, עוקפים שיטות אחרות.

תוצאות אלו מדגימות את היכולות המרשימות של xLSTM, מציבות אותה כמועמדת מבטיחה למשימות מודלים של שפה, עיבוד רצפים ומגוון רחב של יישומים אחרים.

יישומים מעשיים וכיוונים עתידיים

היישומים הפוטנציאליים של xLSTM משתרעים על פני תחומים רבים, מעיבוד שפה טבעית ויצירתה ועד עיבוד רצפים, ניתוח סדרות זמן ומעבר. הנה כמה תחומים מרגשים ש-xLSTM יכולה לעשות בהם השפעה משמעותית:

מודלים של שפה ויצירת טקסט: עם קיבולת האחסון המשופרת ויכולתה לשנות מידע מאוחסן, xLSTM יכולה למהפכה במשימות מודלים של שפה ויצירת טקסט, מאפשרת יצירת טקסט יותר קוהרנטי, מודע-הקשר ושוטף.
תרגום מכונה: יכולות מעקב המצב של xLSTM יכולות להיות בעלות ערך רב במשימות תרגום, שם שמירת מידע הקשר והבנת תלות ארוכת-טווח הן חיוניות לתרגומים מדויקים.
זיהוי ויצירת דיבור: המקביליות וההתרחבות של xLSTM הופכות אותה למתאימה במיוחד ליישומים של זיהוי דיבור ויצירתו, שם עיבוד יעיל של רצפים ארוכים הוא חיוני.
ניתוח סדרות זמן ותחזית: יכולת xLSTM להתמודד עם תלות ארוכת-טווח ולאחסן ולשחזר דפוסים מורכבים יכולה להוביל לשיפורים משמעותיים בניתוח סדרות זמן ותחזית, בתחומים כגון פיננסים, חיזוי מזג אוויר, ויישומים תעשייתיים.
למידת חיזוק ומערכות בקרה: הפוטנציאל של xLSTM בלמידת חיזוק ומערכות בקרה מבטיח, שכן יכולות הזיכרון המשופרות ומעקב המצב שלה יכולים לאפשר קבלת החלטות חכמות יותר ובקרה בסביבות מורכבות.

אופטימיזציה ארכיטקטונית וכיול היפר-פרמטר

בעוד שהתוצאות הנוכחיות מבטיחות, עדיין יש מקום לאופטימיזציה של הארכיטקטורה של xLSTM וכיול היפר-פרמטרים. חוקרים יכולים לחקור שילובים שונים של בלוקים sLSTM ו-mLSTM, משתנים את היחסים והמיקום בתוך הארכיטקטורה הכוללת. בנוסף, חיפוש שיטתי של היפר-פרמטרים יכול להוביל לשיפורים נוספים בביצועים, במיוחד עבור מודלים גדולים.

אופטימיזציה מודעת-חומרה: כדי לנצל במלואם את המקביליות של xLSTM, במיוחד את הווריאנט mLSTM, חוקרים יכולים לחקור אופטימיזציות מודעות-חומרה, מותאמות לארכיטקטורות GPU ספציפיות או מאיצים אחרים. זה יכול לכלול אופטימיזציה של ליבות CUDA, אסטרטגיות ניהול זיכרון, וניצול הוראות או ספריות מיוחדות לפעולות מטריצה יעילות.

אינטגרציה עם רכיבי רשתות נוירונים אחרים: חקירת האינטגרציה של xLSTM עם רכיבי רשתות נוירונים אחרים, כגון מנגנוני תשומת לב, קונבולוציות, או טכניקות למידה עצמית, יכולה להוביל לארכיטקטורות היברידיות המשלבות את החוזקות של גישות שונות. מודלים היברידיים אלו יכולים פוטנציאלית לנעיל יכולות חדשות ולשפר ביצועים על מגוון רחב יותר של משימות.

למידה במספר מועט של שיעורים ולמידת העברה: חקירת השימוש ב-xLSTM במצבים של למידה במספר מועט של שיעורים ולמידת העברה יכולה להיות כיוון מחקר מרגש. על ידי ניצול יכולות הזיכרון המשופרות ומעקב המצב של xLSTM, היא יכולה לאפשר העברת ידע יעילה יותר והסתגלות מהירה למשימות חדשות או תחומים עם מידע אימון מוגבל.

פירוש והסבר: כמו עם מודלים רבים של למידת מכונה, פעולות הפנים של xLSTM יכולות להיות אפופות וקשות לפירוש. פיתוח טכניקות לפירוש והסבר החלטות xLSTM יכול להוביל למודלים יותר שקופים ואמינים, מקלים על אימוץ ביישומים ביקורתיים וקידום אחריות.

אסטרטגיות אימון יעילות ומקבילות: ככל שמודלים גדלים, אסטרטגיות אימון יעילות ומקבילות הופכות לחיוניות. חוקרים יכולים לחקור טכניקות כגון מקביליות מודל, מקביליות נתונים, וגישות אימון מבוזרות, מיוחדות לארכיטקטורות xLSTM, מאפשרות אימון של מודלים גדולים יותר ופוטנציאלית מורידות עלויות חישוב.

אלו הם כמה כיוונים עתידיים אפשריים ותחומים לחקירה נוספת עם xLSTM.

מסקנה

הצגת xLSTM סימנה ציון דרך משמעותי במרדף אחר ארכיטקטורות מודלים של שפה ועיבוד רצפים חזקות ויעילות יותר. על ידי פתרון המגבלות של LSTMs מסורתיים וניצול טכניקות חדשות כגון שעריות מעריכיות ומבנים זיכרון, xLSTM הוכיחה ביצועים יוצאי דופן במגוון רחב של משימות ובנקי מבחן.

אולם, המסע לא נגמר כאן. כמו עם כל טכנולוגיה חדשנית, xLSTM מציגה הזדמנויות מרגשות לחקירה נוספת, שיפור ויישום בסיטואציות מעשיות. ככל שחוקרים ממשיכים לדחוף את הגבולות של מה שאפשרי, אנו יכולים לצפות לראות התקדמויות מרשימות נוספות בתחום עיבוד שפה טבעית ובינה מלאכותית.

Aayush Mittal

ביליתי את חמש השנים האחרונות בטבילה בעולם המרתק של למידת מכונה ולמידה עמוקה. תשוקתי ומומחיותי הובילו אותי לתרום ליותר מ-50 פרויקטים שונים של הנדסת תוכנה, עם דגש מיוחד על AI/ML. סקרנותי המתמשכת גם הובילה אותי לעבר עיבוד שפה טבעית, תחום שאני שואף לחקור עוד.