בינה מלאכותית
דגמי שפות גדולים המבוססים על מפענח: מדריך מלא
דגמי שפה גדולים (LLMs) חוללו מהפכה בתחום עיבוד השפה הטבעית (NLP) על ידי הפגנת יכולות יוצאות דופן ביצירת טקסט דמוי אדם, מענה על שאלות וסיוע במגוון רחב של משימות הקשורות לשפה. בליבת הדגמים החזקים הללו טמון ה ארכיטקטורת שנאי מפענח בלבד, גרסה של ארכיטקטורת השנאים המקורית שהוצעה במאמר המכונן "תשומת לב היא כל מה שאתה צריך" מאת Vaswani et al.
במדריך מקיף זה, נחקור את פעולתם הפנימית של LLMs מבוססי מפענח, ונעמיק באבני הבניין הבסיסיות, החידושים האדריכליים ופרטי היישום שהניעו את המודלים הללו לחזית המחקר והיישומים של NLP.
ארכיטקטורת השנאי: מרענן
לפני שצולל לפרטים הספציפיים של LLMs מבוססי מפענח, חיוני לחזור ולעיין בארכיטקטורת השנאים, הבסיס שעליו בנויים מודלים אלה. השנאי הציג גישה חדשה למידול רצף, תוך הסתמכות אך ורק על מנגנוני קשב ללכידת תלות ארוכת טווח בנתונים, ללא צורך בשכבות חוזרות או קונבולוציוניות.
ארכיטקטורת השנאים המקורית מורכבת משני מרכיבים עיקריים: מקודד ומפענח. המקודד מעבד את רצף הקלט ומייצר ייצוג בהקשר, אשר נצרך על ידי המפענח כדי לייצר את רצף הפלט. ארכיטקטורה זו תוכננה בתחילה למשימות תרגום מכונה, כאשר המקודד מעבד את משפט הקלט בשפת המקור, והמפענח יוצר את המשפט המתאים בשפת היעד.
תשומת לב עצמית: המפתח להצלחתו של רובוטריק
בלב שנאי טמון מנגנון הקשב העצמי, טכניקה רבת עוצמה המאפשרת למודל לשקול ולצבור מידע ממיקומים שונים ברצף הקלט. שלא כמו מודלים מסורתיים של רצף, המעבדים אסימוני קלט ברצף, תשומת לב עצמית מאפשרת למודל ללכוד תלות בין כל זוג אסימונים, ללא קשר למיקומם ברצף.
ניתן לחלק את פעולת הקשב העצמי לשלושה שלבים עיקריים:
- תחזיות שאילתה, מפתח וערך: רצף הקלט מוקרן לשלושה ייצוגים נפרדים: שאילתות (ש), מפתחות (ק), ו ערכים (V). תחזיות אלו מתקבלות על ידי הכפלת הקלט עם מטריצות משקל נלמדות.
- חישוב ציון תשומת לב: עבור כל מיקום ברצף הקלט, ציוני הקשב מחושבים על ידי לקיחת תוצר הנקודה בין וקטור השאילתה המתאים לכל הוקטורים המרכזיים. ציונים אלה מייצגים את הרלוונטיות של כל עמדה לעמדה הנוכחית המעובדת.
- סכום משוקלל של ערכים: ציוני הקשב מנורמלים באמצעות פונקציית softmax, ומשקולות הקשב המתקבלות משמשות לחישוב סכום משוקלל של וקטורי הערך, ומייצרים את ייצוג הפלט עבור המיקום הנוכחי.
קשב רב ראשים, גרסה של מנגנון הקשב העצמי, מאפשר למודל ללכוד סוגים שונים של מערכות יחסים על ידי חישוב ציוני קשב על פני מספר רב של "ראשיבמקביל, לכל אחד קבוצה משלו של תחזיות שאילתות, מפתח וערך.
גרסאות ותצורות אדריכליות
בעוד שעקרונות הליבה של LLMs מבוססי מפענח נשארים עקביים, חוקרים בחנו גרסאות ותצורות ארכיטקטוניות שונות כדי לשפר את הביצועים, היעילות ויכולות ההכללה. בחלק זה, נעמיק בבחירות האדריכליות השונות והשלכותיהן.
סוגי אדריכלות
ניתן לסווג LLMs מבוססי מפענח לשלושה סוגים עיקריים: מקודד-מפענח, מפענח סיבתי ומפענח קידומת. כל סוג ארכיטקטורה מציג דפוסי תשומת לב מובהקים.
ארכיטקטורת מקודד-מפענח
בהתבסס על דגם ה- Vanilla Transformer, ארכיטקטורת המקודד-מפענח מורכבת משתי ערימות: מקודד ומפענח. המקודד משתמש בשכבות תשומת לב עצמית מרובות ראשים מוערמים כדי לקודד את רצף הקלט וליצור ייצוגים סמויים. לאחר מכן המפענח מבצע תשומת לב צולבת על ייצוגים אלה כדי ליצור את רצף היעד. בעוד יעיל במשימות NLP שונות, מעטים LLMs, כגון פלאן-T5, לאמץ את הארכיטקטורה הזו.
ארכיטקטורת מפענח סיבתי
ארכיטקטורת המפענח הסיבתי משלבת מסכת קשב חד-כיוונית, המאפשרת לכל אסימון קלט להתייחס רק לאסימוני העבר ולעצמו. גם אסימוני קלט וגם פלט מעובדים באותו מפענח. דגמים בולטים כמו GPT-1, GPT-2 ו-GPT-3 בנויים על ארכיטקטורה זו, כאשר GPT-3 מציג יכולות למידה יוצאות דופן בתוך ההקשר. LLMs רבים, כולל OPT, BLOOM ו-Gopher, אימצו באופן נרחב מפענחים סיבתיים.
ארכיטקטורת מפענח קידומת
ידוע גם בתור המפענח הלא-סיבתי, ארכיטקטורת מפענח הקידומת משנה את מנגנון המיסוך של מפענחים סיבתיים כדי לאפשר קשב דו-כיווני על פני אסימוני קידומת וקשב חד-כיווני באסימונים שנוצרו. כמו ארכיטקטורת המקודד-מפענח, מפענחי הקידומת יכולים לקודד את רצף הקידומת באופן דו-כיווני ולחזות אסימוני פלט באופן אוטומטי באמצעות פרמטרים משותפים. LLMs המבוססים על מפענחי קידומת כוללים GLM130B ו-U-PaLM.
ניתן להרחיב את כל שלושת סוגי הארכיטקטורה באמצעות ה תערובת של מומחים (MoE) טכניקת קנה מידה, אשר מפעילה בדלילות תת-קבוצה של משקלי רשת עצבית עבור כל קלט. גישה זו הופעלה במודלים כמו Switch Transformer ו-GLaM, כאשר הגדלת מספר המומחים או גודל הפרמטר הכולל מראה שיפורים משמעותיים בביצועים.
רובאי המפענח בלבד: מחבק את הטבע האוטורגרסיב
בעוד שארכיטקטורת השנאים המקורית תוכננה עבור משימות רצף לרצף כמו תרגום מכונה, משימות NLP רבות, כגון מודלים של שפות ויצירת טקסט, יכולות להיות ממוסגרות כבעיות אוטורגרסיביות, כאשר המודל יוצר אסימון אחד בכל פעם, המותנה על אסימונים שנוצרו בעבר.
היכנסו לשנאי המפענח בלבד, גרסה פשוטה של ארכיטקטורת השנאי ששומרת רק על רכיב המפענח. ארכיטקטורה זו מתאימה במיוחד למשימות אוטורגרסיביות, מכיוון שהיא מייצרת אסימוני פלט בזה אחר זה, תוך מינוף האסימונים שנוצרו קודם לכן כהקשר קלט.
ההבדל העיקרי בין שנאי המפענח בלבד למפענח השנאי המקורי טמון במנגנון הקשב העצמי. בהגדרה של המפענח בלבד, פעולת הקשב העצמית משתנה כדי למנוע מהמודל לטפל באסימונים עתידיים, תכונה המכונה סיבתיות. זה מושג באמצעות טכניקה הנקראת "מסיכת תשומת לב עצמית", שבה ציוני הקשב התואמים למיקומים עתידיים נקבעים לאינסוף שלילי, ולמעשה מסווה אותם במהלך שלב הנורמליזציה של softmax.
רכיבים אדריכליים של LLMs מבוססי מפענח
בעוד שעקרונות הליבה של תשומת לב עצמית ותשומת לב עצמית במסווה נשארים זהים, LLMs מודרניים מבוססי מפענחים הציגו מספר חידושים ארכיטקטוניים כדי לשפר את הביצועים, היעילות ויכולות ההכללה. הבה נחקור כמה מהמרכיבים והטכניקות העיקריות המופעלות בלימודי LLM מתקדמים.
ייצוג קלט
לפני עיבוד רצף הקלט, LLMs מבוססי מפענח משתמשים בטכניקות טוקניזציה והטמעה כדי להמיר את הטקסט הגולמי לייצוג מספרי המתאים למודל.
טוקניזציה: תהליך האסימון ממיר את טקסט הקלט לרצף של אסימונים, שיכולים להיות מילים, מילות משנה, או אפילו תווים בודדים, בהתאם לאסטרטגיית האסימון המופעלת. טכניקות טוקניזציה פופולריות עבור LLMs כוללות קידוד בייט-זוג (BPE), SentencePiece ו-WordPiece. שיטות אלו שואפות להגיע לאיזון בין גודל אוצר המילים לפירוט הייצוג, מה שמאפשר למודל לטפל ביעילות במילים נדירות או מחוץ לאוצר המילים.
הטבעות אסימונים: לאחר האסימון, כל אסימון ממופה לייצוג וקטור צפוף הנקרא הטבעת אסימון. הטמעות אלו נלמדות במהלך תהליך האימון ולוכדות קשרים סמנטיים ותחביריים בין אסימונים.
הטבעות מיקום: מודלים של רובוטריקים מעבדים את כל רצף הקלט בו-זמנית, ללא התפיסה המובנית של מיקומי אסימונים הקיימים במודלים חוזרים. כדי לשלב מידע מיקום, הטמעות מיקום מתווספות להטמעות האסימון, מה שמאפשר למודל להבחין בין אסימונים על סמך מיקומם ברצף. לימודי LLM מוקדמים השתמשו בהטבעות מיקום קבועות המבוססות על פונקציות סינוסואידאליות, בעוד שמודלים עדכניים יותר חקרו הטמעות מיקום ניתנות ללמידה או טכניקות קידוד מיקום חלופי כמו הטבעות מיקום סיבוביות.
חוסמי קשב רב ראשים
אבני הבניין הליבה של LLMs מבוססי מפענח הן שכבות קשב מרובות ראש, המבצעות את פעולת הקשב העצמי המסוכה שתוארה קודם לכן. שכבות אלה מוערמות מספר פעמים, כאשר כל שכבה מטפלת בפלט של השכבה הקודמת, ומאפשרת למודל ללכוד תלות וייצוג מורכבים יותר ויותר.
ראשי תשומת לב: כל שכבת קשב מרובת ראשים מורכבת ממספר "ראשי תשומת לב", כל אחד עם סט משלו של תחזיות שאילתות, מפתח וערך. זה מאפשר למודל לטפל בהיבטים שונים של הקלט בו זמנית, וללכוד מערכות יחסים ודפוסים מגוונים.
חיבורים שיוריים ונורמליזציה של שכבות: כדי להקל על האימון של רשתות עמוקות ולהפחית את בעיית השיפוע הנעלם, LLMs מבוססי מפענח משתמשים בחיבורים שיוריים וטכניקות נורמליזציה של שכבות. חיבורים שיוריים מוסיפים את הקלט של שכבה לפלט שלה, ומאפשרים לשיפועים לזרום בקלות רבה יותר במהלך התפשטות לאחור. נורמליזציה של שכבות עוזרת לייצב את ההפעלה והשיפועים, ומשפרת עוד יותר את היציבות והביצועים של האימון.
שכבות הזנה קדימה
בנוסף לשכבות קשב מרובות ראשים, LLMs מבוססי מפענח משלבים שכבות הזנה קדימה, המחילות רשת עצבית פשוטה להזנה קדימה על כל מיקום ברצף. שכבות אלו מציגות אי-לינאריות ומאפשרות למודל ללמוד ייצוגים מורכבים יותר.
פונקציות הפעלה: בחירת פונקציית ההפעלה בשכבות ההזנה קדימה יכולה להשפיע באופן משמעותי על ביצועי המודל. בעוד ש-LLMs מוקדמים יותר הסתמכו על הפעלת ReLU בשימוש נרחב, דגמים עדכניים יותר אימצו פונקציות הפעלה מתוחכמות יותר כמו ה-Gaussian Error Linear Unit (GELU) או הפעלת SwiGLU, שהראו ביצועים משופרים.
תשומת לב מועטה ושנאים יעילים
בעוד שמנגנון הקשב העצמי חזק, הוא מגיע עם מורכבות חישובית ריבועית ביחס לאורך הרצף, מה שהופך אותו ליקר מבחינה חישובית עבור רצפים ארוכים. כדי להתמודד עם אתגר זה, הוצעו מספר טכניקות להפחתת דרישות החישוב והזיכרון של תשומת לב עצמית, המאפשרות עיבוד יעיל של רצפים ארוכים יותר.
תשומת לב דלילה: טכניקות קשב דל, כמו זו המופעלת במודל GPT-3, מתייחסות באופן סלקטיבי לקבוצת משנה של מיקומים ברצף הקלט, במקום לחשב את ציוני הקשב עבור כל העמדות. זה יכול להפחית משמעותית את המורכבות החישובית תוך שמירה על ביצועים סבירים.
חלון הזזה תשומת לב: הוצגה בדגם Mistral 7B, תשומת לב לחלון הזזה (SWA) היא טכניקה פשוטה אך יעילה המגבילה את טווח הקשב של כל אסימון לגודל חלון קבוע. גישה זו ממנפת את היכולת של שכבות שנאים להעביר מידע על פני שכבות מרובות, ולמעשה מגדילה את טווח הקשב ללא המורכבות הריבועית של תשומת לב עצמית מלאה.
מטמון מאגר מתגלגל: כדי לצמצם עוד יותר את דרישות הזיכרון, במיוחד עבור רצפים ארוכים, דגם Mistral 7B משתמש במטמון מאגר מתגלגל. טכניקה זו מאחסנת ומשתמשת מחדש בוקטורי המפתח והערך המחושבים עבור גודל חלון קבוע, תוך הימנעות מחישובים מיותרים וממזערת את השימוש בזיכרון.
תשומת לב לשאילתה מקובצת: הוצג במודל LLaMA 2, תשומת לב שאילתה קבוצתית (GQA) היא גרסה של מנגנון הקשב הרב-שאילתות המחלק את ראשי הקשב לקבוצות, כל קבוצה חולקת מטריצת מפתח וערכים משותפים. גישה זו יוצרת איזון בין היעילות של תשומת לב מרובת שאילתות לבין הביצועים של תשומת לב עצמית סטנדרטית, ומספקת זמני מסקנות משופרים תוך שמירה על תוצאות באיכות גבוהה.