בינה מלאכותית

דגמי שפות גדולים המבוססים על מפענח: מדריך מלא

מְעוּדכָּן on אפריל 27, 2024

דגמי שפות גדולים המבוססים על מפענח: מדריך מלא

דגמי שפה גדולים (LLMs) חוללו מהפכה בתחום עיבוד השפה הטבעית (NLP) על ידי הפגנת יכולות יוצאות דופן ביצירת טקסט דמוי אדם, מענה על שאלות וסיוע במגוון רחב של משימות הקשורות לשפה. בליבת הדגמים החזקים הללו טמון ה ארכיטקטורת שנאי מפענח בלבד, גרסה של ארכיטקטורת השנאים המקורית שהוצעה במאמר המכונן "תשומת לב היא כל מה שאתה צריך" מאת Vaswani et al.

במדריך מקיף זה, נחקור את פעולתם הפנימית של LLMs מבוססי מפענח, ונעמיק באבני הבניין הבסיסיות, החידושים האדריכליים ופרטי היישום שהניעו את המודלים הללו לחזית המחקר והיישומים של NLP.

ארכיטקטורת השנאי: מרענן

לפני שצולל לפרטים הספציפיים של LLMs מבוססי מפענח, חיוני לחזור ולעיין בארכיטקטורת השנאים, הבסיס שעליו בנויים מודלים אלה. השנאי הציג גישה חדשה למידול רצף, תוך הסתמכות אך ורק על מנגנוני קשב ללכידת תלות ארוכת טווח בנתונים, ללא צורך בשכבות חוזרות או קונבולוציוניות.

רובוטריקים אדריכלות

ארכיטקטורת השנאים המקורית מורכבת משני מרכיבים עיקריים: מקודד ומפענח. המקודד מעבד את רצף הקלט ומייצר ייצוג בהקשר, אשר נצרך על ידי המפענח כדי לייצר את רצף הפלט. ארכיטקטורה זו תוכננה בתחילה למשימות תרגום מכונה, כאשר המקודד מעבד את משפט הקלט בשפת המקור, והמפענח יוצר את המשפט המתאים בשפת היעד.

תשומת לב עצמית: המפתח להצלחתו של רובוטריק

בלב שנאי טמון מנגנון הקשב העצמי, טכניקה רבת עוצמה המאפשרת למודל לשקול ולצבור מידע ממיקומים שונים ברצף הקלט. שלא כמו מודלים מסורתיים של רצף, המעבדים אסימוני קלט ברצף, תשומת לב עצמית מאפשרת למודל ללכוד תלות בין כל זוג אסימונים, ללא קשר למיקומם ברצף.

תשומת לב מרובה

ניתן לחלק את פעולת הקשב העצמי לשלושה שלבים עיקריים:

תחזיות שאילתה, מפתח וערך: רצף הקלט מוקרן לשלושה ייצוגים נפרדים: שאילתות (ש), מפתחות (ק), ו ערכים (V). תחזיות אלו מתקבלות על ידי הכפלת הקלט עם מטריצות משקל נלמדות.
חישוב ציון תשומת לב: עבור כל מיקום ברצף הקלט, ציוני הקשב מחושבים על ידי לקיחת תוצר הנקודה בין וקטור השאילתה המתאים לכל הוקטורים המרכזיים. ציונים אלה מייצגים את הרלוונטיות של כל עמדה לעמדה הנוכחית המעובדת.
סכום משוקלל של ערכים: ציוני הקשב מנורמלים באמצעות פונקציית softmax, ומשקולות הקשב המתקבלות משמשות לחישוב סכום משוקלל של וקטורי הערך, ומייצרים את ייצוג הפלט עבור המיקום הנוכחי.

קשב רב ראשים, גרסה של מנגנון הקשב העצמי, מאפשר למודל ללכוד סוגים שונים של מערכות יחסים על ידי חישוב ציוני קשב על פני מספר רב של "ראשיבמקביל, לכל אחד קבוצה משלו של תחזיות שאילתות, מפתח וערך.

גרסאות ותצורות אדריכליות

בעוד שעקרונות הליבה של LLMs מבוססי מפענח נשארים עקביים, חוקרים בחנו גרסאות ותצורות ארכיטקטוניות שונות כדי לשפר את הביצועים, היעילות ויכולות ההכללה. בחלק זה, נעמיק בבחירות האדריכליות השונות והשלכותיהן.

סוגי אדריכלות

ניתן לסווג LLMs מבוססי מפענח לשלושה סוגים עיקריים: מקודד-מפענח, מפענח סיבתי ומפענח קידומת. כל סוג ארכיטקטורה מציג דפוסי תשומת לב מובהקים.

ארכיטקטורת מקודד-מפענח

בהתבסס על דגם ה- Vanilla Transformer, ארכיטקטורת המקודד-מפענח מורכבת משתי ערימות: מקודד ומפענח. המקודד משתמש בשכבות תשומת לב עצמית מרובות ראשים מוערמים כדי לקודד את רצף הקלט וליצור ייצוגים סמויים. לאחר מכן המפענח מבצע תשומת לב צולבת על ייצוגים אלה כדי ליצור את רצף היעד. בעוד יעיל במשימות NLP שונות, מעטים LLMs, כגון פלאן-T5, לאמץ את הארכיטקטורה הזו.

ארכיטקטורת מפענח סיבתי

ארכיטקטורת המפענח הסיבתי משלבת מסכת קשב חד-כיוונית, המאפשרת לכל אסימון קלט להתייחס רק לאסימוני העבר ולעצמו. גם אסימוני קלט וגם פלט מעובדים באותו מפענח. דגמים בולטים כמו GPT-1, GPT-2 ו-GPT-3 בנויים על ארכיטקטורה זו, כאשר GPT-3 מציג יכולות למידה יוצאות דופן בתוך ההקשר. LLMs רבים, כולל OPT, BLOOM ו-Gopher, אימצו באופן נרחב מפענחים סיבתיים.

ארכיטקטורת מפענח קידומת

ידוע גם בתור המפענח הלא-סיבתי, ארכיטקטורת מפענח הקידומת משנה את מנגנון המיסוך של מפענחים סיבתיים כדי לאפשר קשב דו-כיווני על פני אסימוני קידומת וקשב חד-כיווני באסימונים שנוצרו. כמו ארכיטקטורת המקודד-מפענח, מפענחי הקידומת יכולים לקודד את רצף הקידומת באופן דו-כיווני ולחזות אסימוני פלט באופן אוטומטי באמצעות פרמטרים משותפים. LLMs המבוססים על מפענחי קידומת כוללים GLM130B ו-U-PaLM.

ניתן להרחיב את כל שלושת סוגי הארכיטקטורה באמצעות ה תערובת של מומחים (MoE) טכניקת קנה מידה, אשר מפעילה בדלילות תת-קבוצה של משקלי רשת עצבית עבור כל קלט. גישה זו הופעלה במודלים כמו Switch Transformer ו-GLaM, כאשר הגדלת מספר המומחים או גודל הפרמטר הכולל מראה שיפורים משמעותיים בביצועים.

רובאי המפענח בלבד: מחבק את הטבע האוטורגרסיב

בעוד שארכיטקטורת השנאים המקורית תוכננה עבור משימות רצף לרצף כמו תרגום מכונה, משימות NLP רבות, כגון מודלים של שפות ויצירת טקסט, יכולות להיות ממוסגרות כבעיות אוטורגרסיביות, כאשר המודל יוצר אסימון אחד בכל פעם, המותנה על אסימונים שנוצרו בעבר.

היכנסו לשנאי המפענח בלבד, גרסה פשוטה של ארכיטקטורת השנאי ששומרת רק על רכיב המפענח. ארכיטקטורה זו מתאימה במיוחד למשימות אוטורגרסיביות, מכיוון שהיא מייצרת אסימוני פלט בזה אחר זה, תוך מינוף האסימונים שנוצרו קודם לכן כהקשר קלט.

ההבדל העיקרי בין שנאי המפענח בלבד למפענח השנאי המקורי טמון במנגנון הקשב העצמי. בהגדרה של המפענח בלבד, פעולת הקשב העצמית משתנה כדי למנוע מהמודל לטפל באסימונים עתידיים, תכונה המכונה סיבתיות. זה מושג באמצעות טכניקה הנקראת "מסיכת תשומת לב עצמית", שבה ציוני הקשב התואמים למיקומים עתידיים נקבעים לאינסוף שלילי, ולמעשה מסווה אותם במהלך שלב הנורמליזציה של softmax.

רכיבים אדריכליים של LLMs מבוססי מפענח

בעוד שעקרונות הליבה של תשומת לב עצמית ותשומת לב עצמית במסווה נשארים זהים, LLMs מודרניים מבוססי מפענחים הציגו מספר חידושים ארכיטקטוניים כדי לשפר את הביצועים, היעילות ויכולות ההכללה. הבה נחקור כמה מהמרכיבים והטכניקות העיקריות המופעלות בלימודי LLM מתקדמים.

ייצוג קלט

לפני עיבוד רצף הקלט, LLMs מבוססי מפענח משתמשים בטכניקות טוקניזציה והטמעה כדי להמיר את הטקסט הגולמי לייצוג מספרי המתאים למודל.

הטבעה וקטורית

טוקניזציה: תהליך האסימון ממיר את טקסט הקלט לרצף של אסימונים, שיכולים להיות מילים, מילות משנה, או אפילו תווים בודדים, בהתאם לאסטרטגיית האסימון המופעלת. טכניקות טוקניזציה פופולריות עבור LLMs כוללות קידוד בייט-זוג (BPE), SentencePiece ו-WordPiece. שיטות אלו שואפות להגיע לאיזון בין גודל אוצר המילים לפירוט הייצוג, מה שמאפשר למודל לטפל ביעילות במילים נדירות או מחוץ לאוצר המילים.

הטבעות אסימונים: לאחר האסימון, כל אסימון ממופה לייצוג וקטור צפוף הנקרא הטבעת אסימון. הטמעות אלו נלמדות במהלך תהליך האימון ולוכדות קשרים סמנטיים ותחביריים בין אסימונים.

הטבעות מיקום: מודלים של רובוטריקים מעבדים את כל רצף הקלט בו-זמנית, ללא התפיסה המובנית של מיקומי אסימונים הקיימים במודלים חוזרים. כדי לשלב מידע מיקום, הטמעות מיקום מתווספות להטמעות האסימון, מה שמאפשר למודל להבחין בין אסימונים על סמך מיקומם ברצף. לימודי LLM מוקדמים השתמשו בהטבעות מיקום קבועות המבוססות על פונקציות סינוסואידאליות, בעוד שמודלים עדכניים יותר חקרו הטמעות מיקום ניתנות ללמידה או טכניקות קידוד מיקום חלופי כמו הטבעות מיקום סיבוביות.

חוסמי קשב רב ראשים

אבני הבניין הליבה של LLMs מבוססי מפענח הן שכבות קשב מרובות ראש, המבצעות את פעולת הקשב העצמי המסוכה שתוארה קודם לכן. שכבות אלה מוערמות מספר פעמים, כאשר כל שכבה מטפלת בפלט של השכבה הקודמת, ומאפשרת למודל ללכוד תלות וייצוג מורכבים יותר ויותר.

ראשי תשומת לב: כל שכבת קשב מרובת ראשים מורכבת ממספר "ראשי תשומת לב", כל אחד עם סט משלו של תחזיות שאילתות, מפתח וערך. זה מאפשר למודל לטפל בהיבטים שונים של הקלט בו זמנית, וללכוד מערכות יחסים ודפוסים מגוונים.

חיבורים שיוריים ונורמליזציה של שכבות: כדי להקל על האימון של רשתות עמוקות ולהפחית את בעיית השיפוע הנעלם, LLMs מבוססי מפענח משתמשים בחיבורים שיוריים וטכניקות נורמליזציה של שכבות. חיבורים שיוריים מוסיפים את הקלט של שכבה לפלט שלה, ומאפשרים לשיפועים לזרום בקלות רבה יותר במהלך התפשטות לאחור. נורמליזציה של שכבות עוזרת לייצב את ההפעלה והשיפועים, ומשפרת עוד יותר את היציבות והביצועים של האימון.

שכבות הזנה קדימה

בנוסף לשכבות קשב מרובות ראשים, LLMs מבוססי מפענח משלבים שכבות הזנה קדימה, המחילות רשת עצבית פשוטה להזנה קדימה על כל מיקום ברצף. שכבות אלו מציגות אי-לינאריות ומאפשרות למודל ללמוד ייצוגים מורכבים יותר.

פונקציות הפעלה: בחירת פונקציית ההפעלה בשכבות ההזנה קדימה יכולה להשפיע באופן משמעותי על ביצועי המודל. בעוד ש-LLMs מוקדמים יותר הסתמכו על הפעלת ReLU בשימוש נרחב, דגמים עדכניים יותר אימצו פונקציות הפעלה מתוחכמות יותר כמו ה-Gaussian Error Linear Unit (GELU) או הפעלת SwiGLU, שהראו ביצועים משופרים.

תשומת לב מועטה ושנאים יעילים

בעוד שמנגנון הקשב העצמי חזק, הוא מגיע עם מורכבות חישובית ריבועית ביחס לאורך הרצף, מה שהופך אותו ליקר מבחינה חישובית עבור רצפים ארוכים. כדי להתמודד עם אתגר זה, הוצעו מספר טכניקות להפחתת דרישות החישוב והזיכרון של תשומת לב עצמית, המאפשרות עיבוד יעיל של רצפים ארוכים יותר.

תשומת לב דלילה: טכניקות קשב דל, כמו זו המופעלת במודל GPT-3, מתייחסות באופן סלקטיבי לקבוצת משנה של מיקומים ברצף הקלט, במקום לחשב את ציוני הקשב עבור כל העמדות. זה יכול להפחית משמעותית את המורכבות החישובית תוך שמירה על ביצועים סבירים.

חלון הזזה תשומת לב: הוצגה בדגם Mistral 7B, תשומת לב לחלון הזזה (SWA) היא טכניקה פשוטה אך יעילה המגבילה את טווח הקשב של כל אסימון לגודל חלון קבוע. גישה זו ממנפת את היכולת של שכבות שנאים להעביר מידע על פני שכבות מרובות, ולמעשה מגדילה את טווח הקשב ללא המורכבות הריבועית של תשומת לב עצמית מלאה.

מטמון מאגר מתגלגל: כדי לצמצם עוד יותר את דרישות הזיכרון, במיוחד עבור רצפים ארוכים, דגם Mistral 7B משתמש במטמון מאגר מתגלגל. טכניקה זו מאחסנת ומשתמשת מחדש בוקטורי המפתח והערך המחושבים עבור גודל חלון קבוע, תוך הימנעות מחישובים מיותרים וממזערת את השימוש בזיכרון.

תשומת לב לשאילתה מקובצת: הוצג במודל LLaMA 2, תשומת לב שאילתה קבוצתית (GQA) היא גרסה של מנגנון הקשב הרב-שאילתות המחלק את ראשי הקשב לקבוצות, כל קבוצה חולקת מטריצת מפתח וערכים משותפים. גישה זו יוצרת איזון בין היעילות של תשומת לב מרובת שאילתות לבין הביצועים של תשומת לב עצמית סטנדרטית, ומספקת זמני מסקנות משופרים תוך שמירה על תוצאות באיכות גבוהה.

תשומת לב לשאילתה מקובצת

גודל דגם וקנה מידה

אחד המאפיינים המגדירים של LLMs מודרניים הוא קנה המידה העצום שלהם, עם מספר הפרמטרים שנע בין מיליארדים למאות מיליארדים. הגדלת גודל המודל הייתה גורם מכריע בהשגת ביצועים מתקדמים, שכן מודלים גדולים יותר יכולים ללכוד דפוסים ויחסים מורכבים יותר בנתונים.

ספירת פרמטרים: מספר הפרמטרים ב-LLM מבוסס מפענח נקבע בעיקר על ידי ממד ההטמעה (d_model), מספר ראשי הקשב (n_heads), מספר השכבות (n_layers) וגודל אוצר המילים (vocab_size). לדוגמה, לדגם GPT-3 יש 175 מיליארד פרמטרים, עם d_model = 12288, n_heads = 96, n_layers = 96, ו vocab_size = 50257.

מקביליות מודל: הדרכה ופריסה של מודלים מסיביים כאלה דורשים משאבי חישוב משמעותיים וחומרה מיוחדת. כדי להתגבר על אתגר זה, הופעלו טכניקות מקביליות של מודלים, כאשר המודל מפוצל על פני מספר GPUs או TPUs, כאשר כל מכשיר אחראי על חלק מהחישובים.

תערובת של מומחים: גישה נוספת להגדלת קנה המידה של LLMs היא ארכיטקטורת ה-mix-of-experts (MoE), המשלבת מספר מודלים של מומחים, כל אחד מתמחה בתת-קבוצה ספציפית של הנתונים או המשימה. דגם Mixtral 8x7B הוא דוגמה למודל MoE הממנף את מיסטרל 7B כמודל הבסיס שלה, השגת ביצועים מעולים תוך שמירה על יעילות חישובית.

הסקה ויצירת טקסט

אחד ממקרי השימוש העיקריים של LLMs מבוססי מפענח הוא יצירת טקסט, כאשר המודל מייצר טקסט קוהרנטי וצליל טבעי בהתבסס על הנחיה או הקשר נתון.

פענוח אוטורגרסיבי: במהלך הסקת מסקנות, LLMs מבוססי מפענח מייצרים טקסט בצורה אוטורגרסיבית, מנבאים אסימון אחד בכל פעם בהתבסס על האסימונים שנוצרו קודם לכן והנחיית הקלט. תהליך זה נמשך עד לעמידה בקריטריון עצירה שנקבע מראש, כגון הגעה לאורך רצף מקסימלי או יצירת אסימון סוף רצף.

אסטרטגיות דגימה: כדי ליצור טקסט מגוון וריאליסטי, ניתן להשתמש באסטרטגיות דגימה שונות, כגון דגימת top-k, דגימת top-p (הידועה גם בשם דגימת גרעין), או קנה מידה של טמפרטורה. טכניקות אלו שולטות בחילופין בין גיוון לקוהרנטיות של הטקסט שנוצר על ידי התאמת התפלגות ההסתברות על אוצר המילים.

הנדסה מהירה: האיכות והספציפיות של הוראת הקלט יכולים להשפיע באופן משמעותי על הטקסט שנוצר. הנדסה מהירה, אומנות היצירה של הנחיות אפקטיביות, הופיעה כהיבט מכריע במינוף LLMs למשימות שונות, המאפשרת למשתמשים להנחות את תהליך היצירה של המודל ולהשיג את התפוקות הרצויות.

פענוח אדם בלולאה: כדי לשפר עוד יותר את האיכות והקוהרנטיות של טקסט שנוצר, טכניקות כמו חיזוק למידה ממשוב אנושי (RLHF) הועסקו. בגישה זו, מדרגים אנושיים מספקים משוב על הטקסט שנוצר של המודל, אשר משמש לאחר מכן לכוונון עדין של המודל, ליישר אותו ביעילות עם העדפות אנושיות ולשפר את התפוקות שלו.

התקדמות וכיוונים עתידיים

התחום של LLMs מבוססי מפענח מתפתח במהירות, עם מחקר חדש ופריצות דרך שדוחפים ללא הרף את הגבולות של מה שהמודלים האלה יכולים להשיג. להלן כמה התקדמות בולטים וכיוונים עתידיים אפשריים:

גרסאות שנאי יעילות: בעוד תשומת לב דלילה ותשומת לב חלונות הזזה עשו צעדים משמעותיים בשיפור היעילות של LLMs מבוססי מפענח, חוקרים בוחנים באופן אקטיבי ארכיטקטורות שנאים חלופיות ומנגנוני תשומת לב כדי להפחית עוד יותר את דרישות החישוב תוך שמירה או שיפור ביצועים.

לימודי LLM מולטי-מודאליים: הרחבת היכולות של LLMs מעבר לטקסט, מודלים מולטי-מודאליים שואפים לשלב אופנים מרובים, כגון תמונות, אודיו או וידאו, לתוך מסגרת מאוחדת אחת. זה פותח אפשרויות מרגשות ליישומים כמו כיתוב תמונה, מענה על שאלות חזותיות ויצירת תוכן מולטימדיה.

דור ניתן לשליטה: הפעלת שליטה עדינה על הטקסט שנוצר הוא כיוון מאתגר אך חשוב עבור LLMs. טכניקות כמו יצירת טקסט מבוקר וכוונון מהיר שואפות לספק למשתמשים שליטה מפורטת יותר על תכונות שונות של הטקסט שנוצר, כגון סגנון, גוון או דרישות תוכן ספציפיות.

סיכום

LLMs מבוססי מפענחים הופיעו ככוח טרנספורמטיבי בתחום עיבוד השפה הטבעית, דוחף את הגבולות של מה שאפשר עם יצירת שפה והבנה. מההתחלה הצנועה שלהם כגרסה פשוטה של ארכיטקטורת השנאים, מודלים אלה התפתחו למערכות מתוחכמות וחזקות ביותר, תוך מינוף טכניקות מתקדמות וחידושים אדריכליים.

ככל שאנו ממשיכים לחקור ולקדם LLMs מבוססי מפענח, אנו יכולים לצפות להישגים מדהימים עוד יותר במשימות הקשורות לשפה, כמו גם שילוב של מודלים אלה במגוון רחב של יישומים ותחומים. עם זאת, חיוני להתייחס לשיקולים האתיים, אתגרי הפרשנות וההטיות הפוטנציאליות שעלולות לנבוע מהפריסה הנרחבת של מודלים רבי עוצמה אלה.

על ידי הישארות בחזית המחקר, טיפוח שיתוף פעולה פתוח ושמירה על מחויבות חזקה לפיתוח בינה מלאכותית אחראית, נוכל לנצל את מלוא הפוטנציאל של LLMs מבוססי מפענח תוך הבטחה שהם מפותחים ומנוצלים בצורה בטוחה, אתית ומועילה עבור חֶברָה.

נושאים קשורים:BLOOM מפענח GPT-3 LLM כַּף הַיָד הנדסה מהירה תשומת לב עצמית רוֹבּוֹטרִיקִים

תחנת כוח בגודל כיס: חושפת את ה-Phi-3 של מיקרוסופט, דגם השפה שמתאים לטלפון שלך

לא לפספס

מיני-תאומים: כריית הפוטנציאל של מודלים של שפת ראייה רב-מודאלית

עאיוש מיטל

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.

Unite.AI

דגמי שפות גדולים המבוססים על מפענח: מדריך מלא

בינה מלאכותית

דגמי שפות גדולים המבוססים על מפענח: מדריך מלא

תוכן העניינים

ארכיטקטורת השנאי: מרענן

תשומת לב עצמית: המפתח להצלחתו של רובוטריק