Refresh

This website www.unite.ai/iw/the-rise-of-mixture-of-experts-for-efficient-large-language-models/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

בדל עליית תמהיל המומחים למודלים יעילים של שפה גדולה - Unite.AI
צור קשר

בינה מלאכותית

עלייתם של תערובת מומחים למודלים יעילים של שפה גדולה

mm
מְעוּדכָּן on
תערובת של מומחים גרוק מיסטרל

בעולם של עיבוד שפה טבעית (NLP), השאיפה לבניית מודלים של שפה גדולים ובעלי יכולת גבוהה יותר הייתה הכוח המניע מאחורי התקדמות רבות לאחרונה. עם זאת, ככל שהמודלים הללו גדלים בגודלם, הדרישות החישוביות לאימון והסקת הסקת הופכות תובעניות יותר, ודוחקות את המגבלות של משאבי החומרה הזמינים.

כנסו ל-Mixture-of-Experts (MoE), טכניקה שמבטיחה להקל על העומס החישובי הזה תוך מתן אפשרות להכשיר מודלים של שפה גדולים וחזקים יותר. בבלוג הטכני הזה, נתעמק בעולם של MoE, נחקור את מקורותיו, פעולתו הפנימית והיישומים שלו במודלים של שפות מבוססי שנאים.

מקורותיה של תערובת מומחים

ניתן לאתר את הרעיון של Mixture-of-Experts (MoE) לתחילת שנות ה-1990, כאשר חוקרים חקרו את הרעיון של חישוב מותנה, שבו חלקים של רשת עצבית מופעלים באופן סלקטיבי על סמך נתוני הקלט. אחת העבודות החלוציות בתחום זה הייתה "תערובת אדפטיבית של מומחים מקומייםמאמר מאת Jacobs et al. בשנת 1991, שהציעה מסגרת למידה מפוקחת עבור אנסמבל של רשתות עצביות, שכל אחת מתמחה באזור אחר של מרחב הקלט.

הרעיון המרכזי מאחורי MoE הוא לקיים מספר רשתות "מומחים", שכל אחת אחראית לעיבוד תת-קבוצה של נתוני הקלט. מנגנון שער, בדרך כלל רשת עצבית בעצמה, קובע איזה מומחה/ים צריכים לעבד קלט נתון. גישה זו מאפשרת למודל להקצות את משאבי החישוב שלו בצורה יעילה יותר על ידי הפעלת המומחים הרלוונטיים בלבד עבור כל קלט, במקום שימוש בקיבולת המודל המלאה עבור כל קלט.

במהלך השנים, חוקרים שונים חקרו והרחיבו את הרעיון של חישוב מותנה, והובילו להתפתחויות כגון MoEs היררכיים, קירובים בדרגה נמוכה לחישוב מותנה וטכניקות להערכת גרדיאנטים באמצעות נוירונים סטוכסטיים ופונקציות הפעלה בסף קשיח.

תערובת של מומחים ברובוטריקים

תערובת מומחים

תערובת מומחים

בעוד הרעיון של מו קיים כבר עשרות שנים, היישום שלו על מודלים של שפה מבוססי שנאים הוא עדכני יחסית. רובוטריקים, שהפכו לסטנדרט דה פקטו למודלים של שפה מתקדמת, מורכבים משכבות מרובות, שכל אחת מהן מכילה מנגנון קשב עצמי ורשת עצבית הזנה קדימה (FFN).

החידוש העיקרי ביישום MoE על שנאים הוא החלפת שכבות FFN הצפופות בשכבות MoE דלילות, שכל אחת מהן מורכבת ממספר FFNs מומחים ומנגנון שער. מנגנון השער קובע איזה מומחה/ים צריכים לעבד כל אסימון קלט, מה שמאפשר למודל להפעיל באופן סלקטיבי רק תת-קבוצה של מומחים עבור רצף קלט נתון.

אחת העבודות המוקדמות שהדגימו את הפוטנציאל של MoE בשנאים הייתה המאמר "רשתות עצביות גדולות בצורה שערורייתית: שכבת ה-Sparely-Gated Mixture-of-Experts" מאת Shazeer et al. בשנת 2017. עבודה זו הציגה את הקונספט של שכבת MoE בדלת דלת, שהשתמשה במנגנון שער שהוסיף דלילות ורעש לתהליך בחירת המומחים, והבטיח שרק תת-קבוצה של מומחים הופעלה עבור כל קלט.

מאז, מספר עבודות אחרות קידמו עוד יותר את היישום של MoE לשנאים, תוך התייחסות לאתגרים כמו אי יציבות באימון, איזון עומסים והסקת הסקה יעילה. דוגמאות בולטות כוללות את Switch Transformer (Fedus et al., 2021), ST-MoE (Zop et al., 2022), וכן זוהר (Du et al., 2022).

היתרונות של תמהיל מומחים למודלים של שפה

היתרון העיקרי של שימוש ב-MoE במודלים של שפות הוא היכולת להגדיל את גודל המודל תוך שמירה על עלות חישובית קבועה יחסית במהלך ההסקה. על ידי הפעלה סלקטיבית רק של תת-קבוצה של מומחים עבור כל אסימון קלט, מודלים של MoE יכולים להשיג את כוח הביטוי של מודלים צפופים הרבה יותר, תוך שהם דורשים פחות חישוב משמעותית.

לדוגמה, שקול מודל שפה עם שכבת FFN צפופה של 7 מיליארד פרמטרים. אם נחליף שכבה זו בשכבת MoE המורכבת משמונה מומחים, כל אחד עם 7 מיליארד פרמטרים, מספר הפרמטרים הכולל יגדל ל-56 מיליארד. עם זאת, במהלך ההסקה, אם נפעיל רק שני מומחים לכל אסימון, העלות החישובית שווה ערך למודל צפוף של 14 מיליארד פרמטרים, שכן הוא מחשב שני מכפלות של מטריצת פרמטרים של 7 מיליארד פרמטרים.

יעילות חישובית זו במהלך הסקת מסקנות היא בעלת ערך במיוחד בתרחישי פריסה שבהם המשאבים מוגבלים, כגון מכשירים ניידים או סביבות מחשוב קצה. בנוסף, הדרישות החישוביות המופחתות במהלך האימון יכולות להוביל לחיסכון משמעותי באנרגיה ולטביעת רגל פחמנית נמוכה יותר, תוך התאמה עם הדגש ההולך וגובר על שיטות בינה מלאכותיות בנות קיימא.

אתגרים ושיקולים

בעוד שמודלים של MoE מציעים יתרונות משכנעים, האימוץ והפריסה שלהם כוללים גם כמה אתגרים ושיקולים:

  1. אי יציבות באימון: ידוע שדגמי MoE נוטים יותר לאי יציבות באימון בהשוואה לעמיתיהם הצפופים. סוגיה זו נובעת מהאופי הדליל והמותנה של הפעלת המומחים, מה שעלול להוביל לאתגרים בהתפשטות שיפוע והתכנסות. טכניקות כמו הנתב z-loss (Zoph et al., 2022) הוצעו כדי למתן את אי היציבות הללו, אך עדיין נדרש מחקר נוסף.
  2. כוונון עדין והתאמת יתר: מודלים של MoE נוטים להתאים ביתר קלות יותר במהלך כוונון עדין, במיוחד כאשר למשימה במורד הזרם יש מערך נתונים קטן יחסית. התנהגות זו מיוחסת לקיבולת המוגברת ולדלילות של מודלים של MoE, מה שעלול להוביל להתמחות יתר בנתוני האימון. נדרשות אסטרטגיות רגולציה וכיוונון זהירים כדי למתן את הבעיה הזו.
  3. דרישות זיכרון: בעוד שמודלים של MoE יכולים להפחית עלויות חישוב במהלך הסקת מסקנות, לרוב יש להם דרישות זיכרון גבוהות יותר בהשוואה לדגמים צפופים בגודל דומה. הסיבה לכך היא שכל משקלי המומחים צריכים להיטען לזיכרון, למרות שרק תת-קבוצה מופעלת עבור כל קלט. אילוצי זיכרון יכולים להגביל את יכולת ההרחבה של מודלים של MoE במכשירים מוגבלי משאבים.
  4. איזון עומסים: כדי להשיג יעילות חישובית אופטימלית, חיוני לאזן את העומס על פני מומחים, ולהבטיח שאף מומחה אחד לא יעומס בעוד שאחרים יישארו לא מנוצלים. איזון עומסים זה מושג בדרך כלל באמצעות הפסדי עזר במהלך האימון וכוונון קפדני של גורם הקיבולת, שקובע את המספר המרבי של אסימונים שניתן להקצות לכל מומחה.
  5. תקשורת תקורה: בתרחישי הכשרה והסקת מסקנות מבוזרות, מודלים של MoE יכולים להכניס תקורה נוספת לתקשורת עקב הצורך להחליף מידע הפעלה ושיפוע בין מומחים המתגוררים במכשירים או מאיצים שונים. אסטרטגיות תקשורת יעילות ועיצוב מודלים מודע לחומרה חיוניים כדי להפחית את התקורה הזו.

למרות האתגרים הללו, היתרונות הפוטנציאליים של מודלים של MoE באפשרות מודלים של שפה גדולים ובעלי יכולת גבוהה יותר, הניעו מאמצי מחקר משמעותיים לטפל בבעיות אלו ולמתן אותן.

דוגמה: Mixtral 8x7B ו-GLaM

כדי להמחיש את היישום המעשי של MoE במודלים של שפות, הבה נבחן שתי דוגמאות בולטות: Mixtral 8x7B ו-GLaM.

Mixtral 8x7B הוא גרסת MoE של מודל שפה מיסטרל, שפותח על ידי אנתרופיק. היא מורכבת משמונה מומחים, כל אחד עם 7 מיליארד פרמטרים, מה שמביא לסך של 56 מיליארד פרמטרים. עם זאת, במהלך מסקנות, רק שני מומחים מופעלים לכל אסימון, מה שמפחית למעשה את העלות החישובית לזו של מודל צפוף של 14 מיליארד פרמטרים.

Mixtral 8x7B הפגין ביצועים מרשימים, ביצועים טובים יותר מדגם ה-Llama של 70 מיליארד פרמטרים תוך שהוא מציע זמני מסקנות מהירים בהרבה. גרסה מכווננת להוראות של Mixtral 8x7B, הנקראת Mixtral-8x7B-Instruct-v0.1, שוחררה גם היא, מה שמשפר עוד יותר את היכולות שלה במעקב אחר הוראות בשפה טבעית.

דוגמה נוספת ראויה לציון היא GLaM (Google Language Model), מודל MoE בקנה מידה גדול שפותח על ידי גוגל. GLaM משתמשת בארכיטקטורת שנאי מפענח בלבד והוכשרה על מערך נתונים עצום של 1.6 טריליון אסימון. הדגם משיג ביצועים מרשימים בהערכות של מעט שוט ו-one shot, התואם את האיכות של GPT-3 תוך שימוש רק בשליש מהאנרגיה הנדרשת לאימון GPT-3.

את הצלחתה של GLaM ניתן לייחס לארכיטקטורת MoE היעילה שלה, שאפשרה אימון של מודל עם מספר עצום של פרמטרים תוך שמירה על דרישות חישוביות סבירות. המודל גם הדגים את הפוטנציאל של מודלים של MoE להיות יעילים יותר באנרגיה ובר קיימא מבחינה סביבתית בהשוואה לעמיתיהם הצפופים.

הארכיטקטורה של גרוק-1

GROK תערובת של מומחה

GROK תערובת של מומחה

גרוק-1 הוא מודל MoE מבוסס שנאי עם ארכיטקטורה ייחודית שנועדה למקסם את היעילות והביצועים. בואו נצלול לתוך מפרטי המפתח:

  1. פרמטרים: עם 314 מיליארד פרמטרים מדהימים, Grok-1 הוא ה-LLM הפתוחה הגדול ביותר עד כה. עם זאת, הודות לארכיטקטורת MoE, רק 25% מהמשקלים (כ-86 מיליארד פרמטרים) פעילים בכל זמן נתון, מה שמשפר את יכולות העיבוד.
  2. אדריכלות: Grok-1 משתמש בארכיטקטורת Mixture-of-8-Experts, כאשר כל אסימון מעובד על ידי שני מומחים במהלך ההסקה.
  3. שכבות: הדגם מורכב מ-64 שכבות שנאי, שכל אחת מהן משלבת תשומת לב מרובה ראשים ובלוקים צפופים.
  4. טוקניזציה: Grok-1 משתמש באסימונים של SentencePiece עם גודל אוצר מילים של 131,072 אסימונים.
  5. הטבעות וקידוד מיקום: המודל כולל הטמעות של 6,144 מימדים ומשתמש בהטבעות מיקום סיבוביות, המאפשרות פרשנות דינמית יותר של נתונים בהשוואה לקידוד מיקום קבוע מסורתי.
  6. תשומת הלב: Grok-1 משתמש ב-48 ראשי קשב עבור שאילתות ו-8 ראשי קשב עבור מפתחות וערכים, כל אחד בגודל של 128.
  7. אורך הקשר: המודל יכול לעבד רצפים באורך של עד 8,192 אסימונים, תוך ניצול דיוק bfloat16 לחישוב יעיל.

פרטי ביצועים ויישום

Grok-1 הפגין ביצועים מרשימים, ביצועים טובים יותר מ-LAMa 2 70B ו-Mixtral 8x7B עם ציון MMLU של 73%, מה שמציג את היעילות והדיוק שלו בבדיקות שונות.

עם זאת, חשוב לציין ש- Grok-1 דורש משאבי GPU משמעותיים בשל גודלו העצום. ההטמעה הנוכחית במהדורת הקוד הפתוח מתמקדת באימות נכונות המודל ומשתמשת ביישום שכבת MoE לא יעיל כדי להימנע מהצורך בקרנלים מותאמים אישית.

עם זאת, הדגם תומך בפיצול הפעלה ובקוונטיזציה של 8 סיביות, שיכולים לייעל את הביצועים ולהפחית את דרישות הזיכרון.

בצעד מדהים, xAI שחררה את Grok-1 תחת רישיון Apache 2.0, מה שהופך את המשקלים והארכיטקטורה שלו לנגישים לקהילה הגלובלית לשימוש ולתרומות.

מהדורת הקוד הפתוח כוללת מאגר קוד לדוגמה של JAX המדגים כיצד לטעון ולהפעיל את מודל Grok-1. משתמשים יכולים להוריד את משקלי המחסום באמצעות לקוח טורנט או ישירות דרך HuggingFace Hub, מה שמאפשר גישה נוחה למודל פורץ דרך זה.

העתיד של תמהיל מומחים במודלים של שפה

ככל שהביקוש למודלים גדולים ובעלי יכולת שפה ממשיכה לגדול, האימוץ של טכניקות MoE צפוי לצבור תאוצה נוספת. מאמצי המחקר המתמשכים מתמקדים בטיפול באתגרים הנותרים, כגון שיפור יציבות האימון, הפחתת התאמת יתר במהלך כוונון עדין ואופטימיזציה של דרישות הזיכרון והתקשורת.

כיוון אחד מבטיח הוא חקר ארכיטקטורות MoE היררכיות, כאשר כל מומחה עצמו מורכב ממספר מומחי משנה. גישה זו עשויה לאפשר מדרגיות ויעילות חישובית רבה עוד יותר תוך שמירה על כוח הביטוי של מודלים גדולים.

בנוסף, פיתוח מערכות חומרה ותוכנה המותאמות למודלים של MoE הוא תחום מחקר פעיל. מאיצים מיוחדים ומסגרות הדרכה מבוזרות שנועדו לטפל ביעילות בדפוסי החישוב הדל והמותנה של מודלים של MoE יכולים לשפר עוד יותר את הביצועים ואת יכולת ההרחבה שלהם.

יתרה מזאת, השילוב של טכניקות MoE עם התקדמות אחרות במודלים של שפה, כגון מנגנוני קשב דל, אסטרטגיות אסימון יעילות וייצוגים רב-מודאליים, עשוי להוביל למודלים של שפה חזקים ורב-תכליתיים אפילו יותר המסוגלים להתמודד עם מגוון רחב של משימות.

סיכום

טכניקת Mixture-of-Experts התגלתה ככלי רב עוצמה בחיפוש אחר מודלים של שפה גדולים ובעלי יכולת. על ידי הפעלה סלקטיבית של מומחים בהתבסס על נתוני הקלט, מודלים של MoE מציעים פתרון מבטיח לאתגרים החישוביים הקשורים בהגדלת מודלים צפופים. למרות שעדיין יש אתגרים להתגבר עליהם, כגון אי יציבות באימון, התאמה יתר ודרישות זיכרון, היתרונות הפוטנציאליים של מודלים של MoE במונחים של יעילות חישובית, מדרגיות וקיימות סביבתית הופכים אותם לתחום מרגש של מחקר ופיתוח.

מכיוון שתחום עיבוד השפה הטבעית ממשיך לדחוף את הגבולות של מה שאפשרי, אימוץ טכניקות MoE עשוי למלא תפקיד מכריע בהפעלת הדור הבא של מודלים של שפה. על ידי שילוב של MoE עם התקדמות אחרות בארכיטקטורת מודלים, טכניקות אימון ואופטימיזציה של חומרה, אנו יכולים לצפות למודלים חזקים ורב-תכליתיים אף יותר, שיכולים באמת להבין ולתקשר עם בני אדם בצורה טבעית וחלקה.

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.