בינה מלאכותית

MPT-30B: MosaicML עולה על GPT-3 עם LLM חדש כדי לדחוף את הגבולות של NLP

יצא לאור

לפני 10 חודשים

5 ביולי 2023

בלוג מומלץ Image-MPT-30B: MosaicML עולה על GPT-3 עם LLM חדש כדי לדחוף את הגבולות של מודלים של שפה

MosaicML הוא AI ייצור חברה המספקת פתרונות פריסה ומדרגיות של AI. מודל השפה הגדול האחרון שלהם (LLM) MPT-30B מכה גלים ברחבי קהילת הבינה המלאכותית.

מסע ה-LLM של MosaicML התחיל עם שחרורו של MPT-7B (מוזאיק Pretrained Transformer) במאי 2023 שהגיע עם שלוש גרסאות:

MPT-7B-StoryWriter-65k+ (ליצירת סיפור ארוך)
MPT-7B-Instruct (להוראה קצרה בהמשך)
MPT-7B-Chat (ליצירת דיאלוג)

הדגמים זכו להצלחה עצומה בקהילת ה-ML בגלל אופי הקוד הפתוח, השימושיות המסחרית והיכולת יוצאת הדופן שלהם להתמודד עם חלונות הקשר מורחבים.

והכי חשוב, המודל היה שווה, ובמקרים מסוימים, עלה על שאר הדגמים הדומים (LLaMA-7B, StableLM 7B, וכו). עד יוני, סדרת ה-MPT-7B הורדה יותר מ-3 מיליון פעמים. ב-22 ביוני יצאה MosaicML MPT-30B מה שהעלה את הרף עוד יותר עבור מודלים של בסיס קוד פתוח.

ה-MPT-30B: LLM רב עוצמה העולה על GPT-3

MPT-30B הוא LLM מבוסס מפענח בקוד פתוח וברישיון מסחרי, שהוא חזק יותר מאשר GPT-3-175B עם רק 17% מפרמטרי GPT-3, כלומר, 30B. הוא מתעלה על GPT-3 במספר משימות. הנה השוואה בין MPT-30B ל-GPT-3.

ה-MPT-30B: LLM רב עוצמה שעולה על השוואת GPT-3-GPT3 לעומת MPT-30B

מָקוֹר

MPT-30B מתבסס על הדגם הקודם של MPT-7B. זה יעיל מבחינה חישובית לאימון בהשוואה לדגמים בגדלים דומים. לדוגמה, LLaMA-30B השתמש בתקציב FLOPs פי 1.44 בקירוב מאשר ב-MPT-30B, בעוד של-Falcon-40B היה תקציב FLOPs גבוה פי 1.27 מ-MPT-30B. הנה המחשה של השיפור של MPT-30B במשימות שונות לעומת קודמו.

ה-MPT-30B: LLM רב עוצמה שעולה על השוואת GPT-3-MPT-30B-MPT-7B

מָקוֹר

כמה תכונות מיוחדות של MPT-30B הן כדלקמן:

חלון ההקשר של 8k Token

חלון ההקשר ב-LLMs מתייחס לטווח האסימונים שהמודל יכול לשקול לפני יצירת הפלט. ל-MPT-30B היה חלון הקשר של 8000 אסימונים בזמן האימון. הוא הוכשר תחילה על 1T token באמצעות רצפי אסימונים של 2k ולאחר מכן 50B אסימונים נוספים של 8k טוקנים (בערך 6000 מילים).

תמיכת ALiBi

כדי להסביר תכונה זו, הבה נבחן שאלה:

איך MPT-30B יכול להבין ולבצע תחזיות לרצפים ארוכים יותר ממה שהוא אומן עליו?

MPT-30B משתמש ב- תשומת לב עם הטיות ליניאריות (ALiBi) טכניקה להבנת רצפים ארוכים יותר ולהרחיב את חלון ההקשר מעבר ל-8k אסימונים במהלך כוונון עדין או מסקנות.

במקום לחשב הטמעות מיקום שבהן אנו מקצים וקטור לכל מילה ברצף, ALiBi מחשבת את ציוני הקשב בין אסימוני מפתח ואסימוני שאילתה. כאשר אסימוני המפתח ואסימוני השאילתה קרובים זה לזה, העונש נמוך אך גבוה יותר. כתוצאה מכך, הבסיס ארכיטקטורת שנאים יכול לבצע אקסטרפולציה לתשומות ארוכות.

ביצועי הסקה ואימון יעילים באמצעות FlashAttention

תשומת לב, כלומר, התמקדות בחלקים רלוונטיים של רצף הקלט, היא מרכיב קריטי של שנאים, אך היא יכולה להיות אטית ועתירת זיכרון, במיוחד בעת עיבוד רצפי טקסט ארוכים.

FlashAttention היא גישה שהוצעה על ידי חוקרים מאוניברסיטת קורנל המטפלת בבעיה זו עבור MPT-30B. באמצעות טכניקה הנקראת ריצוף, FlashAttention מפחית את מספר הפעמים שהמודל צריך לקרוא או לכתוב לזיכרון, מה שמאיץ את העיבוד. לפיכך, המודל משתמש בטכניקת FlashAttention המתקדמת ובטכניקת NVIDIA FasterTransformer ספריית אופטימיזציה לאימון יעיל והסקת מסקנות.

קלות ההדרכה והפריסה

מפתחים יכולים לאמן את MPT-30B מאפס או להשתמש בנקודות המחסום של MosaicML לפריסות מהירות יותר. כמו כן, ניתן לכוונן אותו למקרי שימוש ספציפיים לתחום במערך נתונים מסוים.

גודל הדגם נבחר כדי לאפשר פריסה ללא מאמץ על GPU יחיד, במיוחד 1xA100-80GB בדיוק של 16 סיביות או 1xA100-40GB בדיוק של 8 סיביות. המשמעות היא שהדגם תוכנן כך שיתאים למגבלות הזיכרון של ה-GPUs הללו.

יכולות קידוד

MPT-30B מספק גם יכולות קידוד יוצאות דופן. HumanEval הוא מערך נתונים ששוחרר על ידי OpenAI המכיל 164 בעיות תכנות בעבודת יד. במערך הנתונים של HumanEval, המודל עולה על דגמי LLM ייעודיים, כגון StarCoder סדרה.

מָקוֹר

גרסאות מכוונות: MPT-30B-Instruct ו-MPT-30B-Chat

MPT-30B-Instruct

LLMs משמשים בעיקר להוראות כגון מענה לשאלות, סיכום טקסט, תרגום שפה וכו'. MPT-30B-Instruct הוא גרסה שמיש מסחרית (שומרת על רישיון מסחרי CC-By-SA-3.0) של MPT-30B המכווננת במיוחד עבור הדרכה בעקבות משימות. עבור כוונון עדין, נעשה שימוש במערכי הנתונים הבאים:

פלַאן
P3
אלפקה
דולי-15k

מערך הנתונים של דולי הוגדל עוד יותר עם מערך הנתונים המועיל והבלתי מזיק של Anthropic עבור כוונון עדין של הוראה. בנוסף, נעשה שימוש במגוון רחב של מערכי נתונים להגדלת נתונים, שהם כדלקמן:

CompetitionMath
GradeSchoolMath
DialogSum
DuoRC
QASPER
איכות
Summscreen
עכביש

MPT-30B-Chat

MPT-30B-Chat היא גרסה מעודנת של MPT-30B ליצירת דיאלוגים. זהו חפץ מחקר שפורסם תחת רישיון CC-By-NC-SA-4.0, המאפשר שימוש לא מסחרי בלבד. המודל כוונן היטב באמצעות מערכי נתונים שונים של שפות, כולל:

Airoboros/GPT4-1.2
בייז
קאמל
GPTeacher
גואנקו
כיסויים ארוכים
ShareGPT
WizardLM

LLMs חולקים נתח גדול של מיליארדי דולרים רבים שוק ה-AI הגנרטיבי, שחווה צמיחה אדירה תוך זמן קצר לאחר ש-ChatGPT חולל מהפכה בנוף בשנה שעברה. משפחת MPT היא חלק בסיסי במהפכה זו. בעתיד הקרוב, אנו יכולים לצפות לראות דגמי קוד פתוח זמינים מסחרית שהם הרבה יותר חזקים ויעילים ממשפחת MPT.

לחדשות הבינה המלאכותיות האחרונות, בקר unite.ai.