בינה מלאכותית

Zephyr-7B: ה-LLM המותאם במיוחד של HuggingFace שנבנה על גבי Mistral 7B

מְעוּדכָּן on 23 בנובמבר 2023

מבוא

האבולוציה של מודלים של שפות גדולות פתוחות (LLMs) השפיעה באופן משמעותי על קהילת המחקר של AI, במיוחד בפיתוח צ'אטבוטים ויישומים דומים. לאחר שחרור דגמים כמו LLaMA, חלה עלייה במחקר על כוונון עדין יעיל, טיפול מהיר מורחב, אחזור מוגבר (RAG) וקונטיזציה.

מודל LLaMA, למשל, סימן עידן חדש בכוונון עדין והקשר מהיר, סלל את הדרך לדגמים הבאים כמו MPT של MosaicML, RedPajama-INCITE של Together AI, Falcon של TII ו-Llama 2 של Meta. כל אחד מהדגמים הללו תורם יכולות ייחודיות , שיפור הפונקציונליות וההיקף הכוללים של LLMs.

Mistral AI, סטארט-אפ מפריז ונוסדה על ידי עובדי Google DeepMind ו-Meta לשעבר, עשתה לעצמה שם עם ההצעה הראשונה שלה: Mistral 7B.

היתרון של Mistral 7B טמון ביעילות שלו, ומספק יכולות דומות או משופרות בהשוואה לעמיתים כמו Llama 2 אך עם פחות ביקוש חישובי.

מכוון במיוחד למשימות הדרכה, Mistral 7B Instruct זורח בפלטפורמות כמו Hugging Face, שם הוא עולה על דגמים אחרים באותו גודל ומתחרה מקרוב באלו שיש להם כמעט פי שניים את הפרמטרים שלו.

בהתבסס על זה, הציג Hugging Face Zephyr 7B Alpha, המציג כי Mistral 7B מכוונן עדין יכול אכן להתעלות על היכולות של דגמי צ'אט גדולים משמעותית, ובמשימות מסוימות, אפילו להתחרות ב-GPT-4. ה"אלפא" היה רק ההתחלה, כמו זפיר 7B בטא בעקבותיו זמן קצר.

מאמר זה יחקור כיצד Zephyr 7B ממנפת את הכוח של מודלים גדולים יותר כדי לחדד את יכולתו להגיב ולהתיישר עם הוראה אנושית, תהליך המתאפשר באמצעות טכניקת זיקוק ידע. שיטה זו כוללת הכשרה של מודלים קטנים יותר על הדפוסים המורכבים שנלמדו על ידי גדולים יותר, תוך הפחתת דרישות האימון מבלי לוותר על יכולות מודל השפה. נעמיק בפרטים של גישת זיקוק הידע של Hugging Face.

זיקוק ידע

חידוש מרכזי בפיתוח דגמים כמו Zephyr-7B הוא מזוקק בפיקוח עדין (dSFT). שיטה זו כוללת שימוש בפלט ממודל 'מורה' גדול ויכול יותר כדי להכשיר מודל 'תלמיד' קטן יותר, תוך שיפור הדיוק שלו. בעוד שזיקוק משפר מודלים פתוחים במשימות שונות, עדיין קיים פער בביצועים בהשוואה למודלים של מורים.

זיקוק ידע היא שיטה בלמידת מכונה שבה מודל קומפקטי, המכונה "סטודנט," מלמדים לשחזר את הביצועים של "גדול יותר ומורכב יותר"מורה"דגם. טכניקה זו מאפשרת לתלמיד לבצע משימות שהיו בעבר מעבר ליכולתו על ידי העברת הדפוסים המורכבים שלמד המורה.

זיקוק ידע | מודל מורה-תלמיד

מודל התלמיד מתאמן על ההסתברויות או התכונות של הפלט שנוצרו על ידי מודל המורה, תוך התמקדות בהתאמת התפוקות הללו ולא רק בתחזיות הסופיות. זה מאפשר לתלמיד ללמוד את תהליכי קבלת ההחלטות בניואנסים של המורה, ולעתים קרובות מביאים לשיפור בביצועים בהשוואה לאימון עם נתוני האמת בלבד.

מבחינה היסטורית, זיקוק ידע נוצל במודלים כמו רשתות הזיקוק המקוריות של Hinton, ולאחרונה ב-NLP עם מודלים כמו DistilBERT, שזיקק את מודל BERT לגרסה קטנה ומהירה יותר השומרת על רוב יכולות הבנת השפה של המקור. דוגמה נוספת היא TinyBERT, שהולכת רחוק יותר באופטימיזציה של הגודל והמהירות עבור מכשירים ניידים או קצה.

במקרה של Zephyr-7B, נעשה שימוש בזיקוק ידע כדי להחדיר למודל פרמטר קטן יותר של 7B את היכולות של מקביליו הגדולים יותר. על ידי כך, Zephyr-7B משיג איזון בין ביצועים ויעילות, מה שהופך אותו למתאים לסביבות שבהן משאבי החישוב מוגבלים, מבלי לוותר על איכות האינטראקציה וההבנה.

בפיתוח Zephyr-7B, החוקרים התמודדו עם האתגר של יישור LLM פתוח קטן לחלוטין באמצעות זיקוק. הם הציגו גישה שנקראת אופטימיזציה של העדפה ישירה מזוקקת (dDPO), המשתמשת במשוב בינה מלאכותית מאנסמבל של מודלים של מורים כנתוני העדפה. שיטה זו, שאינה דורשת ביאור אנושי, מפחיתה משמעותית את הזמן והמשאבים הדרושים להכשרת מודלים.

בניית ZEPHYR-7B

כדי לאמת dDPO, חוקרים בנו את ZEPHYR-7B, גרסה מיושרת של דגם Mistral-7B. התהליך כלל שלושה שלבים:

dSFT באמצעות מערך הנתונים של UltraChat:Distilled Supervised Fine-Tuning (dSFT) היא שיטה מתקדמת לאימון מודלים של שפה גדולה (LLMs) על ידי מינוף התפוקה של מודלים "מורים" גדולים ובעלי יכולת גבוהה יותר. זה מתחיל עם LLM גולמי אשר מאומן להגיב להנחיות המשתמש. בניגוד לכוונון עדין מפוקח מסורתי (SFT) המשתמש במערך נתונים קבוע, dSFT משתמש בגישה דינמית שבה המודל עצמו מייצר הוראות ותגובות. שיטה זו, המכונה הוראה עצמית, כוללת שימוש במודל המורה גם כדי לענות וגם לחדד הוראות המבוססות על תגובות. התהליך מתחיל עם קבוצה של הנחיות ראשוניות (x₀₁, x₀₂, …, x₀_J) המייצגות נושאים מגוונים. כל הנחיה מתעדנת באופן איטרטיבי: עבור הנחיה נתונה x₀, תגובה y₀ נוצרת על ידי מודל המורה, ולאחר מכן נדגמת הוראה חדשה x₁ המבוססת על x₀ ו- y₀. מערך הנתונים הסופי C = {(x₁, y₁), …, (x_J, y_J)} משמש לכוונון עדין של המודל.
שילוב נתוני משוב בינה מלאכותית מ-UltraFeedback:נתונים אלו היו חיוניים לחידוד תגובות המודל. בשלב זה, המודל יוצר תגובות להנחיות שונות (כמו תיאור כיצד להכין בראוניז שוקולד) אשר לאחר מכן מדורגות לפי דגם מתקדם יותר כגון GPT-4. התגובה עם הניקוד הגבוה ביותר (yw) ותגובה עם הניקוד הנמוך שנבחר באקראי (yl) יוצרים מערך משוב D.
החלת dDPO:השלב האחרון, אופטימיזציה של העדפות מזוקקות (dDPO), כולל חידוד מודל dSFT על ידי מקסום ההסתברות לדירוג התגובות המועדפות גבוה יותר. זה מושג על ידי שימוש בפונקציית תגמול rθ(x, y) במודל ההעדפה, המבוסס על מדיניות LLM האופטימלית π* והמדיניות המקורית πdSFT. מטרת האופטימיזציה מנוסחת כ-πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), מה שמפשט את תהליך האימון על ידי התחלת גרסת dSFT של המודל ואיטרציה דרך כל משולשת AIF.

השיטה המשמשת ב-Zephyr-7B משקפת את התהליכים המשמשים ב-InstructGPT.

למרבה הפלא, Zephyr-7B משיג ביצועים הדומים לדגמים גדולים בהרבה של 70B פרמטרים המיושרים עם משוב אנושי. הוא מצטיין הן באמות מידה אקדמיות והן ביכולות שיחה, המדגיש את האפקטיביות של למידת העדפות בפיתוח מודלים. לחקירה נוספת, דגמים, קוד והוראות זמינים בכתובת מאגר GitHub של Hugging Face.

התמודדות עם האתגר של יישור כוונות

דאגה בולטת עם LLMs הייתה ההתאמה שלהם עם הכוונה האנושית. מודלים קודמים לא הצליחו לעתים קרובות לייצר תגובות שתואמות את העדפות המשתמש, מה שהוביל לתשובות לא מדויקות או לא רלוונטיות. עם זאת, אמות מידה אחרונות כמו MT-Bench ו-AlpacaEval סיפקו כלים לכימות ולשפר היבט זה, תוך הדגשת הביצועים המעולים של מודלים קנייניים שהוכשרו עם משוב אנושי על פני אלו שהוכשרו אך ורק באמצעות זיקוק.

שיטות הערכה

ההערכה של Zephyr 7B כללה בדיקות קפדניות על פני אמות מידה שמעריכות את יכולות השיחה של המודל בהקשרים בודדים וגם בהקשרים מרובי פניות:

MT-ספסל: אמת מידה מרובה פניות זה דורשת מודל שיענה על 160 שאלות המשתרעות על פני שמונה תחומים. כל תגובה מדורגת לפי GPT-4, כאשר הציון הסופי של המודל משקף את הממוצע על פני שני סבבי שאלות.
AlpacaEval: בהשוואה חד-פעולה זו, המודל מוצג עם 805 שאלות על פני נושאים שונים. ההתמקדות כאן היא ביעילות של המודל, כאשר GPT-4 ניקוד את התגובות כדי לקבוע שיעור זכייה השוואתי.

בנוסף, Zephyr 7B נבדק ב-Open LLM Leaderboard, שאמנם אינו מהווה הערכה ישירה של כישורי שיחה, אך מציע תובנות לגבי ההיגיון והאמת של המודל לאחר כוונון עדין.

Zephyr 7B הושווה למגוון דגמים פתוחים וקנייניים, כולל כאלו עם גדלים ושיטות יישור שונות. היא קבעה אמות מידה חדשות עבור מודלים 7B ב-MT-Bench ו-AlpacaEval והראתה ביצועים תחרותיים מול מודלים גדולים יותר, ואימתה את היעילות של אופטימיזציה של העדפה ישירה (dDPO) באימונים.

שלבי ההכשרה של SFT ו-DPO הוגדרו בקפידה, תוך שהם משתרעים על פני תקופות מרובות ומכוונים עדין את קצבי הלמידה וגדלי האצווה לביצועים מיטביים. המודל הסופי של Zephyr הופיע לא רק עמיד בפני התאמת יתר, אלא גם השתפר בהתמודדות עם משימות מעשיות ואמות מידה אקדמיות.

מערכי נתונים ותוצאות

ערכות נתונים בשימוש

בפיתוח של Zephyr-7B, שני מערכי נתונים מרכזיים שימשו כדי לאמן ולחדד את המודל, כל אחד מתייחס להיבטים שונים של יצירת דיאלוג:

ערכת נתונים של UltraChat

מָקוֹר: פותח מדיאלוגים שנוצרו על ידי GPT-3.5-TURBO.
תוכן: מכיל 1.47 מיליון דיאלוגים מרובי פניות על פני 30 נושאים ו-20 סוגי חומר טקסט.
עֲדִינוּת: מערך הנתונים עבר היוריסטיקה של Truecasing לתיקון בעיות דקדוקיות, ומסננים הוחלו כדי להגביר את המועילות של התגובות ולמנוע ביטויי הקדמה לא מועילים.

ערכת נתונים אולטרה משוב

מָקוֹר: כולל הנחיות שהוערכו על ידי GPT-4, אשר דירג תגובות על סמך מעקב אחר הוראות, כנות ועזרה.
תוכן: כולל 64,000 הנחיות עם ארבע תגובות כל אחת, בדירוג GPT-4.
העדפות בינאריות: נוצר על ידי בחירת התגובה עם הציון הממוצע הגבוה ביותר כ"נבחר" ואקראי מבין הנותרים כ"נדחה" כדי לשפר את הגיוון ולאתגר את תהליך אופטימיזציית העדפות ישירה (DPO).

שני מערכי הנתונים חיוניים לאימון Zephyr-7B להבנה ויצירת דיאלוג דמוי אנושי שעוקב אחר הוראות, ישר ומועיל. מערכי נתונים אלה הפכו לזמינים ב-Hugging Face Hub, אליו אתה יכול לגשת כאן.

ביצועים ותוצאות

התרשים שלהלן ממחיש את הביצועים של Zephyr 7B על פני קטגוריות משימות שונות מול דגמים אחרים כגון GPT-3.5-turbo, Claude 1, GPT-4 ו-Llama-2-70b-chat. הקטגוריות עשויות לכלול כתיבה, מדעי הרוח, משחק תפקידים, הנמקה, STEM, מיצוי, קידוד ומתמטיקה.

מהתרשים, אנו יכולים להסיק באילו תחומים Zephyr 7B מצטיין ואילו תחומים עשויים להזדקק לשיפור נוסף. לדוגמה, אם הקו של זפיר נמתח יותר על ציר הכתיבה בהשוואה לאחרים, זה מצביע על כך שזפיר חזק במיוחד ביצירת תוכן כתוב. לעומת זאת, אם הקו קרוב יותר למרכז בציר המתמטיקה, זה עשוי להצביע על חולשה יחסית בפתרון בעיות מתמטיות.

תרשים המכ"ם מסייע בזיהוי החוזקות והחולשות של Zephyr 7B, ומספק ייצוג חזותי של המקום בו הוא עומד מול דגמים גדולים יותר כמו GPT-4 ודגמים מיוחדים כמו Llama-2-70b-chat.

תרשים מכ"ם ביצועי דגם

השוואת מודלים שונים של שפה על שני אמות מידה: MT-Bench ו-AlpacaEval. המודלים מוערכים על סמך גודלם, שיטת היישור שלהם (כגון dSFT עבור כוונון עדין בפיקוח מזוקק או dDPO עבור אופטימיזציה של העדפה ישירה מזוקקת), וציוני הביצועים. Zephyr בולט עם ציונים גבוהים בשני המדדים, מה שמצביע על יעילותו ביצירת תגובות מיושרות.

MT-Bench ו-AlpacaEval

סיכום

לסיכום, הפיתוח של Zephyr-7B מדגים שניתן להשיג יישור וזיקוק של יכולות שיחה ממודל שפה גדול (LLM) למודל קטן יותר ללא הסתמכות על שיטות מבוססות דגימה. על ידי שימוש באופטימיזציה ישירה של העדפות (DPO) עם משוב בינה מלאכותית, Zephyr-7B ממנפת את הבסיס החזק של Mistral-7B כדי להגדיר רף חדש עבור מודלים של 7B פרמטרים של צ'אט, המציג את היכולת של מודלים קטנים יותר בקוד פתוח להבין ולהגיב למשתמש כוונה ביעילות.

עם זאת, מחקר זה אינו חף ממגבלותיו. ההסתמכות על GPT-4 כמעריך עבור אמות מידה מציגה הטיה כלפי מודלים שזוקקים ממנו, ועלולה להעדיף תגובות מדויקות. בנוסף, המדרגיות של שיטה זו למודלים גדולים יותר, כגון LLAMA2-70B, והשפעתה על הישגי הביצועים נותרו תחומים למחקר נוסף. מגבלות אלו מדגישות את הצורך בחדשנות מתמשכת ובפיתוח שיטות הערכה חסרות פניות בקהילת הבינה המלאכותית.

בהסתכלות מעבר למחקר, ברור שהפוטנציאל לביצועים של דגמים קטנים יותר ברמה של עמיתים גדולים יותר יכול להפוך את הבינה המלאכותית לדמוקרטית, ולאפשר שימוש נגיש ויעיל יותר ביישומים שונים. ההצלחה של Zephyr-7B מעודדת חקירה נוספת של מודלים של קוד פתוח, שיכולים להאיץ את התקדמות בינה מלאכותית על ידי טיפוח מחקר ופיתוח שיתופי.

נושאים קשורים:GPT LLM מיסטרל 7B צפריר Zephyr-7B

אילוצים פיזיים מניעים את האבולוציה של AI דמוי מוח

לא לפספס

7 דרכים למרכזים טלפוניים להשתמש בבינה מלאכותית כדי לפתוח זמן לסוכנים וללקוחות שלהם

עאיוש מיטל

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.