Connect with us

Zephyr-7B : HuggingFaceโ€™s Hyper-Optimized LLM Built on Top of Mistral 7B

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

Zephyr-7B : HuggingFaceโ€™s Hyper-Optimized LLM Built on Top of Mistral 7B

mm
Zypher 7B

מבוא

התפתחותם של מודלי שפה גדולים פתוחים (LLM) השפיעה במידה ניכרת על קהילת המחקר בתחום האינטליגנציה המלאכותית, במיוחד בפיתוח צ’אטבוטים ויישומים דומים. לאחר יציאתם של מודלים כגון LLaMA, חלה עלייה במחקר בנושאי עדינות יעילה, טיפול בפרומפטים מורחב, יצירה משופרת עם אחזור (RAG) וקוונטיזציה.

מודל LLaMA, למשל, סימן תקופה חדשה בעדינות והקשר עם פרומפט, ופתח את הדרך למודלים מאוחרים יותר כגון MPT של MosaicML, RedPajama-INCITE של Together AI, Falcon של TII ו-Llama 2 של Meta. כל אחד ממודלים אלו תורם יכולות ייחודיות, משפר את התפקוד הכללי ואת היקף ה-LLM.

Mistral AI, סטארט-אפ מפריז שנוסד על ידי עובדים לשעבר של Google DeepMind ו-Meta, עשה לעצמו שם עם ההצעה הראשונה שלו: Mistral 7B.

יתרונו של Mistral 7B טמון ביעילותו, והוא מספק יכולות דומות או משופרות בהשוואה לעמיתים כגון Llama 2, אך עם פחות דרישות חישוביות.

במיוחד, Mistral 7B Instruct מצטיין במשימות הוראה, ובלט בפלטפורמות כגון Hugging Face, שם הוא עוקף מודלים אחרים באותו גודל ומתחרה בצמוד עם אלו שיש להם כמעט פי שניים פרמטרים.

בנייה על כך, Hugging Face הציגה Zephyr 7B Alpha, והראתה כי מודל Mistral 7B מעודן יכול לעקוף את היכולות של מודלים גדולים יותר ואף להתחרות ב-GPT-4 בחלק מהמשימות. ה-“Alpha” היה רק ההתחלה, כי Zephyr 7B Beta הופיע זמן קצר לאחר מכן.

מאמר זה יחקור כיצד Zephyr 7B מנצל את כוחם של מודלים גדולים יותר כדי לשפר את יכולתו להגיב ולהתאים להוראות אנושיות, תהליך המתאפשר דרך שיטת התהליך של עיבוי ידע. שיטה זו כוללת אימון מודלים קטנים יותר על בסיס הדפוסים המורכבים שלמדו מודלים גדולים יותר, תוך הפחתת דרישות האימון מבלי לוותר על יכולות המודל.

עיבוי ידע

חידוש מרכזי בפיתוח מודלים כגון Zephyr-7B הוא עיבוי ידע מפורט (dSFT). שיטה זו כוללת שימוש בפלט ממודל “מורה” גדול יותר ומתקדם יותר כדי לאמ

ื‘ื™ืœื™ืชื™ ืืช ื—ืžืฉ ื”ืฉื ื™ื ื”ืื—ืจื•ื ื•ืช ื‘ื˜ื‘ื™ืœื” ื‘ืขื•ืœื ื”ืžืจืชืง ืฉืœ ืœืžื™ื“ืช ืžื›ื•ื ื” ื•ืœืžื™ื“ื” ืขืžื•ืงื”. ืชืฉื•ืงืชื™ ื•ืžื•ืžื—ื™ื•ืชื™ ื”ื•ื‘ื™ืœื• ืื•ืชื™ ืœืชืจื•ื ืœื™ื•ืชืจ ืž-50 ืคืจื•ื™ืงื˜ื™ื ืฉื•ื ื™ื ืฉืœ ื”ื ื“ืกืช ืชื•ื›ื ื”, ืขื ื“ื’ืฉ ืžื™ื•ื—ื“ ืขืœ AI/ML. ืกืงืจื ื•ืชื™ ื”ืžืชืžืฉื›ืช ื’ื ื”ื•ื‘ื™ืœื” ืื•ืชื™ ืœืขื‘ืจ ืขื™ื‘ื•ื“ ืฉืคื” ื˜ื‘ืขื™ืช, ืชื—ื•ื ืฉืื ื™ ืฉื•ืืฃ ืœื—ืงื•ืจ ืขื•ื“.

ื’ื™ืœื•ื™ ื ืื•ืช ืœืžืคืจืกืžื™ื: Unite.AI ืžื—ื•ื™ื‘ืช ืœืกื˜ื ื“ืจื˜ื™ื ืžืขืจื›ืชื™ื™ื ืžื—ืžื™ืจื™ื ื›ื“ื™ ืœืกืคืง ืœืงื•ืจืื™ื ืžื™ื“ืข ื•ื—ื“ืฉื•ืช ืžื“ื•ื™ืงื™ื. ื™ื™ืชื›ืŸ ืฉื ืงื‘ืœ ืชื’ืžื•ืœ ื›ืืฉืจ ืชืœื—ืฆื• ืขืœ ืงื™ืฉื•ืจื™ื ืœืžื•ืฆืจื™ื ืฉืกืงืจื ื•.