בדל בתוך DBRX: Databricks משחררת LLM רב עוצמה בקוד פתוח - Unite.AI
צור קשר

בינה מלאכותית

בתוך DBRX: Databricks משחררת LLM רב עוצמה בקוד פתוח

mm
מְעוּדכָּן on
DBRX: A New State-of-the-Art Open LLM

בתחום המתקדם במהירות של מודלים של שפה גדולה (LLMs), צץ מודל חזק חדש - DBRX, מודל קוד פתוח שנוצר על ידי Databricks. LLM זה מכה גלים עם הביצועים החדישים שלו על פני מגוון רחב של אמות מידה, אפילו מתחרה ביכולות של ענקיות התעשייה כמו GPT-4 של OpenAI.

DBRX מייצג אבן דרך משמעותית בדמוקרטיזציה של בינה מלאכותית, ומספק לחוקרים, מפתחים וארגונים גישה פתוחה למודל שפה ברמה העליונה. אבל מה זה בעצם DBRX, ומה עושה אותו כל כך מיוחד? בצלילה טכנית עמוקה זו, נחקור את הארכיטקטורה החדשנית, תהליך ההכשרה ויכולות המפתח שהניעו את DBRX לחזית הנוף הפתוח של LLM.

לידתו של DBRX יצירת DBRX נבעה מהמשימה של Databricks להנגיש את מודיעין הנתונים לכל הארגונים. כמובילה בפלטפורמות לניתוח נתונים, Databricks זיהתה את הפוטנציאל העצום של LLMs ויצאה לפתח מודל שיכול להתאים או אפילו לעלות על הביצועים של הצעות קנייניות.

לאחר חודשים של מחקר אינטנסיבי, פיתוח והשקעה של מיליוני דולרים, צוות Databricks השיג פריצת דרך עם DBRX. הביצועים המרשימים של המודל במגוון רחב של אמות מידה, כולל הבנת שפה, תכנות ומתמטיקה, ביססו אותו היטב כמדינה חדישה בלימודי LLM פתוחים.

אדריכלות חדשנית

הכוח של תערובת מומחים בליבת הביצועים יוצאי הדופן של DBRX טמון ארכיטקטורת תערובת המומחים החדשנית (MoE). עיצוב חדשני זה מייצג סטייה מדגמים צפופים מסורתיים, תוך אימוץ גישה דלילה המשפרת הן את יעילות האימון המקדים והן את מהירות ההסקה.

במסגרת MoE, רק קבוצה נבחרת של רכיבים, הנקראת "מומחים", מופעלת עבור כל קלט. התמחות זו מאפשרת למודל להתמודד עם מגוון רחב יותר של משימות עם מיומנות רבה יותר, תוך אופטימיזציה של משאבי החישוב.

DBRX לוקח את הרעיון הזה עוד יותר רחוק עם ארכיטקטורת ה-MoE העדינה שלו. שלא כמו דגמי MoE אחרים המשתמשים במספר קטן יותר של מומחים גדולים יותר, DBRX מעסיקה 16 מומחים, כאשר ארבעה מומחים פעילים עבור כל קלט נתון. עיצוב זה מספק פי 65 יותר שילובי מומחים אפשריים, התורמים ישירות לביצועים המעולים של DBRX.

DBRX מבדיל את עצמו עם מספר תכונות חדשניות:

  • קידודי מיקום רוטרי (RoPE): משפר את ההבנה של מיקומי אסימונים, חיוני ליצירת טקסט מדויק בהקשר.
  • יחידות ליניאריות מגודרות (GLU): מציג מנגנון שער המשפר את יכולתו של המודל ללמוד דפוסים מורכבים בצורה יעילה יותר.
  • תשומת לב שאילתה מקובצת (GQA): משפר את יעילות הדגם על ידי ייעול מנגנון הקשב.
  • טוקניזציה מתקדמת: משתמש בטוקניזר של GPT-4 לעיבוד תשומות בצורה יעילה יותר.

ארכיטקטורת MoE מתאימה במיוחד למודלים של שפה בקנה מידה גדול, מכיוון שהיא מאפשרת קנה מידה יעיל יותר וניצול טוב יותר של משאבי חישוב. על ידי הפצת תהליך הלמידה על פני מספר רשתות משנה מיוחדות, DBRX יכול להקצות ביעילות נתונים וכוח חישוב עבור כל משימה, תוך הבטחת תפוקה באיכות גבוהה ויעילות מיטבית.

נתוני אימון נרחבים ואופטימיזציה יעילה בעוד שהארכיטקטורה של DBRX היא ללא ספק מרשימה, הכוח האמיתי שלה טמון בתהליך האימון המוקפד ובכמות הנתונים העצומה אליה נחשפה. DBRX הוכשרה מראש על 12 טריליון אסימונים מדהימים של נתוני טקסט וקוד, שנאספו בקפידה כדי להבטיח איכות גבוהה וגיוון.

נתוני ההדרכה עובדו באמצעות חבילת הכלים של Databricks, לרבות Apache Spark לעיבוד נתונים, Unity Catalog לניהול וממשל נתונים ו-MLflow למעקב אחר ניסויים. ערכת כלים מקיפה זו אפשרה לצוות Databricks לנהל, לחקור ולחדד ביעילות את מערך הנתונים המאסיבי, מה שהניח את הבסיס לביצועים יוצאי דופן של DBRX.

כדי לשפר עוד יותר את היכולות של המודל, Databricks השתמשה בתוכנית לימודים דינמית להכשרה מקדימה, ושינתה באופן חדשני את תמהיל הנתונים במהלך האימון. אסטרטגיה זו אפשרה לעבד כל אסימון ביעילות תוך שימוש ב-36 מיליארד הפרמטרים הפעילים, מה שהביא למודל מעוגל וניתן להתאמה.

יתרה מכך, תהליך ההדרכה של DBRX עבר אופטימיזציה ליעילות, תוך מינוף של חבילת הכלים והספריות הקנייניות של Databricks, כולל Composer, LLM Foundry, MegaBlocks ו-Streaming. על ידי שימוש בטכניקות כמו לימוד תוכניות לימודים ואסטרטגיות אופטימיזציה אופטימליות, הצוות השיג שיפור כמעט פי ארבעה ביעילות המחשוב בהשוואה למודלים הקודמים שלהם.

הדרכה ואדריכלות

DBRX הוכשר באמצעות מודל חיזוי אסימון הבא על מערך נתונים אדיר של 12 טריליון אסימונים, תוך שימת דגש על טקסט וקוד. מערך הדרכה זה נחשב יעיל יותר באופן משמעותי מאלה ששימשו במודלים קודמים, ומבטיח הבנה עשירה ויכולת תגובה על פני הנחיות מגוונות.

הארכיטקטורה של DBRX היא לא רק עדות ליכולת הטכנית של Databricks אלא גם מדגישה את היישום שלה על פני מגזרים מרובים. משיפור אינטראקציות צ'טבוט ועד הפעלת משימות ניתוח נתונים מורכבות, ניתן לשלב DBRX בתחומים מגוונים הדורשים הבנת שפה ניואנסית.

באופן מדהים, DBRX Instruct אפילו מתחרה בכמה מהדגמים הסגורים המתקדמים ביותר בשוק. על פי המדידות של Databricks, הוא עולה על GPT-3.5 ותחרותי עם Gemini 1.0 Pro ו- Mistral Medium על פני אמות מידה שונות, כולל ידע כללי, חשיבה פשוטה, תכנות והיגיון מתמטי.

לדוגמה, במדד MMLU, המודד את הבנת השפה, DBRX Instruct השיגה ציון של 73.7%, תוך ביצועים טובים יותר מהציון המדווח של GPT-3.5 של 70.0%. במדד ההגיון הבריאתי של HellaSwag, DBRX Instruct השיגה ציון מרשים של 89.0%, ועלה על 3.5% של GPT-85.5.

DBRX Instruct זורח באמת, משיג דיוק יוצא דופן של 70.1% במדד HumanEval, ביצועים טובים יותר לא רק GPT-3.5 (48.1%) אלא גם דגם ה-CodeLLaMA-70B Instruct המיוחד (67.8%).

תוצאות יוצאות דופן אלו מדגישות את הרבגוניות של DBRX ואת יכולתו להצטיין במגוון רחב של משימות, מהבנת שפה טבעית ועד לתכנות מורכב ופתרון בעיות מתמטי.

הסקה יעילה ומדרגיות אחד היתרונות המרכזיים של ארכיטקטורת ה-MoE של DBRX הוא היעילות שלה במהלך ההסקה. הודות להפעלה דלילה של פרמטרים, DBRX יכול להשיג תפוקת מסקנות מהירה עד פי שניים עד פי שלושה מדגמים צפופים עם אותה ספירת פרמטרים כוללת.

בהשוואה ל-LLaMA2-70B, קוד פתוח פופולרי של LLM, DBRX לא רק מפגין איכות גבוהה יותר אלא גם מתהדר במהירות כמעט כפולה ממהירות ההסקה, למרות שיש לו בערך חצי ממספר פרמטרים פעילים. יעילות זו הופכת את DBRX לבחירה אטרקטיבית לפריסה במגוון רחב של יישומים, מיצירת תוכן ועד לניתוח נתונים ומעבר לכך.

יתרה מכך, Databricks פיתחה ערימת אימונים חזקה המאפשרת לארגונים לאמן דגמים משלהם בדרגת DBRX מאפס או להמשיך באימונים על גבי המחסומים המסופקים. יכולת זו מעצימה לעסקים למנף את מלוא הפוטנציאל של DBRX ולהתאים אותו לצרכים הספציפיים שלהם, תוך דמוקרטיזציה נוספת של הגישה לטכנולוגיית LLM מתקדמת.

הפיתוח של Databricks של מודל DBRX מסמן התקדמות משמעותית בתחום למידת המכונה, במיוחד באמצעות השימוש בכלים חדשניים מקהילת הקוד הפתוח. מסע הפיתוח הזה מושפע באופן משמעותי משתי טכנולוגיות מרכזיות: ספריית MegaBlocks ומערכת Fully Sharded Data Parallel (FSDP) של PyTorch.

MegaBlocks: שיפור יעילות MoE

השמיים מגה-בלוקים הספרייה עוסקת באתגרים הקשורים לניתוב הדינמי בשכבות של Mixture-of-Experts (MoEs), מכשול נפוץ בשינוי קנה מידה של רשתות עצביות. מסגרות מסורתיות מטילות לרוב מגבלות שמפחיתות את יעילות המודל או מתפשרות על איכות הדגם. עם זאת, MegaBlocks מגדירה מחדש את חישוב ה-MoE באמצעות פעולות דל-בלוקים המנהלות בצורה מיומנת את הדינמיות הפנימית בתוך MoEs, ובכך נמנעות מפשרות אלו.

גישה זו לא רק שומרת על שלמות האסימונים אלא גם מתיישרת היטב עם יכולות GPU מודרניות, ומאפשרת זמני אימון מהירים עד 40% בהשוואה לשיטות מסורתיות. יעילות כזו חיונית להדרכה של דגמים כמו DBRX, המסתמכים במידה רבה על ארכיטקטורות MoE מתקדמות כדי לנהל את ערכות הפרמטרים הנרחבות שלהם ביעילות.

PyTorch FSDP: קנה מידה גדול של מודלים

מקבילה של נתונים מפוצלים לחלוטין של PyTorch (FSDP) מציגה פתרון חזק לאימון דגמים גדולים במיוחד על ידי אופטימיזציה של פיצול פרמטרים והפצה על פני התקני מחשוב מרובים. תוכנן משותף עם רכיבי PyTorch מפתח, FSDP משתלב בצורה חלקה, ומציע חווית משתמש אינטואיטיבית הדומה להגדרות הדרכה מקומיות אך בקנה מידה גדול בהרבה.

העיצוב של FSDP מטפל בחוכמה בכמה בעיות קריטיות:

  • חוויית משתמש: זה מפשט את ממשק המשתמש, למרות התהליכים האחוריים המורכבים, מה שהופך אותו לנגיש יותר לשימוש רחב יותר.
  • הטרוגניות חומרה: הוא מותאם לסביבות חומרה מגוונות כדי לייעל את ניצול המשאבים ביעילות.
  • ניצול משאבים ותכנון זיכרון: FSDP משפר את השימוש במשאבים חישוביים תוך צמצום תקורה של זיכרון, דבר חיוני עבור דגמי אימון הפועלים בקנה מידה של DBRX.

FSDP לא רק תומך במודלים גדולים יותר ממה שהיה אפשר בעבר במסגרת ה-Distributed Data Parallel, אלא גם שומר על מדרגיות כמעט ליניארית מבחינת תפוקה ויעילות. יכולת זו הוכחה כחיונית עבור ה-DBRX של Databricks, ומאפשרת לו להתרחב על פני מספר GPUs תוך ניהול יעיל של מספר הפרמטרים העצום שלו.

נגישות ואינטגרציות

בהתאם למשימתה לקדם גישה פתוחה לבינה מלאכותית, Databricks הפכה את DBRX לזמין דרך ערוצים רבים. המשקולות הן של דגם הבסיס (DBRX Base) והן של הדגם המכוונן (DBRX Instruct) מתארחים בפלטפורמת Hugging Face הפופולרית, מה שמאפשר לחוקרים ולמפתחים להוריד ולעבוד עם הדגם בקלות.

בנוסף, מאגר דגמי DBRX זמין ב-GitHub, מספק שקיפות ומאפשר חקירה נוספת והתאמה אישית של קוד המודל.

תפוקת מסקנות עבור תצורות דגמים שונות בתשתית ההגשה האופטימלית שלנו באמצעות NVIDIA TensorRT-LLM בדיוק של 16 סיביות עם דגלי האופטימיזציה הטובים ביותר שיכולנו למצוא.

עבור לקוחות Databricks, DBRX Base ו-DBRX Instruct נגישות בנוחות באמצעות ממשקי ה-API של Databricks Foundation Model, המאפשרים אינטגרציה חלקה בזרימות עבודה ויישומים קיימים. זה לא רק מפשט את תהליך הפריסה אלא גם מבטיח ניהול נתונים ואבטחה עבור מקרי שימוש רגישים.

יתר על כן, DBRX כבר שולבה במספר פלטפורמות ושירותים של צד שלישי, כגון You.com ו-Perplexity Labs, מה שמרחיב את טווח ההגעה והיישומים הפוטנציאליים שלו. האינטגרציות הללו מדגימות את העניין הגובר ב-DBRX וביכולותיה, כמו גם את האימוץ ההולך וגובר של LLMs פתוחים בתעשיות שונות ובמקרי שימוש.

יכולות ארוכות הקשר ושליפה דור מוגברת אחת התכונות הבולטות של DBRX היא היכולת שלו להתמודד עם קלט ארוכות הקשר, עם אורך הקשר מרבי של 32,768 אסימונים. יכולת זו מאפשרת למודל לעבד וליצור טקסט על סמך מידע הקשרי נרחב, מה שהופך אותו למתאים היטב למשימות כמו סיכום מסמכים, מענה לשאלות ואחזור מידע.

בהשוואה להערכת ביצועים בהקשר ארוך, כגון KV-Pairs ו-HotpotQAXL, DBRX Instruct עלה על הביצועים של GPT-3.5 Turbo על פני אורכי רצף ומצבי הקשר שונים.

DBRX מתעלה על מודלים מבוססי קוד פתוח בהבנת שפה (MMLU), תכנות (HumanEval) ומתמטיקה (GSM8K).

DBRX מתעלה על מודלים מבוססי קוד פתוח בהבנת שפה (MMLU), תכנות (HumanEval) ומתמטיקה (GSM8K).

מגבלות ועבודה עתידית

בעוד ש-DBRX מייצג הישג משמעותי בתחום ה-LLM הפתוחים, חיוני להכיר במגבלותיו ובתחומים לשיפור עתידי. כמו כל מודל AI, DBRX עשוי לייצר תגובות לא מדויקות או מוטות, בהתאם לאיכות ולמגוון של נתוני האימון שלו.

בנוסף, בעוד ש-DBRX מצטיין במשימות למטרות כלליות, יישומים מסוימים ספציפיים לתחום עשויים לדרוש כוונון עדין נוסף או הכשרה מיוחדת כדי להשיג ביצועים מיטביים. לדוגמה, בתרחישים שבהם דיוק ונאמנות הם בעלי חשיבות עליונה, Databricks ממליצה להשתמש בטכניקות של אחזור מוגבר (RAG) כדי לשפר את תפוקת המודל.

יתר על כן, מערך ההדרכה הנוכחי של DBRX מורכב בעיקר מתוכן בשפה האנגלית, מה שעלול להגביל את הביצועים שלו במשימות שאינן באנגלית. איטרציות עתידיות של המודל עשויות לכלול הרחבת נתוני ההדרכה כך שיכללו מגוון רחב יותר של שפות והקשרים תרבותיים.

Databricks מחויבת לשפר ללא הרף את היכולות של DBRX ולטפל במגבלותיה. עבודה עתידית תתמקד בשיפור הביצועים, המדרגיות והשימושיות של המודל על פני יישומים ומקרי שימוש שונים, כמו גם בחינת טכניקות להפחתת הטיות פוטנציאליות ולקידום שימוש ב-AI אתי.

בנוסף, החברה מתכננת לחדד עוד יותר את תהליך ההכשרה, תוך מינוף טכניקות מתקדמות כגון למידה מאוחדת ושיטות לשימור הפרטיות כדי להבטיח פרטיות ואבטחת נתונים.

הדרך קדימה

DBRX מייצג צעד משמעותי קדימה בדמוקרטיזציה של פיתוח בינה מלאכותית. הוא צופה עתיד שבו לכל ארגון יש את היכולת לשלוט בנתונים שלו ובייעוד שלו בעולם המתפתח של AI יצירתי.

באמצעות קוד פתוח של DBRX ומתן גישה לאותם כלים ותשתית המשמשים לבנייתו, Databricks מעצימה לעסקים וחוקרים לפתח Databricks מתקדמים משלהם המותאמים לצרכים הספציפיים שלהם.

באמצעות פלטפורמת Databricks, לקוחות יכולים למנף את חבילת כלי עיבוד הנתונים של החברה, כולל Apache Spark, Unity Catalog ו-MLflow, כדי לאצור ולנהל את נתוני ההדרכה שלהם. לאחר מכן הם יכולים להשתמש בספריות ההדרכה המאופטימליות של Databricks, כגון Composer, LLM Foundry, MegaBlocks ו-Streaming, כדי לאמן את הדגמים שלהם בדרגת DBRX ביעילות ובקנה מידה.

לדמוקרטיזציה זו של פיתוח בינה מלאכותית יש פוטנציאל לפתוח גל חדש של חדשנות, שכן ארגונים צוברים את היכולת לרתום את הכוח של מודלים לשפות גדולות למגוון רחב של יישומים, מיצירת תוכן וניתוח נתונים ועד תמיכה בהחלטות ומעבר לכך.

יתרה מכך, על ידי טיפוח מערכת אקולוגית פתוחה ושיתופית סביב DBRX, Databricks שואפת להאיץ את קצב המחקר והפיתוח בתחום מודלים של שפות גדולות. ככל שיותר ארגונים ואינדיבידואלים יתרמו מהמומחיות והתובנות שלהם, הידע וההבנה הקולקטיביים של מערכות בינה מלאכותית החזקות הללו ימשיכו לגדול, ולסלול את הדרך למודלים מתקדמים ובעלי יכולת עוד יותר בעתיד.

סיכום

DBRX הוא מחליף משחקים בעולם של מודלים של שפות גדולות בקוד פתוח. עם ארכיטקטורת התערובת החדשנית של מומחים, נתוני הכשרה נרחבים וביצועים עדכניים, הוא הציב רף חדש למה שאפשר עם LLMs פתוח.

על ידי דמוקרטיזציה של גישה לטכנולוגיית AI מתקדמת, DBRX מעצימה חוקרים, מפתחים וארגונים לחקור גבולות חדשים בעיבוד שפה טבעית, יצירת תוכן, ניתוח נתונים ומעבר לכך. מכיוון ש-Databricks ממשיכה לשכלל ולשפר את DBRX, היישומים הפוטנציאליים וההשפעה של הדגם החזק הזה הם באמת בלתי מוגבלים.

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.