בינה מלאכותית

Snowflake Arctic: ה-LLM החדיש עבור Enterprise AI

יצא לאור

לפני 2 שבועות

אפריל 25, 2024

Snowflake Arctic: ה-LLM החדיש עבור Enterprise AI

ארגונים כיום בוחנים יותר ויותר דרכים למנף מודלים של שפה גדולה (LLMs) כדי להגביר את הפרודוקטיביות וליצור יישומים חכמים. עם זאת, רבות מהאפשרויות הזמינות של LLM הן מודלים גנריים שאינם מותאמים לצרכים ארגוניים מיוחדים כמו ניתוח נתונים, קידוד ואוטומציה של משימות. להיכנס פתית שלג ארקטי - LLM חדיש שתוכנן ומוטב במטרה למקרי שימוש ארגוניים הליבה.

פותח על ידי צוות המחקר של AI ב-Snowflake, Arctic דוחף את הגבולות של מה שאפשר עם אימון יעיל, עלות-תועלת ורמת פתיחות שאין שני לה. המודל המהפכני הזה מצטיין במדדים מרכזיים של ארגונים תוך שהוא דורש הרבה פחות כוח מחשוב בהשוואה ל-LLMs הקיימים. בואו נצלול למה שהופך את Arctic למחליף משחקים עבור AI ארגוני.

מודיעין ארגוני מוגדר מחדש בליבה, Arctic ממוקדת בלייזר באספקת ביצועים יוצאי דופן במדדים החשובים באמת לארגונים - קידוד, שאילתות SQL, מעקב אחר הוראות מורכבות והפקת פלטים מבוססי עובדות מבוססות. Snowflake שילב את היכולות הקריטיות הללו לרומן "מודיעין ארגוני"מדד.

התוצאות מדברות בעד עצמן. Arctic פוגשת או מתגברת על מודלים כמו LLAMA 7B ו-LLAMA 70B על מדדי מודיעין ארגוניים תוך שימוש בפחות ממחצית מתקציב המחשוב להדרכה. למרבה הפלא, למרות השימוש פי 17 פחות משאבי מחשוב מאשר LLAMA 70B, Arctic משיגה זוגיות במבחנים מיוחדים כמו קידוד (HumanEval+, MBPP+), יצירת SQL (Spider) ומעקב אחר הוראות (IFEval).

אבל היכולות של ארקטי חורגת רק ממדדי ביצוע של ארגונים. הוא שומר על ביצועים חזקים על פני הבנת שפה כללית, חשיבה וכישרון מתמטי בהשוואה למודלים שהוכשרו עם תקציבי מחשוב גבוהים יותר באופן אקספוננציאלי כמו DBRX. יכולת הוליסטית זו הופכת את Arctic לבחירה ללא תחרות להתמודדות עם צורכי הבינה המלאכותית המגוונים של ארגון.

החדשנות

Transformer Hybrid Dense-MoE אז איך צוות Snowflake בנה LLM כל כך בעל יכולת מדהימה אך יעילה? התשובה טמונה בארכיטקטורת השנאים ההיברידית הצפופה של ארקטי (MoE).

דגמי שנאים צפופים מסורתיים הופכים ליקרים יותר לאימון ככל שגודלם גדל, כאשר הדרישות החישוביות גדלות באופן ליניארי. עיצוב ה-MoE עוזר לעקוף זאת על ידי שימוש במספר רשתות הזנה קדימה מקבילות (מומחים) ורק הפעלת תת-קבוצה עבור כל אסימון קלט.

עם זאת, פשוט שימוש בארכיטקטורת MoE אינו מספיק – Arctic משלבת את החוזקות של רכיבים צפופים ו-MoE כאחד. הוא מצמיד מקודד שנאי צפוף של 10 מיליארד פרמטרים עם שכבת 128 שיורית של MoE רב-שכבתית פרצפטרון (MLP). הדגם ההיברידי הצפוף-MoE הזה מסתכם ב-480 מיליארד פרמטרים, אך רק 17 מיליארד פעילים בכל זמן נתון תוך שימוש ב-top-2 gating.

ההשלכות הן עמוקות - Arctic משיגה איכות וקיבולת מודל חסרי תקדים תוך שמירה על יעילה מחשובית להפליא במהלך אימון והסקת מסקנות. לדוגמה, ל-Arctic יש 50% פחות פרמטרים פעילים מדגמים כמו DBRX במהלך הסקת מסקנות.

אבל ארכיטקטורת מודלים היא רק חלק אחד מהסיפור. המצוינות של Arctic היא השיא של מספר טכניקות ותובנות חלוציות שפותחו על ידי צוות המחקר של Snowflake:

תכנית לימודים בנתוני הדרכה ממוקדת ארגונית באמצעות ניסויים נרחבים, הצוות גילה שיש ללמוד מוקדם מיומנויות גנריות כמו הגיון בריא, בעוד שהתמחויות מורכבות יותר כמו קידוד ו-SQL נרכשות בצורה הטובה ביותר בהמשך תהליך ההכשרה. תכנית הלימודים של ארקטיק פועלת על פי גישה תלת-שלבית המחקה התקדמות למידה אנושית.

הטרטוקנים הראשונים מתמקדים בבניית בסיס כללי רחב. 1.5 הטרטוקנים הבאים מתרכזים בפיתוח מיומנויות ארגוניות באמצעות נתונים המותאמים עבור SQL, משימות קידוד ועוד. הטרטוקנים האחרונים מחדדים עוד יותר את ההתמחויות של Arctic באמצעות מערכי נתונים מעודנים.

בחירות אדריכליות אופטימליות בעוד ש-MoE מבטיחים איכות טובה יותר לכל מחשוב, בחירת התצורות הנכונות היא קריטית אך מובנת בצורה גרועה. באמצעות מחקר מפורט, Snowflake נחת על ארכיטקטורה המעסיקה 128 מומחים עם 2 השערים המובילים בכל שכבה לאחר הערכת פשרות בין איכות ויעילות.

הגדלת מספר המומחים מספקת יותר שילובים, ומשפרת את קיבולת המודל. עם זאת, זה גם מעלה את עלויות התקשורת, כך ש-Snowflake נחת על 128 מומחים "מעוכים" שתוכננו בקפידה שהופעלו באמצעות שערים מובילים כאיזון אופטימלי.

מערכת משותף עיצוב אבל אפילו ארכיטקטורת מודל אופטימלית יכולה להתערער על ידי צווארי בקבוק של המערכת. אז צוות Snowflake חידש גם כאן - תכנון משותף של ארכיטקטורת המודל יד ביד עם מערכות ההדרכה וההסקה הבסיסיות.

להדרכה יעילה, הרכיבים הצפופים וה-MoE נבנו כך שיאפשרו תקשורת ומחשוב חופפים, תוך הסתרת תקורה משמעותית של תקשורת. בפן ההסקה, הצוות מינף את החידושים של NVIDIA כדי לאפשר פריסה יעילה ביותר למרות קנה המידה של Arctic.

טכניקות כמו קוונטיזציה של FP8 מאפשרות התאמה של הדגם המלא על צומת GPU יחיד לצורך הסקה אינטראקטיבית. אצוות גדולות יותר עושות שימוש ביכולות המקביליות של Arctic על פני מספר צמתים תוך שמירה מרשימה על יעילות מחשוב הודות לפרמטרים פעילים קומפקטיים של 17B.

עם רישיון Apache 2.0, המשקולות והקוד של Arctic זמינים ללא שימוש לכל שימוש אישי, מחקרי או מסחרי. אבל Snowflake הרחיקה לכת הרבה יותר, וקיבלה במקורות פתוחים את מתכוני הנתונים המלאים שלהם, הטמעות מודלים, טיפים ותובנות המחקר העמוקות המניעות את ארקטי.

"ספר בישול ארקטי” הוא בסיס ידע מקיף המכסה כל היבט של בנייה ואופטימיזציה של מודל MoE בקנה מידה גדול כמו Arctic. הוא מזקק לומדות מפתח על פני מיקור נתונים, תכנון ארכיטקטורת מודלים, תכנון משותף של מערכת, סכמות הדרכה/הסקת מסקנות אופטימליות ועוד.

מזיהוי תכניות לימודים אופטימליות למידע ועד לארכיטת MoE תוך אופטימיזציה משותפת של מהדרים, מתזמנים וחומרה - גוף הידע הנרחב הזה מייצר דמוקרטיזציה של מיומנויות שהיו מוגבלות בעבר למעבדות AI עילית. The Arctic Cookbook מאיץ עקומות למידה ומעצים עסקים, חוקרים ומפתחים ברחבי העולם ליצור LLMs חסכוני ומותאמים משלהם כמעט לכל מקרה שימוש.

תחילת העבודה עם Arctic

עבור חברות המעוניינות למנף את Arctic, Snowflake מציעה מספר דרכים להתחיל במהירות:

מסקנות ללא שרת: לקוחות Snowflake יכולים לגשת למודל Arctic בחינם ב-Snowflake Cortex, פלטפורמת הבינה המלאכותית של החברה המנוהלת במלואה. מעבר לכך, Arctic זמין בכל קטלוגי הדגמים הגדולים כמו AWS, Microsoft Azure, NVIDIA ועוד.

התחל מאפס: משקלי מודל הקוד הפתוח והיישום מאפשרים למפתחים לשלב ישירות את Arctic באפליקציות ובשירותים שלהם. ה-Arctic repo מספק דוגמאות קוד, הדרכות פריסה, מתכונים כוונון עדין ועוד.

בניית מודלים מותאמים אישית: הודות למדריכים הממצים של Arctic Cookbook, מפתחים יכולים לבנות מודלים מותאמים אישית של MoE משלהם מאפס המותאמים לכל מקרה שימוש מיוחד תוך שימוש בלמידה מהפיתוח של Arctic.

עידן חדש של Open Enterprise AI Arctic הוא יותר מסתם עוד מודל שפה רב עוצמה - הוא מבשר עידן חדש של יכולות AI פתוחות, חסכוניות ומיוחדות שנבנו במיוחד עבור הארגון.

ממהפכה בניתוח הנתונים ובפרודוקטיביות הקידוד ועד להפעלת אוטומציה של משימות ויישומים חכמים יותר, ה-DNA הראשון של Arctic הופך אותו לבחירה ללא תחרות על פני LLMs גנריים. ובאמצעות מקורות פתוחים לא רק את המודל אלא את כל תהליך המו"פ שמאחוריו, Snowflake מטפחת תרבות של שיתוף פעולה שתעלה את כל מערכת האקולוגית של AI.

ככל שארגונים מאמצים יותר ויותר AI גנרטיבי, Arctic מציעה מתווה נועז לפיתוח מודלים עדיפים באופן אובייקטיבי עבור עומסי עבודה בייצור וסביבות ארגוניות. השילוב של מחקר חדשני, יעילות ללא תחרות ואתוס פתוח איתן מציבים רף חדש בדמוקרטיזציה של הפוטנציאל הטרנספורמטיבי של AI.

להלן קטע עם דוגמאות קוד כיצד להשתמש במודל Snowflake Arctic:

מעשית עם Arctic

כעת, לאחר שכיסינו את מה שהופך את Arctic לפורצת דרך באמת, בואו נצלול כיצד מפתחים ומדעני נתונים יכולים להתחיל להפעיל את מודל הכוח הזה.
מחוץ לקופסה, Arctic זמין מאומן מראש ומוכן לפריסה דרך מוקדי דגמים גדולים כמו Hugging Face ופלטפורמות AI של שותפות. אבל הכוח האמיתי שלו מופיע בעת התאמה אישית וכיוונון עדין עבור מקרי השימוש הספציפיים שלך.

רישיון Apache 2.0 של Arctic מספק חופש מלא לשלב אותו באפליקציות, בשירותים או בזרימות העבודה המותאמות אישית של AI. בואו נעבור על כמה דוגמאות קוד באמצעות ספריית השנאים כדי להתחיל:
הסקה בסיסית עם ארקטי

עבור מקרי שימוש מהירים של יצירת טקסט, אנו יכולים לטעון את Arctic ולהריץ מסקנות בסיסיות בקלות רבה:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

זה אמור להוציא משהו כמו:

"בירת צרפת היא פריז. פריז היא העיר הגדולה ביותר בצרפת והמרכז הכלכלי, הפוליטי והתרבותי של המדינה. זהו ביתם של ציוני דרך מפורסמים כמו מגדל אייפל, מוזיאון הלובר וקתדרלת נוטרדאם.

כפי שאתה יכול לראות, Arctic מבינה בצורה חלקה את השאילתה ומספקת תגובה מפורטת ומבוססת הממנפת את יכולות הבנת השפה החזקות שלה.

כוונון עדין למשימות מיוחדות

למרות שהוא מרשים מחוץ לקופסה, Arctic באמת זורח כאשר הוא מותאם אישית ומכוונן על הנתונים הקנייניים שלך עבור משימות מיוחדות. Snowflake סיפק מתכונים נרחבים המכסים:

אצור נתוני הדרכה באיכות גבוהה המותאמים למקרה השימוש שלך
הטמעת תכניות הדרכה רב-שלביות מותאמות אישית
מינוף גישות לכוונון עדין של LoRA, P-Tuning או FactorizedFusion
אופטימיזציות עבור SQL, קידוד או מיומנויות מפתח אחרות בארגון

הנה דוגמה כיצד לכוונן את Arctic על מערכי הקידוד שלך באמצעות המתכונים של LoRA ו- Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

קוד זה ממחיש כיצד ניתן לטעון את Arctic ללא מאמץ, לאתחל תצורת LoRA המותאמת ליצירת קוד, ולאחר מכן לכוונן את המודל על מערכי הקידוד הקנייניים שלך תוך שימוש בהדרכה של Snowflake.

מותאם אישית ומכוונן, Arctic הופך לתחנת כוח פרטית המכווננת לספק ביצועים ללא תחרות על תהליכי העבודה המרכזיים של הארגון ועל צרכי בעלי העניין שלך.

מחזור החדשנות המהיר של ארקטיק

אחד ההיבטים המרשימים ביותר של ארקטי הוא הקצב הכבד שבו הגה, פיתח ושחרר את המודל החדשני הזה לעולם. מההתחלה ועד לשחרור הקוד הפתוח, כל הפרויקט הארקטי ארך פחות משלושה חודשים ומינוף רק כשמינית מתקציב המחשוב האופייני לאימון מודלים דומים של שפות גדולות.

היכולת הזו לחזור, לחדש ולהפיק במהירות מחקר בינה מלאכותית מתקדמת היא באמת יוצאת דופן. זה מדגים את היכולות הטכניות העמוקות של Snowflake וממצב את החברה לפרוץ ללא הרף את הגבולות בפיתוח יכולות בינה מלאכותית חדשות ומותאמות לארגונים.

המשפחה הארקטית והטבעות

Arctic היא רק ההתחלה של השאיפות של Snowflake בתחום ה-LLM הארגוני. החברה כבר רכשה קוד פתוח למשפחת Snowflake Arctic Embed של דגמי הטבעת טקסט מובילים בתעשייה המותאמים לביצועי אחזור על פני מספר פרופילים בגדלים.

כפי שמוצג להלן, דגמי ה-Arctic Embed משיגים דיוק אחזור מתקדם על רף ה-MTEB (אחזור טקסט) המכובד, ועוברים על דגמי הטבעה מובילים אחרים, כולל הצעות סגורות של ענקיות טכנולוגיה גדולות.

[הוסף תמונה המציגה תוצאות אחזור MTEB עבור דגמי Arctic Embed]

מודלים אלה של הטבעה משלימים את Arctic LLM ומאפשרים לארגונים לבנות פתרונות דור רבי עוצמה למענה על שאלות ושליפה מחסנית קוד פתוח משולבת.

אבל מפת הדרכים של Snowflake משתרעת הרבה מעבר ל-Arctic והטבעות בלבד. חוקרי הבינה המלאכותית של החברה עובדים קשה על הרחבת משפחת Arctic עם מודלים חדשים המותאמים למשימות רב-מודאליות, דיבור, וידאו ועוד יכולות חזיתיות - כולם בנויים תוך שימוש באותם עקרונות של התמחות, יעילות ופתיחות.

שיתוף פעולה למען מערכת אקולוגית של בינה מלאכותית Snowflake מבינה שמימוש מלוא הפוטנציאל של בינה מלאכותית בינה מלאכותית מחייבת טיפוח מערכת אקולוגית עשירה של שותפויות ברחבי קהילת הבינה המלאכותית. המהדורה של Arctic כבר עוררה שיתופי פעולה עם פלטפורמות וספקים גדולים:

NVIDIA שיתפה פעולה באופן הדוק עם Snowflake כדי לייעל את Arctic לפריסה יעילה באמצעות ערימת הסקת ה-AI המתקדמת של NVIDIA, כולל TensorRT, Triton ועוד. זה מאפשר לארגונים לשרת את ארקטי בקנה מידה חסכוני.

Hugging Face, מרכז המודלים המוביל בקוד פתוח, קיבל את ארקטי בברכה בספריות ובמאגרי הדגמים שלה. זה מאפשר שילוב חלק של Arctic בתהליכי עבודה ויישומים קיימים מבוססי חיבוק פנים.

פלטפורמות כמו Replicate, SageMaker ועוד עברו במהירות להציע הדגמות מתארחות, ממשקי API ומסלולי אינטגרציה שוטפים עבור Arctic, והאיצו את האימוץ שלה.

קוד פתוח הוביל את הפיתוח של ארקטי, ומערכות אקולוגיות פתוחות נותרו מרכזיות באבולוציה שלה. Snowflake מחויבת לטפח שיתוף פעולה עשיר עם חוקרים, מפתחים, שותפים וארגונים ברחבי העולם כדי לדחוף את הגבולות של מה שאפשר עם מודלים פתוחים ומתמחים בינה מלאכותית.

מיני-תאומים: כריית הפוטנציאל של מודלים של שפת ראייה רב-מודאלית

לא לפספס

AIOS: מערכת הפעלה לסוכני LLM

עאיוש מיטל

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.