בדל 5 ה-LLMs הטובים ביותר בקוד פתוח (מאי 2024) - Unite.AI
צור קשר
מערך ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [כינוי] => Antoine Tardif [user_nicename] => מנהל מערכת [display_name] => Antoine Tardif [user_email] => [מוגן בדוא"ל]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => שותף מייסד של unite.AI וחבר ב- המועצה הטכנולוגית של פורבס, אנטואן הוא א עתידן שמתלהב מהעתיד של AI ורובוטיקה. הוא גם המייסד של Securities.io, אתר אינטרנט המתמקד בהשקעה בטכנולוגיה משבשת. [user_avatar] => mm
)

הכי טוב

5 ה-LLMs הטובות ביותר בקוד פתוח (מאי 2024)

מְעוּדכָּן on
LLMs בקוד פתוח

בעולם המתפתח במהירות של בינה מלאכותית (AI), מודלים של שפה גדולה (LLMs) הופיעו כאבן פינה, המניעות חידושים ומעצבים מחדש את הדרך בה אנו מתקשרים עם הטכנולוגיה.

ככל שהמודלים הללו הופכים יותר ויותר מתוחכמים, יש דגש גובר על דמוקרטיזציה של הגישה אליהם. מודלים של קוד פתוח, במיוחד, ממלאים תפקיד מרכזי בדמוקרטיזציה זו, ומציעים לחוקרים, למפתחים ולחובבים כאחד את ההזדמנות להתעמק במורכבויות שלהם, לכוונן אותם למשימות ספציפיות, או אפילו להתבסס על היסודות שלהם.

בבלוג זה, נסקור כמה מה-LLMs המובילים בקוד פתוח שיוצרים גלים בקהילת הבינה המלאכותית, כל אחד מביא את החוזקות והיכולות הייחודיות שלו לשולחן.

1. לאמה 2

Llama 2 של Meta הוא תוספת פורצת דרך למבחר דגמי הבינה המלאכותית שלהם. זה לא סתם עוד דגם; הוא נועד לתדלק מגוון יישומים חדישים. נתוני האימונים של Lama 2 הם עצומים ומגוונים, מה שהופך אותו לקידום משמעותי לעומת קודמו. הגיוון הזה באימון מבטיח ש-Llama 2 הוא לא רק שיפור מצטבר אלא צעד מונומנטלי לקראת עתיד האינטראקציות מונעות בינה מלאכותית.

שיתוף הפעולה בין Meta ו-Microsoft הרחיב את האופקים עבור Llama 2. מודל הקוד הפתוח נתמך כעת בפלטפורמות כמו Azure ו-Windows, במטרה לספק למפתחים ולארגונים את הכלים ליצור חוויות מונעות בינה מלאכותית. שותפות זו מדגישה את המסירות של שתי החברות להפיכת בינה מלאכותית לנגישה ופתוחה יותר לכל.

לאמה 2 היא לא רק יורשת של דגם הלאמה המקורי; הוא מייצג שינוי פרדיגמה בזירת הצ'אטבוטים. בעוד שדגם ה-Llama הראשון היה מהפכני ביצירת טקסט וקוד, הזמינות שלו הייתה מוגבלת כדי למנוע שימוש לרעה. Lama 2, לעומת זאת, אמור להגיע לקהל רחב יותר. זה מותאם לפלטפורמות כמו AWS, Azure ופלטפורמת האירוח של מודל AI של Hugging Face. יתרה מכך, עם שיתוף הפעולה של Meta עם מיקרוסופט, Llama 2 מוכן להטביע את חותמו לא רק ב-Windows אלא גם במכשירים המופעלים על-ידי מערכת Snapdragon של קוואלקום.

בטיחות היא בלב העיצוב של לאמה 2. מתוך זיהוי האתגרים העומדים בפני מודלים קודמים של שפות גדולות כמו GPT, שלעתים יצרו תוכן מטעה או מזיק, Meta נקטה צעדים נרחבים כדי להבטיח את אמינותה של Llama 2. המודל עבר הכשרה קפדנית כדי למזער 'הזיות', מידע מוטעה והטיות.

התכונות המובילות של LLaMa 2:

  • נתוני אימון מגוונים: נתוני האימון של לאמה 2 הם נרחבים ומגוונים, מה שמבטיח הבנה וביצועים מקיפים.
  • שיתוף פעולה עם מיקרוסופט: Llama 2 נתמך בפלטפורמות כמו Azure ו-Windows, מה שמרחיב את היקף היישומים שלה.
  • זמינות פתוחה: שלא כמו קודמו, Llama 2 זמין לקהל רחב יותר, מוכן לכוונון עדין במספר פלטפורמות.
  • עיצוב ממוקד בטיחות: Meta שמה דגש על בטיחות, ומבטיחה ש-Llama 2 מייצר תוצאות מדויקות ואמינות תוך מזעור תפוקות מזיקות.
  • גרסאות מותאמות: Llama 2 מגיע בשתי גרסאות עיקריות - Llama 2 ו-Llama 2-Chat, כאשר האחרונה תוכננה במיוחד לשיחות דו-כיווניות. המורכבות של גרסאות אלו נע בין 7 מיליארד ל-70 מיליארד פרמטרים.
  • אימון משופר: לאמה 2 אומנה על שני מיליון אסימונים, עלייה משמעותית מ-1.4 טריליון האסימונים של הלאמה המקורית.

2. לִפְרוֹחַ

בשנת 2022, לאחר מאמץ שיתופי עולמי שכלל מתנדבים מלמעלה מ-70 מדינות ומומחים מ-Huging Face, נחשף פרויקט BLOOM. מודל שפה גדול זה (LLM), שנוצר ביוזמה של שנה, מיועד ליצירת טקסט אוטומטי, המסוגל להרחיב בקשת טקסט נתונה. הוא הוכשר על קורפוס עצום של נתוני טקסט תוך שימוש בכוח חישוב משמעותי.

הופעת הבכורה של BLOOM הייתה צעד משמעותי בהפיכת טכנולוגיית AI גנרטיבית לנגישה יותר. בתור LLM בקוד פתוח, הוא מתהדר ב-176 מיליארד פרמטרים, מה שהופך אותו לאחד האדירים בכיתה שלו. ל-BLOOM יש את המיומנות ליצור טקסט קוהרנטי ומדויק על פני 46 שפות ו-13 שפות תכנות.

הפרויקט שם דגש על שקיפות, המאפשר גישה לציבור לקוד המקור ונתוני ההדרכה שלו. פתיחות זו מזמנת בחינה, ניצול ושיפור מתמשכים של המודל.

נגיש ללא עלות דרך פלטפורמת Hugging Face, BLOOM עומדת כעדות לחדשנות שיתופית ב-AI.

התכונות המובילות של בלום:

  • יכולות רב לשוניות: BLOOM בקיאה ביצירת טקסט ב-46 שפות ו-13 שפות תכנות, מה שמציג את הטווח הלשוני הרחב שלה.
  • גישה בקוד פתוח: קוד המקור ונתוני ההדרכה של המודל זמינים לציבור, ומקדמים שקיפות ושיפור שיתופי.
  • יצירת טקסט אוטומטי: תוכנן להמשיך טקסט מתוך הנחיה נתונה, BLOOM מצטיין בהרחבה והשלמת רצפי טקסט.
  • ספירת פרמטרים מסיבית: עם 176 מיליארד פרמטרים, BLOOM עומד כאחד ה-LLMs החזקים ביותר בקוד פתוח שקיימים.
  • שיתוף פעולה גלובלי: פותח באמצעות פרויקט שנמשך שנה עם תרומות של מתנדבים ביותר מ-70 מדינות וחוקרי חיבוק פנים.
  • נגישות חינם: משתמשים יכולים לגשת ל-BLOOM ולהשתמש בו בחינם דרך מערכת האקולוגית של Hugging Face, מה שמשפר את הדמוקרטיזציה שלו בתחום הבינה המלאכותית.
  • הכשרה בקנה מידה תעשייתי: המודל הוכשר על כמויות עצומות של נתוני טקסט תוך שימוש במשאבי חישוב משמעותיים, מה שמבטיח ביצועים חזקים.

3. MPT-7B

MosaicML Foundations תרמה תרומה משמעותית למרחב הזה עם הצגת MPT-7B, ה-LLM האחרון שלהם בקוד פתוח. MPT-7B, ראשי תיבות של MosaicML Pretrained Transformer, הוא דגם שנאי בסגנון GPT, מפענח בלבד. מודל זה מתהדר במספר שיפורים, כולל יישומי שכבה מותאמים לביצועים ושינויים ארכיטקטוניים המבטיחים יציבות רבה יותר באימון.

תכונה בולטת של MPT-7B היא האימון שלו על מערך נתונים נרחב הכולל טריליון אסימונים של טקסט וקוד. הכשרה קפדנית זו בוצעה על פלטפורמת MosaicML במשך 1 ימים.

אופי הקוד הפתוח של MPT-7B ממצב אותו ככלי בעל ערך עבור יישומים מסחריים. יש לו פוטנציאל להשפיע באופן משמעותי על ניתוח חזוי ועל תהליכי קבלת ההחלטות של עסקים וארגונים.

בנוסף למודל הבסיס, MosaicML Foundations משחררת גם מודלים מיוחדים המותאמים למשימות ספציפיות, כגון MPT-7B-Instruct להוראה קצרה, MPT-7B-Chat ליצירת דיאלוג ו-MPT-7B-StoryWriter-65k+ ליצירת סיפור ארוך.

מסע הפיתוח של MPT-7B היה מקיף, כאשר צוות MosaicML ניהל את כל השלבים מהכנת הנתונים ועד לפריסה תוך מספר שבועות. הנתונים הגיעו ממאגרים מגוונים, והצוות השתמש בכלים כמו GPT-NeoX של EleutherAI ו-20B tokenizer כדי להבטיח תמהיל אימונים מגוון ומקיף.

סקירה כללית של תכונות עיקריות של MPT-7B:

  • רישוי מסחרי: MPT-7B מורשה לשימוש מסחרי, מה שהופך אותו לנכס בעל ערך עבור עסקים.
  • נתוני הדרכה נרחבים: המודל מתהדר באימון על מערך נתונים עצום של טריליון אסימונים.
  • טיפול בקלט ארוך: MPT-7B נועד לעבד תשומות ארוכות במיוחד ללא פשרות.
  • מהירות ויעילות: המודל מותאם לאימון מהיר והסקת מסקנות, ומבטיח תוצאות בזמן.
  • קוד קוד פתוח: MPT-7B מגיע עם קוד הדרכה יעיל בקוד פתוח, המקדם שקיפות וקלות שימוש.
  • מצוינות השוואתית: MPT-7B הוכיח עליונות על פני דגמי קוד פתוח אחרים בטווח 7B-20B, כשהאיכות שלו תואמת את זה של LLaMA-7B.

4. בז

Falcon LLM, הוא מודל שעלה במהירות לראש ההיררכיה של LLM. Falcon LLM, במיוחד Falcon-40B, הוא LLM בסיסי המצויד ב-40 מיליארד פרמטרים ואומן על טריליון אסימונים מרשים. הוא פועל כמודל מפענח אוטורגרסיבי בלבד, מה שאומר בעצם שהוא חוזה את האסימון הבא ברצף המבוסס על האסימונים הקודמים. הארכיטקטורה הזו מזכירה את מודל ה-GPT. יש לציין שהארכיטקטורה של Falcon הפגינה ביצועים מעולים ביחס ל-GPT-3, כשהיא משיגה את ההישג הזה עם רק 75% מתקציב מחשוב האימון ודורשת פחות מחשוב במהלך ההסקה.

הצוות במכון החדשנות הטכנולוגית שם דגש חזק על איכות הנתונים במהלך הפיתוח של Falcon. מתוך זיהוי הרגישות של LLMs לאיכות הנתונים של אימון, הם בנו צינור נתונים שגדל לעשרות אלפי ליבות CPU. הדבר איפשר עיבוד מהיר ומיצוי תוכן איכותי מהרשת, שהושג באמצעות תהליכי סינון ומניעת כפילות נרחבים.

בנוסף ל-Falcon-40B, TII הציגה גם גרסאות אחרות, כולל Falcon-7B, המחזיק ב-7 מיליארד פרמטרים ואומן על 1,500 מיליארד אסימונים. ישנם גם דגמים מיוחדים כמו Falcon-40B-Instruct ו-Falcon-7B-Instruct, המותאמים למשימות ספציפיות.

אימון Falcon-40B היה תהליך נרחב. המודל הוכשר על מערך הנתונים של RefinedWeb, מערך אינטרנט אנגלי ענק שנבנה על ידי TII. מערך נתונים זה נבנה על גבי CommonCrawl ועבר סינון קפדני כדי להבטיח איכות. לאחר הכנת המודל, הוא אומת מול מספר מדדי קוד פתוח, כולל EAI Harness, HELM ו-BigBench.

סקירת תכונות עיקריות של Falcon LLM:

  • פרמטרים נרחבים: Falcon-40B מצויד ב-40 מיליארד פרמטרים, מה שמבטיח למידה וביצועים מקיפים.
  • דגם מפענח אוטומטי בלבד: ארכיטקטורה זו מאפשרת ל-Falcon לחזות את האסימונים הבאים בהתבסס על הקודמים, בדומה למודל ה-GPT.
  • ביצועים מעולים: Falcon מתעלה על GPT-3 תוך ניצול של רק 75% מתקציב מחשוב האימון.
  • צינור נתונים באיכות גבוהה: צינור הנתונים של TII מבטיח חילוץ של תוכן איכותי מהאינטרנט, חיוני להכשרת המודל.
  • מגוון דגמים: בנוסף ל-Falcon-40B, TII מציעה את Falcon-7B ודגמים מיוחדים כמו Falcon-40B-Instruct ו-Falcon-7B-Instruct.
  • זמינות קוד פתוח: Falcon LLM עבר קוד פתוח, מקדם נגישות והכללה בתחום הבינה המלאכותית.

5. ויקונה-13B

LMSYS ORG הטביעה חותם משמעותי בתחום של LLMs בקוד פתוח עם הצגת Vicuna-13B. צ'אט בוט זה בקוד פתוח עבר הכשרה קפדנית על ידי כוונון עדין של LLaMA בשיחות משותפות של משתמשים שמקורן ב-ShareGPT. הערכות ראשוניות, כאשר GPT-4 משמש כשופט, מצביעות על כך ש-Vicuna-13B משיגה יותר מ-90% איכות של דגמים ידועים כמו OpenAI ChatGPT ו-Google Bard.

באופן מרשים, Vicuna-13B מתעלה על דגמים בולטים אחרים כמו LLaMA ו-Stanford Alpaca בלמעלה מ-90% מהמקרים. כל תהליך ההכשרה עבור Vicuna-13B בוצע בעלות של כ-300 דולר. עבור אלה המעוניינים לחקור את היכולות שלו, הקוד, המשקולות והדגמה מקוונת הפכו לזמינים לציבור למטרות לא מסחריות.

מודל Vicuna-13B עבר כוונון עדין עם 70 שיחות ChatGPT משותפות על ידי משתמשים, מה שמאפשר לו ליצור תגובות מפורטות ומובנות יותר. האיכות של התגובות הללו דומה ל-ChatGPT. הערכת צ'אטבוטים, לעומת זאת, היא מאמץ מורכב. עם ההתקדמות ב-GPT-4, ישנה סקרנות גוברת לגבי הפוטנציאל שלו לשמש כמסגרת הערכה אוטומטית ליצירת בנצ'מרק והערכות ביצועים. ממצאים ראשוניים מצביעים על כך ש-GPT-4 יכול לייצר דרגות עקביות והערכות מפורטות בעת השוואת תגובות צ'טבוט. הערכות ראשוניות המבוססות על GPT-4 מראות כי Vicuna משיגה יכולת של 90% מדגמים כמו Bard/ChatGPT.

סקירה כללית של תכונות עיקריות של Vicuna-13B:

  • טבע קוד פתוח: Vicuna-13B זמין לגישה לציבור, מקדם שקיפות ומעורבות קהילתית.
  • נתוני הדרכה נרחבים: המודל הוכשר על 70K שיחות משותפות על ידי משתמשים, מה שמבטיח הבנה מקיפה של אינטראקציות מגוונות.
  • ביצועים תחרותיים: הביצועים של Vicuna-13B עומדים בקנה אחד עם מובילי תעשייה כמו ChatGPT ו-Google Bard.
  • אימון חסכוני: כל תהליך ההכשרה עבור Vicuna-13B בוצע בעלות נמוכה של כ-300 דולר.
  • כוונון עדין על LLaMA: הדגם עבר כוונון עדין ל-LAMA, מה שמבטיח ביצועים משופרים ואיכות תגובה.
  • זמינות הדגמה מקוונת: הדגמה מקוונת אינטראקטיבית זמינה למשתמשים כדי לבדוק ולחוות את היכולות של Vicuna-13B.

התחום המתרחב של מודלים שפה גדולים

התחום של מודלים בשפות גדולות הוא עצום ומתרחב כל הזמן, כאשר כל דגם חדש פורץ את הגבולות של מה שאפשר. אופי הקוד הפתוח של ה-LLMs הנידונים בבלוג זה לא רק מציג את הרוח השיתופית של קהילת הבינה המלאכותית, אלא גם סולל את הדרך לחידושים עתידיים.

דגמים אלו, החל מיכולות הצ'טבוט המרשימות של Vicuna ועד למדדי הביצועים המעולים של Falcon, מייצגים את פסגת הטכנולוגיה הנוכחית של LLM. ככל שאנו ממשיכים לראות התקדמות מהירה בתחום זה, ברור שמודלים של קוד פתוח ישחקו תפקיד מכריע בעיצוב העתיד של AI.

בין אם אתה חוקר ותיק, חובב AI בתחילת דרכם, או מישהו סקרן לגבי הפוטנציאל של הדגמים הללו, אין זמן טוב יותר לצלול פנימה ולחקור את האפשרויות העצומות שהם מציעים.

אלכס מקפרלנד הוא עיתונאי וסופר בינה מלאכותית הבוחן את ההתפתחויות האחרונות בתחום הבינה המלאכותית. הוא שיתף פעולה עם סטארט-אפים ופרסומים רבים של AI ברחבי העולם.

שותף מייסד של unite.AI וחבר ב- המועצה הטכנולוגית של פורבס, אנטואן הוא א עתידן שהוא נלהב מהעתיד של AI ורובוטיקה.

הוא גם המייסד של Securities.io, אתר אינטרנט המתמקד בהשקעה בטכנולוגיה משבשת.