בינה מלאכותית

האם אתה יכול לבנות דגמי שפה גדולים כמו ChatGPT בחצי עלות?

יצא לאור

לפני 12 חודשים

מאי 11, 2023

דגמי שפה גדולים (LLMs) כמו GPT-3 ו-ChatGPT חוללו מהפכה בבינה מלאכותית על ידי מתן יכולות הבנת שפה טבעית ויצירת תוכן. אבל לפיתוח שלהם יש מחיר גבוה המגביל את הנגישות ומחקר נוסף. חוקרים מעריכים שאימון GPT-3 עלה ל-OpenAI בערך $ 5 מיליון. למרות זאת, מיקרוסופט זיהתה את הפוטנציאל והשקיעה 1 $ מיליארד ב 2019 ו 10 $ מיליארד בשנת 2023 במיזם GPT-3 ו-ChatGPT של OpenAI.

LLMs הם מודלים של למידת מכונה שהוכשרו על נתונים טקסטואליים נרחבים עבור יישומי NLP. הם מבוססים על ארכיטקטורת שנאים ומנצלים מנגנוני קשב למשימות NLP כמו מענה לשאלות, תרגום מכונה, ניתוח סנטימנטים וכו'.

נשאלת השאלה: האם ניתן להגדיל את היעילות של המודלים הגדולים הללו ובו זמנית להפחית את העלות החישובית וזמן ההדרכה?

כמה גישות, כמו רשתות עצביות פרוגרסיביות, מורפיזם רשת, מקביליות מודל תוך-שכבתי, תורשת ידעוכו' פותחו כדי להפחית את העלות החישובית של אימון רשתות עצביות. הרומן ליגו הגישה (מפעיל צמיחה ליניארית) בה נדון היא הצבת רף חדש. זה מפחית בחצי את העלות החישובית של הכשרת לימודי LLM.

לפני הדיון בטכניקה זו, בחינת הגורמים התורמים למחיר הגבוה של ייצור LLMs היא חיונית.

עלות בניית מודלים שפה גדולים

שלוש הוצאות עיקריות לפיתוח LLMs הן כדלקמן:

1. משאבים חישוביים

בניית LLMs דורשת משאבי חישוב אדירים כדי להתאמן על מערכי נתונים גדולים. עליהם לעבד מיליארדי פרמטרים וללמוד דפוסים מורכבים מנתונים טקסטואליים מסיביים.

השקעה בחומרה מיוחדת כגון יחידות עיבוד גרפיות (GPUs) ויחידות עיבוד Tensor (TPUs) נדרשות לבנייה והדרכה של LLMs כדי להשיג ביצועים מתקדמים.

לדוגמה, GPT-3 הוכשר על a מחשב העל עם 10000 GPUs בדרגה ארגונית (H100 ו-A100) ו-285,000 ליבות CPU.

2. צריכת אנרגיה

משאבי החישוב האינטנסיביים הנדרשים לבניית LLMs מביאים לצריכת אנרגיה משמעותית. לדוגמה, הכשרה של 175 מיליארד פרמטרים של GPT-3 ימי 14.8 באמצעות 10,000 GPUs V100, שווה ערך ל-3.55 מיליון שעות GPU. לרמה כה גבוהה של צריכת אנרגיה יש גם השפעות סביבתיות משמעותיות.

3. אחסון וניהול נתונים

LLMs מאומנים על מערכי נתונים גדולים. לדוגמה, GPT-3 הוכשר על קורפוס עצום של טקסטים נתונים, כולל Common Crawl, WebText2, Books1, Books2 וויקיפדיה, בין מקורות נוספים. נדרשת השקעה משמעותית בתשתית כדי לאסוף, לאצור ולאחסן את מערכי הנתונים הללו.

כמו כן, נדרש אחסון בענן לאחסון נתונים, ומומחיות אנושית לעיבוד מוקדם של נתונים ובקרת גרסאות. יתרה מכך, הבטחת אסטרטגיית הנתונים שלך תואמת לתקנות כמו GDPR גם מוסיפה לעלות.

טכניקת LiGO: הפחת את העלות של בניית מודלים שפה גדולים לחצי

LiGO (מפעיל צמיחה ליניארית) היא טכניקה חדשה שפותחה על ידי חוקרים ב-MIT כדי להפחית את העלות החישובית של אימון LLMs ב-50%. השיטה כוללת אתחול המשקלים של מודלים גדולים מאלה של מודלים קטנים יותר שהוכשרו מראש, מה שמאפשר קנה מידה יעיל של רשתות עצביות.

תמונה מהעיתון: ללמוד לגדל מודלים מאומנים מראש לאימון שנאי יעיל

יון קים, המחבר הבכיר של העיתון, אומר:

"ההערכה היא שמודלים של אימון בקנה מידה של מה ש-ChatGPT הוא השערה לרוץ עליו יכולים לקחת מיליוני דולרים רק עבור ריצת אימון בודדת. האם נוכל לשפר את היעילות של שיטות האימון הללו, כך שעדיין נוכל להשיג דגמים טובים בפחות זמן ובפחות כסף? אנו מציעים לעשות זאת על ידי מינוף מודלים קטנים יותר של שפה שעברו הכשרה בעבר."

שיטה זו שומרת על יתרונות הביצועים של דגמים גדולים יותר עם עלות חישוב מופחתת וזמן אימון בהשוואה לאימון מודל גדול מאפס. LiGO משתמש באופרטור צמיחה ליניארי מונע נתונים המשלב אופרטורים של עומק ורוחב לביצועים מיטביים.

המאמר השתמש במערכי נתונים שונים לביצוע ניסויים מבוססי טקסט, כולל הקורפוס של ויקיפדיה האנגלית לאימון מודלים של BERT ו-RoBERTa ומערך הנתונים C4 לאימון GPT2.

הניסוי בטכניקת LiGO כללה גידול BERT-Small ל-BERT-Base, BERT-Base ל-BERT-Large, RoBERTaSmall ל-RoBERTa-Base, GPT2-Base ל-GPT2-Medium, ו-CaiT-XS ל-CaiT-S.

החוקרים השוו את הגישה שלהם למספר קווי בסיס אחרים, כולל אימון מאפס, אימון מתקדם, bert2BERT ו-KI.

טכניקת LiGO הציעה חיסכון של 44.7% ב-FLOPs (פעולות נקודה צפה בשנייה) וחיסכון של 40.7% בזמן קיר בהשוואה לאימון BERT-Base מאפס על ידי שימוש חוזר במודל BERT-Small. מפעיל הצמיחה של LiGO עולה על StackBERT, MSLT, bert2BERT ו-KI בהדרכה יעילה.

היתרונות של שימוש בטכניקת אופטימיזציה של אימון כמו LiGO

LiGO היא שיטת אימון רשת עצבית יעילה שיש לה יתרונות שונים המפורטים כדלקמן:

1. אימון מהיר יותר

כפי שנאמר קודם לכן, אימון מהיר יותר הוא היתרון העיקרי של טכניקת ה-LiGO. הוא מכשיר לימודי LLM בחצי מהזמן, מגדיל את הפרודוקטיביות ומפחית עלויות.

2. חסכוני במשאבים

LiGO חסכונית במשאבים מכיוון שהיא ממזערת את זמן הקיר ו-FLOPs, מה שמוביל לגישה חסכונית וידידותית יותר לסביבה לאימון דגמי שנאים גדולים.

3. הכללה

טכניקת LiGO שיפרה את הביצועים של שנאי שפה וראייה כאחד, דבר המצביע על כך שמדובר בטכניקה הניתנת להכללה שניתן ליישם במשימות שונות.

בניית מוצרי בינה מלאכותית מסחרית היא רק פן אחד מההוצאות הכוללות הקשורות למערכות בינה מלאכותית. מרכיב משמעותי נוסף בעלויות מגיע מהתפעול היומיומי. למשל, זה עולה ל-OpenAI בערך $700,000 כל יום כדי לענות על שאילתות באמצעות ChatGPT. החוקרים צפויים להמשיך ולחקור גישות שהופכות את ה-LLM לחסכוניות במהלך האימון ולנגישות יותר בזמן ריצה.

לתוכן נוסף הקשור לבינה מלאכותית, בקר unite.ai.