בינה מלאכותית

UltraFastBERT: מודל שפה מהיר פי אקספוננציאלית

Published December 8, 2023

Updated April 4, 2026

Kunal Kejriwal

מודלי שפה ואינטליגנציה מלאכותית יוצרת, הידועים ביכולותיהם, הם נושא חם בתעשיית האינטליגנציה המלאכותית. חוקרים ברחבי העולם משפרים את יעילותם ויכולתם. מערכות אלו, בדרך כלל מודלים של למידת מכונה עמוקה, מאומנים מראש על נתונים מתויגים נרחבים, ומשולבים ברשתות עצביות לתשומת לב עצמית. הם משתמשים בשכבות שונות – קדימה, חוזר, מובנה ותשומת לב – כדי לעבד טקסט קלט ולייצר פלטים רלוונטיים.

בדרך כלל, שכבות הקדימה של מודלי שפה גדולים מחזיקות את מרבית הפרמטרים. מחקרים מראים כי מודלים אלו משתמשים רק בחלק קטן מהנוירונים הזמינים לחישוב פלט במהלך היסטוריה.

מאמר זה מציג את UltraFastBERT, פריימוורק המבוסס על BERT, המתאים ליעילות של מודלי BERT מובילים, אך משתמש רק ב-0.3% מהנוירונים במהלך היסטוריה, במיוחד 12 מתוך 4095 בכל שכבה. נחקור את הארכיטקטורה, התפקוד והתוצאות של UltraFastBERT. הבה נתחיל.

UltraFastBERT : מבוא למודל שפה מהיר פי אקספוננציאלית

באופן מסורתי, מודל שפה מעסיק מרכיבים שונים כדי לצייד את עצמו ביכולות יצירת תוכן, כולל שכבות קדימה, שכבות חוזר, שכבות מובנות ושכבות תשומת לב. מרכיבים אלו אחראים ללמידה להכיר דפוסים במהלך אימון, ולבסוף לייצר פלט מדויק על בסיס הטקסטים הקלט. כל אחד ממרכיבים אלו הוא בעל פרמטרים, וב-מודלי שפה, רוב הפרמטרים האלו מוחזקים על ידי שכבות הקדימה. אולם, שכבות הקדימה אלו אינן מנצלות 100% מהנוירונים הזמינים להן כדי לייצר פלט עבור כל קלט בזמן היסטוריה, מה שגורם לבזבוז משאבים, הגדלת סיבוכיות, זמן חישוב ועלויות חישוב.

… (the rest of the translation remains the same, following the exact structure and format as the original)