ืืื ื ืืืืืืชืืช
ืืื AI Inference, ืืื ืืืืื, ืืื ืืืชืืจ ืืื ืืกื ืืืืื ืืื

במהלך העשור האחרון, הספוטלייט בבינה מלאכותית הואפל על ידי אימון. הפריצות התרחשו בעיקר מקלאסטרים חישוביים ענקיים, מודלים עם טריליון פרמטרים, והמיליארדים שהושקעו בלימוד מערכות “לחשוב”. התייחסנו לפיתוח AI בעיקר כפרויקט בנייה: בניית גורד השחקים של האינטליגנציה. אבל עכשיו, כשגורד השחקים הזה כבר נבנה, האתגר האמיתי הוא לגרום למיליוני אנשים שצריכים לחיות ולפעול בתוכו בו-זמנית. זה מסיט את תשומת הלב של חוקרי AI והנדסה מ-אימון (פעולת יצירת האינטליגנציה) ל-inference (פעולת השימוש בה). בעוד אימון הוא הוצאה גדולה וחד-פעמית (CapEx), אינדוקציה היא הוצאה מתמשכת (OpEx) שנמשכת לנצח. כאשר חברות מפליגות סוכנים המשרתים מיליוני משתמשים סביב השעון, הם מגלים מציאות קשה: אינדוקציה אינה פשוט “אימון להפך”. זהו אתגר הנדסי פונדמנטלית שונה, ואולי קשה יותר.
למה עלויות אינדוקציה חשובות יותר מתמיד
כדי להבין את האתגר ההנדסי, יש להבין קודם את היסוד הכלכלי. בשלב האימון, אי-יעילות נסבלת. אם ריצה של אימון לוקחת ארבעה שבועות במקום שלושה, זה הפרעה. באינדוקציה, לעומת זאת, אי-יעילות יכולה להיות הרסנית עבור עסקים. לדוגמה, אימון מודל חדיש עשוי לעלות 100 מיליון דולר. אבל הפעלת המודל הזה כדי לענות על 10 מיליון שאילתות ביום יכול לעלות על עלות זו בתוך חודשים אם לא מותאמת. זהו הסיבה שאנו עדים למהפך בשוק, עם השקעות באינדוקציה מוערכות לעקוף השקעות באימון.
החומה של זיכרון: המכשול האמיתי
האמת הלא ידועה על אינדוקציה של Large Language Model (LLM) היא שהיא נדירות מוגבלת על ידי חישוב; היא מוגבלת על ידי זיכרון. במהלך אימון, אנו מעבדים נתונים בקבוצות ענק, ושומרים על יחידות החישוב של ה-GPU מלאות. באינדוקציה, במיוחד עבור יישומים בזמן אמת כמו צ’אטבוטים או סוכנים, בקשות מגיעות ברצף. כל טוקן שנוצר דורש מהמודל לטעון את מיליארדים של פרמטרים מ- זיכרון ברוחב פס גבוה (HBM) לתוך ליבות החישוב. זהו “החומה של זיכרון.” זה כמו להיות עם מנוע פרארי (ליבת ה-GPU) תקוע בפקק תנועה (רוחב הפס המוגבל).
הגבולות החדשים של יעילות AI
מכיוון שלא תמיד ניתן לשנות את החומרה, הגבול הבא של הנדסה נמצא באופטימיזציה של תוכנה. זהו המקום שבו חלק מהפריצות החדשניות ביותר קורות. אנו עדים לתחייה של טכניקות המגדירות מחדש כיצד מחשבים מיישמים ומבצעים רשתות נוירונים.
- באצ’ינג רציף: באצ’ינג מסורתי ממתין ל”אוטובוס” למלא, מה שמציג הפסקות. באצ’ינג רציף (שפורסם על ידי מסגרות כמו vLLM) פועל כמו מערכת רכבת תחתית, מאפשר לבקשות חדשות להצטרף או לצאת מרכבת ה-GPU בכל איטרציה. הוא ממקסם את הקצב הכולל מבלי לוותר על עיכוב, ופותר בעיה סבוכה של תזמון שדורשת מומחיות עמוקה ברמת המערכת.
- פיענוח ספקולטיבי: טכניקה זו מעסיקה מודל קטן, מהיר וזול כדי לשרטט תגובה, בעוד מודל גדול, איטי ומסוגל יותר מאשרת אותו במקביל. היא סומכת על העובדה שאימות טקסט הרבה פחות יקר מבחינה חישובית מאשר יצירתו.
- ניהול KV Cache: בשיחות ארוכות, “ההיסטוריה” (אחסון המפתח-ערך) גדלה במהירות, וצורכת כמויות גדולות של זיכרון GPU. מהנדסים מיישמים כעת ” PagedAttention“, טכניקה שהושפעה מזיכרון וירטואלי במערכות הפעלה. טכניקה זו שוברת את הזיכרון לחלקים ומנהלת אותו באופן לא-רציף.
הסיבוכיות הסוכנית
אם אינדוקציה סטנדרטית קשה, AI סוכנית מקשה עליה באופן אקספוננציאלי. צ’אטבוט סטנדרטי הוא ללא מצב: המשתמש שואל, AI עונה, התהליך מסתיים. AI סוכנית, לעומת זאת, היא בלופ. היא מתכננת, מבצעת כלים, צופה בתוצאות, וחוזרת על עצמה. מנקודת מבט הנדסית, זהו קושמר. המעבר הארכיטקטוני הזה מציג מספר אתגרים יסודיים:
- ניהול מצב: מנוע האינדוקציה חייב לשמור על “מצב” של תהליך החשיבה של הסוכן במהלך מספר צעדים, לעיתים קרובות במשך דקות.
- לולאות אינסופיות: לא כמו פאס קדימה צפוי, סוכן יכול להיתקע בלולאת תהליך. הנדסת “שומרים” ו”מנגנוני בטיחות” עבור קוד פרובביליסטי הוא תחום חדש לגמרי.
- חישוב משתנה: שאילתה אחת של משתמש עשויה לגרום לקריאת אינדוקציה בודדת, בעוד שאחרת עשויה לגרום לחמישים. ניהול עומס ואוטוסקיילינג של תשתית כאשר כל בקשה נושאת וריאנס קיצוני דורשת כיתה חדשה לגמרי של לוגיקת תזמון.
אנו בעצם עוברים מ-“שירות מודלים” ל-“תזמון ארכיטקטורות קוגניטיביות”.
הבאת AI למכשירים יומיומיים
לבסוף, הגבולות של אנרגיה ועיכוב רשת יכריחו בסופו של דבר את האינדוקציה לשוליים. לא ניתן לצפות שכל נורה חכמה, רכב אוטונומי או רובוט בית מעבדה ישלחו את בקשותיהם דרך מרכז נתונים. האתגר ההנדסי כאן הוא דחיסה. כיצד להתאים מודל שלמד מכל האינטרנט לשבב קטן מציפורן, הפועל על סוללה?
טכניקות כמו קוונטיזציה (הפחתת דיוק מ-16 ביט ל-4 ביט או אפילו 1 ביט) ו- דיסטילציה של מודל (לימוד מודל סטודנט קטן לחיקוי מורה גדול) הופכות לתקנים. אבל האתגר האמיתי הוא פריסת מודלים אלו לאקוסיסטם מפוצל של מיליארדי התקנים כמו אנדרואיד, iOS, לינוקס מובנה, חיישנים מותאמים, כל אחד עם הגבלות חומרה משלו. זהו “סיוט הפיצול” של פיתוח מובייל, מוכפל בסיבוכיות של רשתות נוירונים.
התחתית
אנו נכנסים לעידן “יום 2” של AI יוצר. יום 1 היה על הדגמת היכולת של AI לכתוב שירה. יום 2 הוא על הנדסה, הפיכת יכולת זו ליותר אמינה, זולה ונפוצה. המהנדסים שיגדירו את העשור הבא אינם בהכרח אלו שממציאים ארכיטקטורות מודל חדשות. הם המהנדסים הסיסטמיים, ההאקרים של ליבת המערכת, ואדריכלי התשתית שיכולים לגרום לשירות מיליארד טוקנים בשנייה בלי להתיך את רשת החשמל או לפשוט את החברה. אינדוקציה של AI אינה עוד פרט זניח. זהו המוצר. ואופטימיזציה שלו היא האתגר ההנדסי הגדול הבא.












