Connect with us

ืœืžื” ื‘ืงืจืช ืขืœื•ืช AI ื”ื•ืคื›ืช ืœืืชื’ืจ ื”ื‘ื ื‘ืงื ื” ืžื™ื“ื” ืฉืœ ื”ื—ื‘ืจื”

ืžื ื”ื™ื’ื™ ื“ืขื”

ืœืžื” ื‘ืงืจืช ืขืœื•ืช AI ื”ื•ืคื›ืช ืœืืชื’ืจ ื”ื‘ื ื‘ืงื ื” ืžื™ื“ื” ืฉืœ ื”ื—ื‘ืจื”

mm
A high-tech data center landscape featuring glowing blue fiber-optic data streams converging into a complex network, passing through a massive, reinforced industrial gate that represents a

1. ההלם הסמוי של עלות לאחר פריסת AI

בניסויים ראשונים, מערכות AI נראות כמו יעילות כלכלית על פני השטח. נפחי תנועה נמוכים, מקרי שימוש מוגדרים היטב, וצוותים מקרבים התנהגות בסביבות בקרה. תחת תנאים אלו, עלות נבדקת בדרך כלל ברמת קריאות מודל אינדיבידואליות או זרימי עבודה מוגבלים. זה נותן את הרושם שהגדלת קנה מידה תהיה פשוטה. לפחות, זה מה שרוב הצוותים חשבו.

הרושם הזה מוגבר על ידי העובדה שהוצאות AI הגנרטיביות לא מראות שום סימנים של האטה. דו”ח אחרון מעריך כי הוצאות יישומי gen-AI של החברה הגיעו לעשרות מיליארדי דולרים ב-2025, יותר מפי שלושה מאשר בשנה הקודמת.

אבל המציאות משתנה פעם אחת סוכנים נחשפים למשתמשים אמיתיים ולסיבוכיות מבצעית.

סביבות ייצור מציגות דפוסים בלתי צפויים של אינטראקציה, שיחות ארוכות, תהליכי רקע ונתיבים לדרגות מודלים יותר מתקדמים. בקשה בודדת יכולה לגרום לפעולות רבות בעקבותיה שלא היו גלויות במהלך בדיקות. חברות עוסקות באתגר שרבים מהצוותים מתארים כ”הפתעת חשבון”, עלייה פתאומית בהוצאות ללא הבנה ברורה של אילו התנהגויות או זרימי עבודה יצרו אותה.

בשלב הזה, האתגר לא רק על אופטימיזציה של מודלים. במקום זאת, זה על קבלת נראות לדינמיקה של זמן ריצה שבאמת מניעה את עלות AI.

2. למה AI עומסי עבודה שוברים מודלים מסורתיים של עלות ענן

בעבר, ניהול עלות ענן מסורתי התפתח סביב עומסי עבודה יחסית צפויים. צריכת תשתית יכולה הייתה להימדד ביחידות יציבות כגון שעות חישוב, אחסון או נפח בקשות, ואפילו להיות מותאמת דרך אסטרטגיות של זיכיון או בקרת שימוש. הדבר העיקרי לדעת הוא שנתיבי ביצוע היו ברובם דטרמיניסטיים. זה הפך את זה אפשרי לתחזית הוצאות בדיוק סביר ולייחס עלויות לשירותים או צוותים ספציפיים.

עומסי עבודה של AI מציגים מודל כלכלי שונה. הוצאות קשורות בעיקר לשימוש בטוקנים, גודל הקשר, שרשראות קריאות מודל והחלטות זרימת עבודה דינאמיות שמשתנות מאינטראקציה לאינטראקציה.

אותה בקשת משתמש יכולה לעקוב אחר נתיבי ביצוע שונים לחלוטין בהתאם לספים של ביטחון, תגובות כלי או לוגיקת נפילה. זה למה עלות אינה ליניארית או ניתנת לתחזית כמו בעבר. לוחות בקרה מסורתיים של FinOps מספקים נראות לצריכת תשתית. הנושא האמיתי הוא שהם מתקשים לתפוס התנהגות בזמן ריצה. במקום זאת מן ההקצאה של משאבים בלבד. חברות לא יכולות לקבוע באמת את הכלכלה של מערכות AI דרך אמצעים מסורתיים.

3. השטח המורחב של עלות של מערכות Agentic

כאשר חברות עוברות מהסקת מסקנות חד-שלבית לארכיטקטורות Agentic, הפרופיל העלות של מערכות AI הופך להרבה יותר מורכב. ניתוח תעשייה אחרון אפילו מנבא כי יותר מ- 40% מפרויקטי AI Agentic יבוטלו עד סוף 2027, בין היתר בגלל העלות האמיתית והסיבוכיות של פריסת עבודות סוכנים רב-שלביות בקנה מידה.

בקשת משתמש אינה מתפתרת דרך קריאת מודל אחת. במקום זאת, התהליך עובר דרך זרימי עבודה מתואמים שעשויים לכלול צעדי תכנון. חשוב לחשוב על פעולות אחזור, ביצועי כלים ואינטראקציות בין סוכנים רבים.

לא לדבר על כך שזרימי העבודה הנ”ל מוסיפים יכולות כגון יצירה מוגברת על ידי אחזור (RAG) או שיתוף פעולה בין סוכנים רבים, שמציגים פעולות מוסכות נוספות שמתרבות במהלך הזמן.

אינטראקציה אחת יכולה לגרום לקריאות הטמעה, שאילתות מסד נתונים וקטורי, לולאות היגיון איטרטיביות והעלאות למודלים יותר מתקדמים כאשר הביטחון יורד. בעוד שכל פעולה בודדת עשויה להראות שולית בבידוד, השפעתן המצטברת עוצבת את הכלכלה הכוללת של המערכת.

4. למה אופטימיזציה של פרומפט לבדה לא יכולה לפתור את כלכלת זמן ריצה

אופטימיזציה של פרומפט היא בדרך כלל אחד הידרים הראשונים שצוותים מגיעים אליהם כאשר הם מנסים לשלוט בעלויות AI. הפחתת שימוש בטוקנים, שיפור הוראות או שיפור מבנה תגובה יכולים לספק רווחי יעילות משמעותיים ברמת קריאות מודל אינדיבידואליות. אופטימיזציות מתייחסות רק לחלק קטן מהתמונה הכלכלית הרחבה יותר. בסביבות ייצור, רוב התנודתיות של עלות נעה על ידי דפוסי התנהגות בזרימי עבודה ולא רק על ידי אורך פרומפט.

אי-יעילויות צוץ לעיתים קרובות מנסיונות לא נחוצים, אחזור עמוק מדי, העלאות למודלים בעלות גבוהה יותר, או סוכנים שמבצעים עבודה שאינה משנה תוצאות באופן מהותי. בלי נראות לעקבות ביצוע והשפעה עסקית, כיוון פרומפט יכול פשוט להעביר הוצאות מחלק אחד של המערכת למשנהו.

עם AI הופכות מערכות לאוטונומיות ומחוברות יותר, ניהול עלות דורש שליטה סיסטמית שקובעת כיצד סוכנים פועלים בזמן אמת. זה לא רק על התאמות מקומיות לאופן שבו בקשות אינדיבידואליות מנוסחות.

סקר AI FinOps אחרון שכיסה עשרות מיליארדים בהוצאות ענן הזכיר תפנית לנראות עלות AI בזמן אמת, תקציבים לפי צוות והתראות תקציב אוטומטיות. הרעיון הוא לטפל בעלות כ-SLO מבצעי במקום מדד כספי טהור.

5. גישות ארכיטקטוניות חדשות לבקרת עלות AI

בתגובה לעלייה בתנודתיות עלות, חברות מחשיבות מחדש היכן וכיצד שליטה כלכלית צריכה להיות מיושמת בתוך מערכות AI. במקום לטפל באופטימיזציה של עלות כתרגיל כספי לאחר מכן, צוותים מציגים מנגנונים ארכיטקטוניים שמשפיעים על הוצאות בזמן ריצה.

אחד הנתיבים החדשים שאנו רואים הוא השימוש בשכבות ניתוב ותזמון שבוחרות דינאמית מודלים או זרימי עבודה על בסיס סיבוכיות משימה, יעדי עיכוב או הגבלות תקציב. זה מאפשר לחברות לא

Sohrab Hosseini, ืžื™ื™ืกื“-ืฉื•ืชืฃ ืฉืœ orq.ai, ื”ื•ื ืžื ื”ื™ื’ ื˜ื›ื ื•ืœื•ื’ื™ ื•ื™ื–ื ื”ืžื‘ื•ืกืก ื‘ืื–ื•ืจ ืืžืกื˜ืจื“ื ืขื ื ื™ืกื™ื•ืŸ ืขืžื•ืง ื‘ืชื—ื•ืžื™ SaaS, ืžืขืจื›ื•ืช ื‘ืงื ื” ืžื™ื“ื” ื’ื“ื•ืœ ื•-AI ืžื•ืฉื. ืžืื– ื”ืงืžืช orq.ai ื‘-2022, ื”ื•ื ื”ืชืžืงื“ ื‘ื‘ื ื™ื™ืช ืชืฉืชื™ืช ืžืขืฉื™ืช ืฉืขื•ื–ืจืช ืœืฆื•ื•ืชื™ื ืœื”ืขื‘ื™ืจ ืžื•ื“ืœื™ื ื’ื“ื•ืœื™ื ืฉืœ ืฉืคื” ืžื ื™ืกื•ื™ ืœืฉื™ืžื•ืฉ ืžื•ืฆืจื™. ืจืงืขื• ื›ื•ืœืœ ืชืคืงื™ื“ื™ื ื‘ื›ื™ืจื™ื ื›-COO ื•-CTO ื‘-Neocles, CTO ืฉืœ Future Technology ื‘-Transdev, ืฉื ืขื‘ื“ ืขืœ ื ื™ืชื•ื‘ ืื•ื˜ื•ื ื•ืžื™ ื•ื ื™ื”ื•ืœ ืฆื™, ื•-COO ื‘-TradeYourTrip. ื‘ืžืงื‘ื™ืœ, ื”ื•ื ืคืขื™ืœ ื›ื™ื•ืขืฅ ื•ืžืฉืงื™ืข-ืžืœืืš, ืชื•ืžืš ื‘ื—ื‘ืจื•ืช AI ื‘ืฉืœื‘ ื”ืชื—ืœืชื™ ืขื ื›ื™ื•ื•ืŸ ืžื•ืฆืจ, ืฉื™ืคื•ื˜ ื˜ื›ื ื™ ื•ืืกื˜ืจื˜ื’ื™ื™ืช ื‘ื™ืฆื•ืข.

ื’ื™ืœื•ื™ ื ืื•ืช ืœืžืคืจืกืžื™ื: Unite.AI ืžื—ื•ื™ื‘ืช ืœืกื˜ื ื“ืจื˜ื™ื ืžืขืจื›ืชื™ื™ื ืžื—ืžื™ืจื™ื ื›ื“ื™ ืœืกืคืง ืœืงื•ืจืื™ื ืžื™ื“ืข ื•ื—ื“ืฉื•ืช ืžื“ื•ื™ืงื™ื. ื™ื™ืชื›ืŸ ืฉื ืงื‘ืœ ืชื’ืžื•ืœ ื›ืืฉืจ ืชืœื—ืฆื• ืขืœ ืงื™ืฉื•ืจื™ื ืœืžื•ืฆืจื™ื ืฉืกืงืจื ื•.