Connect with us

ื”ื•ื•ื™ื›ื•ื— ืขืœ “ื ืจืคื™ื ื’” ืฉืœ ืงืœื•ื“ ืœื ืขื•ืกืง ื‘ืงืœื•ื“. ื”ื•ื ืขื•ืกืง ื‘ืžื” ืฉืงื•ืจื” ื›ืืฉืจ ื”ืคืขื•ืœื•ืช ืฉืœืš ืžืจื•ืฆื•ืช ืขืœ ืคื™ ื”ื—ืœื˜ื•ืช ืฉืœ ืžื™ืฉื”ื• ืื—ืจ.

ืžื ื”ื™ื’ื™ ื“ืขื”

ื”ื•ื•ื™ื›ื•ื— ืขืœ “ื ืจืคื™ื ื’” ืฉืœ ืงืœื•ื“ ืœื ืขื•ืกืง ื‘ืงืœื•ื“. ื”ื•ื ืขื•ืกืง ื‘ืžื” ืฉืงื•ืจื” ื›ืืฉืจ ื”ืคืขื•ืœื•ืช ืฉืœืš ืžืจื•ืฆื•ืช ืขืœ ืคื™ ื”ื—ืœื˜ื•ืช ืฉืœ ืžื™ืฉื”ื• ืื—ืจ.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

בתחילת השנה, פרסמה סטלה לורנצו, המנהלת הבכירה של AI ב-AMD, טלמטריה מכמעט 7,000 סשנים של Claude Code, המתעדת משהו שמהנדסים הרגישו אבל התקשו לנסח: בין ינואר למרץ, עומק התיבות הנראה ירד ב-73%, קריאות API למשימה גדלו ב-80%, והמודל קרא הרבה פחות קבצים לפני שערך. המספרים התפשטו במהירות. הפרשנות התפשטה מהר יותר.

אנתרופיק מערערת על ההצגה. החברה אומרת שהשינויים משקפים החלטות מכוונות של מוצר, כולל מנגנון חשיבה אדפטיבי חדש ומעבר למאמץ בינוני כברירת מחדל. גם מנתחים עצמאיים דחקו בחלקים מהמתודולוגיה. הוויכוח נמשך, ואנשים סבירים מסכימים שלא מה שקרה באמת.

אבל זהו החלק שחשוב אם אתה מריץ עסק על גבי מערכות אלה: האם זו היתה דיגרדציה או כיוונון מכוון, לא משנה מה שמופעלים אנטרפרייז חוו. הם לא יכלו לחזות את זה. הם לא יכלו לשלוט בזה. וחלקם הרגישו את זה בייצור לפני שהבינו מה קורה. זו הסיפור האמיתי, והוא לא קשור לאנתרופיק בפרט.

זוהי בעיה של תלות, לא בעיה של מודל.

מה שאנו מתארים יש לו שם: רגישות מודל. זוהי המצבה בה פעולות משמעותיות קשורות קשר הדוק להתנהגות של מודל בודד, כך שכל שינוי בשכבת המודל, האם החלטת כיוונון, ברירת מחדל חדשה, שינוי כיוון נובע מנפח, או ביטול שקט, פוגע בעסקים ישירות, ללא באפק וללא אזהרה.

זה לא דפוס חדש. GPT-4 עברה דבר דומה ב-2023. Claude 3.5 עברה דבר דומה ב-2024. Claude Opus עוברת דבר דומה עכשיו. זה יקרה שוב עם המודל הבא, וזה שאחריו. לא מפני שספק כלשהו פועל ברוח רעה, אלא מפני שאופטימיזציה של מודל חדיש לעלות, עיכוב וקנה מידה בנפח גלובלי היא בדיוק מה שספקים חדישים צריכים לעשות. הסיכויים והסיכויים של חברה הרצה פעולות ייצור על גביהם קשורים. הם לא זהים. הם לעולם לא יהיו.

הגרסה האנטרפרייזית של סיפור זה היא אופרציונלית, לא טכנית.

עבור מפתחים, המצב הנוכחי הוא לא נוח. תקציבי טוקנים בוערים מהר יותר. סשנים של קוד נעצרים. בנצ’מרקים מאכזבים. זו בעיה אמיתית, אבל זו בעיה שניתן לפתור.

עבור חברות הרצות פעולות פיננסיות, זרימות עבודה של תאימות, חשבונות קבלה ותשלום, ותהליכים מורכבים של משרד אחורי, הימורים שונים. זרימות העבודה האלה לא יכולות לספוג שבוע רע. שגיאות מצטברות. נפח מצטבר. SLA הן התחייבויות ללקוחות אמיתיים, לא העדפות פנימיות. רגע שמודל מתחיל להישחק על תהליך בעלות סיכון גבוה, הנזק מצטבר האם איש משם לב או לא.

מה שהופך את זה לקשה יותר הוא שרוב החברות שניסו להתקדם ב-AI על ידי בניית סוכנים פנימיים על מודל בודד עכשיו מגלות כיצד היסוד היה לא שלם. הסוכן הראשון היה החלק הקל. מה שלא נבנה היה התשתית המקיפה: מסגרות הערכה שמגלות נטיית התנהגות לפני שהיא מגיעה ללקוח, לוגיקת גיבוי שמפנה עבודה אוטומטית כאשר מודל מתחיל להישחק, וניהול רציף המסוגל לשמור קצב עם נוף שמשתנה כל רבעון. שלוש הפערים האלה לא נשארים ניתנים לניהול. הם גדלים לתפקיד הנדסי קבוע שאף אחד לא תקצב, בעבודה על ידי אנשים שעבודתם בעצם להתמודד עם החלטות המתקבלות על ידי ספקים שאין להם השפעה.

מהו המראה של עמידות בייצור.

ב-Qurrent, בנינו את הכוח הדיגיטלי להיות א-מודלי מההתחלה, לא כעמדה שיווקית אלא כדרישת ארכיטקטורה. כל משימה מופנית למודל המבצע הטוב ביותר עבור משימה זו, המוערך ברציפות. כאשר מודל טוב יותר מוצא, לקוחות מקבלים אותו אוטומטית. כאשר מודל נוכחי מתדרדר על זרימת עבודה מסוימת, שכבת התזמון מפנה את העבודה הזו בשניות, ללא התערבות אנושית וללא שאיש מתעורר לשיחת Slack ב-2am.

מתחת לזה, סימולציות אוטומטיות רצות נגד זרימות עבודה בייצור סביב השעון, מודדות האם פלטים תואמים התנהגות צפויה. נטייה מזוהה בשכבת התשתית, לפני שצוות הפעולות מרגיש את זה והרבה לפני שלקוח משם לב. וכל החלטה שהתקבלה על ידי כל עובד דיגיטלי מתועדת וניתנת לביקורת, קופסה שקופה, מפני שאי אפשר לנהל מה שאי אפשר לראות.

אלו לא תכונות פרמיום. הם מחיר הכניסה לריצה של AI בייצור בקנה מידה של אנטרפרייז. רוב החברות לומדות את זה באמצע מחזור חדשות, אשר הוא הדרך היקרה לגלות.

השאלה ששווה לשאול הרבעון.

אם המודל שפעולותיך תלויות בו ביותר היה שבוע רע ברבעון הבא, כמה מזרימות העבודה שלך ירגישו את זה? איך תדעו? וכמה מהר תוכלו להפנות סביב זה?

אם התשובה לשאלה השנייה היא “נשמע מלקוח”, הפעולה לא מוכנה לייצור. זו ניסוי רץ בקנה מידה, וההבדל משמעותי יותר ממה שמנהיגים רבים מבינים עד שלא.

ืงื•ืœื™ืŸ ื•ื™ืœ, ืžื ื›"ืœ ื•ืžื™ื™ืกื“-ืฉื•ืชืฃ ืฉืœ Qurrent ื”ื•ื ื™ื–ื ืžื ื•ืกื” ืฉืขื•ื‘ื“ ื‘ืขื•ืžืง ืขื AI ืžืื– ืฉื ื•ืช ื”-90. ื”ืžื™ื–ืžื™ื ื”ืงื•ื“ืžื™ื ืฉืœ ืงื•ืœื™ืŸ ื›ื•ืœืœื™ื Mynd, ืคืœื˜ืคื•ืจืžื” ื˜ื›ื ื•ืœื•ื’ื™ืช ืœื”ืฉืงืขื•ืช ื‘ื ื“ืœ"ืŸ ืœืžื’ื•ืจื™ื ื™ื—ื™ื“ื™ื ืฉื ืงืจืื” ื”ื—ื‘ืจื” ื”ื’ื“ืœื” ื”ืžื”ื™ืจื” ื‘ื™ื•ืชืจ ื‘ืื–ื•ืจ ืžืคืจืฅ ื‘-2020, ื•-Waypoint Homes, ืฉื’ื™ื™ืกื” ืžืขืœ 3.5 ืžื™ืœื™ืืจื“ ื“ื•ืœืจ ื•ื ื™ื”ืœื” 17,000 ื‘ืชื™ื ืœืคื ื™ ืฉื”ืคื›ื” ืœืฆื™ื‘ื•ืจื™ืช ื‘ื‘ื•ืจืกื” ืฉืœ NYSE ื‘-2014. ืงื•ืœื™ืŸ ืžื•ื›ืจ ื‘ื–ื›ื•ืช ื—ื™ื“ื•ืฉื™ื• ื‘-AI, ื•ื”ื•ื ืžื—ื–ื™ืง ื‘ืคื˜ื ื˜ื™ื ืจื‘ื™ื, ื–ื›ื” ื‘ืžืงื•ื ื‘ืจืฉื™ืžืช 100 ื”ื™ื–ืžื™ื ื”ื—ื“ืฉื ื™ื ื‘ื™ื•ืชืจ ืฉืœ Goldman Sachs, ื•ื ื‘ื—ืจ ื›ื™ื–ื ื”ืฉื ื” ืฉืœ Ernst & Young.