قادة الفكر
مناقشة “التنقيص” حول كلود ليست حول كلود. إنها حول ما يحدث عندما تعمل عملياتك على قرارات شخص آخر.

في وقت سابق من هذا العام، نشرت ستلا لورينزو، المدير التنفيذي لشركة AMD، بيانات تيليمتري من ما يقرب من 7000 جلسة كلود كود توثيق شيء كان المهندسون يشعرون به ولكنهم يجدون صعوبة في التعبير عنه: بين يناير ومارس، ظهرت عمق التفكير المرئي أنخفض بنسبة 73٪، وازدادت مكالمات API لكل مهمة بمقدار ثمانين مرة، وكان النموذج يقرأ عددًا أقل من الملفات قبل إجراء التعديلات. انتشرت الأرقام بسرعة. انتشرت التفسيرات بشكل أسرع.
تتنازع أنثروبك الإطارات. تقول الشركة إن التغييرات تعكس قرارات منتج متعمدة، بما في ذلك آلية التفكير التكيفية الجديدة والتحول إلى جهد متوسط كافتراضي. كما عارض محللون مستقلون أجزاء من المنهجية. المناقشة لا تزال جارية، ويتفق الناس المعقولون على ما حدث بالفعل.
ولكن هنا الجزء الذي يهم إذا كنت تعمل على تشغيل أعمال على هذه الأنظمة: سواء كان هذا تدهورًا أو تعديلًا متعمدًا لا يغير ما تعرضت له مشغلي المؤسسات. لم يتمكنوا من توقع ذلك. لم يتمكنوا من التحكم فيه. وشعر بعضهم به في الإنتاج قبل أن يفهموا ما يحدث. هذا هو القصة الحقيقية، وليس لها علاقة بأنثروبك على وجه الخصوص.
هذا مشكلة تعلق، وليس مشكلة نموذج.
ما نوصف له اسم: هشاشة النموذج. وهي الحالة التي تكون فيها العمليات الحيوية متصلة بشكل وثيق بسلوك نموذج واحد، بحيث أي تغيير في طبقة النموذج، سواء كان قرار تعديل أو إعداد افتراضي جديد أو تحول في القدرة أو إلغاء صامت، يؤثر على الأعمال بشكل مباشر، دون حائل ولا تحذير.
هذه ليست نمطًا جديدًا. مرت GPT-4 ب نسخة منها في 2023. مرت كلود 3.5 ب نسخة منها في 2024. تمر كلود أوبوس ب نسخة منها الآن. سيحدث مرة أخرى مع النموذج الأمامي التالي، والنموذج الذي يليه. ليس لأن أي بائع يتصرف بسوء نية، ولكن لأن تحسين نموذج أمامي للتكلفة والكسر والقياس على مستوى عالمي هو ما يجب على بائعين الأمامية القيام به. حوافزهم وحوافز شركة تعمل على تشغيل عمليات الإنتاج على رأسهم متعلقة. إنها ليست متطابقة. لن تكون كذلك أبدًا.
لقد بدأنا Qurrent في 2023 ولدينا المعرفة التاريخية لمعرفة كيف تلعب دورات البرمجيات المؤسسية: تستثمر شركة في الذكاء الاصطناعي. يعمل العرض التوضيحي. يعمل الطيار. ثم يذهب مباشرة، شيء يتغير في طبقة النموذج، وفجأة يصبح العميل يملك المشكلة. هم الذين يقومون بصيانة Flux، ومطاردة الانحدارات، وامتصاص الاضطراب. ذلك لم يكن لديّ قط نموذجًا مستدامًا لعمليات المؤسسات.
النسخة المؤسسية من هذه القصة تشغيلية، وليست تقنية.
للمطورين، الوضع الحالي غير مريح. تمت إزالة ميزانيات الرموز بشكل أسرع. اجتماعات الترميز تتعطل. تخيب آمال البenchmarks. هذا مشكلة حقيقية، ولكنها قابلة للتعافي.
لمشغلي المؤسسات الذين يعملون على عمليات مالية، وعمليات امتثال، وحسابات القبض والدفع، وعمليات مكتبية معقدة، تكون الرهانات مختلفة. لا يمكن أن تمتص هذه العمليات أسبوعًا سيئًا. الأخطاء تتراكم. الحجم يتراكم. SLAs هي التزامات للعملاء الفعليين، وليست تفضيلات داخلية. في اللحظة التي يبدأ فيها النموذج في الأداء السيئ في عملية عالية المخاطر، تتراكم الأضرار سواء كان أي شخص لاحظ ذلك أم لا.
ما يجعل الأمور أكثر صعوبة هو أن معظم الشركات التي حاولت أن تتقدم في الذكاء الاصطناعي من خلال بناء وكلاء داخليين على نموذج واحد اكتشفت الآن كيف كانت الأسس التي بنيت عليها غير كاملة. كان الوكيل الأول هو الجزء السهل. ما لم يتم بناؤه هو البنية التحتية المحيطة: إطارات التقييم التي تكتشف الانحراف السلوكي قبل أن يصل إلى العميل، و منطق الفشل التلقائي الذي يعيد توجيه العمل تلقائيًا عندما يبدأ النموذج في الأداء السيئ، والإدارة المستمرة القادرة على مواكبة المناظر التي تتغير كل ربع سنة. هذه الفجوات الثلاث لا تبقى قابلة للإدارة. إنها تتضخم إلى وظيفة هندسية دائمة لا أحد يتحمل تكاليفها، ويتم تشغيلها من قبل أشخاص الذين يكون عملهم أساسًا هو مواكبة القرارات التي يتخذها البائعون الذين لا يكون لهم أي تأثير عليهم.
ما يبدو عليه الصمود في الإنتاج.
في Qurrent، بنينا القوة العاملة الرقمية لتكون غير متجاوزة مع النموذج منذ البداية، وليس كموقف تسويقي ولكن كمتطلب هندسي. كل مهمة تتم توجيهها إلى أفضل نموذج أداء للمهمة، يتم تقييمها بشكل مستمر. عندما يرسل نموذج أفضل، يحصل العملاء عليه تلقائيًا. عندما يتراجع نموذج حالي على تدفق عمل معين، يعيد طبقة التوجيه العمل في ثوان، دون تدخل بشري ودون أن يوقظ أحد إلى خيط Slack في الساعة 2 صباحًا.
تحت ذلك، تعمل المحاكاة الآلية على تدفقات الإنتاج على مدار الساعة، لقياس ما إذا كانت الإخراج تتماشى مع السلوك المتوقع. يتم اكتشاف الانحراف في طبقة البنية التحتية، قبل أن يشعر بها فريق العمليات وبعد ذلك بكثير قبل أن يشعر بها العميل. وكل قرار يتخذه كل عامل رقمي يتم تسجيله ومراجعته، صندوق زجاجي كامل، لأنك لا تستطيع الحكم على ما لا يمكنك رؤيته.
هذه ليست ميزات متميزة. إنها ثمن الدخول لتشغيل الذكاء الاصطناعي في الإنتاج على مستوى المؤسسات. معظم الشركات تتعلم ذلك في منتصف دورة الأخبار، وهو الطريقة المكلفة لاكتشاف ذلك.
السؤال الذي يستحق السؤال هذا الربع.
إذا كان النموذج الذي تعتمد عليه عملياتك الأكثر أهمية كان لديه أسبوع سيئ في الربع التالي، كم من تدفقات العمل ستشعر بذلك؟ كيف ستعرف؟ وكيف يمكنك التوجيه حولها؟
إذا كان الجواب على السؤال الثاني “سنمع من عميل”، فإن العملية ليست جاهزة للإنتاج. إنها طيار يعمل على مستوى كبير، والفرق يهم أكثر مما يدركه معظم القادة حتى لا يهم.












