Connect with us

قادة الفكر

مشكلة موثوقية الذكاء الاصطناعي التي لا يريد أحد التحدث عنها

mm

السرد السائد حول موثوقية الذكاء الاصطناعي بسيط: النماذج تتصرف بشكل خيالي. وبالتالي، من أجل أن تحصل الشركات على أقصى استفادة منها، يجب أن تتحسن النماذج. المزيد من المعاملات. بيانات تدريب أفضل. المزيد من التعلم التعزيزي. المزيد من التوجيه.

و مع ذلك، حتى عندما تزداد نماذج الطليعة قدرة، فإن المناقشة حول الموثوقية ترفض أن تختفي. قادة الشركات لا يزالون يترددون في السماح للوكلاء باتخاذ إجراءات معنیة داخل الأنظمة الأساسية. لا يزال المجلس يطرح السؤال: “هل يمكننا الوثوق به؟”

ولكن الخيال لا يعد في الأساس مشكلة في النموذج. إنه مشكلة سياق. نحن نسأل أنظمة الذكاء الاصطناعي أن تعمل على البنية التحتية للشركات دون أن نعطيها الرؤية الهيكلية المطلوبة للتفكير بشكل آمن. ثم نلوم النموذج عندما يخمّن.

الفجوة الفعلية في الموثوقية ليست في الأوزان بقدر ما هي في طبقة المعلومات.

جراح بدون التصوير

تخيل جراحًا يعمل بدون التصوير. لا يوجد التصوير بالرنين المغناطيسي. لا يوجد التصوير المقطعي المحوسب. لا توجد تصورات حية للأنسجة المحيطة. فقط فهم عام للتشريح والمشرط.

هذا ما يفعله وكلاء الذكاء الاصطناعي في الشركات الآن.

عندما يُطلب من نظام الذكاء الاصطناعي تعديل تدفق العمل أو تحديث قاعدة نظام التخطيط للموارد أو تشغيل التutomatisation عبر الأدوات، نادرًا ما يكون لديه مخطط تابع كامل للبيئة. إنه لا يعرف أي حقل “غير مستخدم” يمنح لوحة تحكم لاحقة. إنه لا يرى أي تautomatisation يُشير إلى قاعدة التحقق. لا يمكنه محاكاة تأثير النظام بشكل موثوق.

لذلك يفعل ما يتم تدريبه على القيام به: يتنبأ. التنبؤ ليس فهمًا. والتنبؤ بدون سياق هيكلي يبدو مثل الخيال.

نحن نطرح المناقشة الخاطئة

كان مجتمع الذكاء الاصطناعي مقيدًا في مناقشة موثوقية النموذج. أوراق حول قوانين التوسع. أبحاث حول سلسلة التفكير التوجيه. تقنيات تعزيز الاسترجاع. معايير التقييم.

كلها ضرورية. كلها قيمة. ولكن انتبه إلى ما يفتقد إليه: مناقشة هيكل نظام الشركة.

الموثوقية في سياق الشركات لا تعني ببساطة “ينتج النموذج نصًا صحيحًا”. بل تعني “ينتج النظام تغييرات آمنة ويمكن تتبعها وتنبؤها”.

هذا هو متطلب أساسي مختلف.

نظام حي يتراكم الاضطراب

النظم الشركية ليست قواعد بيانات ساكنة. إنها أنظمة حية. كل تكامل جديد يترك أثرًا. كل حملة تُدخل حقلًا. كل “إصلاح سريع” يُدخل طبقة إضافية من التautomatisation. بمرور الوقت، تتفاعل هذه الطبقات بطرق لا يفهمها أي شخص واحد بالكامل.

هذا هو وظيفة النمو. الأنظمة الحية المتكيفة تتراكم بشكل طبيعي الاضطراب. أظهرت الأبحاث من مدرسة سلون للإدارة في معهد ماساتشوستس للتكنولوجيا منذ فترة طويلة كيف يتراكم عدم تناسق المعلومات داخل المنظمات المخاطر التشغيلية. في غضون ذلك، تقدر شركة جارتنر أن سوء جودة البيانات يكلف المنظمات متوسطًا قدره $12.9 مليون دولار في السنة.

الآن تخيل إدخال وكلاء tự độngيين في هذا البيئة دون معالجة غيومها الهيكلية أولاً.

لا ينبغي لنا أن نتفاجأ عندما تشعر النتائج بالتعقيد. الوكيل ليس خبيثًا أو غبيًا. إنه أعمى. إنه يبني في الظلام.

الاسترجاع ليس كافيا

بعض الأشخاص سوف يجادلون بأن الاسترجاع المعزز بالتوليد (RAG) يحل هذه المشكلة. أعط النموذج وصولًا إلى الوثائق. أطعمه وصفات مخطط. اربطه بالواجهات البرمجية.

هذا يساعد.

ولكن الوثائق ليست هيكلاً.

مستند PDF يشرح كيفية عمل تدفق العمل “يجب” لا ي相当 مع مخطط حقيقي للتفاعل مع 17 تautomatisation أخرى.

واقع الشركات نادرًا ما يطابق وثائق الشركات.

دراسة نُشرت في عام 2023 في اتصالات ACM وجدت أن الوثائق القديمة هي مساهمة رئيسية في فشل صيانة البرمجيات. النظم تتطور بشكل أسرع من رواياتها.

لذلك حتى عندما نقدم لوكلاء الذكاء الاصطناعي الوثائق، غالبًا ما نقدم لهم خريطة جزئية أو مثالية.

الخرائط الجزئية لا تزال تنتج أخطاء واثقة.

طبقة الوكيل هي طبقة الأمان الفعلية

نحن نميل إلى التفكير في الأمان على أنه تدريب على التوجيه، وحراس، واختبار Teams، وفلاتر السياسة. كلها مهمة. ولكن في سياق الشركات، الأمان هو سياقي. إنه معرفة:

  • ما يعتمد على هذا الحقل؟
  • ما هي التautomatisation التي تشير إلى هذا الكائن؟
  • أي تقارير لاحقة ستتضرر؟
  • من يملك هذا العملية؟
  • متى تم آخر تعديل؟
  • ما هي التغييرات التاريخية التي سبقت التكوين الحالي؟

بدون هذه الطبقة، الوكيل يعتمد بشكل فعال على التلاعب داخل صندوق أسود. مع هذه الطبقة، يمكنه محاكاة التأثير قبل التنفيذ. الفرق بين الخيال والموثوقية غالبًا ما يكون وضوحًا.

لماذا يلوم النموذج

لماذا، إذن، تركز المناقشة بشكل كبير على النماذج؟ لأن النماذج قابلة للقراءة. يمكننا قياس الارتباك. يمكننا مقارنة نتائج البenchmarks. يمكننا نشر منحنيات التوسع. يمكننا مناقشة جودة بيانات التدريب.

الطوبولوجيا المعلوماتية داخل الشركات أكثر فوضى. يتطلب التنسيق العابر للوظائف. يتطلب الانضباط الحكومي. إنه يضطر المنظمات إلى مواجهة التعقيد التراكمي لأنظمتهم.

من الأسهل أن نقول “النموذج ليس جاهزًا” بدلاً من القول “بنية تكنولوجيا المعلومات لدينا غير واضحة”.

ولكن عندما يتحرك وكلاء الذكاء الاصطناعي من توليد المحتوى إلى التنفيذ التشغيلي، تصبح هذه الإطار خطرة.

إذا عاملنا الموثوقية فقط على أنها مشكلة اختيار نموذج، سنواصل نشر وكلاء في بيئات لا يمكنهم فهمها بشكل معنوي.

الاستقلالية تتطلب السياق

تجارب أنتروبيك الأخيرة مع فرق تطوير برمجيات متعددة الوكلاء تظهر أن أنظمة الذكاء الاصطناعي يمكنها التنسيق عبر مهام معقدة عند توفير السياق الهيكلي والذاكرة المستدامة. حدود القدرة تتطور بسرعة. ولكن هذا النوع من الاستقلالية بدون الوعي البيئي هو هش.

سيارة ذاتية القيادة لا تعتمد فقط على شبكة عصبية قوية. تعتمد على ليدار، وأجهزة الكاميرا، وأنظمة الخرائط، والتحسس البيئي في الوقت الفعلي. النموذج هو طبقة واحدة داخل مكدس إدراك أوسع.

الذكاء الاصطناعي في الشركات يحتاج إلى ما يعادل ليدار. ليس فقط وصولًا إلى واجهات برمجية. ليس فقط وثائق. ولكن فهمًا هيكليًا ديناميكيًا لاعتماديات النظام.

حتى ذلك الحين، ستستمر مناقشات الخيال في تشخيص السبب الجذري.

الخطر الخفي: الثقة المفرطة

هناك خطر خفي آخر في هذا الإطار.

كلما تحسنت النماذج، أصبحت مخرجاتها أكثر سلاسة، أكثر اقناعًا، أكثر سلطة.

السلاسة تزيد من الثقة المفرطة.

عندما يعدل الوكيل نظامًا بثقة دون سياق كامل، الفشل ليس واضحًا على الفور. قد يظهر بعد أسابيع كاختلاف في التقارير أو فجوة في الامتثال أو خطأ في توقعات الإيرادات. لأن النموذج يبدو كفؤًا، قد تتجاوز المنظمات تقدير أمانها التشغيلي. وضع الفشل الحقيقي هو حساب خاطئ معقول.

والحساب الخاطئ المعقول يزدهر في الظلام.

إعادة صياغة سؤال الموثوقية

بدلاً من سؤال: “هل النموذج جيد بما فيه الكفاية؟” يجب أن نسأل: “هل لدى الوكيل سياق هيكلي كافٍ للعمل بشكل آمن؟” بدلاً من قياس دقة البenchmark، يجب أن نقيس الرؤية البيئية. بدلاً من مناقشة عدد المعاملات، يجب أن نقيم غيومية النظام.

الحدود التالية للموثوقية في الذكاء الاصطناعي ليست مجرد نماذج أكبر. إنها طبقات سياق أكثر ثراء.

بناء مع الإضاءة

القيادات في الشركات على حق في المطالبة بالموثوقية قبل منح الوكلاء السلطة التشغيلية. ولكن الطريق إلى الأمام ليس انتظار نموذج خيالي خالٍ من الخيال.

إنه الاستثمار في بنية الرؤية التي تجعل العمل الذكي ممكنًا.

لا نسمح لمدير مبتدئ بتغيير أنظمة الإنتاج بدون فهم الاعتماديات. لا يجب أن نسمح لوكلاء الذكاء الاصطناعي بذلك أيضًا.

الهدف؟ تقليل النقاط العمياء.

عندما يعمل الوكلاء بوعي هيكلي، تنخفض معدلات الخيال لا لأن النموذج تغير، ولكن لأن سطح التخمين ي缩ص.

التنبؤ يصبح تفكيرًا. التفكير يصبح محاكاة. المحاكاة يصبح تنفيذًا آمنًا.

الانقلاب الحتمي

خلال السنوات الخمس القادمة، سيتفرع مكدس الذكاء الاصطناعي. ستتركز طبقة على قدرة النموذج: عمق التفكير، سلاسة الوسائط المتعددة، والكفاءة التكلفة. ستركز الطبقة الأخرى على الطوبولوجيا المعلوماتية / الهيكلية: رسومات النظام، ذكاء البيانات الوصفية، وأطر الحوكمة.

المنظمات التي تعامل الموثوقية فقط على أنها اختبار اختيار نموذج سوف ت투اجه صعوبات.

المنظمات التي تعامل الموثوقية على أنها خاصية معمارية ستتحرك بشكل أسرع مع مخاطر أقل.

مناقشة الخيال ستبدو قديمة فيما بعد. القصة الحقيقية ستكون حول الرؤية.

الذكاء الاصطناعي ليس عنيفًا بشكل固有.

إنه يعمل في غرفة مظلمة.

حتى نعالج ذلك، لسنا نبني أنظمة ذكية. نحن نبني منظمات قوية داخل بيئات غير واضحة.

وهذا يعني، على الرغم من كل التقدم، الذكاء الاصطناعي لا يزال يبني في الظلام.

إيدو جافير هو الرئيس التنفيذي والشريك المؤسس لشركة Sweep، حيث يقود البحث واستراتيجية المنتج على تقاطع الذكاء الاصطناعي وهندسة البيانات الوصفية وحوكمة المؤسسات. يركز عمله على تمكين أنظمة الذكاء الاصطناعي من العمل بأمان وسياقياً داخل نطاقات برمجيات المؤسسات على نطاق واسع.