مقابلات
نيكونج باجاج، المؤسس المشارك والرئيس التنفيذي لشركة TrueFoundry – سلسلة المقابلات

لقد عملت عبر أبحاث التعلم الآلي، والذكاء الاصطناعي في الإنتاج في فيسبوك، ونظم التوصية على نطاق كبير قبل تأسيس TrueFoundry — ما هي الخبرات التي دفعتك بشكل مباشر إلى بناء شركة بنية تحتية للذكاء الاصطناعي في الشركات، وما الألم الذي شعرت أنه لم يتم تناوله في ذلك الوقت؟
في ميتا، رأينا التعلم الآلي على أنه حالة خاصة من البرمجيات، والذكاء الاصطناعي التوليدي على أنه حالة خاصة من التعلم الآلي، مما أدى إلى مكدس رأسي مع البرمجيات في الأسفل، والتعلم الآلي في الوسط، والذكاء الاصطناعي التوليدي في الأعلى. في هذا الإعداد، إذا كنت مطورًا للتعلم الآلي، فإن النماذج التي أبنيها تتبع نفس نمط النشر مثل البرمجيات الأخرى، مما يجعل توسيع النظم بسيطًا.
然而، الشركات الكبيرة، مع ذلك، كانت تنشر مكدسات موازية، مما يعني أنها لديها مكدسات منفصلة للبرمجيات، والتعلم الآلي، والذكاء الاصطناعي التوليدي. لحظة لديك هذه المكدسات الموازية، يصبح التوسيع أكثر تعقيدًا بسبب عمليات التخليص اللازمة بين عالم التعلم الآلي وعالم البرمجيات.
فرقنا دائمًا عملت على تقاطع بناء نماذج التعلم الآلي وبنية تحتية التعلم الآلي، لذلك لدينا وجهة نظر فريدة يمكننا من خلالها إحضار مكدسات رأسية مماثلة إلى الشركات وتكييفها لاحتياجاتها المحددة. كنا لدينا أيضًا فرضية في نهاية عام 2021 أن التعلم الآلي كان يقترب من نقطة الانعطاف، وعندما يفعل ذلك، ستحتاج المزيد من الشركات إلى مكدس متكامل رأسي لنشر وتوسيع هذه الأنظمة بشكل فعال. هذا هو ما أدى في النهاية إلى تأسيس TrueFoundry، وفرضيتنا كانت صحيحة. تسارع تبني الذكاء الاصطناعي بعد إطلاق ChatGPT في أواخر عام 2022.
كما يتحرك نظام الذكاء الاصطناعي من التجربة إلى العمليات اليومية، ماذا تغير في كيفية تفكير المنظمات حول الموثوقية والفشل؟
المراهنات مع الذكاء الاصطناعي التوليدي أعلى بكثير مقارنة بنظم التعلم الآلي التقليدية. كما يتحرك هذه الأنظمة إلى الإنتاج، تعامل المنظمات مع مستوى أعلى من الغموض واللايقين لأن النماذج اللغوية الكبيرة هي عشوائية بالطبيعة. النظم الوكيلية المبنية عليها تضيف المزيد من الغموض.
بالإضافة إلى ذلك، الفشل لم يعد ثنائيًا. بدلاً من أن تفشل الأنظمة أو لا تفشل، تظهر العديد من القضايا كفشل جزئي أو تدهور صامت. قد تستجيب الأنظمة بزمن استجابة أعلى، أو جودة مخفضة، أو سلوك غير صحيح مع مرور الوقت. في العديد من الحالات، يمكن أن يكون هذا التدهور أكثر صعوبة في الكشف عنه وأحيانًا أكثر ضررًا من انقطاع قوي.
المنظمات تحتاج إلى التفكير في الموثوقية ليس فقط من حيث وقت التشغيل ولكن أيضًا تدهور الأداء بمرور الوقت.
تم إطلاق TrueFailover في موجة من انقطاعات الخدمات السحابية والذكاء الاصطناعي ذات الشهرة العالية. ما هي الأحداث الأخيرة التي جعلت من الواضح أن موثوقية الذكاء الاصطناعي انتقلت من “من الجيد وجودها” إلى متطلب هندسي أساسي؟
أحد عملائنا في مجال الرعاية الصحية الذي يعالج طلبات طبية حية وحرجة متعلقة بالوصفات الطبية تأثر بإنقطاع ناجم عن فشل في النموذج. كانت تدفقات عمله تولد آلاف الدولارات من الإيرادات كل ثانية، وإنقطع الإنقطاع بعض هذه التدفقات الحرجة. كعملاء مبكرين لشركة TrueFailover، تمكنا من المساعدة في التعافي السريع، وتم احتواء الأثر.
تثير حوادث مثل هذه سؤالًا هامًا. مع استمرار ارتفاع المراهنات على أنظمة الذكاء الاصطناعي التوليدي، لماذا لا تزال عمليات الاسترداد في الغالب يدوية؟ أكدت هذه الفكرة على أن الأنظمة يجب بناؤها مع افتراض أن الفشل سيحدث، وأنها يجب تصميمها لتصحيح نفسها تلقائيًا. يجب أيضًا بناء الموثوقية في مكدس الذكاء الاصطناعي نفسه من خلال استخدام بوابات الذكاء الاصطناعي، التي يمكنها توفير التوجيه المركزي والرصد والحماية والتبديل الذكي للنماذج عبر المزودين.
يتمまだ إطار العديد من انقطاعات الذكاء الاصطناعي على أنها مشاكل تقنية. أين ترى التكاليف الاقتصادية والبشرية الحقيقية التي تظهر عندما تفشل أنظمة الذكاء الاصطناعي؟
لقد تطورت أنظمة الذكاء الاصطناعي في الشركات إلى نقطة حيث لم يعد الفشل يؤثر فقط على تدفقات العمل الداخلية. اليوم، تؤثر الانقطاعات والتدهورات على الإدراك العام والأرباح بشكل مباشر وفوري، لأن حالات الاستخدام في الإنتاج هي الآن مواجهة للعميل. هذا التحول من الاختبار الداخلي إلى تطبيقات عالية المخاطر مواجهة للعميل هو السبب في زيادة الطلب على الانتباه التنفيذي والرقابة.
مع اندماج أنظمة الذكاء الاصطناعي بشكل أعمق في تدفقات العمل التشغيلية، لم يعد الفشل مجرد مشكلة تقنية. أصبحت الانقطاعات أكثر فأكثر لها عواقب مباشرة على العمل والعميل والسمعة.
في بيئات مهمة مثل الصيدليات، وعمليات الرعاية الصحية، أو دعم العملاء، كيف يمكن لوقت انقطاع الذكاء الاصطناعي التوسع بسرعة إلى مخاطر تشغيلية أو مخاطر سمعة؟
في البيئات الحرجة، يحدث التوسع تقريبًا على الفور لأن هذه الأنظمة تدعم تدفقات عمل حية وحرجة. حتى انقطاع قصير يمكن أن يوقف عمليات حيوية، أو يؤخر تقديم الخدمة، أو يقطع أنظمة تالية تعتمد على مخرجاتها، مما يؤدي إلى آثار تشغيلية متسلسلة عبر المنظمة.
في قطاعات مثل الرعاية الصحية، يمتد الأثر إلى ما وراء انقطاع تشغيلي إلى تجربة العملاء ونتائج الخدمة. إذا لم يتمكن المريض من استكمال وصفة طبية في الوقت المناسب، يمكن أن يكون هناك عواقب حقيقية. ليس هذا فقط مشكلة للمريض، بل يمكن أن يضر أيضًا بسمعة الصيدلية أو مزود الرعاية الصحية. في البيئات الحرجة حيث يعتمد الثقة، من المهم أن تبقى الأنظمة على الإنترنت. هذا هو السبب في أن المنظمات تدرك بشكل متزايد أن أنظمة الذكاء الاصطناعي يجب تصميمها مع افتراض أن الفشل سيحدث وأن آليات الاسترداد تحتاج إلى تفعيل تلقائيًا لتقليل المخاطر.
لقد قلت إن العديد من الفرق تُصمم للقدرة بدلاً من الاستمرارية. لماذا تعتقد أن القدرة على الصمود قد تم التقليل من شأنها تاريخيًا في تصميم أنظمة الذكاء الاصطناعي؟
هذا يعود في الغالب إلى الحوافز داخل المنظمات. القدرات الجديدة مرئية ومثيرة. تقفز القدرات الجديدة إلى عروض توضيحية وميزات وإمكانيات منتج يمكن للقيادة رؤيتها على الفور.
الاستمرارية، بالتعريف، غير مرئية عندما تعمل الأمور بشكل جيد. بسبب ذلك، تميل أنظمة المكافأة إلى الانحراف نحو شحن ميزات جديدة بدلاً من ضمان عدم حدوث أي فشل. نتيجة لذلك، تستثمر المنظمات بشكل غير متناسب في تطوير القدرات بدلاً من هندسة الصمود.
مع زيادة الاعتماد على نماذج خارجية وواجهات برمجة التطبيقات، ما هي الضعف الجديد الذي يتم إدخاله إلى مكدس الذكاء الاصطناعي الذي قد لا يدركه القادة بعد؟
النماذج اللغوية الكبيرة هي موارد مشتركة، والشركات لا تمتلكها كما تفعل مع البنية التحتية التقليدية. بالإضافة إلى ذلك، الأنظمة التجارية الحرجة مع الشركات تعمل على أنظمة خارجية لم تُختبر تمامًا في الوقت. النماذج اللغوية الكبيرة نفسها تتطور بسرعة، مما يعني أن مزود النموذج لا يمكنه أن يتحمل مسؤولية أشياء مثل التأخير أو انخفاض أداء النموذج قليلاً، لأنهم يطورون أبحاثهم بسرعة.
بسبب أن النماذج اللغوية الكبيرة هي موارد مشتركة، يمكن أن يرتفع التأخير بسبب أن مستهلكًا آخر لهذه النماذج يأخذ إجراءًا معينًا. هناك العديد من نقاط الفشل التي تُ введ إلى الأنظمة بسبب الطبيعة الأساسية للنماذج اللغوية الكبيرة، والشركات في هذا العالم الجديد ببساطة لا تمتلك السيطرة الكاملة. بدون سيطرة كاملة، أفضل شيء يمكن للشركة فعله هو إنشاء التكرارات الكافية لأنظمة لتصميم نظام متين.
بدون التركيز على منتجات محددة، كيف يجب على المنظمات إعادة التفكير في هندسة الذكاء الاصطناعي لافتراض الفشل بدلاً من معاملته على أنه حالات حافة نادرة؟
المنظمات يجب أن تعود إلى المبادئ الأساسية لتصميم الأنظمة الموزعة. تم بناء أنظمة البرمجيات على افتراض أن مكونات الشبكة والأجهزة سوف تفشل، وأن منطقة كاملة يمكن أن تذهب لأسفل.
أنظمة الذكاء الاصطناعي لا يجب أن تكون مختلفة. يجب أن نفترض أن مزودي النماذج سيعانون من مشاكل التأخير أو التدهور أو الانقطاع، ونجعل التكرار بحيث تظل التطبيقات متينة عبر سيناريوهات الفشل المختلفة.
هل تتوقع أن تصبح متانة الذكاء الاصطناعي معيارًا حاسمًا في اختيار المنصة والبائع، مشابهة لطريقة تأثير وقت التشغيل والتعافي على قرارات البنية السحابية؟
مع انتقال المزيد من أنظمة الذكاء الاصطناعي إلى الإنتاج، ستصبح المتانة معايير أساسية. إذا لم يتمكن البائع من إظهار رسومه وأرقامه حول وقت التشغيل ومتانة عامة، لن يتم النظر فيهم حتى. مرة واحدة تصبح المتانة توقعًا أساسيًا عبر البائعين، سيتغير العوامل الحاسمة نحو تجربة المستخدم وتحسين الأداء والرصد والقدرات المنتجية الأعلى.
بمرور الوقت، ستصبح مكونات مثل بوابة الذكاء الاصطناعي وسمات الفشل التلقائي عناصر أساسية في بنية تحتية للذكاء الاصطناعي في الشركات.
نظرًا إلى المستقبل، ماذا يعني “جاهز للانتاج” حقًا في عالم حيث يتوقع من الذكاء الاصطناعي أن يكون متاحًا باستمرار، وليس مفيدًا فقط من وقت لآخر؟
أنظمة الذكاء الاصطناعي الجاهزة للانتاج يجب أن تكون قابلة للرصد والتحكم والاسترداد. يجب تحقيق هذه المربعات الثلاث.
لأنظمة الإنتاج تكون قابلة للرصد، تحتاج الفرق إلى رؤية عميقة في سلوك النموذج والتأخير ومعدلات الأخطاء واستخدام الرموز والانحراف وأنماط الفشل. بدون رصد قوي، يصبح من الصعب الكشف عن التدهورات قبل أن يبدأ المستخدمون في ملاحظتها.
لأنظمة تكون قابلة للتحكم، هذا يشمل تشكيل المرور وضبط معدل المرور والحماية وفرض السياسات والتحكم الذكي في المرور عبر النماذج والمزودين. यह هو المكان الذي تصبح فيه بوابة الذكاء الاصطناعي أساسية، وتعمل كطائرة تحكم مركزية تفرض الحماية وتوفر الحوكمة الثابتة وتمكين التبديل الديناميكي للنماذج عندما تنخفض الأداء أو الموثوقية.
وأخيرًا، عندما يتعلق الأمر بالاسترداد، يجب بناء الأنظمة مع افتراض أن المكونات يمكن أن تكون مكسورة جزئيًا أو كليًا، بسبب انقطاع المزود أو تدهور جودة النموذج أو حدود معدل أو مدخلات غير متوقعة من مشغلين خبيثين. يجب أن تكون آليات الفشل التلقائي والاسترداد الذاتي أصيلة في الهندسة، وليست كُتلاً يدوية يتم تشغيلها بعد حدوث شيء ما.
هذا هو الاتجاه الذي نعمل نحوه في TrueFoundry. البائعون الذين يحددون جاهزية الإنتاج بهذه الطريقة، التي تجمع بين الرصد والتحكم المركزي والاسترداد التلقائي، سيكسبون ثقة العملاء على المدى الطويل وسيتمكنون من حل مشاكل جديدة随ما تظهر.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا TrueFoundry.












