مقابلات
كوري ساندرز، نائب الرئيس الأول لمنتجات كورويف – سلسلة المقابلات

كوري ساندرز، نائب الرئيس الأول لمنتجات كورويف، يقود استراتيجية المنتج والتنفيذ لأحد أسرع منصات السحابة التي تركز على الذكاء الاصطناعي نمواً. وهو مسؤول عن توسيع الابتكار وتشكيل حلول مخصصة مع العملاء وتعزيز موقع كورويف في سوق البنية التحتية للذكاء الاصطناعي. قبل انضمامه إلى كورويف، قضى ساندرز عقدين من الزمن في مايكروسوفت في مناصب قيادية رفيعة المستوى تشمل هندسة السحابة ومنصات قطاعية وموضوعة و استراتيجية حلول تجارية وشراكات مؤسسية كبيرة الحجم، مع خبرة عميقة في ربط التنفيذ الفني و استراتيجية التسويق.
كورويف هي موفر سحابي أصلي للذكاء الاصطناعي مبني خصيصاً لحسابات الحوسبة عالية الأداء والتحمل الكبير للذكاء الاصطناعي. تعمل الشركة على توسيع بصمتها من مراكز البيانات عبر الولايات المتحدة وأوروبا، وتقدم بنية تحتية وبرمجيات مدعومة بالموصلات الراقية مخصصة لتدريب الذكاء الاصطناعي والاستدلال والحالات المتقدمة للاستخدام. من خلال التركيز على الهندسة المعمارية المخصصة بدلاً من السحابة العامة، أصبحت كورويف شريكاً حاسماً في البنية التحتية لمعامل الذكاء الاصطناعي والشركات التي تبحث عن الأداء والتناسق والكفاءة على نطاق واسع.
قضيت أكثر من 20 عاماً في مايكروسوفت تعمل عبر هندسة ويندوز و استراتيجية مبيعات السحابة ومايكروسوفت كلاود للصناعة. ما الذي تعلمته من هذا التطور حول ما يدفع بالفعل تبني المؤسسات، وكيف تطبق تلك الدروس اليوم في كورويف؟
تبدأ عملية تبني المؤسسات بحل مشكلة محددة للعميل. الابتكار من أجل الابتكار فقط ليس مهمًا حقًا للمؤسسات. إنها وضع نفسك في مكانهم لفهم ما يعاني منه حقًا – سواء كان ذلك تكلفة الدعم أو تعقيدات التشغيل أو الاتصال بالعملاء أو إدارة الفرق العالمية والمنتجات الجديدة – ثم تقديم خدمات تساعدهم. غالباً ما يكونون على استعداد لتكون مبتكرين في نهجهم، ولكن الاعتبار الأكثر أهمية هو مساعدتهم على حل مشكلتهم. أكثر الأخطاء شيوعًا التي رأيتها في تصميم المنتج هو الانخراط过度 في روعة المنتج. في حين أن هذا يحمل وزنًا في مجال الاستهلاك، يهتم العملاء في النهاية أكثر بالفائدة من الروعة.
غالبًا ما يُوصف كورويف بأنه يقدم بنية تحتية مخصصة للذكاء الاصطناعي. من الناحية العملية، ما يعني المخصص من منظور المنتج، وأين تعاني منصات السحابة العامة من صعوبات مع التحملات المتعلقة بالذكاء الاصطناعي؟
أعلى فوائد كونها مخصصة هي القدرة على التركيز وتقديم خدمات دون الحاجة إلى حل كل حالة استخدام عامة. سأعطي مثالين: أحدهما في البرمجيات والآخر في الأجهزة.
من الناحية البرمجية، تقدم خدمتنا لتخزين الكائنات مع ذاكرة التخزين المؤقت LOTA مخصصة خصيصاً لتخزين الذكاء الاصطناعي. يتم توزيعها مباشرة على عقد الغرافيك وتقديم نقطة نهاية S3 للتطبيق والاستجابة لطلبات الغرافيك عبر توسيع ذاكرة التخزين المؤقت عبر عدة عقد. هذا يزيد من الإنتاجية إلى الغرافيك حتى 7 غيغابايت في الثانية، متجاوزاً بذلك ما تقدمه السحابات العامة. يمكننا تحقيق ذلك لأننا نصنع افتراضات حول التحملات المحددة للذكاء الاصطناعي، وتنسيق القراءة والكتابة، وتصميم المجموعات. إذا استخدم العميل هذه الخدمة لاستضافة قاعدة بيانات أو موقع تجاري إلكتروني، لن يكون له نفس التأثير. هذا هو تعريف البرمجيات المخصصة.
المثال الخاص بالأجهزة مشابه. بالنظر إلى نشرنا الواسع لآخر إصدارات وحدات معالجة الرسومات من إنفيديا – والتي تتطلب العديد منها تبريد سائل – بنى كورويف خبرة وتصاميم محددة لدعم تلك الاحتياجات. على عكس السحابات الأكبر التي تبني من أجل القابلية للتبادل ثم تضيف تبريد سائل في وقت لاحق، بناء كورويف مراكز البيانات مخصصة للذكاء الاصطناعي من البداية. هذا يؤدي إلى تقليل التكاليف وزيادة التوافر لأحدث أنواع وحدات معالجة الرسومات.
فيما يلي صورة لذاكرة التخزين المؤقت LOTA المذكورة.

عندما يفكر العملاء لأول مرة في توسيع نطاق الذكاء الاصطناعي، يعتقد العديد منهم أنهم يحتاجون فقط إلى الوصول إلى وحدات معالجة الرسومات. ما الذي يدركون عادة أنه مفقود بعد أن يبدأون في تدريب أو خدمة النماذج على نطاق واسع؟
نظراً لتعقيد تشغيل التحملات عبر مجموعات كبيرة من وحدات معالجة الرسومات، تصبح الخدمات المحيطة بها هي المحركات الحقيقية للنجاح. وتشمل هذه الخدمات الواضحة، مثل التخزين والشبكات، ولكن أيضاً خدمات تشغيلية حاسمة مثل الرصد والتنسيق والأمان. यह هو المكان الذي يبرز فيه كورويف حقًا من خلال عرضنا Mission Control. يوفر للعملاء رؤية عميقة لصحة العقد ووقت التشغيل عبر أسطولهم، متegrating تلك المعرفة مباشرة في محرك التنسيق. هذا يسمح للعميل بمعالجة بنيته التحتية لا كعقد غرافيك فردية، بل ككيان عمل موحد.
ما هي أولويات المنتج التي تركز عليها حاليًا لتحسين النتائج للعملاء، سواء كانت ذلك الأداء أو الموثوقية أو قابلية التنبؤ بالتكاليف أو تجربة المطور؟
في المنصة الأساسية، نحن ملتزمون دائمًا بالأداء والموثوقية والرصد. يجب أن نضمن للعملاء khảية تشغيل الوظائف بطريقة متكررة ومتنبئة مع الاستفادة الكاملة من كل تيرافلوب في كل وحدة معالجة رسومات. إلى جانب ذلك، نحن نعمل على تبسيط عملية التسجيل للعملاء الذين قد لا يكونون على دراية بكل جرس وصفارة في أداة مثل SLURM (التي يستخدمها الجميع، ولكن يكرهها معظمهم). وأخيراً، نحن نطوير خدمات ونمذج فواتير إضافية لجعلها أسهل للابتكار والبدء بشكل صغير. حاليًا، يعتبر التجريب صعباً للغاية بسبب الحواجز العالية للدخول، مثل قيود السعة والالتزامات لمدة ثلاث سنوات والحاجة إلى خبراء متخصصين فقط للبدء. نحن نريد إعادة إحضار سهولة الابتكار إلى منصة الذكاء الاصطناعي.
كما يتحرك المزيد من التحملات المتعلقة بالذكاء الاصطناعي من التدريب المكثف إلى الاستدلال المكثف، كيف يؤثر هذا التحول على تصميم البنية التحتية وصنع القرار في خارطة الطريق للمنتج؟
يخلق ذلك فرصًا هائلة لتطبيق التميز الحالي لكورويف على متطلبات الاستدلال. على سبيل المثال، ذاكرة التخزين المؤقت LOTA التي ذكرتها تركز على تغذية وحدات معالجة الرسومات أثناء التدريب؛ ومع ذلك، يمكننا أخذ تلك التكنولوجيا نفسها، وتكاملها في أشياء مثل KVCache، وتحويلها إلى متميز قوي للاستدلال. وبالمثل، تصبح أدوات مثل Mission Control أكثر أهمية للاستدلال، حيث أن مراقبة صحة وحدة معالجة الرسومات حاسمة لتشغيل تطبيقات وكالة عالية التوافر.
على مدار السنة أو السنتين القادمين، ما الذي سيحدد القيادة في سوق السحابة للذكاء الاصطناعي، وأي قدرات ستكون الأكثر أهمية للعملاء؟
أعتقد أن القيادة ستحدد من خلال أمرين. الأول هو تقديم متطلبات النطاق المتزايد للتدريب. سيتطلب هذا تقدمًا في الرصد ومراقبة الصحة والاستعادة التلقائية. عندما نتحرك من مئات إلى عشرات الآلاف من وحدات معالجة الرسومات الموزعة على نطاق عالمي، فإن الاستجابة اليدوية للفشل هي أمر غير قابل للتطبيق.
الأمر الثاني هو تقديم الخدمات المناسبة لتحميل الاستدلال والتحملات الوكالية. يتطلب هذا khảيات النشر العالمية ونمذج أعمال تشجع على التجربة. كان هذا النمط من الاستخدام هو ما ساعد على نمو السحابة في البداية، وقد فقد بعض الشيء في عصر الذكاء الاصطناعي. نحن بحاجة إلى إعادته من خلال دعم المنصة أفضل، و khảيات السحابة المتعددة، وسهولة استخدام متعدد المناطق.
كنت قد قادت مبادرات سحابة محددة للصناعة عبر مجالات الرعاية الصحية والتجزئة والخدمات المالية والتصنيع والسحابة السيادية. ما هي الدروس التي تترجم مباشرة إلى بنية تحتية للذكاء الاصطناعي، وأي منها لا تترجم؟
التغيرات الجيلية في وحدات معالجة الرسومات تroduce تعقيدات جديدة. كل إصدار جديد يأتي مع زيادة في الارتباط والذاكرة والأحتياجات القوية، كل ذلك يتطلب منا إعادة النظر في افتراضاتنا حول كيفية توصيل العقد وكيفية تقديم البرمجيات. يجب أن نبقى غير متعبين هنا للحفاظ على موقعنا القيادي. من ناحية أخرى، المجال الذي يحسن بسرعة هو مجال النطاق الذي يمكن للعملاء إنجازه؛ سرعة التكيف مع أقدام الحوسبة الأكبر هي ممتازة.
كما تستمر مراكز البيانات وال مجموعات المتعلقة بالذكاء الاصطناعي في التوسع، ما هي التحديات التشغيلية التي تثبت أكثر صعوبة في الحل، وأي منها تحسن بسرعة؟
التغيرات الجيلية لوحدات معالجة الرسومات تroduce تعقيدات جديدة في التصميم والبرمجيات. كل إصدار جديد يأتي مع زيادة في khảيات الارتباط، وذاكرة أعلى، وموارد قوية أكثر، كل ذلك يتطلب منا إعادة النظر في افتراضاتنا حول كيفية توصيل العقد وكيفية إدارة الرفوف وكيفية تقديم البرمجيات. سنحتاج إلى الاستمرار في التركيز على هذا العمل للحفاظ على موقعنا القيادي. الأمور التي تحسن بسرعة هي ما يمكن للعملاء إنجازه مع نمو نطاق الحوسبة.
في بنية تحتية للذكاء الاصطناعي، لا تتجاوز الموثوقية وقت التشغيل. كيف يحدد كورويف الموثوقية، وما هي المؤشرات التي تعكس أفضل النجاح من منظور العميل؟
على النطاق الواسع، أكبر اعتبار للعميل هو ببساطة إنجاز المهمة. في العمليات الهائلة، الفشل الفردي أو البطء متوقع. المفتاح هو كيف نكتشف ونستجيب تلقائيًا لتلك القضايا لضمان إنجاز المهمة على الرغم من التحديات. هذا هو السبب في دمجنا Mission Control في خدمات أعلى مثل SUNK (Slurm على Kubernetes). يسمح للعملاء الاستجابة للفشل تلقائيًا دون فقدان ساعات أو أسابيع من العمل. بالنسبة لنا، النجاح ليس فقط حول وقت تشغيل العقد؛ إنه حول نجاح المهمة.
في المستقبل، ما هو التحول الكبير في بنية تحتية للذكاء الاصطناعي الذي ما زال غير متعرف عليه، سواء كان ذلك متعلقًا بتطور الأجهزة أو تخصيص المكدس أو متطلبات السيادة أو نماذج النشر الجديدة؟
أعتقد أن ظهور التعلم بالتعزيز (RL) كجزء متجدد من مكدس الذكاء الاصطناعي ما زال غير متعرف عليه. في حين أن هذا ليس مجالاً جديدًا للدراسة، إلا أنه كان مخفيًا إلى حد كبير خلال الموجة الأولى لتطوير النماذج اللغوية الكبيرة. التعلم بالتعزيز يعود من جديد وسيلعب دورًا حيويًا في جعل خدمات الذكاء الاصطناعي أكثر استجابة للمناظير المتغيرة لمستخدميها. بسبب ذلك، نحن متحمسون جدًا لتقديمنا الحالي للخدمة الخالية من الخادم للتعلم بالتعزيز.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا كورويف.












