مقابلات
كين كلافي، الرئيس التنفيذي لشركة VDURA – سلسلة المقابلات: محادثة العودة

كين كلافي، الرئيس التنفيذي والرئيس في VDURA، هو قائد أعمال ومنتجات ذو خبرة طويلة في مجال العملاء، مع خبرة عميقة في البنية التحتية للسحابة وشركات البنية التحتية للأعمال، وتطوير البرمجيات والعتاد، ودفع النمو الاستراتيجي عبر وظائف المنتج والتشغيل والتسويق. على مدار مسيرته المهنية، بنى وقاد فرق عالمية بأداء عالي، نفذ الاستراتيجية الشركة، دفع نمو الإيرادات المربحة وابتكار المنتجات، وحول الشركات التي تعاني من أداء ضعيف. قبل أن يassume قيادة VDURA، شغل كلافي مناصب قيادية في شركة Seagate Technology، حيث شغل منصب نائب الرئيس والرئيس التنفيذي لمنطقة الأنظمة التجارية والربحية، ومناصب قيادية سابقة في Xyratex و Adaptec و Eurologic، مما أتاح له عقودًا من الخبرة في تخزين الشركات وحوسبة الأداء العالي.
VDURA هي شركة بنية تحتية بيانات محددة بالبرمجيات تبني حلول تخزين حديثة مُختصة بتحميلات العملاء الاصطناعية وحوسبة الأداء العالي تحت شعار “السرعة تلاقي المتانة”. يجمع منصة بيانات VDURA الرئيسية أداء نظام الملفات الموازي الأول مع متانة تخزين الكائنات في هيكل موحد يمتد بشكل خطي عبر آلاف العملاء وال노ود بينما يبسط العمليات ويقلل من التكلفة الإجمالية للملكية. تأسست في الأصل باسم Panasas واعادة التسمية في 2024، تدعم منصة VDURA البيئات المحلية والسحابية والهجينة مع تلقيم متقدم وتسريع البيانات الوصفية وأداء قابل للتطوير مصمم ل餍یة مجموعات GPU ومحمي البيانات لاستخدامات شركة البحث والحاسوبية الاصطناعية والحاسوبية العالية الأداء.
كيف شكلت رحلتك عبر حوسبة الأداء العالي وتخزين الشركات رؤيتك بأن التخزين يصبح العائق المحدد في بنية تحتية الاصطناعية؟
عند بناء أنظمة تخزين لبعض بيئات الحوسبة الأكثر طلبًا في العالم، تتطور لديك直ورة لما هي العوائق الفعلية مقابل ما يعتقد الناس أنها عوائق. في Xyratex ومن خلال عمل ClusterStor في Seagate، كنا نحل مشاكل التخزين لمجموعات الحواسيب الفائقة حيث كانت الفيزياء قاسية. إما أن تغذي الحوسبة أو لا.
ما أراه الآن في بنية تحتية الاصطناعية هو نفس العائق الأساسي، ولكن باقتصاد مختلف. كان هوس GPU في سوق Neocloud مبررًا. قام NVIDIA بإنشاء مورد نادر ومحول. لكن افتراض أن التخزين سيتوسع جنبًا إلى جنب معه بسهولة وبتكلفة منخفضة كان دائمًا سيُكسر. لقد كُسر. التخزين ي趨 الآن نحو 20 إلى 30 في المائة من ميزانيات بنية تحتية الاصطناعية في التثبيتات الكلية، ويتوسع بسرعة أكثر من أي مكون آخر. عندما تقضي مسيرتك المهنية في مشاهدة التخزين يصبح العائق الرابط في كل بيئة حوسبة كبيرة النطاق، تتوقف عن الاندهاش عندما يلحق بهم سوق الآخر.
لماذا تم التخلي عن تخطيط التخزين خلال غزو بنية تحتية Neocloud؟
تلاشت بعض الافتراضات الهيكلية في اللحظة الخاطئة. أولًا، كانت أسعار الفلاش مؤقتة ومواتية. كانت وحدات SSD من النوع NVMe بأسعار معقولة وفيرة بدرجة كافية لجعل التثبيت الكلي يبدو وكأنه افتراض معقول. لم يكن هذا حكمة هندسية. كان نتيجة لنافذة اقتصادية مؤقتة التي اعتقد المشغلون أنها حالة دائمة.
ثانيًا، كان الديناميكية التنافسية تُكافئ عدد وحدات GPU أكثر من كل شيء آخر. كان سوق Neocloud يُقيم على عدد وحدات NVIDIA التي يمكنك تركيبها. كان التخزين عبارة عن بند يصل إلى 10 في المائة، سهل التغاضي عنه دون فحص دقيق. ثالثًا، كان قرار التثبيت الكلي يبدو آمنًا لأنها أزالت التعقيد. طبقة واحدة، نوع وسائط واحد، بسيط في الشراء والتشغيل. المشكلة هي أن “البسيط” و “الاستدامة الاقتصادية” توقفت عن كونها نفس الشيء في اللحظة التي تقلصت فيها توريد NAND وارتفعت الأسعار. في ذلك الوقت، كانت قرارات البنية التحتية已经 محسومة.
ما هو ما ي驚 المشغلين أكثر عندما يرون كيف يؤثر التخزين على استخدامهم لوحدات GPU؟
العلاقة أكثر مباشرة مما يدركه معظم المشغلين حتى يكونوا ي凝ون في وحدات GPU غير نشطة. تشغيلات التدريب مع تحديثات متكررة تُحدث طلبات كتابة متقطعة يمكن أن تُسبب تعثر الحوسبة إذا لم يكن слой التخزين قادرًا على امتصاصها بسرعة كافية. أنابيب البيانات لما قبل المعالجة والاستيعاب تُحدث متطلبات قراءة مستمرة التي، إذا لم تُ满، تُجوع وحدات GPU من العمل.
تُقدم إرشادات NVIDIA DGX بالتحديد ذلك: يُطلب تدريب النماذج اللغوية القائمة على النص حوالي 0.5 جيجابايت/ثانية من قراءة الإنتاج لكل وحدة GPU، في حين أن عملloads الاصطناعية والمرئية تُطلب حوالي 4 جيجابايت/ثانية من القراءة و 2 جيجابايت/ثانية من الكتابة لكل وحدة GPU. إذا لم يكن هيكل التخزين الخاص بك قادرًا على تقديم ذلك، فأنت لا تُشغل وحدات GPU بكامل طاقتها. أنت تُشغلها بفرض التخزين.
الهيكل المعماري يهم بشكل كبير في نطاق المجموعة. نظام تخزين يُضيف وسيطًا بين الذاكرة والعميل قد يُظهر أداء إنتاج مماثل على قرص واحد، ولكن في نطاق المجموعة يمكنك أن تحتاج إلى ثلاثة أضعاف عدد الأقراص لتُشبع نفس أسطول وحدات GPU. ثلاثة أضعاف الأقراص الصلبة، ثلاثة أضعاف الطاقة، ثلاثة أضعاف مساحة الرف. يُضاعف الرياضيات بسرعة.
ما هي الفروقات التكلفة التي يمكن أن تظهر من اختيار SSD وتصميم الهيكل المعماري حتى عندما تظهر معايير الإنتاج مماثلة؟
هذا هو المكان الذي يقع فيه المشغلون في مشاكل خطيرة، لأن الأرقام الرئيسية يمكن أن تكون خادعة حقًا. خذ مثالًا ممثلًا. يُكلف قرص SSD من النوع QLC NVMe بسعة 122.88 تيرابايت حوالي 27,000 دولار. يُكلف قرص من نفس الجيل بسعة 7.68 تيرابايت أداء إنتاج متساوي حول 1,800 دولار. لمجموعة 4,096 وحدة GPU على مواصفات NVIDIA المُحسنة، يُنتج هذا القرار وحيد اختيار سعة فاتورة فلاش تتراوح من 600,000 دولار إلى 9.6 مليون دولار. الإنتاج هو في الواقع متساوي. المتغير الوحيد هو كمية البيانات الباردة التي تختار ركنها على وسائط ممتازة لا تُقدم أي فائدة إضافية في الأداء.
علاوة على ذلك، يحدد تصميم الهيكل المعماري عدد الأقراص في نطاق المجموعة. يحتاج هيكل معماري يُقدم حوالي 5.8 جيجابايت/ثانية من الإنتاج القراءة لكل قرص صلب إلى حوالي 353 قرصًا لتُشبع مجموعة 4,096 وحدة GPU. هيكل معماري يُقدم حوالي 1.9 جيجابايت/ثانية لكل قرص صلب، بسبب الحمل الزائد للوسيط، يحتاج إلى أكثر من 1,000 قرص. عند 12,000 دولار لكل قرص 30 تيرابايت، هذه الفرق ليست خطأً في التقريب – إنها سؤال نموذج أعمال.
كيف يجب على المشغلين إعادة التفكير في التخزين الكلي مقابل التخزين المُدرج مع ارتفاع أسعار الفلاش وremaining NAND محدودة؟
النقطة الأولى هي قبول أن الفرض الاقتصادي وراء بنية تحتية الاصطناعية الكلية كان دائمًا مشروطًا، وليس أساسيًا. وصف الرئيس التنفيذي لشركة Phison إنتاج NAND بأنه موزع فعليًا حتى عام 2026. يتوقع Goldman Sachs أن ترتفع أسعار DRAM بنسبة مزدوجة من ربع إلى ربع خلال نفس الفترة. كان افتراض التخزين الكلي يُبرر عندما كانت الفلاش رخيصة وفيرة. لم يعد كذلك.
الإطار الصحيح هو أن نسأل ما هي الفلاش في الواقع من أجلها. الفلاش هي وسط أداء. يجب أن يُحجم ليتوافق مع متطلبات الإنتاج لوحدات GPU، ولا أكثر. كل شيء آخر، بما في ذلك البيانات الباردة وpoints النقاط التي لا يتم قراءتها بشكل نشط ومجموعات التدريب المُحفوظة، ينتمي إلى قرص صلب كثيف الحجم، الذي يبقى أرخص بكثير لكل تيرابايت.
الفخ الذي يقع فيه المشغلون هو معاملة التدرج كإضافة: شراء طبقة أولية من الفلاش الكلية، إضافة مخزن كائنات منفصل للبيانات الباردة، وربطهم بمُحولات بيانات خارجية. هذا يُقدم طبقة برمجية ثانية، ومستوى بيانات ثاني، وتنوع شبكة، وعمليات تشغيلية. نهج Hyperscaler، الذي يُشغل SSD وHDD داخل نفس طبقة البرمجيات مع تدرج أداء عالي وأي مُحولات بيانات خارجية، يبقي التخزين أقرب إلى 10 في المائة من ميزانية البنية التحتية بينما يُشبع كل وحدة GPU.
ما هي الدروس التي يمكن أن يتعلمها مشغلو Neocloud من اختيارات تصميم التخزين في Hyperscaler؟
الدروس الأكثر أهمية هي أن Google و Meta و Microsoft لا يُشغلون التخزين الكلي، وهم لديهم أكثر من أي خبرة في عملloads الاصطناعية. يُشغلون بنية تحتية مُدرجة مع تدرج ذكي: فلاش NVMe كافٍ ليتوافق مع إنتاج وحدات GPU، ثم تصريف سريع إلى أقراص صلبة كثيفة الحجم كما يسمح الفيزياء. هذا ليس تفضيلًا فلسفيًا. إنه أمر اقتصادي ضروري مدفوع بفهم واضح لفيزياء عملloads الاصطناعية.
الدروس الثانية هي التكامل المعماري. لا يُحل مشغلو Hyperscaler التدرج بتجميع أنظمة منفصلة. يُشغلون SSD وHDD على نفس طبقة البرمجيات، نفس مستوى البيانات، مع التدرج كعملية من الدرجة الأولى داخل نظام التخزين، وليس عملية.batch يُديرها أداة منفصلة. هذا التكامل هو ما يسمح لهم بالحفاظ على التخزين الاقتصادي في نطاق كبير بينما يحافظون على ضمانات الأداء التي تُطلبها أساطيل وحدات GPU.
الدروس الثالثة هي ضمان المتانة. يُقدم AWS S3 11 ناين من المتانة. يُقدم Azure Blob 12 ناين أو أكثر. بنية تحتية HPC التقليدية المبنية على RAID المحلي يمكن أن تقل عن ذلك في نطاق كبير اعتمادًا على معدلات فشل الأقراص وفتحات إعادة البناء، مما قد يؤدي إلى فقدان الملفات. التشفير التدميري المتعدد المستويات يمكن أن يُجاوز 11 ناين. الفجوة بين هذه الحقيقتين هي الفرق بين نظام تخزين يمكنك ضمانه ضد SLA وآخر لا يمكنك.
كيف يجب على فرق البنية التحتية أن يُقيموا التأثير الاقتصادي لتوافر التخزين على أساطيل وحدات GPU؟
الرياضيات مخيبة للآمال عندما تُشغلها بصدق. فشل التخزين المشترك لا يُنتج انخفاضًا متناسبًا في SLA. إنه يُنتج انخفاضًا متزامنًا في كل رف وحدات GPU متصل بالتخزين. مجموعة 5,000 وحدة GPU مع توافر تخزين 98 في المائة لا تُقدم انخفاض أداء 2 في المائة. إنه يُنتج 876,000 ساعة حوسبة مُفقدة في السنة. عند تكاليف تمثيلية لوحدات GPU، هذا يُترجم إلى ملايين الدولارات في حوسبة غير نشطة سنويًا، بالإضافة إلى أرصدة SLA مستحقة على كل رف متأثر على حدة.
نطاق الانفجار لفشل التخزين في مجموعة كبيرة هو المجموعة بأكملها. يجب على فرق البنية التحتية أن يُحسبوا ذلك بشكل صريح: ما هو التكلفة السنوية للحوسبة غير النشطة عند رقم توافر التخزين الحالي، ما هي أرصدة SLA التي تُرفق مع كل مستوى توافر، وما هو خطر فقدان العملاء من فشل SLA؟ CoreWeave و Oracle يُقدمون بالفعل وقت تشغيل رف 99 في المائة. المُشغلون الذين لا يستطيعون مطابقة ذلك يفقدون الصفقات اليوم، والصفقات التي يفقدونها هي عقود الشركات الكبيرة القيمة التي يحتاجها سوق Neocloud لإثبات اقتصادياته على المدى الطويل.
كيف تُقارن سلاسة أداء مختلفة للهياكل المعمارية في بيئات مقيدة بالطاقة؟
هذا يأتي في几乎 كل محادثة بنية تحتية جادة الآن، والفرق ليس هامشيًا. إنه فرق متكامل. بناءً على مواصفات منشورة وتكوينات مماثلة، يُقدم هيكل معماري 1,340 جيجابايت/ثانية من الإنتاج القراءة عند حوالي 55 كيلووات، بينما يُحقق هيكل معماري آخر نفس الإنتاج عند حوالي 16 كيلووات. هذا هو فرق 3.4 ضعف في الأداء للواط. في مركز بيانات حيث تستهلك عملloads الاصطناعية 40 إلى 250 كيلووات لكل رف مقابل اتصال شبكة محدد، فإن واطات التخزين المُهدورة هي وحدات GPU التي لا تُشغل.
هناك أيضًا تأثير ثانوي نادرًا ما يُحسبه المشغلون. بعض هياكل التخزين تتطلب 5 جيجابايت من ذاكرة RAM و 1 إلى 4 نواة CPU مخصصة دائمًا لكل عقدة وحدة GPU فقط لتحقيق أداء تخزين أقصى. عبر مجموعة 500 عقدة، هذا هو 2.5 تيرابايت من ذاكرة RAM و حتى 2,000 نواة CPU غير متاحة للعملloads الاصطناعية. عندما تدفع 30,000 دولار أو أكثر لكل وحدة GPU، كل نواة مسروقة وكل جيجابايت مقفلة هو ضريبة مباشرة على استثمار الحوسبة الذي يُفترض أنه نقطة البداية للبنية التحتية.
كيف يُؤثر هيكل التخزين مباشرة على منافسة SLA مع ضمانات وقت التشغيل التي تُقترب من 99 في المائة؟
التخزين هو أكبر نطاق انفجار في أي مجموعة وحدات GPU، مما يجعله المتغير الأكثر أهمية في أي التزام SLA صادق. نظام التصنيف ClusterMAX 2.0 من SemiAnalysis، الذي يصبح معيارًا مؤثرًا في شراء Neocloud، يُجعل SLA عاملاً صريحًا في مفاوضات التسعير. المُشغلون بدون SLA التنافسية يفقدون الصفقات الآن.
بعد ذلك، يأتي بعد البعد المتانة. لقد أصبح العملاء المتعلمون من AWS S3 و Azure Blob يتوقعون 11 إلى 12 ناين من المتانة. بنية تحتية HPC التقليدية المبنية على RAID المحلي يمكن أن تقل عن ذلك في نطاق كبير، اعتمادًا على معدلات فشل الأقراص وفتحات إعادة البناء، مما قد يؤدي إلى فقدان الملفات. التشفير التدميري المتعدد المستويات يمكن أن يُجاوز 11 ناين. الفجوة بين هذه الحقيقتين هي الفرق بين نظام تخزين يمكنك ضمانه ضد SLA وآخر لا يمكنك.
ما هي قدرات التخزين التي من المرجح أن تحدد استمرار Neocloud على المدى الطويل من خلال الاندماج؟
المشغلون الذين سينجحون سيكونون أولئك الذين حلوا معادلة التكلفة الإجمالية للملكية عبر كل البنية التحتية. هذا يعني عدة قدرات محددة.
أولاً، هيكل معماري موحد محدد بالبرمجيات يُشغل الفلاش والقرص الصلب على نفس مستوى البيانات مع تدرج أداء عالي وأي مُحولات بيانات خارجية. ثانيًا، تخزين يمكن أن يركب منحنيات التكلفة للفلاش والأقراص الصلبة بشكل مستقل كما تتحرك هذه الأسواق بشكل مستقل عن بعضها البعض. ثالثًا، أنظمة خودية يمكن أن تحتفظ بالتوافر العالي بدون مسؤولين مخصصين يُ执行ون استعادة يدوية في الساعة 3 صباحًا. التخزين المعقد تشغيلي هو تكلفة غير مرئية تُضاعف في النطاق.
النقطة الأوسع هي أن موجة الاندماج تُفصل بين البنية التحتية المبنية لتقديرات اليوم الأول والبنية التحتية المبنية لاقتصاديات السنة الثالثة. انخفضت أسعار إيجار H100 أكثر من 60 في المائة من الذروة. السوق لا يُكافئ بعد تجميع وحدات GPU. إنه يُطلب دليل عائد على رأس المال المستثمر. هيكل التخزين هو المكان الذي يعيش فيه ذلك الدليل، لأنه المكان الذي تتقاطع فيه معدلات استخدام وحدات GPU والتزامات SLA وفعاليّة الطاقة والهيكل التكلفي على المدى الطويل.
ما هو رسالتك لمشغلي Neocloud الذين يُقيّمون استراتيجية التخزين الخاصة بهم اليوم؟
لا تدع قرار التخزين يكون القرار الذي اتخذته افتراضيًا. كل جزء آخر من البنية التحتية يُحصل على هندسة ومراجعة مالية صارمة. يجب أن يكون التخزين غير مختلف. المشغلون الذين سيكونون هنا في ثلاث سنوات هم أولئك الذين نظروا بعناية إلى التكلفة الفعلية لكل ساعة حوسبة مفيدة، وفهموا وضع توافرهم الحقيقي، وضمنوا أنهم كانوا مخططين للعملة بدلاً من اختصار الشراء.
النافذة لتحقيق ذلك تُغلق. الاندماج已经 بدأ، والاقتصاد قاس. لكن للمشغلين الذين يرغبون في إعادة التفكير في طبقة التخزين بنفس الصرامة التي طبقوها على اختيار وحدات GPU، الفرصة كبيرة. التخزين الذي يُنجز بشكل صحيح لا يُقلل فقط من التكلفة. إنه يُقفل قيمة كل وحدة GPU في الرف.
شكرًا على المقابلة الرائعة، القراء الذين يرغبون في معرفة المزيد عن هذه التكنولوجيا يجب أن يزوروا VDURA. كما يمكنهم قراءة مقابلتنا السابقة مع كين كلافي.












