رطم كيفن تابس ، دكتوراه ، نائب الرئيس الأول لمجموعة الحلول الإستراتيجية في Penguin Computing - سلسلة مقابلات - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

مقابلات

كيفن تابس ، دكتوراه ، نائب الرئيس الأول لمجموعة الحلول الإستراتيجية في Penguin Computing - سلسلة مقابلات

mm

تم النشر

 on

كيفين تابس ، دكتوراه ، هو نائب الرئيس الأول لمجموعة الحلول الإستراتيجية في حوسبة البطريق. تصمم Penguin Computing حلولاً غير تقليدية وشاملة (الأجهزة / البرامج / السحابة / الخدمات) لحل المشكلات العلمية والتحليلية والهندسية المعقدة التي تواجه اليوم شركات Fortune 500 والشركات الناشئة والمؤسسات الأكاديمية والمنظمات الفيدرالية

ما الذي جذبك في البداية إلى مجال علوم الكمبيوتر؟

اشتريت لي أمي وأبي جهاز كمبيوتر عندما كنت صغيرًا جدًا ، وكنت دائمًا مهتمًا وموهبة لأجهزة الكمبيوتر والعبث. من خلال تعليمي ، انجذبت باستمرار نحو مجالات العلوم والتكنولوجيا والهندسة والرياضيات وهذا دفعني إلى الرغبة في الانخراط في مجال أكثر تطبيقاً. خلفيتي هي الفيزياء والحوسبة عالية الأداء (HPC). أتاح لي حب أجهزة الكمبيوتر في وقت مبكر الاحتفاظ بعلوم الكمبيوتر في طليعة أي اهتمام آخر بالعلوم أو الرياضيات أو الهندسة لدي ، مما قادني إلى ما أنا عليه اليوم.

تعمل Penguin Computing بشكل وثيق مع Open Compute Project (OCP) - ما هذا تحديدًا؟

منذ بداية فتح حساب المشروع (OCP) ، كانت Penguin Computing من أوائل المتبنين والداعمين والمساهمين الرئيسيين في الجهود المبذولة لجلب فوائد OCP إلى الحوسبة عالية الأداء (HPC) والذكاء الاصطناعي (AI).

ينصب تركيز OCP على جمع مجتمع عالمي من المطورين لإنشاء نظام بيئي كامل لتكنولوجيا البنية التحتية التي أعيد تصورها لتكون أكثر كفاءة ومرونة وقابلية للتطوير. انضمت Penguin Computing إلى OCP بسبب التقنيات المفتوحة وفكرة المجتمع. ما فعلناه بمرور الوقت هو التأكد من أن التراث والتقنيات من HPC التقليدية والاتجاهات الناشئة في الذكاء الاصطناعي والتحليلات يمكن توسيع نطاقها بكفاءة - Penguin Computing تقود هذه الأشياء إلى OCP.

تتمثل إحدى مزايا OCP في أنها تخفض التكلفة الإجمالية للملكية (TCO) - نفقات رأسمالية أقل ، بفضل إزالة جميع عناصر التزيين ، ونفقات التشغيل المنخفضة بسبب الخدمة من الأمام ، والطاقة المشتركة وتغييرات التصميم الأخرى - مما يجعل تقنية قائمة على OCP مثالية للتوسع.

لدى Penguin Computing العديد من منتجات OCP بما في ذلك Penguin Computing Tundra Extreme Scale Platform و Penguin Computing Tundra AP. تتوافق منصات Tundra أيضًا مع أحمال عمل HPC و AI.

تجمع Tundra AP ، أحدث جيل من منصة الحوسبة الفائقة التندرا عالية الكثافة ، بين قوة المعالجة لسلسلة معالجات Intel® Xeon® Scalable 9200 مع Penguin Computing خادم Relion XO1122eAP في عامل شكل OCP الذي يوفر كثافة عالية من أنوية وحدة المعالجة المركزية لكل رف.

عندما يتعلق الأمر بالبيانات الضخمة ، لتحسين مستويات الأداء ، يحتاج المستخدمون إلى إزالة الاختناقات التي تبطئ وصولهم إلى البيانات. كيف تتعامل Penguin Computing مع هذه المشكلة؟

استفادت Penguin Computing من قدرتنا على استخدام التقنيات المفتوحة والتحرك بسرعة مع الاتجاهات الحالية - أحدها البيانات الضخمة أو نمو البيانات وأعباء العمل التي تعتمد على البيانات. استجابة لذلك ، قمنا ببناء مجموعة الحلول الإستراتيجية الخاصة بنا لمعالجة هذه المشكلة بشكل مباشر.

عند معالجة المشكلة ، وجدنا أن غالبية أعباء العمل ، حتى من الحوسبة التقنية التقليدية ، كلها متحمسة لتكون أكثر اعتمادًا على البيانات. ونتيجة لذلك ، فإن تصميمات Penguin Computing تكمل الحلول الشاملة من خلال محاولة فهم عبء عمل المستخدمين. من أجل إنشاء حل شامل مُحسَّن لأعباء العمل ، نركز على طبقة البرامج المُحسَّنة لعبء العمل والتي تتضمن التنسيق وتسليم عبء العمل. بشكل أساسي ، نحتاج إلى فهم كيفية استخدام المستخدم للبنية التحتية.

بعد ذلك ، نحاول التركيز على البنية التحتية للحوسبة المُحسَّنة لعبء العمل. هناك مستويات مختلفة من البيانات وتحديات الإدخال / الإخراج التي تضع الكثير من الضغط على جزء الحوسبة. على سبيل المثال ، تتطلب أحمال العمل المختلفة مجموعات مختلفة من البنية التحتية للحوسبة السريعة من وحدات المعالجة المركزية ووحدات معالجة الرسومات وعرض النطاق الترددي للذاكرة والشبكات التي تسمح بتدفق البيانات من خلالها وحسابها.

أخيرًا ، نحتاج إلى معرفة أنواع الحلول التي ستسمح لنا بتقديم تلك البيانات. نحن ننظر إلى البنى التحتية للبيانات المحسّنة لعبء العمل لفهم كيفية تفاعل عبء العمل مع البيانات ، ومتطلبات السعة وأنماط IO. بمجرد حصولنا على هذه المعلومات ، فإنها تساعدنا في تصميم نظام محسن لأعباء العمل.

بمجرد حصولنا على جميع المعلومات ، فإننا نستفيد من خبرتنا الداخلية في Penguin Computing لتصميم تصميم وحل كامل. مع العلم أنه مصمم من منظور الأداء ، نحتاج إلى فهم مكان نشره (في أماكن العمل ، أو السحابة ، أو الحافة ، أو مزيج من الكل ، وما إلى ذلك). هذا هو نهج Penguin Computing لتقديم حل مُحسّن لأعباء العمل المدفوعة بالبيانات.

هل يمكنك مناقشة أهمية استخدام وحدة معالجة الرسومات (GPU) بدلاً من وحدة المعالجة المركزية (CPU) للتعلم العميق؟

كان أحد أكبر الاتجاهات التي رأيتها فيما يتعلق بأهمية وحدات معالجة الرسومات للتعلم العميق (DL) هو الانتقال من استخدام وحدات معالجة الرسومات للأغراض العامة (GPGPU) كقطعة موازية للبيانات من الأجهزة التي سمحت لنا بتسريع كمية الحوسبة بشكل كبير النوى التي يمكنك تقديمها لحل مشكلة الحوسبة المتوازية. كان هذا مستمرًا خلال السنوات العشر الماضية.

شاركت في المراحل الأولى من برمجة GPGPU عندما كنت في كلية الدراسات العليا وفي وقت مبكر من حياتي المهنية. أعتقد أن وجود هذه القفزة في كثافة الحوسبة ، حيث توفر وحدة معالجة الرسومات الكثير من نواة الحوسبة والتحليلات الكثيفة على الجهاز وتسمح لك بالحصول على المزيد في مساحة الخادم والقدرة على إعادة توظيف شيء كان مخصصًا في الأصل للرسومات لمحرك حساب كان اتجاهًا حقيقيًا لافتًا للنظر في HPC وفي النهاية مجتمعات الذكاء الاصطناعي.

ومع ذلك ، اعتمد الكثير من ذلك على تحويل وتحسين التعليمات البرمجية للتشغيل على وحدات معالجة الرسومات بدلاً من وحدات المعالجة المركزية. أثناء قيامنا بكل هذا العمل ، كنا ننتظر مفهوم التطبيق القاتل - التطبيق أو حالة الاستخدام التي تنطلق بالفعل أو يتم تمكينها بواسطة وحدة معالجة الرسومات. بالنسبة لمجتمع GPGPU ، كان DL هو التطبيق القاتل الذي حفز الجهود والتطوير في تسريع أعباء العمل HPC و AI.

مع مرور الوقت، كان هناك عودة للذكاء الاصطناعي والتعلم الآلي (ML)، وظهرت DL. لقد أدركنا أن تدريب الشبكة العصبية باستخدام DL تم تعيينه بشكل جيد جدًا للتصميم الأساسي لوحدة معالجة الرسومات. أعتقد أنه بمجرد تقارب هذين الأمرين، سيكون لديك القدرة على القيام بأنواع DL التي لم تكن ممكنة من قبل بواسطة معالجات وحدة المعالجة المركزية وفي النهاية حدت من قدرتنا على القيام بالذكاء الاصطناعي على نطاق واسع وفي الممارسة العملية.

بمجرد ظهور وحدات معالجة الرسوميات (GPU) في مكانها ، أعادت بالفعل تنشيط مجتمع البحث والتطوير حول الذكاء الاصطناعي والتعلم لأنك لم يكن لديك مستوى الحوسبة للقيام بذلك بكفاءة ولم يتم إضفاء الطابع الديمقراطي عليه. تتيح لك وحدة معالجة الرسومات (GPU) حقًا تقديم حساب أكثر كثافة تم تصميمه جيدًا في جوهره لـ DL وجعله يصل إلى مستوى حلول هندسة الأجهزة التي سهلت الوصول إلى المزيد من الباحثين والعلماء. أعتقد أن هذا هو أحد الأسباب الرئيسية التي تجعل وحدات معالجة الرسومات أفضل لدراسة DL.

ما هي بعض حلول الحوسبة المسرعة بواسطة GPU التي تقدمها Penguin Computing؟

تركز Penguin Computing حاليًا على الحلول الشاملة التي تعمل عليها مجموعة الحلول الإستراتيجية ، خاصةً مع ممارسات الذكاء الاصطناعي والتحليلات الخاصة بشركة Penguin Computing. في إطار هذه الممارسة ، نركز على ثلاثة مناهج عالية المستوى للحلول المسرعة بواسطة وحدة معالجة الرسومات.

أولاً ، نقدم بنية مرجعية لتحليلات الحافة ، حيث نتطلع إلى تصميم حلول تناسب مراكز البيانات غير التقليدية (خارج الحافة أو بالقرب من الحافة). يمكن أن يشمل ذلك مراكز بيانات Teleco edge ومرافق البيع بالتجزئة ومحطات الوقود والمزيد. هذه كلها حلول ذكاء اصطناعي قائمة على الاستدلال. بعض الحلول موجهة نحو تحليلات الفيديو لتتبع جهات الاتصال والتعرف على الإيماءات لتحديد ما إذا كان شخص ما يغسل يديه أو يرتدي قناعًا. هذه هي تطبيقات الحلول الكاملة التي تتضمن أجهزة تسريع GPU تم ضبطها بدقة لعمليات النشر غير التقليدية أو الحافة بالإضافة إلى مجموعات البرامج لتمكين الباحثين والمستخدمين النهائيين من استخدامها بفعالية.

تم تصميم الفئة التالية من حلول Penguin Computing لمركز البيانات وتدريب الذكاء الاصطناعي الأساسي والهياكل المرجعية للاستدلال. يمكنك التفكير في الجلوس داخل مركز بيانات واسع النطاق أو في السحابة (Penguin Computing Cloud) حيث يقوم بعض عملائنا بتدريب واسع النطاق على استخدام الآلاف من وحدات معالجة الرسومات لتسريع DL. نحن ننظر في كيفية تقديم حلول كاملة وبنيات مرجعية تدعم كل أعباء عمل البرامج هذه وحاوياتها من خلال تصميم وتخطيط وحدة معالجة الرسومات ، على طول الطريق من خلال متطلبات البنية التحتية للبيانات التي تدعمها.

الفئة الثالثة من البنى المرجعية في هذه الممارسة هي مزيج من النوعين السابقتين. ما نبحث عنه في عائلة البنية المرجعية الثالثة لدينا هو كيفية إنشاء أقمشة البيانات والمسارات وسير العمل لتمكين التعلم المستمر حتى تتمكن من تشغيل الاستدلال باستخدام حلولنا المسرعة بواسطة GPU ، ودفع هذه البيانات إلى السحابة الخاصة أو العامة ، استمر في التدريب عليها ، ومع تحديث نماذج التدريب الجديدة ، ادفع ذلك للخلف إلى الاستنتاج. بهذه الطريقة لدينا دورة تكرارية من التعلم المستمر ونماذج الذكاء الاصطناعي.

قامت Penguin Computing مؤخرًا بنشر كمبيوتر عملاق جديد لـ LLNL بالشراكة مع Intel و CoolIT. هل يمكن أن تخبرنا عن هذا الكمبيوتر العملاق ولماذا تم تصميمه؟

تم شراء حاسوب Magma Supercomputer، الذي تم نشره في LLNL من خلال عقد Commodity Technology Systems (CTS-1) مع الإدارة الوطنية للأمن النووي (NNSA) وهو أحد عمليات النشر الأولى لمعالجات سلسلة Intel Xeon Platinum 9200 بدعم مباشر من CoolIT Systems. تبريد سائل وربط متعدد المسارات.

بتمويل من برنامج المحاكاة والحوسبة المتقدم (ASC) التابع لـ NNSA ، ستدعم Magma برنامج تمديد الحياة التابع لـ NNSA والجهود الحاسمة لضمان سلامة وأمن وموثوقية الأسلحة النووية في البلاد في حالة عدم وجود اختبار تحت الأرض.

يعد Magma Supercomputer عبارة عن نظام HPC تم تحسينه بواسطة الذكاء الاصطناعي وهو عبارة عن منصة متقاربة تسمح للذكاء الاصطناعي بتسريع نمذجة HPC. تم تصنيف Magma في قائمة Top2020 لشهر يونيو 500 ، حيث اقتحمت قائمة أفضل 100 ، وجاءت في المرتبة 80.

بموجب عقد CTS-1 ، قدمت Penguin Computing أكثر من 22 بيتافلوب من القدرة الحاسوبية لدعم برنامج ASC في مختبرات NNSA Tri-Labs في Lawrence Livرمور ولوس ألاموس ومختبرات سانديا الوطنية.

ما هي بعض الطرق المختلفة التي تدعم بها Penguin Computing المعركة ضد COVID-19؟

في يونيو 2020 ، دخلت Penguin Computing رسميًا في شراكة مع AMD لتقديم قدرات HPC للباحثين في ثلاث جامعات كبرى في الولايات المتحدة - جامعة نيويورك (NYU) ، معهد ماساتشوستس للتكنولوجيا (MIT) وجامعة رايس - للمساعدة في مكافحة COVID- 19.

دخلت شركة Penguin Computing في شراكة مباشرة مع صندوق AMD COVID-19 HPC لتزويد المؤسسات البحثية بموارد حوسبة مهمة لتسريع البحث الطبي حول COVID-19 وأمراض أخرى. تتعاون Penguin Computing و AMD لتقديم مجموعة من حلول HPC المحلية والقائمة على السحابة لجامعة نيويورك ومعهد ماساتشوستس للتكنولوجيا وجامعة رايس للمساعدة في رفع القدرات البحثية لمئات العلماء الذين سيساهمون في النهاية في فهم أكبر لفيروس كورونا الجديد.

مدعومًا بأحدث معالجات AMD EPYC من الجيل الثاني ومسرعات GPU Radeon Instinct MI2 ، من المتوقع أن توفر كل من الأنظمة الممنوحة للجامعات أكثر من بيتافلوب واحد من أداء الحوسبة. سيتم توفير أربعة بيتافلوبات إضافية من سعة الحوسبة للباحثين من خلال خدمة HPC السحابية ، Penguin Computing® On-Demand ™ (POD). مجتمعة ، ستزود الأنظمة المتبرع بها الباحثين بأكثر من سبعة بيتافلوبات من قوة حوسبة GPU المعجلة التي يمكن تطبيقها لمحاربة COVID-50.

من المتوقع أن تستخدم الجامعات المستفيدة القدرة الحسابية الجديدة عبر مجموعة من أعباء العمل المرتبطة بالوباء بما في ذلك علم الجينوم وتطوير اللقاحات وعلم الانتقال والنمذجة.

هل تريد مشاركة أي شيء آخر حول Penguin Computing؟

لأكثر من عقدين من الزمن ، تقدم Penguin Computing حلولًا مخصصة ومبتكرة ومفتوحة لعالم الحوسبة التقنية والأداء العالي. تمنح حلول Penguin Computing المؤسسات المرونة والحرية التي تحتاجها للاستفادة من أحدث التقنيات في بيئات الحوسبة الخاصة بهم. يمكن للمنظمات تركيز مواردها على تقديم المنتجات والأفكار إلى السوق في وقت قياسي بدلاً من التركيز على التقنيات الأساسية. يمكن تخصيص مجموعة حلول Penguin Computing لتقنيات الذكاء الاصطناعي / ML / Analytics و HPC و DataOps و Cloud الأصلية ، ودمجها ليس فقط لتناسب الاحتياجات الحالية ، بل تتكيف بسرعة مع الاحتياجات المستقبلية والتغيرات التكنولوجية. تساعد Penguin Computing Professional and Managed Services في دمج الحلول وتنفيذها وإدارتها. يمكن أن تساعد خدمات استضافة Penguin Computing في "مكان" بيئة الحوسبة من خلال منح خيارات ملكية المؤسسات والمرونة للتشغيل في أماكن العمل ، على السحابة العامة أو المخصصة ، أو المستضافة أو كخدمة.

شكرا لك على المقابلة الرائعة ، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا حوسبة البطريق.

شريك مؤسس في unite.AI وعضو في مجلس تكنولوجيا فوربس ، أنطوان أ المستقبلي من هو شغوف بمستقبل الذكاء الاصطناعي والروبوتات.

وهو أيضًا مؤسس Securities.io، موقع ويب يركز على الاستثمار في التكنولوجيا الثورية.