الذكاء الاصطناعي

استدلال الذكاء الاصطناعي على نطاق واسع: استكشاف بنية NVIDIA Dynamo عالية الأداء

تم النشر 24 نيسان 2025

د. أسعد عباس

استدلال الذكاء الاصطناعي على نطاق واسع: استكشاف بنية NVIDIA Dynamo عالية الأداء

As الذكاء الاصطناعي (AI) مع التقدم التكنولوجي، ازدادت الحاجة إلى حلول استدلال فعّالة وقابلة للتطوير بسرعة. ومن المتوقع قريبًا أن يصبح استدلال الذكاء الاصطناعي أكثر أهمية من التدريب، حيث تركز الشركات على النماذج سريعة التشغيل للتنبؤات الفورية. ويؤكد هذا التحول على الحاجة إلى بنية تحتية متينة للتعامل مع كميات كبيرة من البيانات بأقل تأخير.

الاستدلال أمر حيوي في الصناعات مثل المركبات المستقلةكشف الاحتيال، والتشخيصات الطبية الآنية. ومع ذلك، تواجه هذه التقنية تحديات فريدة، لا سيما عند التوسع لتلبية متطلبات مهام مثل بث الفيديو، وتحليل البيانات المباشرة، ورؤى العملاء. تواجه نماذج الذكاء الاصطناعي التقليدية صعوبة في التعامل مع هذه المهام عالية الإنتاجية بكفاءة، مما يؤدي غالبًا إلى تكاليف باهظة وتأخيرات. مع توسع الشركات في قدرات الذكاء الاصطناعي، تحتاج إلى حلول لإدارة كميات كبيرة من طلبات الاستدلال دون التضحية بالأداء أو زيادة التكاليف.

هذا هو المكان إنفيديا دينامو أُطلق Dynamo في مارس 2025، وهو إطار عمل جديد للذكاء الاصطناعي مصمم لمواجهة تحديات استدلال الذكاء الاصطناعي على نطاق واسع. يساعد Dynamo الشركات على تسريع أحمال عمل الاستدلال مع الحفاظ على أداء قوي وخفض التكاليف. يعتمد Dynamo على بنية وحدة معالجة الرسومات القوية من NVIDIA، ويتكامل مع أدوات مثل CUDA وTensorRT وTriton، وهو يُغير طريقة إدارة الشركات لاستدلال الذكاء الاصطناعي، مما يجعله أسهل وأكثر كفاءة للشركات بجميع أحجامها.

التحدي المتزايد لاستدلال الذكاء الاصطناعي على نطاق واسع

الاستدلال بالذكاء الاصطناعي هو عملية استخدام نظام مدرب مسبقًا آلة التعلم نموذجٌ للتنبؤات من بيانات العالم الحقيقي، وهو ضروريٌّ للعديد من تطبيقات الذكاء الاصطناعي الآنية. ومع ذلك، غالبًا ما تواجه الأنظمة التقليدية صعوباتٍ في تلبية الطلب المتزايد على استدلالات الذكاء الاصطناعي، لا سيما في مجالاتٍ مثل المركبات ذاتية القيادة، وكشف الاحتيال، وتشخيصات الرعاية الصحية.

يتزايد الطلب على الذكاء الاصطناعي الفوري بسرعة، مدفوعًا بالحاجة إلى اتخاذ قرارات سريعة وفورية. مايو ٢٠٢٤ فوريستر وجد التقرير أن 67% من الشركات تتكامل الذكاء الاصطناعي التوليدي في عملياتهم، مما يُبرز أهمية الذكاء الاصطناعي الفوري. يُعدّ الاستدلال جوهر العديد من المهام التي يعتمد عليها الذكاء الاصطناعي، مثل تمكين السيارات ذاتية القيادة من اتخاذ قرارات سريعة، وكشف الاحتيال في المعاملات المالية، والمساعدة في التشخيصات الطبية مثل تحليل الصور الطبية.

على الرغم من هذا الطلب، تُعاني الأنظمة التقليدية من قلة استخدام وحدات معالجة الرسومات (GPUs) في معالجة هذه المهام. ومن أبرز هذه المشكلات قلة استخدام وحدات معالجة الرسومات (GPUs). فعلى سبيل المثال، لا يزال استخدام وحدات معالجة الرسومات في العديد من الأنظمة يتراوح بين 10% و15%، مما يعني قلة استخدام طاقة حسابية كبيرة. ومع ازدياد عبء عمل استدلال الذكاء الاصطناعي، تظهر تحديات إضافية، مثل حدود الذاكرة وتعطل ذاكرة التخزين المؤقت، مما يُسبب تأخيرات ويُقلل من الأداء العام.

يعد تحقيق زمن انتقال منخفض أمرًا بالغ الأهمية لتطبيقات الذكاء الاصطناعي في الوقت الفعلي، ولكن العديد من الأنظمة التقليدية تكافح لمواكبة ذلك، وخاصة عند استخدام البنية التحتية السحابية. تقرير ماكينزي يكشف تقرير أن 70% من مشاريع الذكاء الاصطناعي تفشل في تحقيق أهدافها بسبب مشاكل في جودة البيانات وتكاملها. تُبرز هذه التحديات الحاجة إلى حلول أكثر كفاءة وقابلية للتطوير؛ وهنا يأتي دور NVIDIA Dynamo.

تحسين استدلال الذكاء الاصطناعي باستخدام NVIDIA Dynamo

NVIDIA Dynamo هو إطار عمل مفتوح المصدر، معياري، يُحسّن مهام استنتاج الذكاء الاصطناعي واسعة النطاق في بيئات موزعة متعددة وحدات معالجة الرسومات. يهدف إلى معالجة التحديات الشائعة في نماذج الذكاء الاصطناعي التوليدي والاستدلال، مثل قلة استخدام وحدات معالجة الرسومات، واختناقات الذاكرة، وعدم كفاءة توجيه الطلبات. يجمع Dynamo بين التحسينات المتوافقة مع الأجهزة والابتكارات البرمجية لمعالجة هذه المشكلات، مقدمًا حلاً أكثر كفاءة لتطبيقات الذكاء الاصطناعي عالية الطلب.

من أهم ميزات دينامو هيكلية الخدمة المفككة. يفصل هذا النهج مرحلة التعبئة المسبقة المكثفة حسابيًا، والتي تتولى معالجة السياق، عن مرحلة فك التشفير، والتي تتضمن توليد الرموز. من خلال تخصيص كل مرحلة لمجموعات وحدات معالجة رسومية (GPU) مميزة، يسمح دينامو بتحسين مستقل. تستخدم مرحلة التعبئة المسبقة وحدات معالجة رسومية عالية الذاكرة لاستيعاب السياق بشكل أسرع، بينما تستخدم مرحلة فك التشفير وحدات معالجة رسومية مُحسّنة زمن الوصول لتدفق الرموز بكفاءة. يُحسّن هذا الفصل الإنتاجية، مما يجعل نماذج مثل اللاما 70 ب مرتين بسرعة.

يتضمن مُخطِّط موارد وحدة معالجة الرسومات (GPU) الذي يُجدول تخصيص وحدات معالجة الرسومات ديناميكيًا بناءً على الاستخدام الفوري، مما يُحسِّن أحمال العمل بين مجموعات التعبئة المسبقة وفك التشفير لمنع الإفراط في التزويد ودورات الخمول. ومن الميزات الرئيسية الأخرى جهاز التوجيه الذكي المُدرِك لذاكرة التخزين المؤقت KV، والذي يضمن توجيه الطلبات الواردة إلى وحدات معالجة الرسومات التي تحتوي على بيانات ذاكرة التخزين المؤقت ذات القيمة الرئيسية (KV) ذات الصلة، مما يُقلِّل من العمليات الحسابية المُكررة ويُحسِّن الكفاءة. تُفيد هذه الميزة بشكل خاص نماذج الاستدلال متعددة الخطوات التي تُولِّد رموزًا أكثر من نماذج اللغات الكبيرة القياسية.

استخدم مكتبة NVIDIA Inference TranXfer (NIXL) يُعدّ هذا مُكوّنًا أساسيًا آخر، إذ يُتيح اتصالًا منخفض الكمون بين وحدات معالجة الرسومات (GPU) وطبقات الذاكرة/التخزين غير المتجانسة مثل HBM وNVMe. تدعم هذه الميزة استرجاع ذاكرة التخزين المؤقت KV بسرعة أقل من ميلي ثانية، وهو أمر بالغ الأهمية للمهام الحساسة للوقت. كما يُساعد مُدير ذاكرة التخزين المؤقت الموزعة KV على تفريغ بيانات ذاكرة التخزين المؤقت التي لا يتم الوصول إليها بشكل متكرر إلى ذاكرة النظام أو أقراص SSD، مما يُتيح مساحةً أكبر لذاكرة وحدة معالجة الرسومات (GPU) لإجراء العمليات الحسابية النشطة. يُحسّن هذا النهج الأداء العام للنظام بما يصل إلى 30 ضعفًا، خاصةً للطرازات الكبيرة مثل DeepSeek-R1 671B.

يتكامل NVIDIA Dynamo مع مجموعة NVIDIA الكاملة، بما في ذلك وحدات معالجة الرسومات CUDA وTensorRT وBlackwell، مع دعم واجهات الاستدلال الخلفية الشائعة مثل vLLM وTensorRT-LLM. تُظهر الاختبارات المعيارية أداءً أعلى يصل إلى 30 ضعفًا لكل وحدة معالجة رسومات في الثانية لنماذج مثل DeepSeek-R1 على أنظمة GB200 NVL72.

بصفته خليفةً لخادم الاستدلال Triton، صُمم Dynamo لمصانع الذكاء الاصطناعي التي تتطلب حلول استدلال قابلة للتطوير وفعالة من حيث التكلفة. وهو يُفيد الأنظمة المستقلة، والتحليلات الفورية، وسير العمل الوكيل متعدد النماذج. كما يُتيح تصميمه مفتوح المصدر والقابل للتعديل سهولة التخصيص، مما يجعله قابلاً للتكيف مع مختلف أحمال عمل الذكاء الاصطناعي.

التطبيقات في العالم الحقيقي وتأثيرها على الصناعة

أثبت NVIDIA Dynamo جدارته في مختلف القطاعات التي يُعدّ فيها الاستدلال بالذكاء الاصطناعي في الوقت الفعلي أمرًا بالغ الأهمية. فهو يُحسّن الأنظمة المستقلة، والتحليلات في الوقت الفعلي، ومصانع الذكاء الاصطناعي، مما يُتيح تطبيقات ذكاء اصطناعي عالية الإنتاجية.

شركات مثل معا منظمة العفو الدولية استخدمنا Dynamo لتوسيع نطاق أحمال عمل الاستدلال، محققين زيادة في السعة تصل إلى 30 ضعفًا عند تشغيل نماذج DeepSeek-R1 على وحدات معالجة الرسومات NVIDIA Blackwell. بالإضافة إلى ذلك، يُحسّن توجيه الطلبات الذكي وجدولة وحدات معالجة الرسومات من Dynamo الكفاءة في عمليات نشر الذكاء الاصطناعي واسعة النطاق.

الميزة التنافسية: الدينامو مقابل البدائل

يقدم NVIDIA Dynamo مزايا رئيسية مقارنةً ببدائل مثل AWS Inferentia وGoogle TPUs. فهو مصمم للتعامل بكفاءة مع أحمال عمل الذكاء الاصطناعي واسعة النطاق، مع تحسين جدولة وحدات معالجة الرسومات، وإدارة الذاكرة، وتوجيه الطلبات لتحسين الأداء عبر وحدات معالجة رسومات متعددة. وعلى عكس AWS Inferentia، المرتبط ارتباطًا وثيقًا بالبنية التحتية السحابية لـ AWS، يوفر Dynamo مرونةً من خلال دعم كلٍّ من السحابة الهجينة والنشر المحلي، مما يساعد الشركات على تجنب التقيد بمورد واحد.

من نقاط قوة دينامو بنيته المعيارية مفتوحة المصدر، مما يسمح للشركات بتخصيص إطار العمل وفقًا لاحتياجاتها. فهو يُحسّن كل خطوة من خطوات عملية الاستدلال، مما يضمن سلاسة وكفاءة نماذج الذكاء الاصطناعي مع تحقيق أقصى استفادة من الموارد الحاسوبية المتاحة. بفضل تركيزه على قابلية التوسع والمرونة، يُعد دينامو مناسبًا للشركات التي تبحث عن حل استدلال ذكاء اصطناعي فعال من حيث التكلفة وعالي الأداء.

الخط السفلي

تُحدث NVIDIA Dynamo نقلة نوعية في مجال استدلال الذكاء الاصطناعي من خلال توفير حلٍّ فعّال وقابل للتطوير لمواجهة التحديات التي تواجهها الشركات مع تطبيقات الذكاء الاصطناعي في الوقت الفعلي. تصميمها مفتوح المصدر والقابل للتعديل يُمكّنها من تحسين استخدام وحدة معالجة الرسومات، وإدارة الذاكرة بشكل أفضل، وتوجيه الطلبات بفعالية أكبر، مما يجعلها مثالية لمهام الذكاء الاصطناعي واسعة النطاق. من خلال فصل العمليات الرئيسية والسماح لوحدات معالجة الرسومات بالتكيف ديناميكيًا، تُحسّن Dynamo الأداء وتُخفّض التكاليف.

بخلاف الأنظمة التقليدية أو منافسيها، يدعم Dynamo السحابة الهجينة والإعدادات المحلية، مما يمنح الشركات مرونة أكبر ويقلل الاعتماد على أي مزود. بفضل أدائه المتميز وقدرته على التكيف، يضع NVIDIA Dynamo معيارًا جديدًا لاستنتاجات الذكاء الاصطناعي، مقدمًا للشركات حلاً متطورًا وفعالًا من حيث التكلفة وقابلًا للتطوير لتلبية احتياجاتها من الذكاء الاصطناعي.

مواضيع ذات صلة:الاستدلال عاي الإستنباط NVIDIA إنفيديا دينامو