الذكاء الاصطناعي

الاستدلال الاصطناعي بمقياس كبير: استكشاف هندسة NVIDIA Dynamo عالية الأداء

Published April 24, 2025

Updated April 26, 2026

Dr. Assad Abbas

AI Inference at Scale: Exploring NVIDIA Dynamo’s High-Performance Architecture

مع تقدم تكنولوجيا الذكاء الاصطناعي (AI)، نمت الحاجة إلى حلول استدلال كفؤة ومتوسعة بسرعة. قريباً، من المتوقع أن يصبح الاستدلال الاصطناعي أكثر أهمية من التدريب حيث تركز الشركات على تشغيل النماذج بسرعة لجعل تنبؤات في الوقت الفعلي. هذه التحول تؤكد الحاجة إلى بنية تحتية قوية لت xửل كميات كبيرة من البيانات مع تأخيرات دنيا.

الاستدلال حيوي في الصناعات مثل المركبات المستقلة، وكشف الاحتيال، والتشخيص الطبي في الوقت الفعلي. ومع ذلك، لديه تحديات فريدة، خاصة عند التوسع لاستيعاب متطلبات مهام مثل بث الفيديو، وتحليل البيانات المباشر، والرؤى العملاء. النماذج التقليدية للذكاء الاصطناعي تعاني من التعامل مع هذه المهام عالية الإنتاجية بكفاءة، مما يؤدي غالباً إلى تكاليف عالية وتأخيرات. مع توسع الشركات في قدرات الذكاء الاصطناعي، تحتاج إلى حلول لإدارة كميات كبيرة من طلبات الاستدلال دون التضحية بالأداء أو زيادة التكاليف.

هنا يأتي دور NVIDIA Dynamo. تم إطلاقه في مارس 2025، Dynamo هو إطار جديد للذكاء الاصطناعي مصمم لمواجهة تحديات الاستدلال الاصطناعي بمقياس كبير. يساعد الشركات على تسريع حمولات الاستدلال مع الحفاظ على أداء قوي وتقليل التكاليف. مبني على هندسة GPU قوية من NVIDIA ومكامل مع أدوات مثل CUDA، وTensorRT، وTriton، Dynamo يتغير كيفية تعامل الشركات مع الاستدلال الاصطناعي، مما يجعله أسهل وأكثر كفاءة للشركات جميع الأحجام.

التحدي المتزايد للاستدلال الاصطناعي بمقياس كبير

الاستدلال الاصطناعي هو عملية استخدام نموذج تعلم الآلة المُدرّب مسبقاً لجعل تنبؤات من البيانات في العالم الحقيقي، وهو ضروري للعديد من تطبيقات الذكاء الاصطناعي في الوقت الفعلي. ومع ذلك، تعاني الأنظمة التقليدية من صعوبة في التعامل مع الطلب المتزايد على الاستدلال الاصطناعي، خاصة في مجالات مثل المركبات المستقلة، وكشف الاحتيال، والتشخيص الطبي.

الطلب على الذكاء الاصطناعي في الوقت الفعلي ينمو بسرعة، مدفوعاً بالحاجة إلى اتخاذ القرارات السريعة في المكان. وجد تقرير من Forrester في مايو 2024 أن 67% من الشركات تدمج الذكاء الاصطناعي التوليدي في عملياتها، مما يبرز أهمية الذكاء الاصطناعي في الوقت الفعلي. الاستدلال هو في قلب العديد من المهام التي تقودها الذكاء الاصطناعي، مثل تمكين السيارات ذاتية القيادة من اتخاذ قرارات سريعة، وكشف الاحتيال في المعاملات المالية، والمساعدة في التشخيص الطبي مثل تحليل الصور الطبية.

على الرغم من هذا الطلب، تعاني الأنظمة التقليدية من صعوبة في التعامل مع حجم هذه المهام. واحدة من القضايا الرئيسية هي سوء استخدام وحدات معالجة الرسومات (GPU). على سبيل المثال، يبقى استخدام GPU في العديد من الأنظمة حول 10% إلى 15%， مما يعني أن هناك قدرة حسابية كبيرة غير مستخدمة. مع زيادة حمولة الاستدلال الاصطناعي، تظهر تحديات إضافية، مثل حدود الذاكرة وضربات الذاكرة، مما يسبب تأخيرات وتقليل الأداء العام.

تحقيق التأخير المنخفض هو أمر حاسم لتطبيقات الذكاء الاصطناعي في الوقت الفعلي، ولكن العديد من الأنظمة التقليدية تعاني من مواكبة ذلك، خاصة عند استخدام البنية التحتية السحابية. يكشف تقرير من McKinsey أن 70% من مشاريع الذكاء الاصطناعي تفشل في تحقيق أهدافها بسبب مشاكل جودة البيانات وتكاملها. هذه التحديات تبرز الحاجة إلى حلول أكثر كفاءة ومتوسعة؛ هذا هو حيث يأتي دور NVIDIA Dynamo.

تحسين الاستدلال الاصطناعي مع NVIDIA Dynamo

NVIDIA Dynamo هو إطار مفتوح ومكون يُحسّن مهام الاستدلال الاصطناعي بمقياس كبير في بيئات متعددة GPU. يهدف إلى مواجهة التحديات الشائعة في نماذج الذكاء الاصطناعي التوليدي والاستدلال، مثل سوء استخدام GPU، وحدود الذاكرة، وتوجيه الطلبات غير الكفء. يجمع Dynamo بين التحسينات المعتمدة على الأجهزة مع الابتكارات البرمجية لمواجهة هذه القضايا، مع تقديم حل أكثر كفاءة لتطبيقات الذكاء الاصطناعي عالية الطلب.

واحدة من الميزات الرئيسية لDynamo هي هندستها المعمارية الموزعة. هذا النهج يفصل بين مرحلة ما قبل الملء الحساسة حسابياً، التي تتعامل مع معالجة السياق، ومرحلة فك التشفير، التي تتضمن توليد الرموز. من خلال تعيين كل مرحلة إلى مجموعات GPU منفصلة، يسمح Dynamo بالتحسين المستقل. تستخدم مرحلة ما قبل الملء وحدات GPU عالية الذاكرة لمعالجة السياق بشكل أسرع، بينما تستخدم مرحلة فك التشفير وحدات GPU محسنة للتأخير لتوليد الرموز بكفاءة. هذا الفصل يحسن الإنتاجية، مما يجعل نماذج مثل Llama 70B أسرع مرتين.

يضم Dynamo مخططاً ديناميكياً لموارد GPU، الذي يجدول تخصيص GPU بشكل ديناميكي بناءً على الاستخدام في الوقت الفعلي، ويحسن الحمولات بين مجموعات ما قبل الملء وفك التشفير لمنع التزويد الزائد والدورات الخالية. ميزة أخرى هامة هي جهاز التوجيه الذكي للمخزن المؤقت، الذي يضمن توجيه الطلبات الواردة إلى وحدات GPU التي تحتوي على بيانات المخزن المؤقت ذات الصلة، مما يقلل من الحسابات المتكررة ويعزز الكفاءة. هذه الميزة مفيدة بشكل خاص لأنماذج الاستدلال المتعددة الخطوات التي تنتج رموز أكثر من نماذج اللغة الكبيرة القياسية.

مكتبة NVIDIA للنقل الاستدلالي (NIXL) هي مكون حاسم آخر، مما يسمح بالتواصل منخفض التأخير بين وحدات GPU وأصناف الذاكرة والتخزين المتنوعة مثل HBM وNVMe. هذه الميزة تدعم استرجاع المخزن المؤقت KV في أقل من милли ثانية، وهو أمر حاسم للمهام الحساسة للزمن. مدير المخزن المؤقت KV الموزع يساعد également على تفريغ بيانات المخزن المؤقت الأقل استخداماً إلى الذاكرة النظامية أو الأقراص الصلبة، مما يحرر ذاكرة GPU لعمليات الحساب النشطة. هذا النهج يعزز الأداء العام للنظام بمقدار يصل إلى 30 مرة، خاصة بالنسبة للنماذج الكبيرة مثل DeepSeek-R1 671B.

NVIDIA Dynamo يدمج مع حزمة NVIDIA الكاملة، بما في ذلك CUDA، وTensorRT، وBlackwell GPUs، مع دعم خلفيات الاستدلال الشائعة مثل vLLM وTensorRT-LLM. تظهر الاختبارات أداءً يصل إلى 30 مرة أكثر رموز لكل وحدة GPU في الثانية لنماذج مثل DeepSeek-R1 على أنظمة GB200 NVL72.

كخلف لخادم الاستدلال Triton، صمم Dynamo لل مصانع الذكاء الاصطناعي التي تتطلب حلول استدلال متوسعة واقتصادية. يفيد الأنظمة المستقلة، والتحليلات في الوقت الفعلي، وعمليات العمل المتعددة النماذج. تصميمه المفتوح والمكون يسمح بالتخصيص السهل، مما يجعله قابل للتكيف مع حمولات الذكاء الاصطناعي المتنوعة.

التطبيقات العملية وتأثير الصناعة

NVIDIA Dynamo أظهر قيمته عبر الصناعات التي يكون فيها الاستدلال الاصطناعي في الوقت الفعلي حاسماً. يُحسن الأنظمة المستقلة، والتحليلات في الوقت الفعلي، ومصانع الذكاء الاصطناعي، مما يسمح بتطبيقات الذكاء الاصطناعي عالية الإنتاجية.

الشركات مثل Together AI استخدمت Dynamo لتوسيع حمولات الاستدلال، وتحقيق زيادات تصل إلى 30 مرة في السعة عند تشغيل نماذج DeepSeek-R1 على وحدات GPU Blackwell من NVIDIA. بالإضافة إلى ذلك، تحسين Dynamo لطلبات التوجيه والتخطيط الديناميكي لGPU يُحسن الكفاءة في توزيعات الذكاء الاصطناعي الكبيرة.

ال cạnh التنافسي: Dynamo مقابل البديل

NVIDIA Dynamo يقدم مزايا رئيسية على البديل مثل AWS Inferentia وGoogle TPUs. صمم Dynamo لمواجهة التحديات الشائعة في نماذج الذكاء الاصطناعي التوليدي والاستدلال، مثل سوء استخدام GPU، وحدود الذاكرة، وتوجيه الطلبات غير الكفء. على عكس AWS Inferentia، التي ترتبط ارتباطاً وثيقاً ببنية السحابة AWS، يوفر Dynamo مرونة من خلال دعم التوزيعات السحابية الهجينة والمنشأة المحلية، مما يساعد الشركات على تجنب قفل البائع.

واحدة من نقاط قوة Dynamo هي هندسته المعمارية المفتوحة والمكونة، مما يسمح للشركات بتخصيص الإطار بناءً على احتياجاتها. يُحسن Dynamo كل خطوة من خطوات الاستدلال، مما يضمن أن تعمل نماذج الذكاء الاصطناعي بسلاسة وكفاءة، مع الاستفادة القصوى من الموارد الحسابية المتاحة. مع التركيز على التوسعة والمرونة، Dynamo مناسب للشركات التي تبحث عن حل استدلال اصطناعي كفء واقتصادي.

الخلاصة

NVIDIA Dynamo يغير العالم من الاستدلال الاصطناعي من خلال تقديم حل متوسع واقتصادي للتحديات التي تواجهها الشركات مع تطبيقات الذكاء الاصطناعي في الوقت الفعلي. تصميمه المفتوح والمكون يسمح بتحسين استخدام GPU، وإدارة الذاكرة بشكل أفضل، وتوجيه الطلبات بشكل أكثر فعالية، مما يجعله مثاليًا للمهام الكبيرة للذكاء الاصطناعي. من خلال فصل العمليات الرئيسية وتمكين وحدات GPU من التكيف ديناميكيًا، يزيد Dynamo من الأداء ويقلل من التكاليف.

على عكس الأنظمة التقليدية أو المنافسين، يدعم Dynamo التوزيعات السحابية الهجينة والمنشأة المحلية، مما يمنح الشركات مرونة أكبر وتقليل الاعتماد على أي مزود. مع أدائه الممتاز وتنوعه، يضع NVIDIA Dynamo معيارًا جديدًا للاستدلال الاصطناعي، ويقدم للشركات حلًا متقدمًا واقتصاديًا ومتوسعًا لاحتياجات الذكاء الاصطناعي.