Connect with us

خمس خطوات لتحويل الذاكرة من أكبر عقبة في الذكاء الاصطناعي إلى ميزة تنافسية

قادة الفكر

خمس خطوات لتحويل الذاكرة من أكبر عقبة في الذكاء الاصطناعي إلى ميزة تنافسية

mm

لمدة几 سنوات، ركزت البنية التحتية للذكاء الاصطناعي على الحوسبة أكثر من أي مقياس آخر. المزيد من المعززات، والclusters الأكبر، وFLOPS الأعلى دفع الحديث لجعل أكبر استفادة من وحدات معالجة الرسومات. هذا النهج كان منطقيًا عندما اعتمد تقدم النموذج بشكل رئيسي على تدريب النطاق. الآن، مع تقدم عمليات نشر الإنتاج، هناك عقبة جديدة للت tập trung عليها: الذاكرة.

اليوم، تظهر العديد من أكبر العوائق للذكاء الاصطناعي في سعة الذاكرة، و عرض النطاق، والكفاءة، ووقت وطاقة نقل البيانات عبر النظام. نوافذ السياق تتوسع، مع تقديم شركات مثل Anthropic نوافذ توكن مليون في عروضها القياسية. حمولة الاستدلال تتوسع. نمو أنظمة الوكيل المتعددة يعني أن أنظمة الذكاء الاصطناعي تنتقل حجمًا أكبر من البيانات من مرحلة إلى أخرى. يمكن للمشغلين الاستمرار في محاولة إضافة المزيد من وحدات معالجة الرسومات، لكنهم لا يزالون يفتقرون إلى الأداء الذي يتوقعونه لأن هذه الأنظمة تعاني من نقص في الذاكرة الكافية لتغذية المعززات بكفاءة عند عمل كل خادم على حدة، مقيد بذاكرة النظام.

تؤثر هذه التحول على كل من الإنتاجية والتكلفة للمشغلين الكبار و مشغلي مراكز البيانات. عندما تصبح الذاكرة العامل المحدد، غالبًا ما يستجيب المنظمات بتقديم المزيد من الأجهزة باهظة الثمن، مما يؤدي إلى إهمال سعة وحدات معالجة الرسومات وزيادة التكاليف الكهربائية والتكلفة البنية. المرحلة القادمة من توسيع نطاق الذكاء الاصطناعي سوف تعتمد أقل على إضافة الحوسبة الخام وأكثر على بناء هياكل الذاكرة التي تتناسب مع طريقة تشغيل الذكاء الاصطناعي في الإنتاج.

هنا خمس خطوات يمكن للمشغلين اتخاذها الآن لتحضيرهم لمطالب الذاكرة المتزايدة.

1. ابدأ bằng قياس الحاجة الفعلية

لا تزال العديد من المنظمات تقييم أداء الذكاء الاصطناعي من خلال عدسة الحوسبة أولا. يتبعون استخدام Cluster، وعدد المعززات، والإنتاجية العامة، ثم يفترضون أن التحسينات ستأتي من إضافة المزيد من معززات وحدات معالجة الرسومات. ذلك الرأي غالبًا ما يفتقد إلى القضية الحقيقية.

الضغط على الذاكرة غالبًا ما يظهر في معززات متوقفة، وطول فترة الكمون لكل توكن، والإنتاجية غير المستقرة تحت الحمل. قد يبدو معزز وحدات معالجة الرسومات غير مستخدم إذا كان ينتظر وصول البيانات من طبقة ذاكرة أخرى، أو خادم آخر، أو مرحلة أخرى في التطبيق. الاستدلال يجعل ذلك المشكلة أكثر وضوحًا عندما ينمو حجم KV cache ويتنافس الجلسات المتزامنة على عرض النطاق.

يحتاج المشغلون إلى رؤية أفضل لاستخدام الذاكرة الفعال، بالنظر إلى البايتات المmoved لكل توكن، ووقت توقف المعزز، وأنماط الوصول إلى الذاكرة عبر وحدات المعالجة المركزية، ووحدات معالجة الرسومات، والطبقات الذاكرة المجاورة. كما يحتاجون إلى تتبع أنابيب يمكن فصل تأخيرات الذاكرة عن مشاكل الشبكة أو التخزين. بدون تلك الرؤية، قد يخاطر الفريقون بإنفاق المزيد على الحوسبة دون معالجة مصدر الفاقد الفعلي.

2. قلل من نقل البيانات قبل إضافة المزيد من السعة

في الأنظمة الكبيرة للذكاء الاصطناعي، يمكن أن ينشئ نقل البيانات نفس الحمل مثل معالجة البيانات.

هذا صحيح بشكل خاص في الاستدلال. مع توسع نوافذ السياق، يمكن أن يصبح KV cache واحدًا من أكبر مستهلكي الذاكرة في النظام. يمكن أن يضيف الاستدلال المتعدد المستأجرين والمسارات المتعددة للمعاملات أكثر. المرحلة الأولى تنتج خرجًا، ثم يستهلكه الآخر، ويحول البنية التحتية هذه التسليم عن طريق نسخ كتل كبيرة من البيانات بين وحدات معالجة الرسومات، أو عبر الخوادم، أو من خلال تسلسل الإطار.

تلك النسخ تحمل تكلفة حقيقية. إنها تستهلك عرض النطاق، وتضيف الكمون، وتترك الموارد الحسابية باهظة الثمن في انتظار انتهاء النقل.

قبل الاستثمار في المزيد من المعززات، يجب على الفريقين تحديد مكان النظام حيث تنقل البيانات أكثر من اللازم. يمكن أن تكون عمليات نقل وحدات معالجة الرسومات، ونسخ الخادم إلى الخادم، وحركة متكررة للحالات الوسيطة عبر مسارات الوكيل، بداية جيدة.

3. بناء طبقات الذاكرة حول سلوك الحمولة

تعمل بنية تحتية الذكاء الاصطناعي بشكل أفضل عندما يتوقف المشغلون عن معاملة الذاكرة كمساحة واحدة وبدء معاملتها كهرمية ذات أدوار متميزة.

يجب أن تبقى البيانات الأكثر سخونة أقرب إلى المعزز. تشمل ذلك مجموعات العمل التي تتطلب أقل فترة كمون وأعلى عرض نطاق. يمكن أن تظل الحوافظ النشطة الأخرى والاحالات المفتوحة بشكل متكرر في ذاكرة الوصول العشوائي. يمكن نقل الهياكل الأكبر التي تحتاج إلى توسيع أكثر من السرعة المطلقة إلى الذاكرة المشتركة. البيانات الباردة والنمذجة الأقل نشاطًا تنتمي إلى أسفل الهيكل.

يتطلب هذا النهج من الفريقين فهم البيانات التي تتغير باستمرار، والبيانات التي يشاركها العديد من العمليات، والبيانات التي يمكن أن تتسامح مع تبادل الكمون المعتدل دون التأثير على جودة الخدمة.

استراتيجية طبقات الذاكرة توفر للمشغلين更多 التحكم في الأداء والاقتصاد. في بنية تحتية الذكاء الاصطناعي في الإنتاج، يصبح هذا التوازن متطلبًا أساسيًا للتصميم.

4. معاملة الذاكرة المشتركة كجزء من البنية التحتية للذكاء الاصطناعي العامل

تزيد أنظمة الذكاء الاصطناعي المتعددة الوكلاء من تكلفة تصميم الذاكرة المنقسمة.

في العديد من الأنظمة العاملة، ينتج وكيل خرجًا يستخدمه وكيل آخر على الفور. قد يصنف خدمة ثالثة ذلك الخرج، أو يضيف سياقًا، أو يوجهه إلى نموذج آخر. إذا قام كل خطوة بإنشاء نسخة جديدة من نفس الحالة، يزداد المرور بسرعة. مع نمو السياق، ينمو حجم البيانات المنسوخة معه. يقضي النظام أكثر وقتًا في نقل المعلومات من معالجتها.

هنا يصبح الذاكرة المشتركة أكثر أهمية، خاصة لذاكرة KV المشتركة والاحالات الأخرى التي يحتاجها العديد من الوكلاء أو الخدمات. يمكن للذاكرة المشتركة تقليل النسخ المكررة، وتخفيض حركة المرور، وتحسين الاستخدام عبر مسار التطبيق الكامل. كما يمكن أن تساعد أنظمة الذكاء الاصطناعي المتعددة الوكلاء على التوسع بشكل فعال حيث يمكن للأعضاء أو الوكلاء المختلفين إعادة استخدام ذاكرة KV المشتركة.

للمشغلين الكبار، لم يعد هذا حالة حافة. مع نضج الذكاء الاصطناعي العامل، أصبحت الذاكرة المشتركة متطلبًا عمليًا للنشر الفعال.

5. قبول CXL للبنية التحتية في الإنتاج

لمدة几 سنوات، اعتبرت الصناعة CXL كمعيار واعد يحتاج إلى مزيد من النضج، مع تحرك CXL بسرعة من الإصدار 1 إلى 2. الآن مع توفر الأجهزة 3.x قريبًا، يصل CXL إلى نقطة النضج، والتوافق الخلفي، والاستعداد لمواجهة حمولة الإنتاج.

Reached مستوى النضج حيث يجب على المشغلين الكبار و مشغلي مراكز البيانات معاملته كخيار عملي لتوسيع الذاكرة، وpooling، والهياكل التحتية للذاكرة المشتركة. ي thuộc في التخطيط الجاد للبنية التحتية، خاصة في البيئات التي تحتاج إلى توسيع الذاكرة أكثر مرونة وأفضل اقتصادية حول الاستدلال.

ذلك لا يعني أن جميع الحمولات يجب أن تنتقل إلى ذاكرة تعتمد على CXL. ستبقى الذاكرة المحلية ضرورية للبيانات الأكثر سخونة وأكثر الحساسية للفترة الكمون. لكن المشغلين لا يحتاجون إلى الانتظار لنسخة مستقبلية من المعيار قبل اتخاذ الإجراء. السؤال الأكثر فائدة هو哪里 يمكن لـ CXL حل مشاكل الإنتاج الفعلية اليوم.

الفرص الأكثر وضوحًا موجودة في توسيع الذاكرة، وpooling الذاكرة، والتصاميم التحتية للذاكرة المشتركة التي تقلل من النسخ غير الضرورية عبر سير عمل الذكاء الاصطناعي. تلك الحالات تتوافق مباشرة مع النقاط الحالية للضغط: زيادة احتياجات KV cache، ونمو نقل البيانات بين الوكلاء، وضرورة تحسين استخدام وحدات معالجة الرسومات دون دفع التكلفة الإجمالية للملكية إلى أعلى.

يجب على المشغلين仍 engineering بدقة. الكمون والتنبؤ والدعم البرمجي لا يزالون مهمين. سياسات إدارة الذاكرة يجب أن توضع البيانات في الطبقة الصحيحة في الوقت الصحيح. لكن تلك هي أسئلة التنفيذ، وليس أسبابًا لتأجيل التخطيط.

في XCENA، نرى الذاكرة ونقل البيانات والاستخدام كالعوائق الرئيسية في بنية تحتية الذكاء الاصطناعي في الإنتاج. لذلك، نركز على الذاكرة الحاسوبية القائمة على CXL والهياكل التحتية التي تقلل من النسخ غير الضرورية، وتدعم الوصول المشترك، وتساعد المشغلين على الاستفادة بشكل أفضل من الموارد الحسابية باهظة الثمن.

قضت الصناعة سنوات في معاملة الذاكرة كمورد داعم خلف محرك تقدم الذكاء الاصطناعي. ذلك الرأي لا يتناسب مع واقع نشر الإنتاج. الذاكرة تشكل الآن الاستخدام، والكفاءة، والتكلفة على كل مستوى من مستويات الهيكل. سوف يكون للمشغلين الذين يدركون هذا التحول مبكرًا ميزة تقاس ليس فقط بأداء، ولكن بكيفية توسيع الذكاء الاصطناعي في العالم الحقيقي.

Jin Kim هو الرئيس التنفيذي والشريك المؤسس لشركة XCENA، وهي شركة كوريا الجنوبية لتصنيع الشبكات بدون مصنع تركز على بناء حلول ذاكرة الجيل التالي لمعالجة البيانات الكبيرة والذكاء الاصطناعي. مع خلفية تشمل أدوار قيادية في شركة إس كي هينيكس - حيث كان واحدًا من أصغر نواب الرئيس - يُحضر كيم خبرة عميقة في الحوسبة المعتمدة على البيانات وعمارة الشبكات.