اتصل بنا للحصول على مزيد من المعلومات

StreamDiffusion: حل على مستوى خط الأنابيب للجيل التفاعلي في الوقت الحقيقي

الذكاء الاصطناعي

StreamDiffusion: حل على مستوى خط الأنابيب للجيل التفاعلي في الوقت الحقيقي

mm
StreamDiffusion: حل على مستوى خط الأنابيب للجيل التفاعلي في الوقت الحقيقي

نظرًا لإمكاناته الهائلة وفرص التسويق، لا سيما في الألعاب والبث وتدفق الفيديو، يعد Metaverse حاليًا أحد أسرع التقنيات نموًا. تستخدم تطبيقات Metaverse الحديثة أطر عمل الذكاء الاصطناعي، بما في ذلك رؤية الكمبيوتر ونماذج الانتشار، لتعزيز واقعيتها. يتمثل أحد التحديات الكبيرة التي تواجه تطبيقات Metaverse في دمج خطوط أنابيب الانتشار المختلفة التي توفر زمن وصول منخفض وإنتاجية عالية، مما يضمن التفاعل الفعال بين البشر وهذه التطبيقات.

تتفوق أطر عمل الذكاء الاصطناعي القائمة على الانتشار اليوم في إنشاء صور من مطالبات نصية أو صورية ولكنها تقصر في التفاعلات في الوقت الفعلي. يظهر هذا القيد بشكل خاص في المهام التي تتطلب إدخالاً مستمرًا وإنتاجية عالية، مثل رسومات ألعاب الفيديو وتطبيقات Metaverse والبث وبث الفيديو المباشر.

في هذه المقالة، سنناقش StreamDiffusion، وهو خط أنابيب للنشر في الوقت الفعلي تم تطويره لإنشاء صور تفاعلية وواقعية، ومعالجة القيود الحالية للأطر القائمة على الانتشار في المهام التي تتضمن مدخلات مستمرة. يعد StreamDiffusion أسلوبًا مبتكرًا يحول التشويش المتسلسل للصورة الأصلية إلى تقليل التشويش المجمع، بهدف تمكين الإنتاجية العالية والتدفقات السائلة. يبتعد هذا النهج عن طريقة الانتظار والتفاعل التقليدية التي تستخدمها القائمة الأطر القائمة على الانتشار. في الأقسام القادمة، سوف نتعمق في إطار عمل StreamDiffusion بالتفصيل، ونستكشف عمله وبنيته ونتائجه المقارنة مقابل أطر العمل الحديثة الحالية. هيا بنا نبدأ.

StreamDiffusion: مقدمة للجيل التفاعلي في الوقت الحقيقي

Metaverse عبارة عن تطبيقات مكثفة الأداء حيث تقوم بمعالجة كمية كبيرة من البيانات بما في ذلك النصوص والرسوم المتحركة ومقاطع الفيديو والصور في الوقت الفعلي لتزويد مستخدميها بواجهات وخبرات تفاعلية لعلامتها التجارية. تعتمد تطبيقات Metaverse الحديثة على أطر عمل قائمة على الذكاء الاصطناعي بما في ذلك رؤية الكمبيوتر ومعالجة الصور ونماذج الانتشار لتحقيق زمن وصول منخفض وإنتاجية عالية لضمان تجربة مستخدم سلسة. حاليًا، تعتمد غالبية تطبيقات Metaverse على تقليل حدوث تكرارات تقليل الضوضاء لضمان إنتاجية عالية وتعزيز القدرات التفاعلية للتطبيق في الوقت الفعلي. تختار هذه الأطر استراتيجية مشتركة تتضمن إما إعادة صياغة عملية الانتشار باستخدام ODEs العصبية (المعادلات التفاضلية العادية) أو تقليل نماذج الانتشار متعددة الخطوات في بضع خطوات أو حتى خطوة واحدة. على الرغم من أن هذا النهج يحقق نتائج مرضية، إلا أنه يحتوي على بعض القيود بما في ذلك المرونة المحدودة والتكاليف الحسابية العالية. 

من ناحية أخرى، يعد StreamDiffusion حلاً على مستوى خط الأنابيب يبدأ من اتجاه متعامد ويعزز قدرات الإطار على إنشاء صور تفاعلية في الوقت الفعلي مع ضمان إنتاجية عالية. يستخدم StreamDiffusion إستراتيجية بسيطة حيث بدلاً من تقليل الضوضاء للمدخلات الأصلية، يقوم الإطار بتجميع خطوة تقليل الضوضاء. تستلهم الإستراتيجية المعالجة غير المتزامنة حيث لا يتعين على الإطار الانتظار حتى تكتمل مرحلة تقليل الضوضاء الأولى قبل أن يتمكن من الانتقال إلى المرحلة الثانية، كما هو موضح في الصورة التالية. لمعالجة مشكلة تردد معالجة U-Net وتردد الإدخال بشكل متزامن، ينفذ إطار عمل StreamDiffusion إستراتيجية قائمة الانتظار لتخزين المدخلات والمخرجات مؤقتًا. 

على الرغم من أن خط أنابيب StreamDiffusion يسعى إلى الإلهام من المعالجة غير المتزامنة، إلا أنه فريد من نوعه بطريقته الخاصة لأنه ينفذ توازي GPU الذي يسمح لإطار العمل باستخدام مكون UNet واحد لتقليل الضوضاء الكامنة في ميزة مجمعة. علاوة على ذلك، الموجودة خطوط الأنابيب القائمة على الانتشار التأكيد على المطالبات المحددة في الصور التي تم إنشاؤها من خلال دمج التوجيه الخالي من المصنف، ونتيجة لذلك يتم تزوير خطوط الأنابيب الحالية بنفقات حسابية زائدة عن الحاجة. للتأكد من أن خط أنابيب StreamDiffusion لا يواجه نفس المشكلات، فهو ينفذ نهج RCFG المبتكر أو منهج التوجيه الخالي من المصنفات المتبقية والذي يستخدم ضوضاء متبقية افتراضية لتقريب الظروف السلبية، مما يسمح لإطار العمل بحساب ظروف الضوضاء السلبية في البداية مراحل العملية نفسها. بالإضافة إلى ذلك، يقلل خط أنابيب StreamDiffusion أيضًا من المتطلبات الحسابية لخط أنابيب الانتشار التقليدي من خلال تنفيذ استراتيجية تصفية التشابه العشوائية التي تحدد ما إذا كان يجب على خط الأنابيب معالجة الصور المدخلة عن طريق حساب أوجه التشابه بين المدخلات المستمرة. 

تم بناء إطار عمل StreamDiffusion على الدروس المستفادة من نماذج الانتشار، ونماذج انتشار التسارع

تُعرف نماذج الانتشار بقدراتها الاستثنائية على توليد الصور ومقدار التحكم الذي توفره. ونظرًا لقدراتها، فقد وجدت نماذج الانتشار تطبيقاتها في تحرير الصور، وتحويل النص إلى صورة، وإنشاء الفيديو. علاوة على ذلك، أظهر تطوير نماذج متسقة إمكانية تعزيز كفاءة معالجة العينات دون المساس بجودة الصور الناتجة عن النموذج الذي فتح أبوابًا جديدة لتوسيع إمكانية تطبيق وكفاءة نماذج الانتشار عن طريق تقليل عدد خطوات أخذ العينات. على الرغم من قدرتها العالية، إلا أن نماذج الانتشار تميل إلى أن تكون ذات قيود كبيرة: توليد الصور البطيء. ولمعالجة هذا القيد، قدم المطورون نماذج نشر متسارعة، وأطر عمل قائمة على الانتشار لا تتطلب خطوات تدريب إضافية أو تنفيذ استراتيجيات تنبؤية مصححة وأدوات حل حجم الخطوة التكيفية لزيادة سرعات الإخراج. 

العامل المميز بين StreamDiffusion والأطر التقليدية القائمة على الانتشار هو أنه في حين أن الأخير يركز بشكل أساسي على الكمون المنخفض للنماذج الفردية، فإن الأول يقدم نهجًا على مستوى خط الأنابيب مصممًا لتحقيق إنتاجيات عالية تتيح النشر التفاعلي الفعال. 

StreamDiffusion: العمل والهندسة المعمارية

خط أنابيب StreamDiffusion هو خط أنابيب نشر في الوقت الفعلي تم تطويره لتوليد صور تفاعلية وواقعية، ويستخدم 6 مكونات رئيسية وهي: RCFG أو التوجيه المجاني للمصنف المتبقي، واستراتيجية Stream Batch، ومرشح التشابه العشوائي، وقائمة انتظار المدخلات والمخرجات، وأدوات تسريع النموذج مع التشفير التلقائي، وإجراءات ما قبل الحساب. دعونا نتحدث عن هذه المكونات بالتفصيل. 

استراتيجية دفعة الدفق

تقليديا، خطوات تقليل الضوضاء في أ نموذج الانتشار يتم تنفيذها بشكل تسلسلي، مما يؤدي إلى زيادة كبيرة في وقت معالجة U-Net لعدد خطوات المعالجة. ومع ذلك، من الضروري زيادة عدد خطوات المعالجة لإنشاء صور عالية الدقة، ويقدم إطار عمل StreamDiffusion إستراتيجية Stream Batch للتغلب على دقة زمن الوصول العالي في أطر النشر التفاعلية. 

في إستراتيجية Stream Batch، تتم إعادة هيكلة عمليات تقليل الضوضاء المتسلسلة إلى عمليات مجمعة حيث تتوافق كل دفعة مع عدد محدد مسبقًا من خطوات تقليل الضوضاء، ويتم تحديد عدد خطوات تقليل الضوضاء هذه حسب حجم كل دفعة. بفضل هذا النهج، يمكن لكل عنصر في الدفعة المضي قدمًا خطوة أخرى باستخدام العبور الفردي UNet في تسلسل تقليل الضوضاء. من خلال تنفيذ استراتيجية دفعة الدفق بشكل متكرر، يمكن تحويل الصور المدخلة المشفرة في الخطوة الزمنية "t" إلى الصورة الخاصة بها إلى نتائج الصورة في الخطوة الزمنية "t + n"، وبالتالي تبسيط عملية تقليل الضوضاء. 

إرشادات مجانية للمصنف المتبقي

CFG أو Classifier Free Guidance عبارة عن خوارزمية ذكاء اصطناعي تقوم بتنفيذ مجموعة من الحسابات المتجهة بين مصطلح التكييف الأصلي وشرط التكييف السلبي أو المصطلح غير المشروط لتعزيز تأثير التكييف الأصلي. تعمل الخوارزمية على تقوية تأثير المطالبة على الرغم من حساب الضوضاء المتبقية للتكييف السلبي، فمن الضروري إقران المتغيرات الكامنة للمدخلات الفردية مع تضمين التكييف السلبي الذي يتبعه تمرير التضمينات عبر UNet في الوقت المرجعي. 

لمعالجة هذه المشكلة التي تطرحها خوارزمية التوجيه الحر للمصنف، يقدم إطار عمل StreamDiffusion خوارزمية التوجيه الحر للمصنف المتبقي بهدف تقليل التكاليف الحسابية لتداخل UNet الإضافي لتضمين التكييف السلبي. أولاً، يتم نقل المدخلات الكامنة المشفرة إلى توزيع الضوضاء باستخدام القيم التي يحددها برنامج جدولة الضوضاء. بمجرد تنفيذ نموذج الاتساق الكامن، يمكن للخوارزمية التنبؤ بتوزيع البيانات، واستخدام الضوضاء المتبقية CFG لإنشاء توزيع الضوضاء في الخطوة التالية. 

قائمة انتظار الإدخال والإخراج

المشكلة الرئيسية في أطر إنشاء الصور عالية السرعة هي وحدات الشبكة العصبية الخاصة بها بما في ذلك مكونات UNet وVAE. لتعظيم الكفاءة وسرعة الإخراج الإجمالية، تقوم أطر عمل توليد الصور بنقل عمليات مثل الصور السابقة واللاحقة للمعالجة التي لا تتطلب معالجة إضافية بواسطة وحدات الشبكة العصبية خارج خط الأنابيب، وبعد ذلك تتم معالجتها بالتوازي. علاوة على ذلك، فيما يتعلق بالتعامل مع صورة الإدخال، يتم تنفيذ عمليات محددة بما في ذلك تحويل تنسيق الموتر وتغيير حجم الصور المدخلة والتطبيع بواسطة خط الأنابيب بدقة. 

لمعالجة التفاوت في ترددات المعالجة بين إنتاجية النموذج والمدخلات البشرية، يدمج خط الأنابيب نظام قائمة انتظار المدخلات والمخرجات الذي يتيح الموازاة الفعالة كما هو موضح في الصورة التالية. 

يتم أولاً وضع موترات الإدخال المعالجة في قائمة الانتظار بشكل منهجي لنماذج الانتشار، وخلال كل إطار، يسترد النموذج الموتر الأحدث من قائمة انتظار الإدخال، ويعيد توجيه الموتر إلى مشفر VAE، وبالتالي يبدأ عملية إنشاء الصورة. وفي الوقت نفسه، يتم تغذية خرج الموتر من وحدة فك ترميز VAE إلى قائمة انتظار الإخراج. وأخيرًا، يتم نقل بيانات الصورة المعالجة إلى عميل العرض. 

مرشح التشابه العشوائي

في السيناريوهات التي تظل فيها الصور دون تغيير أو تعرض الحد الأدنى من التغييرات بدون بيئة ثابتة أو بدون تفاعل نشط للمستخدم، يتم تغذية الصور المدخلة التي تشبه بعضها البعض بشكل متكرر في مكونات UNet وVAE. تؤدي التغذية المتكررة إلى إنشاء صور متطابقة تقريبًا واستهلاك إضافي لموارد وحدة معالجة الرسومات. علاوة على ذلك، في السيناريوهات التي تتضمن مدخلات مستمرة، قد تظهر صور الإدخال غير المعدلة أحيانًا. للتغلب على هذه المشكلة ومنع الاستخدام غير الضروري للموارد، يستخدم خط أنابيب StreamDiffusion مكون عامل تصفية التشابه العشوائي في خط الأنابيب الخاص به. يقوم عامل تصفية التشابه العشوائي أولاً بحساب تشابه جيب التمام بين الصورة المرجعية والصورة المدخلة، ويستخدم درجة تشابه جيب التمام لحساب احتمالية تخطي عمليات UNet وVAE اللاحقة. 

على أساس درجة الاحتمالية، يقرر المسار ما إذا كان يجب تخطي العمليات اللاحقة مثل تشفير VAE، وفك تشفير VAE، وU-Net أم لا. إذا لم يتم تخطي هذه العمليات، فسيحفظ المسار الصورة المدخلة في ذلك الوقت، ويقوم في نفس الوقت بتحديث الصورة المرجعية لاستخدامها في المستقبل. تسمح آلية التخطي القائمة على الاحتمالية لخط أنابيب StreamDiffusion بالعمل بشكل كامل في سيناريوهات ديناميكية ذات تشابه منخفض بين الإطارات بينما في السيناريوهات الثابتة، يعمل خط الأنابيب بتشابه أعلى بين الإطارات. يساعد هذا النهج في الحفاظ على الموارد الحسابية ويضمن أيضًا الاستخدام الأمثل لوحدة معالجة الرسومات استنادًا إلى تشابه الصور المدخلة. 

ما قبل الحساب

تحتاج بنية UNet إلى تضمينات تكييفية بالإضافة إلى متغيرات كامنة للإدخال. تقليديًا، يتم اشتقاق تضمينات التكييف من عمليات التضمين السريعة التي تظل ثابتة عبر الإطارات. لتحسين الاشتقاق من عمليات التضمين الفوري، قام خط أنابيب StreamDiffusion بحساب عمليات التضمين الفوري هذه مسبقًا وتخزينها في ذاكرة تخزين مؤقت، والتي يتم استدعاؤها بعد ذلك في الوضع المتدفق أو التفاعلي. ضمن إطار عمل UNet، يتم حساب زوج القيمة الرئيسية على أساس التضمين الفوري المحسوب مسبقًا لكل إطار، ومع تعديلات طفيفة في U-Net، يمكن إعادة استخدام أزواج القيمة الرئيسية هذه. 

تسريع النموذج وجهاز التشفير التلقائي الصغير

يستخدم خط أنابيب StreamDiffusion TensorRT، وهي مجموعة أدوات تحسين من Nvidia لواجهات التعلم العميق، لبناء محركات VAE وUNet، لتسريع سرعة الاستدلال. ولتحقيق ذلك، يقوم مكون TensorRT بإجراء العديد من التحسينات على الشبكات العصبية المصممة لتعزيز الكفاءة وتعزيز الإنتاجية لأطر وتطبيقات التعلم العميق. 

لتحسين السرعة، يقوم StreamDiffusion بتكوين إطار العمل لاستخدام أبعاد الإدخال الثابتة وأحجام الدُفعات الثابتة لضمان التخصيص الأمثل للذاكرة والرسوم البيانية الحسابية لحجم إدخال محدد في محاولة لتحقيق أوقات معالجة أسرع. 

يوفر الشكل أعلاه نظرة عامة على خط أنابيب الاستدلال. يضم خط أنابيب الانتشار الأساسي مكونات UNet وVAE. يشتمل خط الأنابيب على دفعة تقليل الضوضاء، وذاكرة تخزين مؤقت للضوضاء لعينات، وذاكرة تخزين مؤقت للتضمين الفوري محسوبة مسبقًا، وذاكرة تخزين مؤقت لقيم الجدولة لتعزيز السرعة، وقدرة خط الأنابيب على إنشاء صور في الوقت الفعلي. يتم نشر مرشح التشابه العشوائي أو SSF لتحسين استخدام وحدة معالجة الرسومات، وكذلك لبوابة مرور نموذج الانتشار ديناميكيًا. 

StreamDiffusion: التجارب والنتائج

لتقييم قدراته، يتم تنفيذ خط أنابيب StreamDiffusion على أطر عمل LCM وSD-turbo. يتم استخدام TensorRT من NVIDIA كمسرّع للنموذج، ولتمكين كفاءة الوزن الخفيف VAE، يستخدم خط الأنابيب مكون TAESD. دعونا الآن نلقي نظرة على كيفية أداء خط أنابيب StreamDiffusion عند مقارنته بأطر العمل الحديثة. 

التقييم الكمي

يوضح الشكل التالي مقارنة الكفاءة بين UNet التسلسلي الأصلي ومكونات دفعة تقليل الضوضاء في خط الأنابيب، وكما يمكن رؤيته، فإن تنفيذ نهج دفعة تقليل الضوضاء يساعد في تقليل وقت المعالجة بشكل ملحوظ بنسبة 50٪ تقريبًا عند مقارنتها بـ UNet التقليدية حلقات في خطوات تقليل الضوضاء متتابعة. 

علاوة على ذلك، يشهد متوسط ​​وقت الاستدلال عند خطوات تقليل الضوضاء المختلفة أيضًا زيادة كبيرة مع عوامل تسريع مختلفة عند مقارنتها بالحالة الحالية لخطوط الأنابيب الحديثة، وتظهر النتائج في الصورة التالية. 

بالمضي قدمًا، يُظهر خط أنابيب StreamDiffusion مع مكون RCFG وقتًا أقل للاستدلال عند مقارنته بخطوط الأنابيب بما في ذلك مكون CFG التقليدي. 

علاوة على ذلك، فإن تأثير استخدام مكون RCFG واضح في الصور التالية عند مقارنته باستخدام مكون CFG.

كما هو واضح، فإن استخدام CFG يزيد من تأثير الموجه النصي في إنشاء الصور، وتشبه الصورة مطالبات الإدخال أكثر بكثير عند مقارنتها بالصور التي تم إنشاؤها بواسطة خط الأنابيب دون استخدام مكون CFG. تتحسن النتائج بشكل أكبر باستخدام مكون RCFG نظرًا لأن تأثير المطالبات على الصور التي تم إنشاؤها يكون كبيرًا جدًا عند مقارنتها بمكون CFG الأصلي. 

الخلاصة

في هذه المقالة، تحدثنا عن StreamDiffusion، وهو مسار نشر في الوقت الفعلي تم تطويره لإنشاء صور تفاعلية وواقعية، ومعالجة القيود الحالية التي تفرضها الأطر القائمة على الانتشار على المهام التي تتضمن إدخالاً مستمرًا. يعد StreamDiffusion أسلوبًا بسيطًا ومبتكرًا يهدف إلى تحويل التشويش المتسلسل للصورة الأصلية إلى تقليل التشويش دفعة واحدة. يهدف StreamDiffusion إلى تمكين تدفقات الإنتاجية العالية والسلسة من خلال التخلص من نهج الانتظار والتفاعل التقليدي الذي اختارته الأطر الحالية القائمة على النشر. تسلط مكاسب الكفاءة المحتملة الضوء على إمكانات خط أنابيب StreamDiffusion للتطبيقات التجارية التي تقدم حوسبة عالية الأداء وحلولًا مقنعة للذكاء الاصطناعي التوليدي. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.