ہمارے ساتھ رابطہ

StreamDiffusion: ریئل ٹائم انٹرایکٹو جنریشن کے لیے پائپ لائن کی سطح کا حل

مصنوعی ذہانت

StreamDiffusion: ریئل ٹائم انٹرایکٹو جنریشن کے لیے پائپ لائن کی سطح کا حل

mm
StreamDiffusion: ریئل ٹائم انٹرایکٹو جنریشن کے لیے پائپ لائن کی سطح کا حل

اس کے وسیع امکانات اور تجارتی مواقع کی وجہ سے، خاص طور پر گیمنگ، براڈکاسٹنگ، اور ویڈیو سٹریمنگ میں، Metaverse اس وقت تیزی سے ترقی کرنے والی ٹیکنالوجیز میں سے ایک ہے۔ جدید میٹاورس ایپلی کیشنز اپنی حقیقت پسندی کو بڑھانے کے لیے AI فریم ورک، بشمول کمپیوٹر ویژن اور ڈفیوژن ماڈلز کا استعمال کرتی ہیں۔ Metaverse ایپلی کیشنز کے لیے ایک اہم چیلنج مختلف ڈفیوژن پائپ لائنوں کو مربوط کرنا ہے جو کم تاخیر اور زیادہ تھرو پٹ فراہم کرتے ہیں، انسانوں اور ان ایپلی کیشنز کے درمیان موثر تعامل کو یقینی بناتے ہیں۔

آج کے ڈفیوژن پر مبنی AI فریم ورک ٹیکسٹول یا امیج پرامپٹس سے امیجز بنانے میں کمال رکھتے ہیں لیکن ریئل ٹائم بات چیت میں کم پڑتے ہیں۔ یہ حد خاص طور پر ان کاموں میں واضح ہے جن کے لیے مسلسل ان پٹ اور ہائی تھرو پٹ کی ضرورت ہوتی ہے، جیسے کہ ویڈیو گیم گرافکس، میٹاورس ایپلی کیشنز، براڈکاسٹنگ، اور لائیو ویڈیو اسٹریمنگ۔

اس آرٹیکل میں، ہم StreamDiffusion پر تبادلہ خیال کریں گے، ایک حقیقی وقت کی بازی پائپ لائن جو انٹرایکٹو اور حقیقت پسندانہ امیجز بنانے کے لیے تیار کی گئی ہے، جو مسلسل ان پٹ کے کاموں میں بازی پر مبنی فریم ورک کی موجودہ حدود کو دور کرتی ہے۔ StreamDiffusion ایک اختراعی نقطہ نظر ہے جو اصل تصویر کے ترتیب وار شور کو بیچ denoising میں تبدیل کرتا ہے، جس کا مقصد ہائی تھرو پٹ اور سیال اسٹریمز کو فعال کرنا ہے۔ یہ نقطہ نظر موجودہ کے ذریعہ استعمال ہونے والے روایتی انتظار اور تعامل کے طریقہ کار سے ہٹ جاتا ہے۔ بازی پر مبنی فریم ورک. آنے والے حصوں میں، ہم StreamDiffusion کے فریم ورک کا تفصیل سے جائزہ لیں گے، اس کے کام کرنے، فن تعمیر، اور موجودہ جدید ترین فریم ورک کے مقابلے میں تقابلی نتائج کو تلاش کریں گے۔ آو شروع کریں.

اسٹریم ڈیفیوژن: ریئل ٹائم انٹرایکٹو جنریشن کا تعارف

میٹاورس پرفارمنس انٹینسی ایپلی کیشنز ہیں کیونکہ وہ اپنے صارفین کو اس کے ٹریڈ مارک انٹرایکٹو انٹرفیس اور تجربہ فراہم کرنے کے لیے ریئل ٹائم میں ٹیکسٹس، اینیمیشنز، ویڈیوز اور تصاویر سمیت ڈیٹا کی ایک بڑی مقدار پر کارروائی کرتے ہیں۔ جدید میٹاورس ایپلی کیشنز AI پر مبنی فریم ورکس پر انحصار کرتی ہیں جن میں کمپیوٹر وژن، امیج پروسیسنگ، اور ڈفیوژن ماڈل شامل ہیں تاکہ کم تاخیر اور اعلی تھرو پٹ حاصل کیا جا سکے تاکہ صارف کے بغیر کسی ہموار تجربے کو یقینی بنایا جا سکے۔ فی الحال، Metaverse ایپلی کیشنز کی اکثریت اعلی تھرو پٹ کو یقینی بنانے اور ریئل ٹائم میں ایپلی کیشن کی انٹرایکٹو صلاحیتوں کو بڑھانے کے لیے تکراری تکرار کی موجودگی کو کم کرنے پر انحصار کرتی ہے۔ یہ فریم ورک ایک مشترکہ حکمت عملی کا انتخاب کرتے ہیں جس میں یا تو اعصابی ODEs (عام تفریق مساوات) کے ساتھ بازی کے عمل کو دوبارہ ترتیب دینا یا ملٹی سٹیپ ڈفیوژن ماڈلز کو چند مراحل یا حتیٰ کہ ایک قدم میں کم کرنا شامل ہے۔ اگرچہ نقطہ نظر تسلی بخش نتائج فراہم کرتا ہے، لیکن اس کی کچھ حدود ہیں جن میں محدود لچک، اور اعلی کمپیوٹیشنل اخراجات شامل ہیں۔ 

دوسری طرف، StreamDiffusion ایک پائپ لائن سطح کا حل ہے جو ایک آرتھوگونل سمت سے شروع ہوتا ہے اور اعلی تھرو پٹ کو یقینی بناتے ہوئے حقیقی وقت میں انٹرایکٹو امیجز بنانے کے لیے فریم ورک کی صلاحیتوں کو بڑھاتا ہے۔ StreamDiffusion ایک سادہ حکمت عملی کا استعمال کرتا ہے جس میں اصل ان پٹ کو مسترد کرنے کے بجائے، فریم ورک denoising قدم کو بیچ دیتا ہے۔ حکمت عملی غیر مطابقت پذیر پروسیسنگ سے تحریک لیتی ہے کیونکہ فریم ورک کو دوسرے مرحلے پر جانے سے پہلے پہلے ختم کرنے کے مرحلے کے مکمل ہونے کا انتظار نہیں کرنا پڑتا، جیسا کہ مندرجہ ذیل تصویر میں دکھایا گیا ہے۔ U-Net پروسیسنگ فریکوئنسی اور ان پٹ فریکوئنسی کے مسئلے سے ہم آہنگی سے نمٹنے کے لیے، StreamDiffusion فریم ورک ان پٹ اور آؤٹ پٹس کو کیش کرنے کے لیے قطار کی حکمت عملی نافذ کرتا ہے۔ 

اگرچہ StreamDiffusion پائپ لائن غیر مطابقت پذیر پروسیسنگ سے تحریک حاصل کرتی ہے، لیکن یہ اپنے طریقے سے منفرد ہے کیونکہ یہ GPU متوازی کو لاگو کرتی ہے جو فریم ورک کو ایک UNet جزو کو استعمال کرنے کی اجازت دیتی ہے تاکہ بیچ والے شور کی اویکت خصوصیت کو مسترد کر سکے۔ مزید برآں، موجودہ بازی پر مبنی پائپ لائنز کلاسیفائر فری رہنمائی کو شامل کرکے تیار کردہ امیجز میں دیے گئے اشارے پر زور دیں، جس کے نتیجے میں موجودہ پائپ لائنوں میں بے کار اور ضرورت سے زیادہ کمپیوٹیشنل اوور ہیڈز کے ساتھ دھاندلی کی گئی ہے۔ اس بات کو یقینی بنانے کے لیے کہ StreamDiffusion پائپ لائن کو ایک جیسے مسائل کا سامنا نہ کرنا پڑے، یہ ایک اختراعی RCFG یا بقایا درجہ بندی سے پاک گائیڈنس اپروچ کو لاگو کرتا ہے جو منفی حالات کا تخمینہ لگانے کے لیے ورچوئل بقایا شور کا استعمال کرتا ہے، اس طرح فریم ورک کو ابتدائی میں منفی شور کی شرائط کا حساب لگانے کی اجازت دیتا ہے۔ خود عمل کے مراحل۔ مزید برآں، StreamDiffusion پائپ لائن روایتی ڈفیوژن-پائپ لائن کی کمپیوٹیشنل ضروریات کو بھی کم کرتی ہے جس سے اسٹاکسٹک مماثلت فلٹرنگ حکمت عملی کو لاگو کیا جاتا ہے جو اس بات کا تعین کرتی ہے کہ آیا پائپ لائن کو مسلسل آدانوں کے درمیان مماثلتوں کا حساب لگا کر ان پٹ امیجز پر کارروائی کرنی چاہیے۔ 

StreamDiffusion فریم ورک کی تعلیم پر بنایا گیا ہے۔ بازی ماڈل، اور ایکسلریشن بازی ماڈل

ڈفیوژن ماڈل اپنی غیر معمولی امیج جنریشن کی صلاحیتوں اور ان کے پیش کردہ کنٹرول کی مقدار کے لیے جانا جاتا ہے۔ اپنی صلاحیتوں کی وجہ سے، ڈفیوژن ماڈلز نے اپنی ایپلی کیشنز کو امیج ایڈیٹنگ، ٹیکسٹ ٹو امیج جنریشن، اور ویڈیو جنریشن میں پایا ہے۔ مزید برآں، مسلسل ماڈلز کی ترقی نے ماڈل کی طرف سے تیار کردہ امیجز کے معیار پر سمجھوتہ کیے بغیر نمونے کی پروسیسنگ کی کارکردگی کو بڑھانے کی صلاحیت کو ظاہر کیا ہے جس نے نمونے لینے کے مراحل کی تعداد کو کم کرکے بازی ماڈلز کے اطلاق اور کارکردگی کو بڑھانے کے لیے نئے دروازے کھولے ہیں۔ اگرچہ انتہائی قابل، بازی ماڈلز میں ایک بڑی حد ہوتی ہے: امیج کی سست پیداوار۔ اس حد سے نمٹنے کے لیے، ڈویلپرز نے ایکسلریٹڈ ڈفیوژن ماڈلز، ڈفیوژن پر مبنی فریم ورک متعارف کرائے جن کے لیے اضافی تربیتی اقدامات کی ضرورت نہیں ہوتی یا پیشین گوئی کرنے والے درست کرنے والی حکمت عملیوں اور انکولی قدم کے سائز کے حل کرنے والوں کو آؤٹ پٹ کی رفتار میں اضافہ کرنے کی ضرورت نہیں ہوتی۔ 

StreamDiffusion اور روایتی ڈفیوژن پر مبنی فریم ورک کے درمیان امتیازی عنصر یہ ہے کہ جب کہ مؤخر الذکر بنیادی طور پر انفرادی ماڈلز کی کم تاخیر پر توجہ مرکوز کرتا ہے، سابقہ ​​ایک پائپ لائن سطح کا نقطہ نظر متعارف کرایا گیا ہے جو اعلی تھرو پٹس کو حاصل کرنے کے لیے ڈیزائن کیا گیا ہے تاکہ موثر انٹرایکٹو ڈفیوژن کو فعال کیا جاسکے۔ 

StreamDiffusion: ورکنگ اینڈ آرکیٹیکچر

StreamDiffusion پائپ لائن ایک ریئل ٹائم ڈفیوژن پائپ لائن ہے جسے انٹرایکٹو اور حقیقت پسندانہ امیجز بنانے کے لیے تیار کیا گیا ہے، اور اس میں 6 کلیدی اجزاء شامل ہیں: RCFG یا بقایا کلاسیفائر فری گائیڈنس، اسٹریم بیچ کی حکمت عملی، سٹوکاسٹک مماثلت فلٹر، ایک ان پٹ آؤٹ پٹ قطار، ماڈل ایکسلریشن ٹولز۔ آٹو اینکوڈر کے ساتھ، اور ایک پری کمپیوٹیشن طریقہ کار۔ آئیے ان اجزاء کے بارے میں تفصیل سے بات کرتے ہیں۔ 

اسٹریم بیچ کی حکمت عملی

روایتی طور پر، ایک میں denoising اقدامات بازی کا ماڈل ترتیب وار انجام دیے جاتے ہیں، جس کے نتیجے میں U-Net پروسیسنگ کے وقت میں پروسیسنگ کے مراحل کی تعداد میں نمایاں اضافہ ہوتا ہے۔ تاہم، ہائی فیڈیلیٹی امیجز بنانے کے لیے پروسیسنگ کے اقدامات کی تعداد میں اضافہ کرنا ضروری ہے، اور اسٹریم ڈیفیوژن فریم ورک انٹرایکٹو ڈفیوژن فریم ورک میں ہائی لیٹینسی ریزولوشن پر قابو پانے کے لیے اسٹریم بیچ کی حکمت عملی متعارف کراتا ہے۔ 

سٹریم بیچ کی حکمت عملی میں، ترتیب وار ڈینوائزنگ آپریشنز کو بیچڈ پراسیسز میں ری اسٹرکچر کیا جاتا ہے جس میں ہر بیچ ڈینوائزنگ سٹیپس کی پہلے سے متعین تعداد کے مطابق ہوتا ہے، اور ان ڈینوائزنگ سٹیپس کی تعداد کا تعین ہر بیچ کے سائز سے ہوتا ہے۔ اپروچ کی بدولت، بیچ میں موجود ہر عنصر ڈینوائزنگ سیکوئنس میں سنگل پاس تھرو UNet کا استعمال کرتے ہوئے ایک قدم آگے بڑھ سکتا ہے۔ سٹریم بیچ کی حکمت عملی کو تکراری طور پر لاگو کرنے سے، ٹائم سٹیپ "t" پر انکوڈ کردہ ان پٹ امیجز کو ان کی متعلقہ امیج میں ٹائم سٹیپ "t+n" پر تصویری نتائج میں تبدیل کیا جا سکتا ہے، اس طرح ڈینوائزنگ کے عمل کو ہموار کیا جا سکتا ہے۔ 

بقایا درجہ بندی مفت رہنمائی

CFG یا کلاسیفائر فری گائیڈنس ایک AI الگورتھم ہے جو اصل کنڈیشنگ کی اصطلاح اور ایک منفی کنڈیشنگ یا غیر مشروط اصطلاح کے درمیان اصل کنڈیشنگ کے اثر کو بڑھانے کے لیے ویکٹر کیلکولیشن کا ایک میزبان انجام دیتا ہے۔ الگورتھم پرامپٹ کے اثر کو مضبوط کرتا ہے حالانکہ منفی کنڈیشنگ کے بقایا شور کی گنتی کرنے کے لیے، یہ ضروری ہے کہ انفرادی ان پٹ لیٹنٹ متغیرات کو منفی کنڈیشنگ ایمبیڈنگ کے ساتھ جوڑا جائے جس کے بعد ایمبیڈنگز کو حوالہ وقت پر UNet کے ذریعے منتقل کیا جائے۔ 

کلاسیفائر فری گائیڈنس الگورتھم کے ذریعہ درپیش اس مسئلے سے نمٹنے کے لیے، StreamDiffusion فریم ورک نے بقایا کلاسیفائر فری گائیڈنس الگورتھم متعارف کرایا ہے جس کا مقصد منفی کنڈیشنگ ایمبیڈنگ کے لیے اضافی UNet مداخلت کے لیے کمپیوٹیشنل اخراجات کو کم کرنا ہے۔ سب سے پہلے، انکوڈ شدہ اویکت ان پٹ کو شور شیڈیولر کے ذریعہ متعین اقدار کا استعمال کرکے شور کی تقسیم میں منتقل کیا جاتا ہے۔ ایک بار جب اویکت مستقل مزاجی کا ماڈل نافذ ہو جاتا ہے، الگورتھم ڈیٹا کی تقسیم کی پیشین گوئی کر سکتا ہے، اور اگلے مرحلے میں شور کی تقسیم پیدا کرنے کے لیے CFG بقایا شور کا استعمال کر سکتا ہے۔ 

ان پٹ آؤٹ پٹ قطار

ہائی سپیڈ امیج جنریشن فریم ورک کے ساتھ سب سے بڑا مسئلہ ان کے نیورل نیٹ ورک ماڈیولز ہیں جن میں UNet اور VAE اجزاء شامل ہیں۔ کارکردگی اور مجموعی آؤٹ پٹ کی رفتار کو زیادہ سے زیادہ کرنے کے لیے، امیج جنریشن فریم ورک ایسے عمل کو منتقل کرتے ہیں جیسے پری اور پوسٹ پروسیسنگ امیجز جنہیں پائپ لائن سے باہر نیورل نیٹ ورک ماڈیولز کے ذریعے اضافی ہینڈلنگ کی ضرورت نہیں ہوتی ہے، جس کے بعد ان پر متوازی کارروائی ہوتی ہے۔ مزید برآں، ان پٹ امیج کو ہینڈل کرنے کے معاملے میں، مخصوص آپریشنز بشمول ٹینسر فارمیٹ کی تبدیلی، ان پٹ امیجز کا سائز تبدیل کرنا، اور نارملائزیشن کو پائپ لائن کے ذریعے احتیاط سے انجام دیا جاتا ہے۔ 

ماڈل تھرو پٹ اور انسانی ان پٹ کے درمیان پروسیسنگ فریکوئنسیوں میں تفاوت سے نمٹنے کے لیے، پائپ لائن ایک ان پٹ آؤٹ پٹ قطار لگانے والے نظام کو مربوط کرتی ہے جو کہ مندرجہ ذیل تصویر میں دکھایا گیا ہے جیسا کہ موثر متوازی کو قابل بناتا ہے۔ 

پروسیس شدہ ان پٹ ٹینسر سب سے پہلے ڈفیوژن ماڈلز کے لیے طریقہ کار کے ساتھ قطار میں لگائے جاتے ہیں، اور ہر فریم کے دوران، ماڈل ان پٹ قطار سے تازہ ترین ٹینسر بازیافت کرتا ہے، اور ٹینسر کو VAE انکوڈر پر بھیج دیتا ہے، اس طرح امیج جنریشن کا عمل شروع ہوتا ہے۔ ایک ہی وقت میں، VAE ڈیکوڈر سے ٹینسر آؤٹ پٹ آؤٹ پٹ قطار میں کھلایا جاتا ہے۔ آخر میں، پروسیس شدہ تصویری ڈیٹا رینڈرنگ کلائنٹ کو منتقل کیا جاتا ہے۔ 

اسٹاکسٹک مماثلت کا فلٹر

ایسے منظرناموں میں جہاں تصاویر یا تو غیر تبدیل شدہ رہتی ہیں یا جامد ماحول کے بغیر یا صارف کے فعال تعامل کے بغیر کم سے کم تبدیلیاں دکھاتی ہیں، ایک دوسرے سے مشابہت رکھنے والی ان پٹ تصاویر کو بار بار UNet اور VAE اجزاء میں فیڈ کیا جاتا ہے۔ بار بار کھانا کھلانے سے قریب قریب ایک جیسی تصاویر کی تخلیق اور GPU وسائل کی اضافی کھپت ہوتی ہے۔ مزید برآں، مسلسل ان پٹس پر مشتمل منظرناموں میں، غیر ترمیم شدہ ان پٹ امیجز کبھی کبھار سامنے آسکتے ہیں۔ اس مسئلے پر قابو پانے اور وسائل کے غیر ضروری استعمال کو روکنے کے لیے، StreamDiffusion پائپ لائن اپنی پائپ لائن میں Stochastic Similarity Filter جزو کا استعمال کرتی ہے۔ اسٹاکسٹک مماثلت کا فلٹر پہلے حوالہ تصویر اور ان پٹ امیج کے درمیان کوزائن مماثلت کا حساب لگاتا ہے، اور بعد میں آنے والے UNet اور VAE کے عمل کو چھوڑنے کے امکان کا حساب لگانے کے لیے کوزائن مماثلت کے اسکور کا استعمال کرتا ہے۔ 

امکانی سکور کی بنیاد پر، پائپ لائن فیصلہ کرتی ہے کہ آیا VAE Encoding، VAE Decoding، اور U-Net جیسے بعد کے عمل کو چھوڑ دیا جائے یا نہیں۔ اگر ان عملوں کو نہیں چھوڑا جاتا ہے تو، پائپ لائن اس وقت ان پٹ امیج کو محفوظ کرتی ہے، اور ساتھ ہی ساتھ مستقبل میں استعمال ہونے والی حوالہ تصویر کو بھی اپ ڈیٹ کرتی ہے۔ یہ امکان پر مبنی اسکیپنگ میکانزم StreamDiffusion پائپ لائن کو کم انٹر فریم مماثلت کے ساتھ متحرک منظرناموں میں مکمل طور پر کام کرنے کی اجازت دیتا ہے جبکہ جامد منظرناموں میں، پائپ لائن زیادہ انٹر فریم مماثلت کے ساتھ کام کرتی ہے۔ نقطہ نظر کمپیوٹیشنل وسائل کے تحفظ میں مدد کرتا ہے اور ان پٹ امیجز کی مماثلت کی بنیاد پر بہترین GPU استعمال کو بھی یقینی بناتا ہے۔ 

پری کمپیوٹیشن

UNet فن تعمیر کو کنڈیشنگ ایمبیڈنگز کے ساتھ ساتھ ان پٹ لیٹنٹ متغیرات دونوں کی ضرورت ہے۔ روایتی طور پر، کنڈیشنگ ایمبیڈنگز فوری ایمبیڈنگز سے اخذ کی جاتی ہیں جو فریموں میں مستقل رہتی ہیں۔ پرامپٹ ایمبیڈنگز سے اخذ کو بہتر بنانے کے لیے، StreamDiffusion پائپ لائن نے ان پرامپٹ ایمبیڈنگز کو پہلے سے شمار کیا اور انہیں ایک کیش میں اسٹور کیا، جسے پھر اسٹریمنگ یا انٹرایکٹو موڈ میں کہا جاتا ہے۔ UNet فریم ورک کے اندر، کلیدی قدر کے جوڑے کو ہر فریم کے پری کمپیوٹیڈ پرامپٹ ایمبیڈنگ کی بنیاد پر شمار کیا جاتا ہے، اور U-Net میں معمولی ترمیم کے ساتھ، یہ کلیدی قدر کے جوڑے دوبارہ استعمال کیے جا سکتے ہیں۔ 

ماڈل ایکسلریشن اور ٹنی آٹو اینکوڈر

StreamDiffusion پائپ لائن TensorRT کو استعمال کرتی ہے، Nvidia سے گہری سیکھنے کے انٹرفیس کے لیے ایک اصلاحی ٹول کٹ، VAE اور UNet انجنوں کی تعمیر کے لیے، تخمینہ کی رفتار کو تیز کرنے کے لیے۔ اس کو حاصل کرنے کے لیے، TensorRT جزو نیورل نیٹ ورکس پر متعدد اصلاح کرتا ہے جو کارکردگی کو بڑھانے اور گہرے سیکھنے کے فریم ورک اور ایپلی کیشنز کے لیے تھرو پٹ کو بڑھانے کے لیے ڈیزائن کیے گئے ہیں۔ 

رفتار کو بہتر بنانے کے لیے، StreamDiffusion ایک مخصوص ان پٹ سائز کے لیے زیادہ سے زیادہ میموری مختص اور کمپیوٹیشنل گراف کو یقینی بنانے کے لیے مقررہ ان پٹ کے طول و عرض اور جامد بیچ سائز استعمال کرنے کے لیے فریم ورک کو ترتیب دیتا ہے۔ 

مندرجہ بالا اعداد و شمار انفرنس پائپ لائن کا ایک جائزہ فراہم کرتا ہے۔ کور ڈفیوژن پائپ لائن میں UNet اور VAE اجزاء شامل ہیں۔ پائپ لائن میں ایک ڈینوائزنگ بیچ، نمونہ شدہ شور کیش، پری کمپیوٹیڈ پرامپٹ ایمبیڈنگ کیش، اور رفتار کو بڑھانے کے لیے شیڈولر ویلیوز کیش، اور ریئل ٹائم میں تصاویر بنانے کی پائپ لائن کی صلاحیت شامل ہے۔ سٹوکاسٹک مماثلت فلٹر یا SSF کو GPU کے استعمال کو بہتر بنانے کے لیے، اور ڈفیوژن ماڈل کے پاس کو متحرک طور پر گیٹ کرنے کے لیے تعینات کیا گیا ہے۔ 

StreamDiffusion: تجربات اور نتائج

اس کی صلاحیتوں کا جائزہ لینے کے لیے، StreamDiffusion پائپ لائن کو LCM اور SD-turbo فریم ورک پر لاگو کیا جاتا ہے۔ NVIDIA کی طرف سے TensorRT کو ماڈل ایکسلریٹر کے طور پر استعمال کیا جاتا ہے، اور ہلکی پھلکی کارکردگی VAE کو فعال کرنے کے لیے، پائپ لائن TAESD جزو کا استعمال کرتی ہے۔ آئیے اب اس پر ایک نظر ڈالتے ہیں کہ جب اسٹریم ڈیفیوژن پائپ لائن کی کارکردگی موجودہ سٹیٹ آف دی آرٹ فریم ورک کے مقابلے میں کی جاتی ہے۔ 

مقداری تشخیص

مندرجہ ذیل اعداد و شمار اصل ترتیب وار UNet اور پائپ لائن میں denoising بیچ کے اجزاء کے درمیان کارکردگی کے موازنہ کو ظاہر کرتا ہے، اور جیسا کہ یہ دیکھا جا سکتا ہے، denoising بیچ اپروچ کو لاگو کرنے سے پروسیسنگ کے وقت کو روایتی UNet کے مقابلے میں تقریباً 50 فیصد تک کم کرنے میں مدد ملتی ہے۔ ترتیب وار denoising مراحل پر loops. 

مزید برآں، مختلف منحرف مراحل پر اوسط تخمینہ کا وقت بھی مختلف اسپیڈ اپ عوامل کے ساتھ کافی حد تک اضافے کا مشاہدہ کرتا ہے جب آرٹ پائپ لائنز کی موجودہ حالت سے موازنہ کیا جاتا ہے، اور نتائج کو درج ذیل تصویر میں دکھایا گیا ہے۔ 

آگے بڑھتے ہوئے، RCFG جزو کے ساتھ StreamDiffusion پائپ لائن روایتی CFG جزو سمیت پائپ لائنوں کے مقابلے میں کم تخمینہ وقت کو ظاہر کرتی ہے۔ 

مزید برآں، RCFG جزو کے استعمال کے اثرات CFG جزو کے استعمال کے مقابلے میں درج ذیل تصاویر میں واضح ہیں۔

جیسا کہ یہ دیکھا جا سکتا ہے، CFG کا استعمال امیج جنریشن میں ٹیکسٹچوئل پرامپٹ کے اثر کو تیز کرتا ہے، اور CFG جزو کا استعمال کیے بغیر پائپ لائن کے ذریعے تیار کردہ تصاویر کے مقابلے میں تصویر ان پٹ پرامپٹ سے بہت زیادہ مشابہت رکھتی ہے۔ RCFG جزو کے استعمال سے نتائج میں مزید بہتری آتی ہے کیونکہ اصل CFG جزو کے مقابلے میں تیار کردہ امیجز پر پرامپٹس کا اثر کافی اہم ہوتا ہے۔ 

فائنل خیالات

اس آرٹیکل میں، ہم نے StreamDiffusion کے بارے میں بات کی ہے، ایک حقیقی وقت کی بازی پائپ لائن جو انٹرایکٹو اور حقیقت پسندانہ امیجز بنانے کے لیے تیار کی گئی ہے، اور مسلسل ان پٹ پر مشتمل کاموں پر بازی پر مبنی فریم ورک کے ذریعے پیدا ہونے والی موجودہ حدود سے نمٹتی ہے۔ StreamDiffusion ایک سادہ اور جدید نقطہ نظر ہے جس کا مقصد اصل تصویر کی ترتیب وار شور کو بیچ denoising میں تبدیل کرنا ہے۔ StreamDiffusion کا مقصد موجودہ ڈفیوژن پر مبنی فریم ورک کے ذریعہ منتخب کردہ روایتی انتظار اور تعامل کے نقطہ نظر کو ختم کرکے ہائی تھرو پٹ اور فلوئڈ اسٹریمز کو فعال کرنا ہے۔ ممکنہ کارکردگی کے فوائد تجارتی ایپلی کیشنز کے لیے StreamDiffusion پائپ لائن کی صلاحیت کو اجاگر کرتے ہیں جو اعلی کارکردگی والے کمپیوٹنگ اور جنریٹیو AI کے لیے زبردست حل پیش کرتے ہیں۔ 

"پیشہ سے انجینئر، دل سے مصنف"۔ کنال ایک تکنیکی مصنف ہے جس کے پاس AI اور ML کی گہری محبت اور سمجھ ہے، جو اپنی پرکشش اور معلوماتی دستاویزات کے ذریعے ان شعبوں میں پیچیدہ تصورات کو آسان بنانے کے لیے وقف ہے۔