ہمارے ساتھ رابطہ

مستحکم پھیلاؤ کے لئے گرین اسکرین جنریشن کو بہتر بنانا

مصنوعی ذہانت

مستحکم پھیلاؤ کے لئے گرین اسکرین جنریشن کو بہتر بنانا

mm
متنوع مستحکم بازی گرین اسکرین پر مبنی اشارے، https://stablediffusionweb.com/

بصری تخلیقی AI کے ارد گرد کمیونٹی اور سرمایہ کاروں کے جوش و خروش کے باوجود، اس طرح کے سسٹمز سے حاصل ہونے والی پیداوار حقیقی دنیا کے استعمال کے لیے ہمیشہ تیار نہیں ہوتی ہے۔ ایک مثال یہ ہے کہ جنرل AI سسٹمز آؤٹ پٹ کا رجحان رکھتے ہیں۔ پوری تصاویر (یا تصاویر کی ایک سیریز، ویڈیو کے معاملے میں)، بجائے انفرادی، الگ تھلگ عناصر جو عام طور پر ملٹی میڈیا میں متنوع ایپلی کیشنز اور بصری اثرات کے پریکٹیشنرز کے لیے درکار ہوتے ہیں۔

اس کی ایک سادہ سی مثال کلپ آرٹ ہے جسے صارف نے منتخب کردہ ٹارگٹ بیک گراؤنڈ پر 'تیرنے' کے لیے ڈیزائن کیا ہے۔

ہلکا بھوری رنگ کا چیکر پس منظر، جو شاید فوٹوشاپ کے صارفین کے لیے سب سے زیادہ واقف ہے، الفا چینل، یا شفافیت کے چینل کی نمائندگی کرنے کے لیے آیا ہے، یہاں تک کہ عام صارفین کی اشیاء جیسے اسٹاک امیجز میں بھی۔

ہلکا بھوری رنگ کا چیکر پس منظر، جو شاید فوٹوشاپ کے صارفین کے لیے سب سے زیادہ واقف ہے، الفا چینل، یا شفافیت کے چینل کی نمائندگی کرنے کے لیے آیا ہے، یہاں تک کہ عام صارفین کی اشیاء جیسے اسٹاک امیجز میں بھی۔

اس قسم کی شفافیت عام طور پر تیس سالوں سے دستیاب ہے۔ 1990 کی دہائی کے اوائل کے ڈیجیٹل انقلاب کے بعد سے، صارفین ٹول سیٹس اور تکنیکوں کی ایک بڑھتی ہوئی جدید ترین سیریز کے ذریعے ویڈیو اور تصاویر سے عناصر نکالنے میں کامیاب ہو گئے ہیں۔

مثال کے طور پر، ویڈیو فوٹیج میں نیلی اسکرین اور سبز اسکرین کے پس منظر کو 'ڈراپ آؤٹ' کرنے کا چیلنج، ایک بار مہنگے کا دائرہ کیمیائی عمل اور آپٹیکل پرنٹرز (اس کے ساتھ ساتھ ہاتھ سے تیار کردہ میٹسAdobe's After Effects اور Photoshop ایپلی کیشنز (بہت سے دوسرے مفت اور ملکیتی پروگراموں اور سسٹمز کے درمیان) جیسے سسٹمز میں منٹ کا کام بن جائے گا۔

ایک بار جب کسی عنصر کو الگ تھلگ کر دیا جاتا ہے، ایک الفا چینل (مؤثر طور پر ایک ماسک جو کسی بھی غیر متعلقہ مواد کو دھندلا دیتا ہے) ویڈیو میں موجود کسی بھی عنصر کو آسانی سے نئے پس منظر پر سپرمپوز کرنے، یا دوسرے الگ تھلگ عناصر کے ساتھ مل کر مرکب کرنے کی اجازت دیتا ہے۔

الفا چینلز کی مثالیں، ان کے اثرات نچلی قطار میں دکھائے گئے ہیں۔ ماخذ: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html

الفا چینلز کی مثالیں، ان کے اثرات نچلی قطار میں دکھائے گئے ہیں۔ ماخذ: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html

چھوڑنا

کمپیوٹر ویژن میں، الفا چینلز کی تخلیق کے ایجز میں آتا ہے۔ semantic segmentation، اوپن سورس پروجیکٹس جیسے میٹا کے ساتھ سیگمنٹ کچھ بھی ٹارگٹ آبجیکٹ کو الگ تھلگ کرنے / نکالنے کا ایک متنی طریقہ فراہم کرنا، جس میں لفظی طور پر بہتر آبجیکٹ کی شناخت کے ذریعے۔

سیگمنٹ اینیتھنگ فریم ورک کو بصری اثرات کے اخراج اور الگ تھلگ کام کے بہاؤ کی ایک وسیع رینج میں استعمال کیا گیا ہے، جیسے الفا-کلپ پروجیکٹ.

Alpha-CLIP فریم ورک میں Segment Anything کا استعمال کرتے ہوئے نکالنے کی مثال: Source: https://arxiv.org/pdf/2312.03818

Alpha-CLIP فریم ورک میں Segment Anything کا استعمال کرتے ہوئے نکالنے کی مثال: ماخذ: https://arxiv.org/pdf/2312.03818

وہاں ہے بہت سے متبادل سیمنٹک سیگمنٹیشن کے طریقے جنہیں الفا چینلز کو تفویض کرنے کے کام کے لیے ڈھال لیا جا سکتا ہے۔

تاہم، سیمنٹک سیگمنٹیشن تربیت یافتہ ڈیٹا پر انحصار کرتا ہے جس میں سبھی شامل نہیں ہوسکتے ہیں۔ آبجیکٹ کے زمرے جن کو نکالنے کی ضرورت ہے۔ اگرچہ اعداد و شمار کی بہت زیادہ مقداروں پر تربیت یافتہ ماڈل اشیاء کی ایک وسیع رینج کو تسلیم کرنے کے قابل بنا سکتے ہیں (مؤثر طریقے سے بنیادی ماڈل بننا، یا دنیا کے ماڈلز)، وہ بہر حال ان کلاسوں کے ذریعے محدود ہیں جن کو سب سے زیادہ مؤثر طریقے سے پہچاننے کے لیے انہیں تربیت دی جاتی ہے۔

سیمنٹک سیگمنٹیشن سسٹم جیسے Segment Anything کچھ اشیاء، یا اشیاء کے حصوں کی شناخت کے لیے جدوجہد کر سکتا ہے، جیسا کہ یہاں مبہم اشارے سے آؤٹ پٹ میں مثال دی گئی ہے۔ ماخذ: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html

سیمنٹک سیگمنٹیشن سسٹم جیسے Segment Anything کچھ اشیاء، یا اشیاء کے حصوں کی شناخت کے لیے جدوجہد کر سکتا ہے، جیسا کہ یہاں مبہم اشارے سے آؤٹ پٹ میں مثال دی گئی ہے۔ ماخذ: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html

کسی بھی صورت میں، semantic segmentation صرف اتنا ہی ہے a پوسٹ حقیقت گرین اسکرین کے طریقہ کار کے طور پر عمل کریں، اور ایسے عناصر کو الگ تھلگ کرنا چاہیے جس کے پس منظر کے رنگ کے کسی ایک حصے کے فائدہ کے بغیر اسے مؤثر طریقے سے پہچانا اور ہٹایا جا سکے۔

اس وجہ سے، یہ کبھی کبھار صارف برادری کے سامنے آیا ہے کہ تصاویر اور ویڈیوز تیار کیے جا سکتے ہیں۔ جو اصل میں سبز اسکرین کے پس منظر پر مشتمل ہے۔ جسے روایتی طریقوں سے فوری طور پر ہٹایا جا سکتا ہے۔

بدقسمتی سے، مقبول اویکت بازی کے ماڈل جیسے مستحکم بازی اکثر واقعی وشد سبز اسکرین پیش کرنے میں کچھ دشواری ہوتی ہے۔ اس کی وجہ یہ ہے کہ ماڈلز کے تربیتی ڈیٹا میں عام طور پر اس کی بجائے خصوصی منظر نامے کی بہت سی مثالیں نہیں ہوتی ہیں۔ یہاں تک کہ جب نظام کامیاب ہو جاتا ہے، تصور کی وجہ سے 'سبز' کا خیال ناپسندیدہ انداز میں پیش منظر کے موضوع تک پھیل جاتا ہے۔ داخلہ:

اوپر، ہم دیکھتے ہیں کہ مستحکم پھیلاؤ نے سبز رنگ کی واحد شدت پیدا کرنے کی ضرورت پر تصویر کی صداقت کو ترجیح دی ہے، جو کہ روایتی سبز اسکرین منظرناموں میں پائے جانے والے حقیقی دنیا کے مسائل کو مؤثر طریقے سے نقل کرتے ہیں۔ ذیل میں، ہم دیکھتے ہیں کہ 'سبز' تصور نے پیش منظر کی تصویر کو آلودہ کر دیا ہے۔ جتنا زیادہ پرامپٹ 'سبز' تصور پر توجہ مرکوز کرے گا، اس مسئلے کے اتنے ہی خراب ہونے کا امکان ہے۔ ماخذ: https://stablediffusionweb.com/

اوپر، ہم دیکھتے ہیں کہ مستحکم پھیلاؤ نے سبز رنگ کی واحد شدت پیدا کرنے کی ضرورت پر تصویر کی صداقت کو ترجیح دی ہے، جو کہ روایتی سبز اسکرین منظرناموں میں پائے جانے والے حقیقی دنیا کے مسائل کو مؤثر طریقے سے نقل کرتے ہیں۔ ذیل میں، ہم دیکھتے ہیں کہ 'سبز' تصور نے پیش منظر کی تصویر کو آلودہ کر دیا ہے۔ جتنا زیادہ پرامپٹ 'سبز' تصور پر توجہ مرکوز کرے گا، اس مسئلے کے اتنے ہی خراب ہونے کا امکان ہے۔ ماخذ: https://stablediffusionweb.com/

استعمال میں جدید طریقوں کے باوجود، عورت کا لباس اور مرد کی ٹائی دونوں (اوپر دیکھی گئی نچلی تصاویر میں) سبز پس منظر کے ساتھ 'ڈراپ آؤٹ' ہوتے ہیں - ایک مسئلہ جو 1970 اور 1980 کی دہائیوں میں فوٹو کیمیکل ایملشن ڈائی ہٹانے کے دنوں سے تعلق رکھتا ہے۔

ہمیشہ کی طرح، کسی ماڈل کی خامیوں کو کسی مسئلے پر مخصوص ڈیٹا پھینک کر، اور کافی تربیتی وسائل کو وقف کر کے دور کیا جا سکتا ہے۔ سسٹمز جیسے اسٹینفورڈ کی 2024 کی پیشکش لیئر ڈفیوز بنائیے ایک ٹھیک دیکھتے ہیں الفا چینلز کے ساتھ تصاویر بنانے کے قابل ماڈل:

Stanford LayerDiffuse پروجیکٹ کو ایک ملین متعین امیجز پر تربیت دی گئی تھی جو ماڈل کو شفافیت کی صلاحیتوں کے ساتھ امبیو کرنے کے قابل تھی۔ ماخذ: https://arxiv.org/pdf/2402.17113

Stanford LayerDiffuse پروجیکٹ کو ایک ملین متعین امیجز پر تربیت دی گئی تھی جو ماڈل کو شفافیت کی صلاحیتوں کے ساتھ امبیو کرنے کے قابل تھی۔ ماخذ: https://arxiv.org/pdf/2402.17113

بدقسمتی سے، اس نقطہ نظر کے لیے درکار کافی کیوریشن اور تربیتی وسائل کے علاوہ، LayerDiffuse کے لیے استعمال ہونے والا ڈیٹاسیٹ عوامی طور پر دستیاب نہیں ہے، جو اس پر تربیت یافتہ ماڈلز کے استعمال کو محدود کرتا ہے۔ یہاں تک کہ اگر یہ رکاوٹ موجود نہیں تھی، اس نقطہ نظر کو مخصوص استعمال کے معاملات کے لیے اپنی مرضی کے مطابق بنانا یا تیار کرنا مشکل ہے۔

تھوڑی دیر بعد 2024 میں، ایڈوب ریسرچ نے سٹونی بروک یونیورسٹی کے ساتھ تعاون کیا۔ جادو، ایک AI نکالنے کا طریقہ جو اپنی مرضی کے مطابق تیار کردہ بازی امیجز پر تربیت یافتہ ہے۔

2024 پیپر سے، MAGICK میں باریک دانوں والے الفا چینل نکالنے کی ایک مثال۔ ماخذ: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf

2024 پیپر سے، MAGICK میں باریک دانوں والے الفا چینل نکالنے کی ایک مثال۔ ماخذ: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf

MAGICK کو تربیت دینے کے لیے 150,000 نکالی گئی، AI سے تیار کردہ اشیاء کا استعمال کیا گیا، تاکہ نظام نکالنے کی بدیہی سمجھ پیدا کرے:

MAGICK ٹریننگ ڈیٹاسیٹ سے نمونے۔

MAGICK ٹریننگ ڈیٹاسیٹ سے نمونے۔

یہ ڈیٹاسیٹ، جیسا کہ ماخذ کاغذ میں کہا گیا ہے، مذکورہ بالا وجہ سے پیدا کرنا بہت مشکل تھا - کہ بازی کے طریقوں کو رنگ کے ٹھوس کلیدی swathes بنانے میں دشواری ہوتی ہے۔ لہذا، پیدا شدہ میٹس کا دستی انتخاب ضروری تھا۔

یہ لاجسٹک رکاوٹ ایک بار پھر ایک ایسے نظام کی طرف لے جاتی ہے جسے آسانی سے تیار یا اپنی مرضی کے مطابق نہیں بنایا جا سکتا، بلکہ اسے اس کی ابتدائی تربیت یافتہ صلاحیت کے اندر استعمال کیا جانا چاہیے۔

TKG-DM - ​​ایک لیٹنٹ ڈفیوژن ماڈل کے لیے 'آبائی' کروما نکالنا

جرمن اور جاپانی محققین کے درمیان ایک نئے تعاون نے ایسے تربیت یافتہ طریقوں کا ایک متبادل تجویز کیا ہے، جو کہ خاص طور پر تیار کردہ ڈیٹاسیٹس پر تربیت کی ضرورت کے بغیر، مذکورہ بالا طریقوں سے بہتر نتائج حاصل کرنے کے قابل - کاغذ میں کہا گیا ہے۔

TKG-DM بے ترتیب شور کو تبدیل کرتا ہے جو ایک تخلیقی امیج پیدا کرتا ہے تاکہ یہ کسی بھی رنگ میں - ایک ٹھوس، کلیدی پس منظر پیدا کرنے کی بہتر صلاحیت رکھتا ہو۔ ماخذ: https://arxiv.org/pdf/2411.15580

TKG-DM بے ترتیب شور کو تبدیل کرتا ہے جو ایک تخلیقی امیج پیدا کرتا ہے تاکہ یہ کسی بھی رنگ میں - ایک ٹھوس، کلیدی پس منظر پیدا کرنے کی بہتر صلاحیت رکھتا ہو۔ ماخذ: https://arxiv.org/pdf/2411.15580

نیا طریقہ اصلاح کی طرف سے، نسل کی سطح پر مسئلہ تک پہنچتا ہے بے ترتیب شور جس سے a میں ایک تصویر بنتی ہے۔ اویکت بازی کا ماڈل (LDM) جیسے مستحکم بازی.

نقطہ نظر ایک پر بناتا ہے۔ پچھلی تفتیش ایک مستحکم ڈفیوژن ڈسٹری بیوشن کے رنگ سکیما میں، اور دیگر طریقوں کے مقابلے میں، کلیدی پس منظر کے رنگ کو پیش منظر کے مواد میں کم (یا نہیں) الجھانے کے ساتھ، کسی بھی قسم کا پس منظر کا رنگ پیدا کرنے کی صلاحیت رکھتا ہے۔

ابتدائی شور کو ایک چینل میین شفٹ سے مشروط کیا جاتا ہے جو رنگین سگنل کو پیش منظر کے مواد میں الجھے بغیر، ڈینوائزنگ عمل کے پہلوؤں کو متاثر کرنے کے قابل ہوتا ہے۔

ابتدائی شور کو ایک چینل میین شفٹ سے مشروط کیا جاتا ہے جو رنگین سگنل کو پیش منظر کے مواد میں الجھے بغیر، ڈینوائزنگ عمل کے پہلوؤں کو متاثر کرنے کے قابل ہوتا ہے۔

کاغذ میں لکھا ہے:

'ہمارے وسیع تجربات یہ ظاہر کرتے ہیں کہ TKG-DM FID اور ماسک-FID سکور کو بالترتیب 33.7% اور 35.9% تک بہتر بناتا ہے۔

'اس طرح، ہمارا تربیت سے پاک ماڈل ٹھیک ٹیونڈ ماڈلز کا مقابلہ کرتا ہے، جو مختلف بصری مواد کی تخلیق کے کاموں کے لیے ایک موثر اور ورسٹائل حل پیش کرتا ہے جس کے لیے عین پیش منظر اور پس منظر کے کنٹرول کی ضرورت ہوتی ہے۔ '

۔ نیا کاغذ عنوان ہے TKG-DM: تربیت سے پاک کروما کلیدی مواد جنریشن ڈفیوژن ماڈل، اور ٹوکیو میں Hosei یونیورسٹی کے سات محققین اور Kaiserslautern میں RPTU Kaiserslautern-Landau & DFKI GmbH سے آتا ہے۔

طریقہ

نیا نقطہ نظر ایک کے ذریعے ابتدائی گاوسی شور کو کنڈیشنگ کرکے مستحکم بازی کے فن تعمیر کو بڑھاتا ہے۔ چینل مطلب شفٹ (CMS)، جو پیدا شدہ نتیجہ میں مطلوبہ پس منظر/ پیش منظر کی علیحدگی کی حوصلہ افزائی کے لیے ڈیزائن کیے گئے شور کے نمونے تیار کرتا ہے۔

مجوزہ نظام کے ورک فلو کے لیے اسکیما۔

مجوزہ نظام کے لیے سکیما۔

CMS denoising کے عمل کی عمومی ترقی کو برقرار رکھتے ہوئے ہر رنگ چینل کے وسط کو ایڈجسٹ کرتا ہے۔

مصنفین وضاحت کرتے ہیں:

'کروما کلیدی پس منظر پر پیش منظر آبجیکٹ تیار کرنے کے لیے، ہم ایک init شور کے انتخاب کی حکمت عملی کا اطلاق کرتے ہیں جو 2D گاوسین [ماسک] کا استعمال کرتے ہوئے ابتدائی [شور] اور ابتدائی رنگ [شور] کو منتخب طور پر یکجا کرتی ہے۔

'یہ ماسک پیش منظر کے علاقے میں اصل شور کو محفوظ رکھ کر اور رنگ بدلے ہوئے شور کو پس منظر کے علاقے میں لاگو کرکے بتدریج منتقلی پیدا کرتا ہے۔'

پس منظر کے کروما رنگ کے لیے مطلوبہ رنگین چینل کو ایک null ٹیکسٹ پرامپٹ کے ساتھ فوری بنایا جاتا ہے، جب کہ اصل پیش منظر کا مواد صارف کی ٹیکسٹ ہدایات سے، لفظی طور پر تخلیق کیا جاتا ہے۔

پس منظر کے کروما رنگ کے لیے مطلوبہ رنگین چینل کو ایک null ٹیکسٹ پرامپٹ کے ساتھ فوری بنایا جاتا ہے، جب کہ اصل پیش منظر کا مواد صارف کی ٹیکسٹ ہدایات سے، لفظی طور پر تخلیق کیا جاتا ہے۔

خود توجہ اور کراس توجہ تصویر کے دو پہلوؤں (کروما پس منظر اور پیش منظر کا مواد) کو الگ کرنے کے لیے استعمال کیا جاتا ہے۔ خود دھیان پیش منظر آبجیکٹ کی اندرونی مستقل مزاجی میں مدد کرتا ہے، جب کہ کراس دھیان متن پرامپٹ کی وفاداری کو برقرار رکھتا ہے۔ مقالے میں بتایا گیا ہے کہ چونکہ پس منظر کی تصویر کشی عام طور پر کم تفصیلی ہوتی ہے اور نسلوں میں اس پر زور دیا جاتا ہے، اس لیے اس کے کمزور اثر پر قابو پانا نسبتاً آسان ہوتا ہے اور اسے خالص رنگ کے نمونے کے ساتھ تبدیل کیا جاتا ہے۔

کروما طرز کی نسل کے عمل میں خود توجہ اور کراس دھیان کے اثر و رسوخ کا تصور۔

کروما طرز کی نسل کے عمل میں خود توجہ اور کراس دھیان کے اثر و رسوخ کا تصور۔

ڈیٹا اور ٹیسٹ

TKG-DM کو Stable Diffusion V1.5 اور Stable Diffusion SDXL کا استعمال کرتے ہوئے ٹیسٹ کیا گیا۔ تصاویر بالترتیب 512x512px اور 1024x1024px پر بنائی گئیں۔

کا استعمال کرتے ہوئے تصاویر بنائی گئیں۔ DDIM شیڈولر اسٹیبل ڈفیوژن کا آبائی، ایک پر رہنمائی کا پیمانہ 7.5 کا، 50 denoising قدموں کے ساتھ۔ ھدف شدہ پس منظر کا رنگ سبز تھا، اب غالب ڈراپ آؤٹ طریقہ.

نئے نقطہ نظر سے موازنہ کیا گیا تھا ڈیپ فلائیڈ, MAGICK کے لیے استعمال کردہ ترتیبات کے تحت؛ ٹھیک ٹیون کرنے کے لئے کم درجے کا پھیلاؤ ماڈل گرین بیک LoRA; اور مذکورہ بالا LayerDiffuse کو بھی۔

ڈیٹا کے لیے، MAGICK ڈیٹاسیٹ سے 3000 تصاویر استعمال کی گئیں۔

MAGICK ڈیٹاسیٹ کی مثالیں، جس سے نئے سسٹم کے ٹیسٹ میں 3000 تصاویر تیار کی گئیں۔ ماخذ: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html

MAGICK ڈیٹاسیٹ کی مثالیں، جس سے نئے سسٹم کے ٹیسٹ میں 3000 تصاویر تیار کی گئیں۔ ماخذ: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html

میٹرکس کے لیے، مصنفین نے استعمال کیا۔ Fréchet آغاز کا فاصلہ (FID) پیش منظر کے معیار کا جائزہ لینے کے لیے۔ انہوں نے ایک پروجیکٹ کے لیے مخصوص میٹرک بھی تیار کیا جسے m-FID کہا جاتا ہے، جو استعمال کرتا ہے۔ BiRefNet نتیجے میں ماسک کے معیار کا جائزہ لینے کا نظام۔

BiRefNet سسٹم کا پہلے کے طریقوں سے بصری موازنہ۔ ماخذ: https://arxiv.org/pdf/2401.03407

BiRefNet سسٹم کا پہلے کے طریقوں سے بصری موازنہ۔ ماخذ: https://arxiv.org/pdf/2401.03407

ان پٹ پرامپٹس کے ساتھ سیمنٹک الائنمنٹ کو جانچنے کے لیے، CLIP-Sentence (CLIP-S) اور CLIP-Image (CLIP-I) طریقے استعمال کیے گئے۔ CLIP-S فوری وفاداری کا جائزہ لیتا ہے، اور CLIP-I زمینی سچائی سے بصری مماثلت رکھتا ہے۔

نئے طریقہ کار کے معیار کے نتائج کا پہلا مجموعہ، اس بار Stable Diffusion V1.5 کے لیے۔ بہتر ریزولیوشن کے لیے براہ کرم سورس پی ڈی ایف سے رجوع کریں۔

نئے طریقہ کار کے معیار کے نتائج کا پہلا مجموعہ، اس بار Stable Diffusion V1.5 کے لیے۔ بہتر ریزولیوشن کے لیے براہ کرم سورس پی ڈی ایف سے رجوع کریں۔

مصنفین کا دعویٰ ہے کہ نتائج (بالترتیب اوپر اور نیچے، SD1.5 اور SDXL کے تصور کردہ) یہ ظاہر کرتے ہیں کہ TKG-DM فوری انجینئرنگ یا کسی ماڈل کو تربیت دینے یا اسے ٹھیک کرنے کی ضرورت کے بغیر اعلیٰ نتائج حاصل کرتا ہے۔

SDXL کے معیار کے نتائج۔ بہتر ریزولیوشن کے لیے براہ کرم سورس پی ڈی ایف سے رجوع کریں۔

SDXL کے معیار کے نتائج۔ بہتر ریزولیوشن کے لیے براہ کرم سورس پی ڈی ایف سے رجوع کریں۔

وہ مشاہدہ کرتے ہیں کہ پیدا ہونے والے نتائج میں سبز پس منظر کو اکسانے کے اشارے کے ساتھ، Stable Diffusion 1.5 کو صاف پس منظر پیدا کرنے میں دشواری ہوتی ہے، جبکہ SDXL (اگرچہ تھوڑا بہتر کارکردگی کا مظاہرہ کر رہا ہے) غیر مستحکم ہلکے سبز رنگوں کو پیدا کرتا ہے جو کروما کے عمل میں علیحدگی میں مداخلت کرنے کے لیے ذمہ دار ہیں۔

وہ مزید نوٹ کرتے ہیں کہ جب LayerDiffuse اچھی طرح سے الگ الگ پس منظر تیار کرتا ہے، تو یہ کبھی کبھار تفصیل کھو دیتا ہے، جیسے کہ قطعی اعداد یا حروف، اور مصنفین ڈیٹاسیٹ کی حدود کو اس کی وجہ قرار دیتے ہیں۔ انہوں نے مزید کہا کہ ماسک جنریشن بھی کبھی کبھار ناکام ہو جاتی ہے، جس کی وجہ سے 'ان کٹ' تصاویر بنتی ہیں۔

مقداری ٹیسٹوں کے لیے، اگرچہ FID کے لیے SDXL میں LayerDiffuse کا بظاہر فائدہ ہے، لیکن مصنفین اس بات پر زور دیتے ہیں کہ یہ ایک خصوصی ڈیٹاسیٹ کا نتیجہ ہے جو مؤثر طریقے سے ایک 'بیکڈ' اور غیر لچکدار مصنوعات کی تشکیل کرتا ہے۔ جیسا کہ پہلے ذکر کیا گیا ہے، کوئی بھی چیز یا کلاس جو اس ڈیٹاسیٹ میں شامل نہیں ہے، یا ناکافی طور پر احاطہ کرتی ہے، وہ اچھی کارکردگی کا مظاہرہ نہیں کر سکتی ہے، جب کہ ناول کی کلاسوں کو ایڈجسٹ کرنے کے لیے مزید فائن ٹیوننگ صارف کو کیوریشن اور تربیتی بوجھ کے ساتھ پیش کرتی ہے۔

موازنہ کے لیے مقداری نتائج۔ LayerDiffuse کا واضح فائدہ، کاغذ کا مطلب ہے، لچک کی قیمت، اور ڈیٹا کیوریشن اور تربیت کے بوجھ پر آتا ہے۔

موازنہ کے لیے مقداری نتائج۔ LayerDiffuse کا واضح فائدہ، کاغذ کا مطلب ہے، لچک کی قیمت، اور ڈیٹا کیوریشن اور تربیت کے بوجھ پر آتا ہے۔

کاغذ میں لکھا ہے:

'DeepFloyd کے اعلی FID، m-FID، اور CLIP-I کے اسکورز DeepFloyd کے آؤٹ پٹس پر مبنی زمینی سچائی سے اس کی مماثلت کو ظاہر کرتے ہیں۔ تاہم، یہ صف بندی اسے ایک موروثی فائدہ دیتی ہے، جس سے یہ تصویر کے معیار کے لیے مناسب معیار کے طور پر غیر موزوں ہے۔ اس کا نچلا CLIP-S سکور دوسرے ماڈلز کے مقابلے میں کمزور ٹیکسٹ الائنمنٹ کی نشاندہی کرتا ہے۔

مجموعی طور پر، یہ نتائج ہمارے ماڈل کی اعلیٰ معیار کے، متن کے ساتھ منسلک پیش منظر کو بغیر ٹھیک ٹیوننگ کے پیدا کرنے کی صلاحیت کو اجاگر کرتے ہیں، جو ایک موثر کروما کلیدی مواد کی تیاری کا حل پیش کرتے ہیں۔'

آخر میں، محققین نے مختلف طریقوں پر فوری عملداری کا جائزہ لینے کے لیے صارف کا مطالعہ کیا۔ ایک سو شرکاء سے کہا گیا کہ وہ ہر طریقہ سے 30 تصویری جوڑوں کا فیصلہ کریں، جن میں مضامین کو BiRefNet کا استعمال کرتے ہوئے نکالا گیا ہے اور تمام مثالوں میں دستی اصلاح کی گئی ہے۔ اس مطالعہ میں مصنفین کی تربیت سے پاک نقطہ نظر کو ترجیح دی گئی۔

صارف کے مطالعہ کے نتائج۔

صارف کے مطالعہ کے نتائج۔

TKG-DM مقبول کے ساتھ مطابقت رکھتا ہے۔ کنٹرول نیٹ مستحکم بازی کے لیے فریق ثالث کا نظام، اور مصنفین کا دعویٰ ہے کہ یہ اس قسم کی علیحدگی کو حاصل کرنے کے لیے ControlNet کی مقامی صلاحیت کے لیے اعلیٰ نتائج پیدا کرتا ہے۔

نتیجہ

اس نئے مقالے سے شاید سب سے زیادہ قابل ذکر بات یہ ہے کہ اویکت پھیلاؤ کے ماڈل کس حد تک الجھے ہوئے ہیں، اس کے برعکس عوامی عوامی تاثر کے برعکس کہ وہ نیا مواد تیار کرتے وقت تصاویر اور ویڈیوز کے پہلوؤں کو آسانی سے الگ کر سکتے ہیں۔

مطالعہ میں مزید اس بات پر زور دیا گیا ہے کہ تحقیق اور شوق رکھنے والے طبقے کس حد تک فائن ٹیوننگ کی طرف مائل ہوئے ہیں۔ پوسٹ حقیقت ماڈلز کی کوتاہیوں کو دور کریں - ایک ایسا حل جو ہمیشہ مخصوص کلاسوں اور آبجیکٹ کی اقسام کو حل کرے گا۔ ایسے حالات میں، ایک عمدہ ماڈل یا تو محدود تعداد میں کلاسوں پر بہت اچھا کام کرے گا، یا پھر کام کرے گا۔ قابل برداشت تربیتی سیٹوں میں اعداد و شمار کی زیادہ مقدار کے مطابق، ممکنہ کلاسوں اور اشیاء کے بہت زیادہ حجم پر۔

اس لیے کم از کم ایک ایسا حل دیکھنا تازگی ہے جو اس طرح کے محنتی اور قابل اعتراض حل پر بھروسہ نہ کرے۔

 

* 1978 کی فلم کی شوٹنگ سپرمین، اداکار کرسٹوفر ریو کو پہننا ضروری تھا۔ فیروزی بلیو اسکرین پراسیس شاٹس کے لیے سپرمین کاسٹیوم، مشہور نیلے لباس کو مٹائے جانے سے بچنے کے لیے۔ لباس کے نیلے رنگ کو بعد میں رنگین درجہ بندی کے ذریعے بحال کیا گیا۔