ہمارے ساتھ رابطہ

انسانی تصویر کی ترکیب میں 'خراب بالوں کے دن' سے نمٹنا

مصنوعی ذہانت

انسانی تصویر کی ترکیب میں 'خراب بالوں کے دن' سے نمٹنا

mm

رومن مجسمہ سازی کے سنہری دور سے، انسانی بالوں کی تصویر کشی ایک کانٹے دار چیلنج رہا ہے۔ اوسط انسانی سر 100,000 کناروں پر مشتمل ہوتا ہے، اس کے رنگ کے مطابق مختلف اضطراری اشاریے ہوتے ہیں، اور، ایک خاص طوالت سے آگے، ان طریقوں سے حرکت اور اصلاح کرتے ہیں جن کی صرف نقل کی جا سکتی ہے۔ پیچیدہ طبیعیات کے ماڈل - آج تک، صرف 'روایتی' CGI طریقوں سے لاگو ہوتا ہے۔

Disney کی 2017 کی تحقیق سے، ایک طبیعیات پر مبنی ماڈل CGI ورک فلو میں فلوڈ ہیئر اسٹائل پر حقیقت پسندانہ حرکت کو لاگو کرنے کی کوشش کرتا ہے۔ ماخذ: https://www.youtube.com/watch?v=-6iF3mufDW0

سے 2017 تحقیق Disney کی طرف سے، ایک طبیعیات پر مبنی ماڈل CGI ورک فلو میں ایک فلوڈ ہیئر اسٹائل پر حقیقت پسندانہ حرکت کو لاگو کرنے کی کوشش کرتا ہے۔ ماخذ: https://www.youtube.com/watch?v=-6iF3mufDW0

اس مسئلے کو جدید مقبول ڈیپ فیکس طریقوں سے حل نہیں کیا گیا ہے۔ کچھ سالوں کے لئے، معروف پیکج ڈیپفیسلیب اس کے پاس 'مکمل سر' ماڈل ہے جو صرف مختصر (عام طور پر مرد) بالوں کے سخت مجسموں پر قبضہ کر سکتا ہے۔ اور حال ہی میں ڈی ایف ایل اسٹیبل میٹ چہرہ بدل (دونوں پیکیجز متنازعہ 2017 ڈیپ فیکس سورس کوڈ سے اخذ کیے گئے ہیں) نے اس کے نفاذ کی پیشکش کی ہے۔ BiseNet سیمنٹک سیگمنٹیشن ماڈل، صارف کو ڈیپ فیک آؤٹ پٹ میں کان اور بال شامل کرنے کی اجازت دیتا ہے۔

یہاں تک کہ جب بہت چھوٹے ہیئر اسٹائل کی تصویر کشی کی جائے تو بھی نتائج سامنے آتے ہیں۔ معیار میں بہت محدود, فوٹیج میں ضم ہونے کی بجائے مکمل سروں کے ساتھ سپرمپوزڈ دکھائی دے رہے ہیں۔

GAN بال

انسانی تخروپن کے لیے دو بڑے مسابقتی نقطہ نظر ہیں نیورل ریڈیئنس فیلڈز (این آر ایف)، جو ایک سے زیادہ نقطہ نظر سے ایک منظر کو حاصل کر سکتا ہے اور ایک قابل دریافت نیورل نیٹ ورک میں ان نقطہ نظر کی 3D نمائندگی کو سمیٹ سکتا ہے۔ اور جنریٹیو مخالف نیٹ ورکس (GANs)، جو انسانی تصویر کی ترکیب کے لحاظ سے خاص طور پر زیادہ ترقی یافتہ ہیں (کم از کم اس لیے نہیں کہ NeRF صرف 2020 میں سامنے آیا تھا)۔

3D جیومیٹری کے بارے میں NeRF کی تخمینہ شدہ تفہیم اسے اس قابل بناتی ہے کہ وہ ایک منظر کو بڑی مخلصی اور مستقل مزاجی کے ساتھ نقل کر سکے، چاہے اس میں فی الحال طبیعیات کے ماڈلز کے نفاذ کی بہت کم یا کوئی گنجائش نہ ہو - اور درحقیقت، جمع شدہ پر کسی بھی قسم کی تبدیلی کی نسبتاً محدود گنجائش ہو۔ ڈیٹا جو کیمرے کے نقطہ نظر کو تبدیل کرنے سے متعلق نہیں ہے۔ فی الحال، NeRF کے پاس ہے۔ بہت محدود صلاحیتیں انسانی بالوں کی نقل و حرکت کو دوبارہ پیدا کرنے کے معاملے میں۔

GAN پر مبنی NeRF کے مساوی تقریباً مہلک نقصان سے شروع ہوتے ہیں، کیونکہ، NeRF کے برعکس، اویکت جگہ GAN کا مقامی طور پر 3D معلومات کی تفہیم کو شامل نہیں کرتا ہے۔ اس لیے 3D سے آگاہ GAN چہرے کی تصویر کی ترکیب حالیہ برسوں میں 2019 کے ساتھ امیج جنریشن ریسرچ میں ایک گرما گرم تعاقب بن گیا ہے۔ انٹرفیس GAN اہم پیش رفتوں میں سے ایک۔

تاہم، یہاں تک کہ InterFaceGAN کے دکھائے گئے اور چیری سے چنائے گئے نتائج یہ ظاہر کرتے ہیں کہ ممکنہ VFX ورک فلو کے لیے، عارضی مستقل مزاجی کے لحاظ سے اعصابی بالوں کی مستقل مزاجی ایک مشکل چیلنج ہے:

InterFaceGAN سے پوز ٹرانسفارمیشن میں 'Sissling' بال۔ ماخذ: https://www.youtube.com/watch?v=uoftpl3Bj6w

InterFaceGAN سے پوز ٹرانسفارمیشن میں 'Sissling' بال۔ ماخذ: https://www.youtube.com/watch?v=uoftpl3Bj6w

جیسا کہ یہ بات زیادہ واضح ہو جاتی ہے کہ صرف اویکت جگہ کی ہیرا پھیری کے ذریعے مسلسل نظریہ تخلیق ایک کیمیا جیسا تعاقب ہو سکتا ہے، کاغذات کی بڑھتی ہوئی تعداد سامنے آ رہی ہے کہ CGI پر مبنی 3D معلومات شامل کریں۔ GAN ورک فلو میں ایک مستحکم اور معمول کی رکاوٹ کے طور پر۔

CGI عنصر کی نمائندگی انٹرمیڈیٹ 3D پرائمیٹوز جیسے کہ a جلد والا ملٹی پرسن لکیری ماڈل (SMPL)، یا NERF کی طرح 3D انفرنس تکنیک کو اپنا کر، جہاں جیومیٹری کا ماخذ کی تصاویر یا ویڈیو سے جائزہ لیا جاتا ہے۔

ان خطوط پر ایک نیا کام، اس ہفتے جاریہے، 3D سے آگاہ تصویری ترکیب کے لیے ملٹی ویو کنسسٹنٹ جنریٹو ایڈورسریل نیٹ ورکس (MVCGAN)، ReLER، AAII، یونیورسٹی آف ٹیکنالوجی سڈنی، علی بابا گروپ میں DAMO اکیڈمی، اور Zhejiang یونیورسٹی کے درمیان تعاون۔

CELEBA-HQ ڈیٹاسیٹ سے اخذ کردہ تصاویر پر MVCGAN کے ذریعے تیار کردہ قابل فہم اور مضبوط ناول فیشل پوز۔ ماخذ: https://arxiv.org/pdf/2204.06307.pdf

CELEBA-HQ ڈیٹاسیٹ سے اخذ کردہ تصاویر پر MVCGAN کے ذریعے تیار کردہ قابل فہم اور مضبوط ناول فیشل پوز۔  ماخذ: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN شامل کرتا ہے a جنریٹیو ریڈیئنس فیلڈ نیٹ ورک (GRAF) ایک جنریٹو ایڈورسیریل نیٹ ورک میں ہندسی رکاوٹیں فراہم کرنے کی صلاحیت رکھتا ہے، جو کہ کسی بھی اسی طرح کے GAN پر مبنی نقطہ نظر کی کچھ انتہائی مستند پوزنگ صلاحیتوں کو حاصل کرتا ہے۔

MVCGAN اور سابقہ ​​طریقوں GRAF، GIRAFFE، اور pi-GAN کے درمیان موازنہ۔

MVCGAN اور سابقہ ​​طریقوں GRAF، GIRAFFE، اور pi-GAN کے درمیان موازنہ۔

تاہم، MVCGAN کے لیے اضافی مواد سے پتہ چلتا ہے کہ بالوں کا حجم، وضع، جگہ کا تعین اور رویے میں مستقل مزاجی حاصل کرنا ایک ایسا مسئلہ ہے جسے بیرونی طور پر عائد 3D جیومیٹری کی بنیاد پر رکاوٹوں کے ذریعے آسانی سے حل نہیں کیا جا سکتا۔

ضمنی مواد سے جو تحریر کے وقت عوامی طور پر جاری نہیں کیا گیا ہے، ہم دیکھتے ہیں کہ MVCGAN کی جانب سے چہرے کے پوز کی ترکیب موجودہ فن پر ایک قابل ذکر پیش رفت کی نمائندگی کرتی ہے، وقتی بالوں کی مستقل مزاجی ایک مسئلہ بنی ہوئی ہے۔

ضمنی مواد سے جو تحریر کے وقت عوامی طور پر جاری نہیں کیا گیا ہے، ہم دیکھتے ہیں کہ MVCGAN کی جانب سے چہرے کے پوز کی ترکیب موجودہ فن پر ایک قابل ذکر پیش رفت کی نمائندگی کرتی ہے، وقتی بالوں کی مستقل مزاجی ایک مسئلہ بنی ہوئی ہے۔

چونکہ 'سیدھے' CGI ورک فلو کو اب بھی وقتی بالوں کی تعمیر نو کو ایک ایسا چیلنج ملتا ہے، اس لیے اس بات پر یقین کرنے کی کوئی وجہ نہیں ہے کہ اس نوعیت کے روایتی جیومیٹری پر مبنی نقطہ نظر جلد ہی کسی بھی وقت اویکت جگہ پر بالوں کی مستقل ترکیب لانے والے ہیں۔

Convolutional Neural Networks کے ساتھ بالوں کو مستحکم کرنا

تاہم، سویڈن میں چلمرز انسٹی ٹیوٹ آف ٹیکنالوجی کے تین محققین کا ایک آنے والا مقالہ عصبی بالوں کی تخروپن میں اضافی پیش رفت پیش کر سکتا ہے۔

بائیں طرف، CNN-مستحکم بالوں کی نمائندگی، دائیں طرف، زمینی سچائی۔ بہتر ریزولوشن اور اضافی مثالوں کے لیے مضمون کے آخر میں سرایت شدہ ویڈیو دیکھیں۔ ماخذ: https://www.youtube.com/watch?v=AvnJkwCmsT4

بائیں طرف، CNN-مستحکم بالوں کی نمائندگی، دائیں طرف، زمینی سچائی۔ بہتر ریزولوشن اور اضافی مثالوں کے لیے مضمون کے آخر میں سرایت شدہ ویڈیو دیکھیں۔ ماخذ: https://www.youtube.com/watch?v=AvnJkwCmsT4

عنوان Convolutional Neural Networks کے ساتھ ریئل ٹائم ہیئر فلٹرنگ، کاغذ کے لئے شائع کیا جائے گا i3D سمپوزیم مئی کے شروع میں.

یہ نظام ایک آٹو اینکوڈر پر مبنی نیٹ ورک پر مشتمل ہے جو اوپن جی ایل جیومیٹری کے ذریعے سیڈ کیے گئے محدود تعداد میں اسٹاکسٹک نمونوں کی بنیاد پر بالوں کے حل کا جائزہ لینے کے قابل ہے، بشمول خود سایہ کرنا اور بالوں کی موٹائی کا حساب لینا۔

نقطہ نظر کے ساتھ نمونے کی ایک محدود تعداد فراہم کرتا ہے اسٹاکسٹک شفافیت اور پھر ٹرینیں a یو نیٹ اصل تصویر کو دوبارہ بنانے کے لیے۔

MVCGAN کے تحت، ایک CNN سٹاکسٹک طور پر نمونے کے رنگ کے عوامل، جھلکیاں، ٹینجینٹ، گہرائی اور الفاس کو فلٹر کرتا ہے، جو ترکیب شدہ نتائج کو ایک جامع تصویر میں جمع کرتا ہے۔

MVCGAN کے تحت، ایک CNN سٹاکسٹک طور پر نمونے کے رنگ کے عوامل، جھلکیاں، ٹینجینٹ، گہرائی اور الفاس کو فلٹر کرتا ہے، جو ترکیب شدہ نتائج کو ایک جامع تصویر میں جمع کرتا ہے۔

نیٹ ورک کو PyTorch پر تربیت دی جاتی ہے، جو کہ نیٹ ورک کے حجم اور ان پٹ فیچرز کی تعداد کے لحاظ سے چھ سے بارہ گھنٹے کی مدت میں تبدیل ہوتی ہے۔ تربیت یافتہ پیرامیٹرز (وزن) پھر نظام کے حقیقی وقت کے نفاذ میں استعمال ہوتے ہیں۔

تربیتی ڈیٹا سیدھے اور لہراتی بالوں کے انداز کے لیے کئی سو تصاویر پیش کر کے، بے ترتیب فاصلے اور پوز کے ساتھ ساتھ روشنی کے متنوع حالات کا استعمال کر کے تیار کیا جاتا ہے۔

تربیتی ان پٹ کی مختلف مثالیں۔

تربیتی ان پٹ کی مختلف مثالیں۔

تمام نمونوں میں بالوں کی شفافیت کا اوسط سپر سیمپلڈ ریزولوشن میں اسٹاکسٹک شفافیت کے ساتھ پیش کردہ تصاویر سے لیا جاتا ہے۔ اصل ہائی ریزولیوشن ڈیٹا کو نیٹ ورک اور ہارڈویئر کی حدود کو ایڈجسٹ کرنے کے لیے نمونے میں اتارا جاتا ہے، اور بعد میں ایک عام آٹو اینکوڈر ورک فلو میں نمونہ بنایا جاتا ہے۔

ریئل ٹائم انفرنس ایپلی کیشن ('لائیو' سافٹ ویئر جو تربیت یافتہ ماڈل سے اخذ کردہ الگورتھم کا فائدہ اٹھاتا ہے) cuDNN اور OpenGL کے ساتھ NVIDIA CUDA کا مرکب استعمال کرتا ہے۔ ابتدائی ان پٹ فیچرز کو اوپن جی ایل ملٹی سیمپلڈ کلر بفرز میں ڈال دیا جاتا ہے، اور نتیجہ CNN میں پروسیسنگ سے پہلے cuDNN ٹینسر پر چلا جاتا ہے۔ اس کے بعد ان ٹینسر کو حتمی تصویر میں لگانے کے لیے 'لائیو' اوپن جی ایل ٹیکسچر میں کاپی کیا جاتا ہے۔

ریئل ٹائم سسٹم NVIDIA RTX 2080 پر کام کرتا ہے، جو 1024×1024 پکسلز کا ریزولوشن تیار کرتا ہے۔

چونکہ بالوں کے رنگ کی قدریں نیٹ ورک کے ذریعے حاصل کی گئی حتمی اقدار میں مکمل طور پر منقطع ہیں، اس لیے بالوں کا رنگ تبدیل کرنا ایک معمولی کام ہے، حالانکہ اثرات جیسے گریڈیئنٹس اور لکیریں مستقبل کا چیلنج بنی ہوئی ہیں۔

مصنفین نے کاغذ کی تشخیص میں استعمال ہونے والے کوڈ کو جاری کیا ہے۔ GitLab میں. ذیل میں MVCGAN کے لیے ضمنی ویڈیو دیکھیں۔

Convolutional Neural Networks کے ساتھ ریئل ٹائم ہیئر فلٹرنگ

نتیجہ

آٹو اینکوڈر یا GAN کی پوشیدہ جگہ کو نیویگیٹ کرنا اب بھی درست ڈرائیونگ سے زیادہ سیلنگ کے مترادف ہے۔ صرف اس حالیہ عرصے میں ہم 'سادہ' جیومیٹری جیسے کہ چہرے، NeRF، GANs، اور نان ڈیپ فیک (2017) آٹو اینکوڈر فریم ورک جیسے نقطہ نظر میں پوز جنریشن کے لیے معتبر نتائج دیکھنا شروع کر رہے ہیں۔

انسانی بالوں کی اہم تعمیراتی پیچیدگی، طبیعیات کے ماڈلز اور دیگر خصائص کو شامل کرنے کی ضرورت کے ساتھ مل کر جن کے لیے تصویری ترکیب کے موجودہ طریقوں میں کوئی انتظام نہیں ہے، اس بات کی نشاندہی کرتا ہے کہ بالوں کی ترکیب عام چہرے کی ترکیب میں ایک مربوط جزو رہنے کا امکان نہیں ہے، لیکن اس کی ضرورت ہے۔ کچھ نفاست کے سرشار اور علیحدہ نیٹ ورکس - یہاں تک کہ اگر اس طرح کے نیٹ ورک بالآخر وسیع اور پیچیدہ چہرے کی ترکیب کے فریم ورک میں شامل ہو جائیں۔

 

پہلی بار 15 اپریل 2022 کو شائع ہوا۔

مشین لرننگ کے مصنف، انسانی تصویر کی ترکیب میں ڈومین ماہر۔ Metaphysic.ai پر تحقیقی مواد کے سابق سربراہ۔
ذاتی سائٹ: martinanderson.ai
رابطہ کریں: [ای میل محفوظ]
ٹویٹر: @manders_ai