مصنوعی ذہانت
ایک AI سسٹم جو لوگوں کی تصاویر کو مزید 'خوبصورت' بنا سکتا ہے۔

چین کے محققین نے ایک نیا AI پر مبنی امیج بڑھانے کا نظام تیار کیا ہے جو کہ کسی شخص کی تصاویر کو مزید 'خوبصورت' بنانے کی صلاحیت رکھتا ہے، جس کی بنیاد کمک سیکھنے کے لیے ایک نیا طریقہ ہے۔

نیا نقطہ نظر ایک 'چہرے کی خوبصورتی کی پیشن گوئی نیٹ ورک' کا استعمال کرتا ہے تاکہ متعدد عوامل کی بنیاد پر تصویر میں تغیرات کو دہرایا جا سکے، جن میں 'روشنی' اور آنکھوں کے پوز اہم عوامل ہو سکتے ہیں۔ یہاں اصل ذرائع (ہر کالم کے بائیں طرف) EigenGAN سسٹم سے ہیں، ان کے دائیں طرف نئے نتائج کے ساتھ۔ ماخذ: https://arxiv.org/pdf/2208.04517.pdf
تکنیک کے لیے دریافت کردہ اختراعات پر مبنی ہے۔ EigenGAN جنریٹرایک اور چینی پروجیکٹ، 2021 سے، جس نے متنوع چیزوں کی شناخت اور ان پر کچھ کنٹرول حاصل کرنے میں قابل ذکر پیش رفت کی معنوی صفات جنریٹو ایڈورسریئل نیٹ ورکس (GANs) کی پوشیدہ جگہ کے اندر۔

2021 EigenGAN جنریٹر ایک جنریٹو مخالف نیٹ ورک کی پوشیدہ جگہ کے اندر 'بالوں کا رنگ' جیسے اعلی سطحی تصورات کو الگ کرنے کے قابل تھا۔ نیا کام ایک ایسا نظام فراہم کرنے کے لیے اس اختراعی آلات پر استوار کرتا ہے جو ماخذ کی تصاویر کو 'خوبصورت' بنا سکتا ہے، لیکن قابل شناخت شناخت کو تبدیل کیے بغیر - پچھلے طریقوں میں ایک مسئلہ۔ ماخذ: https://arxiv.org/pdf/2104.12476.pdf
یہ نظام ایک 'جمالیات سکور نیٹ ورک' کا استعمال کرتا ہے جس سے اخذ کیا گیا ہے۔ SCUT-FBP5500 (SCUT)، گوانگزو میں ساؤتھ چائنا یونیورسٹی آف ٹیکنالوجی سے چہرے کی خوبصورتی کی پیشین گوئی کے لیے 2018 کا بینچ مارک ڈیٹاسیٹ۔

2018 کے مقالے سے 'SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction'، جس نے 'چہرے کی خوبصورتی کی پیش گوئی' (FBP) نیٹ ورک پیش کیا جو سمجھی جانے والی کشش کے لحاظ سے چہروں کی درجہ بندی کرنے کے قابل ہے، لیکن جو حقیقت میں تبدیل نہیں ہو سکا۔ یا 'اپ گریڈ' چہرے۔ ماخذ: https://arxiv.org/pdf/1801.06345.pdf
نئے کام کے برعکس، 2018 کا پروجیکٹ دراصل تبدیلیوں کو انجام نہیں دے سکتا، لیکن 5,500 چہروں کے لیے الگورتھمک قدر کے فیصلے پر مشتمل ہے، جو 60 مخلوط صنفی لیبلرز (ایک 50/50 تقسیم) کے ذریعے فراہم کیے گئے ہیں۔ ان کو نئے نظام میں موثر کے طور پر شامل کیا گیا ہے۔ امتیاز کرنے والا, ایسی تبدیلیوں کو مطلع کرنے کے لیے جو ممکنہ طور پر کسی تصویر کی 'کشش' کو بڑھا سکتے ہیں۔
دلچسپ بات یہ ہے کہ ، نیا کاغذ عنوان ہے جمالیات سے چلنے والی کمک سیکھنے کے ذریعہ قابل کنٹرول خوبصورت کاکیشین چہرے کی تخلیق. کاکیشین کے علاوہ تمام نسلوں کو سسٹم سے خارج کرنے کی وجہ (اس بات پر بھی غور کریں کہ محققین خود چینی ہیں) کیونکہ SCUT کا ماخذ ڈیٹا خاص طور پر ایشیائی ذرائع (4000 یکساں طور پر تقسیم شدہ ایشیائی خواتین/مرد، 1500 یکساں طور پر تقسیم شدہ کاکیشین خواتین) کی طرف متوجہ ہے۔ /males)، اس ڈیٹاسیٹ میں 'اوسط فرد' کو بھورے بالوں والے اور بھوری آنکھوں والا بناتا ہے۔
لہٰذا، کم از کم ایک نسل کے اندر رنگین تغیرات کو ایڈجسٹ کرنے کے لیے، ایشیائی جز کو اصل ڈیٹا سے خارج کرنا ضروری تھا، ورنہ ڈیٹا کو دوبارہ تشکیل دینے کے لیے ایک ایسا طریقہ تیار کرنے کے لیے کافی خرچ کرنا پڑا جو شاید ختم نہ ہوا ہو۔ مزید برآں، خوبصورتی کے ثقافتی تصورات میں تغیر لامحالہ اس کا مطلب یہ ہے کہ اس طرح کے نظاموں کو 'کشش' کی تشکیل کے سلسلے میں کچھ حد تک جغرافیائی ترتیب کی ضرورت ہوگی۔
متعلقہ اوصاف
کسی شخص کی 'پرکشش' تصویر کے لیے بنیادی کردار ادا کرنے والے عوامل کا تعین کرنے کے لیے، محققین نے تصاویر میں مختلف تبدیلیوں کے اثر کا بھی تجربہ کیا، اس لحاظ سے کہ اس طرح کے اضافے نے 'خوبصورتی' کے الگورتھمک تصور کو کس حد تک بڑھایا۔ انہوں نے پایا کہ کم از کم ایک پہلو اچھی فوٹوگرافی کے لیے اچھی جینیات سے زیادہ مرکزی حیثیت رکھتا ہے:
روشنی کے علاوہ، اس نے بیوٹی سکور پر سب سے زیادہ اثر ڈالنے والے پہلوؤں میں بینگز (جو مردوں کے معاملے میں اکثر بالوں کے پورے سر کے برابر ہو سکتے ہیں)، جسمانی پوز، اور آنکھوں کا مزاج (جہاں اس کے ساتھ مشغولیت ہوتی ہے۔ کیمرہ کا نقطہ نظر کشش کا باعث ہے)۔
('لِپ اسٹک کلر' کے حوالے سے، نیا نظام، جو جنس کی مرد اور عورت دونوں پریزنٹیشنز پر مؤثر طریقے سے کام کر سکتا ہے، صنفی ظہور کو الگ نہیں کرتا، بلکہ اس سلسلے میں 'فلٹر' کے طور پر ناول کے امتیازی نظام پر انحصار کرتا ہے)
طریقہ
نئے نظام میں کمک سیکھنے کے طریقہ کار میں انعامی فنکشن SCUT ڈیٹا پر ایک سیدھے سادے رجعت سے تقویت یافتہ ہے، جو چہرے کی خوبصورتی کی پیشین گوئیاں کرتا ہے۔
ٹریننگ سسٹم ڈیٹا ان پٹ امیجز پر اعادہ کرتا ہے (نیچے اسکیمیٹک میں نیچے بائیں طرف)۔ ابتدائی طور پر پہلے سے تربیت یافتہ ResNet18 ماڈل (تربیت یافتہ تصویری نیٹ) پانچ ایک جیسی ('y') تصاویر سے خصوصیات نکالتا ہے۔ اگلا، ایک ممکنہ تبدیلی کا عمل a کی پوشیدہ حالت سے اخذ کیا جاتا ہے۔ مکمل طور پر منسلک پرت (GRUCell, نیچے کی تصویر میں)، اور تبدیلیاں لاگو ہوتی ہیں، جس کے نتیجے میں پانچ تبدیل شدہ امیجز ہوتے ہیں جنہیں جمالیات کے اسکور نیٹ ورک میں شامل کیا جاتا ہے، جن کی درجہ بندی، ڈارون طرز، اس بات کا تعین کرے گی کہ کون سی تغیرات تیار کی جائیں گی اور کون سی رد کی جائیں گی۔
جمالیات اسکور نیٹ ورک ایک موثر چینل توجہ کا استعمال کرتا ہے (اککا) ماڈیول، جبکہ پہلے سے تربیت یافتہ مثال کی موافقت EfficientNet-B4 ہر تصویر سے 1,792 خصوصیات نکالنے کا کام سونپا گیا ہے۔
ایک کے ذریعے نارملائزیشن کے بعد ReLU ایکٹیویشن فنکشنای سی اے ماڈیول سے ایک 4 جہتی ویکٹر واپس حاصل کیا جاتا ہے، جسے پھر ایک جہتی ویکٹر میں ایکٹیویشن کے بعد چپٹا کر دیا جاتا ہے اور انکولی اوسط پولنگ. آخر میں، نتائج میں کھلایا جاتا ہے ریگریشن نیٹ ورک، جو جمالیات کے اسکور کو بازیافت کرتا ہے۔

سسٹم سے آؤٹ پٹ کا ایک معیاری موازنہ۔ نیچے کی قطار میں، ہم ان تمام انفرادی پہلوؤں کا مجموعی مجموعہ دیکھتے ہیں جن کی شناخت EigenGAN طریقہ سے کی گئی ہے اور بعد میں ان میں اضافہ کیا گیا ہے۔ تصاویر کے لیے اوسطاً FID اسکور تصویری قطاروں کے بائیں جانب ہیں (زیادہ بہتر ہے)۔
ٹیسٹ اور یوزر اسٹڈی
مجوزہ طریقہ کی پانچ اقسام کا الگورتھم سے جائزہ لیا گیا (اوپر کی تصویر دیکھیں)، Fréchet آغاز کے فاصلے (FID، کچھ حلقوں میں متنازعہ) سسٹم کے ذریعے ڈالی گئی کل 1000 تصاویر کو تفویض کردہ اسکور۔
محققین نوٹ کرتے ہیں کہ روشنی کو بہتر بنانے سے تصویروں میں موجود مضامین کے لیے کئی دیگر 'واضح' ممکنہ تبدیلیوں کے مقابلے میں بہتر دلکشی کا سکور حاصل ہوا (یعنی اس شخص کی اصل ظاہری شکل تک)۔
ایک خاص حد تک، اس طرح سے سسٹم کو جانچنا SCUT ڈیٹا کی سنکی پن سے محدود ہے، جس میں بہت سی 'روشن مسکراہٹیں' نہیں ہوتی ہیں، اور مصنفین کا کہنا ہے کہ یہ زیادہ عام 'پراسرار' نظر کو ضرورت سے زیادہ درجہ دے سکتا ہے۔ اعداد و شمار، ممکنہ ہدف کے اختتامی صارفین کی ممکنہ ترجیحات کے مقابلے میں (شاید، اس معاملے میں، ایک مغربی مارکیٹ)۔
تاہم، چونکہ پورا نظام صرف 60 افراد کی اوسط اوسط رائے پر لٹکا ہوا ہے (ایگنگن پیپر میں)، اور چونکہ جس معیار کا مطالعہ کیا جا رہا ہے وہ تجرباتی نہیں ہے، اس لیے یہ دلیل دی جا سکتی ہے کہ طریقہ کار ڈیٹا سیٹ سے زیادہ درست ہے۔
اگرچہ اس کو کاغذ میں بہت مختصر طور پر نمٹا گیا ہے، لیکن EigenGAN کی تصاویر اور سسٹم کی اپنی پانچ شکلیں بھی ایک محدود صارف مطالعہ (آٹھ شرکاء) میں دکھائی گئیں، جن سے 'بہترین تصویر' کا انتخاب کرنے کو کہا گیا (لفظ 'پرکشش' تھا۔ گریز)۔

اوپر، چھوٹے مطالعہ گروپ کو پیش کردہ GUI؛ ذیل میں، نتائج.
نتائج سے ظاہر ہوتا ہے کہ نئے نظام کی پیداوار نے شرکاء میں سب سے زیادہ انتخاب کی شرح حاصل کی (اوپر کی تصویر میں 'MAES')۔
خوبصورتی کا (بے مقصد؟) حصول
اس طرح کے نظام کی افادیت کو قائم کرنا مشکل ہے، اس کے باوجود جو ظاہر ہوتا ہے a قابل ذکر مقامی of کوشش in چین ان مقاصد کی طرف۔ نئی اشاعت میں کسی کا خاکہ نہیں دیا گیا ہے۔
پچھلا EigenGAN پیپر تجویز کرتا ہے* کہ چہرے میں خوبصورتی کی شناخت کا نظام استعمال کیا جا سکتا ہے۔ میک اپ ترکیب کی سفارش کے نظام، جمالیاتی سرجری، چہرے کی خوبصورتی، یا مواد پر مبنی تصویر کی بازیافت۔
ممکنہ طور پر اس طرح کا نقطہ نظر ڈیٹنگ سائٹس میں بھی استعمال کیا جا سکتا ہے، اختتامی صارفین، اپنی پروفائل فوٹوز کو ایک گارنٹی شدہ 'لکی شاٹ' میں 'بڑھانے' کے لیے، پرانی تصاویر، یا تصاویر استعمال کرنے کے متبادل کے طور پر۔ دوسرے لوگوں کی.
اسی طرح، ڈیٹنگ سائٹس خود بھی اپنے کلائنٹس کو ریٹنگ بنانے کے لیے 'اسکور' کر سکتی ہیں اور یہاں تک کہ محدود رسائی کے درجات، اگرچہ یہ ممکنہ طور پر جمع کرائی گئی تصاویر کے بجائے صرف لائیونس تصدیق کی گرفتاری کے ذریعے ہی کام کرے گا (جو اسی طرح کلائنٹس کے ذریعہ 'بڑھایا' جا سکتا ہے، اگر نقطہ نظر مقبول ہو جائے)۔
تشہیر میں، خوبصورتی کا اندازہ لگانے کا ایک الگورتھمک طریقہ (ایک ٹیکنالوجی جس کی پیش گوئی آنجہانی سائنس فکشن مصنف مائیکل کرچٹن نے اپنے 1982 کے سنیما آؤٹنگ میں کی تھی۔ دیکھنےوالا) کا استعمال غیر بہتر تخلیقی آؤٹ پٹ کو منتخب کرنے کے لیے کیا جا سکتا ہے جو ہدف کے سامعین کو شامل کرنے کا زیادہ امکان رکھتا ہے، جبکہ چہرے کی تصاویر کے جمالیاتی اثر کو زیادہ سے زیادہ کرنے کی صلاحیت، انہیں ڈیپ فیکس کے انداز میں اوور رائٹ کیے بغیر، پہلے سے ہی موثر تصاویر کو فروغ دے سکتی ہے۔ عوامی دلچسپی حاصل کرنے کے لیے۔
نئے کام کو چائنا کی نیشنل نیچرل سائنس فاؤنڈیشن، اسٹیٹ کی لیبارٹری آف کمپلیکس سسٹم مینجمنٹ اینڈ کنٹرول کے اوپن فنڈ پروجیکٹ اور چین کی وزارت تعلیم کے فلسفہ اور سوشل سائنس ریسرچ کے پروجیکٹ کو دیگر معاونین کے ساتھ تعاون حاصل ہے۔
* EigenGAN پیپر کی بہت سی سفارشات تعلیمی وسائل کی بجائے تجارتی طور پر دستیاب 2016 کی کتاب کی طرف اشارہ کرتی ہیں جس کا عنوان 'کمپیوٹر ماڈلز فار فیشل بیوٹی اینالیسس' ہے۔
پہلی بار 11 اگست 2022 کو شائع ہوا۔