कृत्रिम बुद्धिमत्ता

एक एआई सिस्टम जो लोगों की तस्वीरों को और अधिक ‘सुंदर’ बना सकता है

Published August 11, 2022

Updated April 28, 2026

Martin Anderson

Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

चीन के शोधकर्ताओं ने एक नए एआई-आधारित इमेज एन्हांसमेंट सिस्टम का विकास किया है जो एक व्यक्ति की तस्वीरों को और अधिक ‘सुंदर’ बनाने में सक्षम है, जो एक नए दृष्टिकोण पर आधारित है जो पुनरावृत्ति सीखने के लिए है।

नया दृष्टिकोण एक ‘फेशियल ब्यूटी प्रेडिक्शन नेटवर्क’ का उपयोग करता है जो कई कारकों के आधार पर एक छवि के संस्करणों के माध्यम से पुनरावृत्ति करता है, जिनमें से ‘प्रकाश’ और आंखों की मुद्रा महत्वपूर्ण कारक हो सकते हैं। यहाँ मूल स्रोत (प्रत्येक कॉलम के बाईं ओर) EigenGAN सिस्टम से हैं, और नए परिणाम इनसे दाईं ओर हैं। स्रोत: https://arxiv.org/pdf/2208.04517.pdf

यह तकनीक 2021 में एक अन्य चीनी परियोजना, EigenGAN जेनरेटर पर खोजे गए नवाचारों पर आधारित है, जिसने जेनरेटिव एडवर्सेरियल नेटवर्क (GANs) के लेटेंट स्पेस में विविध सेमेंटिक विशेषताओं की पहचान और नियंत्रण में महत्वपूर्ण प्रगति की थी।

2021 EigenGAN जेनरेटर उच्च-स्तरीय अवधारणाओं जैसे ‘बाल रंग’ को जेनरेटिव एडवर्सेरियल नेटवर्क के लेटेंट स्पेस में अलग कर सकता था। नए काम में इस नवाचारी साधन का उपयोग करके एक सिस्टम विकसित किया गया है जो स्रोत छवियों को ‘सुंदर’ बना सकता है, लेकिन पहचानने योग्य पहचान को बदले बिना – पिछले दृष्टिकोणों में एक समस्या है। स्रोत: https://arxiv.org/pdf/2104.12476.pdf

सिस्टम एक ‘एस्थेटिक्स स्कोर नेटवर्क’ का उपयोग करता है जो दक्षिण चीन प्रौद्योगिकी विश्वविद्यालय, गुआंगज़ौ से 2018 के एक बेंचमार्क डेटासेट, SCUT-FBP5500 (SCUT) से प्राप्त होता है।

2018 के पेपर ‘SCUT-FBP5500: एक विविध बेंचमार्क डेटासेट फॉर मल्टी-पैराडिग्म फेशियल ब्यूटी प्रेडिक्शन’ से, जिसने एक ‘फेशियल ब्यूटी प्रेडिक्शन’ (FBP) नेटवर्क प्रदान किया जो आकर्षण के संदर्भ में चेहरों को रैंक करने में सक्षम था, लेकिन जो वास्तव में चेहरों को बदल या ‘अपग्रेड’ नहीं कर सकता था। स्रोत: https://arxiv.org/pdf/1801.06345.pdf

इसके अलावा, नए काम में यह बताया गया है कि यह प्रणाली कैसे काम करती है और इसके परिणाम क्या हैं।

प्रासंगिक विशेषताएं

एक व्यक्ति की ‘सुंदर’ तस्वीर के लिए प्राथमिक योगदान करने वाले कारकों का निर्धारण करने के लिए, शोधकर्ताओं ने विभिन्न परिवर्तनों का प्रभाव भी परीक्षण किया, जो छवियों में ‘सुंदरता’ की अल्गोरिदमिक धारणा को बढ़ाने में कैसे मदद करते हैं। उन्होंने पाया कि कम से कम एक पहलू अच्छी फोटोग्राफी की तुलना में अच्छे जेनेटिक्स से अधिक महत्वपूर्ण है:

इसके अलावा, जो पहलू सबसे बड़ा प्रभाव डालते हैं वे हैं बैंग्स (जो पुरुषों के मामले में अक्सर पूरे सिर के बाल होने के समान हो सकते हैं), शरीर की मुद्रा, और आंखों की स्थिति (जहां कैमरे के दृष्टिकोण के साथ जुड़ाव आकर्षण में वृद्धि करता है)।

विधि

नए सिस्टम में पुनरावृत्ति सीखने के तंत्र में पुरस्कार कार्य SCUT डेटा पर एक सरल प्रतिगमन द्वारा संचालित होता है, जो फेशियल सुंदरता की भविष्यवाणी करता है।

प्रशिक्षण प्रणाली डेटा इनपुट छवियों (नीचे बाएं में स्कीमेटिक) पर पुनरावृत्ति करती है। शुरू में एक पूर्व-प्रशिक्षित ResNet18 मॉडल (ImageNet पर प्रशिक्षित) पांच समान (‘y’) छवियों से विशेषताओं को निकालता है। उसके बाद, एक संभावित परिवर्तनकारी कार्य एक पूरी तरह से जुड़े हुए परत (GRUCell, छवि में) की छुपी हुई स्थिति से प्राप्त किया जाता है, और परिवर्तन लागू किए जाते हैं, जिससे पांच परिवर्तित छवियां बनती हैं जो सौंदर्य स्कोर नेटवर्क में डाली जाती हैं, जिनकी रैंकिंग, डार्विन-शैली में, यह निर्धारित करेगी कि कौन से संस्करण विकसित किए जाएंगे और कौन से त्याग दिए जाएंगे।

नए सिस्टम के कार्यप्रवाह का एक विस्तृत चित्रण。

सौंदर्य स्कोर नेटवर्क एक कुशल चैनल ध्यान (ECA) मॉड्यूल का उपयोग करता है, जबकि एक पूर्व-प्रशिक्षित EfficientNet-B4 का एक अनुकूलन प्रत्येक छवि से 1,792 विशेषताओं को निकालने के लिए कार्य करता है।

इसके बाद, एक 4-आयामी वेक्टर एक ReLU सक्रियण कार्य के माध्यम से सामान्यीकरण के बाद ECA मॉड्यूल से प्राप्त किया जाता है, जो तब एक एकल-आयामी वेक्टर में समतल हो जाता है जो सक्रियण और अनुकूली औसत पूलिंग के बाद आता है। अंत में, परिणाम प्रतिगमन नेटवर्क में डाले जाते हैं, जो सौंदर्य स्कोर प्राप्त करता है।

परीक्षण और उपयोगकर्ता अध्ययन

प्रस्तावित विधि के पांच संस्करणों का अल्गोरिदमिक रूप से मूल्यांकन किया गया (ऊपर दी गई छवि देखें), जिसमें 1000 छवियों को सिस्टम के माध्यम से डाला गया और फ्रेचेट इन्सेप्शन दूरी (FID, कुछ क्षेत्रों में विवादास्पद) स्कोर सौंपा गया।

शोधकर्ताओं का उल्लेख है कि प्रकाश में सुधार ने विषयों के लिए आकर्षण स्कोर में बेहतर परिणाम दिया है, जो कि अन्य परिवर्तनों की तुलना में अधिक प्रभावी हो सकता है।

सौंदर्य की (निर्देशित?) खोज

इस तरह की प्रणाली की उपयोगिता का निर्धारण करना मुश्किल है,尽管 यह एक उल्लेखनीय केंद्र का प्रयास चीन में इन लक्ष्यों की ओर है। नए प्रकाशन में इसका कोई उल्लेख नहीं है।

पिछले EigenGAN पेपर से सुझाव मिलता है कि एक सौंदर्य-मान्यता प्रणाली का उपयोग चेहरे की मेकअप सिंथेसिस अनुशंसा प्रणालियों, सौंदर्य शल्य चिकित्सा, चेहरे की सुंदरता में सुधार, या सामग्री-आधारित छवि पुनर्प्राप्ति में किया जा सकता है।

संभवतः इस दृष्टिकोण का उपयोग डेटिंग साइटों पर भी किया जा सकता है, जहां उपयोगकर्ता अपने प्रोफाइल फोटो को ‘सुंदर’ बनाने के लिए इसका उपयोग कर सकते हैं, या डेटिंग साइटें अपने ग्राहकों को रेट करने के लिए इसका उपयोग कर सकती हैं और प्रतिबंधित पहुंच वाले स्तर बना सकती हैं।

विज्ञापन में, एक अल्गोरिदमिक विधि सौंदर्य का मूल्यांकन करने के लिए उपयोग की जा सकती है जो लक्ष्य दर्शकों को आकर्षित करने वाली रचनात्मक सामग्री का चयन करने में मदद कर सकती है, जबकि चेहरे की छवियों को वास्तव में ओवरराइट किए बिना उनके सौंदर्य प्रभाव को अधिकतम करने की क्षमता पहले से ही प्रभावी छवियों को बढ़ावा दे सकती है जो सार्वजनिक हित को आकर्षित करने के लिए डिज़ाइन की गई हैं।

नया काम चीन के राष्ट्रीय प्राकृतिक विज्ञान फाउंडेशन, राज्य की मुख्य प्रणाली प्रबंधन और नियंत्रण प्रयोगशाला के खुले फंड परियोजना द्वारा, और चीन के शिक्षा मंत्रालय से दर्शन और सामाजिक विज्ञान अनुसंधान परियोजना द्वारा समर्थित है, साथ ही अन्य समर्थकों द्वारा।

पहली बार 11 अगस्त 2022 को प्रकाशित किया गया。

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एक एआई सिस्टम जो लोगों की तस्वीरों को और अधिक ‘सुंदर’ बना सकता है

प्रासंगिक विशेषताएं

विधि

परीक्षण और उपयोगकर्ता अध्ययन

सौंदर्य की (निर्देशित?) खोज

You may like