कृत्रिम बुद्धिमत्ता

चेहरे की आकर्षण पूर्वानुमान का अनुमान लाइवस्ट्रीम के लिए

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

अब तक, चेहरे की आकर्षण पूर्वानुमान (FAP) मुख्य रूप से मनोवैज्ञानिक अनुसंधान, सौंदर्य और सौंदर्य उद्योग, और सौंदर्य सर्जरी के संदर्भ में अध्ययन किया गया है। यह एक चुनौतीपूर्ण क्षेत्र है, क्योंकि सौंदर्य के मानक राष्ट्रीय के बजाय वैश्विक होने की प्रवृत्ति है।

इसका मतलब है कि कोई एक प्रभावी एआई-आधारित डेटासेट व्यवहार्य नहीं है, क्योंकि सभी संस्कृतियों से चेहरों / रेटिंग के नमूनों से प्राप्त औसत मूल्य बहुत पूर्वाग्रहपूर्ण होंगे (जहां अधिक आबादी वाले देश अतिरिक्त ट्रैक्शन प्राप्त करेंगे), या किसी भी संस्कृति के लिए लागू नहीं होंगे (जहां कई नस्लों / रेटिंग के औसत मूल्य वास्तव में किसी भी नस्ल के बराबर नहीं होंगे)।

इसके बजाय, चुनौती देश या संस्कृति-विशिष्ट डेटा को संसाधित करने में सक्षम संकल्पनात्मक विधियों और कार्यप्रवाहों को विकसित करना है, जिससे प्रति-क्षेत्र FAP मॉडल का विकास संभव हो सके।

सौंदर्य और मनोवैज्ञानिक अनुसंधान में FAP के उपयोग मामले बहुत ही सीमित हैं, या उद्योग-विशिष्ट हैं; इसलिए, अब तक क्यूरेट किए गए अधिकांश डेटासेट में सीमित डेटा है, या बिल्कुल भी प्रकाशित नहीं किए गए हैं।

ऑनलाइन आकर्षण पूर्वानुमानकर्ताओं की आसान उपलब्धता, जो मुख्य रूप से पश्चिमी दर्शकों के लिए लक्षित हैं, आवश्यक रूप से FAP में राज्य की कला का प्रतिनिधित्व नहीं करते हैं, जो वर्तमान में पूर्व एशियाई अनुसंधान (मुख्य रूप से चीन) द्वारा प्रभुत्व रखता है, और संबंधित पूर्व एशियाई डेटासेट।

डेटासेट के उदाहरण 2020 के पेपर ‘एशियन फीमेल फेशियल ब्यूटी प्रेडिक्शन USING डीप न्यूरल नेटवर्क्स वाया ट्रांसफर लर्निंग एंड मल्टी-चैनल फीचर फ्यूजन’ से। स्रोत: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

सौंदर्य अनुमान के व्यापक व्यावसायिक उपयोग में ऑनलाइन डेटिंग ऐप और जेनरेटिव एआई सिस्टम शामिल हैं जो लोगों के वास्तविक अवतार चित्रों को ‘‘टच अप’ करने के लिए डिज़ाइन किए गए हैं (क्योंकि ऐसे अनुप्रयोगों को प्रभावशीलता के एक मीट्रिक के रूप में सौंदर्य के एक मानकीकृत मानक की आवश्यकता होती है)।

चेहरे का चित्रण

आकर्षक व्यक्ति विज्ञापन और प्रभाव निर्माण में एक मूल्यवान संपत्ति बने हुए हैं, जिससे इन क्षेत्रों में वित्तीय प्रोत्साहन राज्य के अत्याधुनिक FAP डेटासेट और फ्रेमवर्क को आगे बढ़ाने का एक स्पष्ट अवसर प्रदान करते हैं।

उदाहरण के लिए, वास्तविक दुनिया के डेटा के साथ प्रशिक्षित एक एआई मॉडल जो चेहरे की सुंदरता का आकलन और रेटिंग कर सकता है, संभावित रूप से विज्ञापन प्रभाव के लिए उच्च संभावना वाली घटनाओं या व्यक्तियों की पहचान कर सकता है। यह क्षमता लाइव वीडियो स्ट्रीमिंग संदर्भों में विशेष रूप से प्रासंगिक होगी, जहां ‘फॉलोअर्स’ और ‘लाइक्स’ जैसे मेट्रिक्स केवल एक व्यक्ति (या यहां तक कि एक चेहरे के प्रकार) की दर्शकों को आकर्षित करने की क्षमता के संकेतक के रूप में कार्य करते हैं।

यह एक सतही मीट्रिक है, और आवाज, प्रस्तुति और दृष्टिकोण भी दर्शकों को एकत्र करने में महत्वपूर्ण भूमिका निभाते हैं। इसलिए, FAP डेटासेट के क्यूरेशन के लिए मानव पर्यवेक्षण की आवश्यकता होती है, साथ ही साथ चेहरे की आकर्षण से ‘स्पेशियस’ आकर्षण को अलग करने की क्षमता भी आवश्यक है (जिसके बिना, बाहरी प्रभावित लोग जैसे एलेक्स जोन्स अंततः एक संग्रह के लिए FAP कर्व को प्रभावित कर सकते हैं जो केवल चेहरे की सुंदरता का अनुमान लगाने के लिए डिज़ाइन किया गया है)।

लाइवब्यूटी

FAP डेटासेट की कमी को दूर करने के लिए, चीन के शोधकर्ता पहला बड़े पैमाने पर FAP डेटासेट पेश कर रहे हैं, जिसमें 100,000 चेहरे की छवियां शामिल हैं, साथ ही 200,000 मानव अन्नोटेशन जो चेहरे की सुंदरता का अनुमान लगाते हैं।

नये लाइवब्यूटी डेटासेट के नमूने। स्रोत: https://arxiv.org/pdf/2501.02509

लाइवब्यूटी नामक इस डेटासेट में 10,000 अलग-अलग पहचान शामिल हैं, जो सभी मार्च 2024 में (अनिर्दिष्ट) लाइव स्ट्रीमिंग प्लेटफॉर्म से कैप्चर किए गए हैं।

लेखक एक नए मल्टी-मॉडल FAP विधि को भी प्रस्तुत करते हैं, जिसे FPEM कहा जाता है। FPEM होलिस्टिक चेहरे के पूर्व ज्ञान और मल्टी-मॉडल एस्थेटिक सेमेंटिक विशेषताओं को एक व्यक्तिगत आकर्षण पूर्व मॉड्यूल (PAPM), एक मल्टी-मॉडल आकर्षण एनकोडर मॉड्यूल (MAEM), और एक क्रॉस-मॉडल फ्यूजन मॉड्यूल (CMFM) के माध्यम से एकीकृत करता है।

लेख में दावा किया जाता है कि FPEM नए लाइवब्यूटी डेटासेट और अन्य FAP डेटासेट पर राज्य के अत्याधुनिक प्रदर्शन को प्राप्त करता है। लेखकों का उल्लेख है कि शोध के लाइव स्ट्रीमिंग में वीडियो गुणवत्ता में सुधार, सामग्री सिफारिश, और चेहरे की रीटचिंग के लिए संभावित अनुप्रयोग हैं।

लेखक यह भी वादा करते हैं कि वे जल्द ही डेटासेट को उपलब्ध कराएंगे – हालांकि यह स्वीकार किया जाना चाहिए कि स्रोत डोमेन में निहित लाइसेंस प्रतिबंध अधिकांश परियोजनाओं में जो काम का उपयोग कर सकते हैं उनमें पारित होने की संभावना है।
लाइवब्यूटी के प्रशिक्षण पाइपलाइन के लिए एक概念ीय स्कीमा:

लाइवब्यूटी के प्रशिक्षण पाइपलाइन के लिए एक概念ीय स्कीमा

विधि और डेटा

प्रत्येक 10-घंटे के प्रसारण से शोधकर्ताओं ने पहले तीन घंटों में प्रति घंटे एक छवि को चुना। उच्चतम पेज दृश्य वाले प्रसारण चुने गए।

एकत्रित डेटा को तब कई पूर्व-प्रसंस्करण चरणों के अधीन किया गया। पहला चरण चेहरे के क्षेत्र का आकार मापन है, जो 2018 के सीपीयू-आधारित फेसबॉक्स डिटेक्शन मॉडल का उपयोग करके चेहरे की रेखाओं के चारों ओर एक बाउंडिंग बॉक्स उत्पन्न करता है। पाइपलाइन यह सुनिश्चित करती है कि बाउंडिंग बॉक्स की छोटी तरफ 90 पिक्सेल से अधिक है, जिससे छोटे या अस्पष्ट चेहरे के क्षेत्रों से बचा जा सके।

दूसरा चरण धुंधलापन का पता लगाना है, जो चेहरे के क्षेत्र में लैप्लास ऑपरेटर के वर्धित मान का उपयोग करके लागू किया जाता है। यह वर्धित मान 10 से अधिक होना चाहिए, जो धुंधली छवियों को फिल्टर करने में मदद करता है।

तीसरा चरण चेहरे की मुद्रा का अनुमान है, जो 2021 के 3DDFA-V2 मुद्रा अनुमान मॉडल का उपयोग करता है:

3DDFA-V2 अनुमान मॉडल के उदाहरण। स्रोत: https://arxiv.org/pdf/2009.09960

यहां कार्यप्रवाह यह सुनिश्चित करता है कि चेहरे की मुद्रा का पिच कोण 20 डिग्री से अधिक नहीं है, और याव कोण 15 डिग्री से अधिक नहीं है, जो अत्यधिक मुद्रा वाले चेहरों को बाहर कर देता है।

चौथा चरण चेहरे के अनुपात का मूल्यांकन है, जो 3DDFA-V2 मॉडल की सेगमेंटेशन क्षमताओं का भी उपयोग करता है, यह सुनिश्चित करता है कि चेहरे का क्षेत्र छवि के कुल क्षेत्र का 60% से अधिक है, जो छवि में चेहरे को प्रमुख बनाता है।

अंतिम चरण डुप्लिकेट पात्रों को हटाना है, जो एक (अनिर्दिष्ट) राज्य के अत्याधुनिक चेहरे पहचान मॉडल का उपयोग करता है, जो एक ही पहचान को एक से अधिक बार दिखाने वाले मामलों के लिए।

मानव मूल्यांकन और अन्नोटेशन

बीस अन्नोटेटरों को भर्ती किया गया, जिनमें छह पुरुष और 14 महिलाएं शामिल थीं, जो लाइव प्लेटफ़ॉर्म के जनसांख्यिकी को दर्शाती हैं।

मूल्यांकन 200 सत्रों में विभाजित किया गया था, जिनमें से प्रत्येक में 50 छवियां शामिल थीं। विषयों को 1-5 के पैमाने पर चेहरे की आकर्षण का मूल्यांकन करने के लिए कहा गया था, और प्रत्येक सत्र के बीच पांच मिनट का ब्रेक लागू किया गया था, और सभी विषयों ने सभी सत्रों में भाग लिया।

इस प्रकार, 10,000 छवियों का मूल्यांकन बीस मानव विषयों द्वारा किया गया, जिससे 200,000 अन्नोटेशन प्राप्त हुए।

विश्लेषण और पूर्व-प्रसंस्करण

पहले, विषय पोस्ट-स्क्रीनिंग आउटलायर अनुपात और स्पीयरमैन के रैंक ऑर्डर संबंध सांख्यिकी (SROCC) का उपयोग करके किया गया था। जिन विषयों की रेटिंग में SROCC 0.75 से कम या आउटलायर अनुपात 2% से अधिक था, उन्हें अविश्वसनीय माना जाता था और हटा दिया गया था, जिससे 20 विषय अंतिम रूप से प्राप्त हुए।

प्रत्येक चेहरे की छवि के लिए एक मीन ओपिनियन स्कोर (MOS) गणना की गई, जो वैध विषयों द्वारा प्राप्त स्कोर को औसत करके की गई। MOS प्रत्येक छवि के लिए आकर्षण का मूल्यांकन करने वाला मूल मान है, और स्कोर की गणना प्रत्येक वैध विषय से प्राप्त व्यक्तिगत स्कोर को औसत करके की जाती है।

अंत में, सभी नमूनों के लिए MOS वितरण का विश्लेषण, साथ ही महिला और पुरुष नमूनों के लिए, यह दर्शाता है कि वे गाउसियन-शैली का प्रदर्शन करते हैं, जो वास्तविक दुनिया के चेहरे की आकर्षण वितरण के साथ संगत है:

लाइवब्यूटी एमओएस वितरण के उदाहरण।

अधिकांश व्यक्तियों में औसत चेहरे की आकर्षण होती है, जिसमें बहुत कम व्यक्ति आकर्षण के चरम पर होते हैं।

इसके अलावा, विकृति और कुर्टोसिस मूल्यों का विश्लेषण यह दर्शाता है कि वितरण पतले पूंछ और औसत स्कोर के चारों ओर केंद्रित हैं, और महिला नमूनों में उच्च आकर्षण अधिक प्रचुर मात्रा में है एकत्रित लाइव स्ट्रीमिंग वीडियो में।

स्थापत्य

एक दो-चरण प्रशिक्षण रणनीति का उपयोग लाइवब्यूटी में FPEM और हाइब्रिड फ्यूजन चरण के लिए किया गया था, जो चार मॉड्यूल में विभाजित किया गया था: एक व्यक्तिगत आकर्षण पूर्व मॉड्यूल (PAPM), एक मल्टी-मॉडल आकर्षण एनकोडर मॉड्यूल (MAEM), एक क्रॉस-मॉडल फ्यूजन मॉड्यूल (CMFM), और एक निर्णय फ्यूजन मॉड्यूल (DFM)।

[livebeauty के प्रशिक्षण पाइपलाइन के लिए एक conceptua]

लाइवब्यूटी के प्रशिक्षण पाइपलाइन के लिए एक conceptua

PAPM मॉड्यूल एक छवि को इनपुट के रूप में लेता है और एक स्विन ट्रांसफॉर्मर का उपयोग करके मल्टी-स्केल विज़ुअल विशेषताओं को निकालता है, और एक पूर्व-प्रशिक्षित फेसनेट मॉडल का उपयोग करके चेहरे की विशेषताओं को निकालता है। इन विशेषताओं को एक क्रॉस-ध्यान ब्लॉक का उपयोग करके एक व्यक्तिगत ‘आकर्षण’ विशेषता बनाने के लिए जोड़ा जाता है।

इसके अलावा, प्रारंभिक प्रशिक्षण चरण में, MAEM एक छवि और आकर्षण के पाठ वर्णन का उपयोग करता है, जो CLIP का उपयोग करके मल्टी-मॉडल एस्थेटिक सेमेंटिक विशेषताओं को निकालता है।

पाठ वर्णन एक निर्धारित प्रारूप में होते हैं, जैसे कि ‘एक व्यक्ति की एक तस्वीर जिसमें {a} आकर्षण है‘ (जहां {a} खराब, गरीब, न्यायसंगत, अच्छा या उत्कृष्ट हो सकता है)। प्रक्रिया पाठ और दृश्य एम्बेडिंग के बीच कोसाइन समानता का अनुमान लगाकर आकर्षण स्तर की संभावना का अनुमान लगाती है।

हाइब्रिड फ्यूजन चरण में, CMFM व्यक्तिगत आकर्षण विशेषता द्वारा उत्पन्न पाठ एम्बेडिंग को परिष्कृत करता है, जिससे व्यक्तिगत पाठ एम्बेडिंग उत्पन्न होती है। यह तब एक समानता प्रतिगमन रणनीति का उपयोग करके एक पूर्वानुमान बनाता है।

अंत में, DFM PAPM, MAEM, और CMFM से व्यक्तिगत पूर्वानुमानों को जोड़ती है, जिससे एक एकल, अंतिम आकर्षण स्कोर उत्पन्न होता है, जिसका उद्देश्य एक मजबूत सहमति प्राप्त करना है।

हानि कार्य

परीक्षण

शोधकर्ताओं ने लाइवब्यूटी को नौ पूर्ववर्ती दृष्टिकोणों के खिलाफ पिट किया: कॉम्बोनेट; 2D-FAP; REX-INCEP; CNN-ER (REX-INCEP में चित्रित); MEBeauty; AVA-MLSP; TANet; Dele-Trans; और EAT।

बेसलाइन विधियों को छवि सौंदर्य मूल्यांकन (IAA) प्रोटोकॉल के अनुरूप बनाया गया था। इनमें ViT-B; ResNeXt-50; और Inception-V3 शामिल थे।

लाइवब्यूटी के अलावा, अन्य परीक्षण किए गए डेटासेट में SCUT-FBP5000 और MEBeauty शामिल थे। नीचे इन डेटासेट के MOS वितरण की तुलना की गई है:

बेंचमार्क डेटासेट के MOS वितरण।

क्रमशः, ये अतिथि डेटासेट 60%-40% और 80%-20% के लिए प्रशिक्षण और परीक्षण के लिए विभाजित किए गए थे, अलग-अलग, उनके मूल प्रोटोकॉल के साथ संगतता बनाए रखने के लिए। लाइवब्यूटी को 90%-10% के आधार पर विभाजित किया गया था।

मॉडल प्रारंभिकरण के लिए MAEM में, VT-B/16 और GPT-2 को क्रमशः छवि और पाठ एनकोडर के रूप में उपयोग किया गया था, जो CLIP से सेटिंग्स द्वारा प्रारंभिक किया गया था। PAPM के लिए, स्विन-T को एक प्रशिक्षित छवि एनकोडर के रूप में उपयोग किया गया था, स्विनफेस के अनुसार।

एडमडब्ल्यू ऑप्टिमाइज़र का उपयोग किया गया था, और एक लर्निंग रेट शेड्यूलर सेट किया गया था, जिसमें लीनियर वार्म-अप कोसाइन एनीलिंग योजना के तहत। प्रशिक्षण चरणों में लर्निंग दरें भिन्न थीं, लेकिन प्रत्येक में बैच आकार 32, 50 epochs के लिए था।

परीक्षणों से परिणाम

तीन FAP डेटासेट पर परीक्षणों के परिणाम ऊपर दिखाए गए हैं। इन परिणामों में, लेख कहता है:

‘हमारी प्रस्तावित विधि पहले स्थान पर है और दूसरे स्थान से लगभग 0.012, 0.081, 0.021 के SROCC मूल्यों में लाइवब्यूटी, MEBeauty और SCUT-FBP5500 पर पार करती है, जो हमारी प्रस्तावित विधि की श्रेष्ठता को प्रदर्शित करती है।

‘IAA विधियां FAP विधियों से कमजोर हैं, जो यह दर्शाती हैं कि सामान्य सौंदर्य मूल्यांकन विधियां चेहरे की विशेषताओं को नजरअंदाज करती हैं जो चेहरे की आकर्षण के विषयगत प्रकृति में शामिल हैं, जिससे FAP कार्यों पर खराब प्रदर्शन होता है।

‘सभी विधियों का प्रदर्शन MEBeauty पर काफी गिर जाता है। यह इसलिए है क्योंकि प्रशिक्षण नमूने सीमित हैं और MEBeauty में चेहरे नस्लीय रूप से विविध हैं, जो चेहरे की आकर्षण में बड़ी विविधता को दर्शाता है।

‘यह सभी कारक MEBeauty में चेहरे की आकर्षण की भविष्यवाणी को अधिक चुनौतीपूर्ण बनाते हैं।

नैतिक विचार

आकर्षण के अनुसंधान में एक संभावित रूप से विभाजनकारी पीछा है, क्योंकि कथित तौर पर सौंदर्य के सांख्यिकीय मानक स्थापित करने वाली प्रणालियां आयु, नस्ल, और मानवों से संबंधित कंप्यूटर दृष्टि अनुसंधान के कई अन्य खंडों के आसपास पूर्वाग्रहों को मजबूत और पुनरावृत्ति करने की प्रवृत्ति रखती हैं।

यह तर्क दिया जा सकता है कि एक FAP प्रणाली आंतरिक रूप से आकर्षण के बारे में आंशिक और पूर्वाग्रहपूर्ण दृष्टिकोणों को मजबूत और पुनरावृत्ति करने के लिए पूर्वनिर्धारित है। ये निर्णय मानव-नेतृत्व वाले अन्नोटेशन से उत्पन्न हो सकते हैं – अक्सर प्रभावी डोमेन सामान्यीकरण के लिए बहुत सीमित स्केल पर किए जाते हैं – या ऑनलाइन वातावरण जैसे स्ट्रीमिंग प्लेटफ़ॉर्म में ध्यान पैटर्न का विश्लेषण करके, जो कि किसी भी तरह से योग्यता आधारित नहीं होते हैं।

* लेख में स्रोत डोमेन को एकवचन और बहुवचन दोनों में संदर्भित किया गया है।

पहली बार बुधवार, 8 जनवरी, 2025 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai