Artificial Intelligence
लाइवस्ट्रीम के लिए चेहरे के आकर्षण का अनुमान लगाना

आज तक, चेहरे के आकर्षण की भविष्यवाणी (FAP) का अध्ययन मुख्य रूप से मनोवैज्ञानिक शोध, सौंदर्य और सौंदर्य प्रसाधन उद्योग और कॉस्मेटिक सर्जरी के संदर्भ में किया गया है। यह अध्ययन का एक चुनौतीपूर्ण क्षेत्र है, क्योंकि सुंदरता के मानक आमतौर पर भिन्न होते हैं। वैश्विक के बजाय राष्ट्रीय.
इसका मतलब यह है कि कोई भी प्रभावी एआई-आधारित डेटासेट व्यवहार्य नहीं है, क्योंकि सभी संस्कृतियों से चेहरों/रेटिंग के नमूने से प्राप्त औसत बहुत पक्षपाती होगा (जहां अधिक आबादी वाले देशों को अतिरिक्त कर्षण मिलेगा), अन्यथा लागू होगा कोई संस्कृति नहीं (जहां कई दौड़ों/रेटिंग का औसत वास्तविक दौड़ के बिना ही होगा)।
इसके बजाय, चुनौती विकास की है वैचारिक पद्धतियाँ और कार्यप्रवाह जिसमें देश या संस्कृति-विशिष्ट डेटा को संसाधित किया जा सके, ताकि प्रति-क्षेत्र प्रभावी FAP मॉडल का विकास संभव हो सके।
सौंदर्य और मनोवैज्ञानिक अनुसंधान में एफएपी के उपयोग के मामले काफी सीमांत हैं, अन्यथा उद्योग-विशिष्ट हैं; इसलिए आज तक संकलित अधिकांश डेटासेट में केवल सीमित डेटा है, या उन्हें बिल्कुल भी प्रकाशित नहीं किया गया है।
ऑनलाइन आकर्षण पूर्वानुमानों की आसान उपलब्धता, जो अधिकतर पश्चिमी दर्शकों को ध्यान में रखकर बनाए गए हैं, आवश्यक रूप से FAP में अत्याधुनिक तकनीक का प्रतिनिधित्व नहीं करते हैं, जिस पर वर्तमान में पूर्वी एशियाई अनुसंधान (मुख्य रूप से चीन) और संबंधित पूर्वी एशियाई डेटासेट का प्रभुत्व है।

2020 के पेपर 'ट्रांसफर लर्निंग और मल्टी-चैनल फ़ीचर फ़्यूज़न के माध्यम से डीप न्यूरल नेटवर्क का उपयोग करके एशियाई महिला चेहरे की सुंदरता की भविष्यवाणी' से डेटासेट उदाहरण। Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
सौंदर्य आकलन के व्यापक व्यावसायिक उपयोगों में शामिल हैं ऑनलाइन डेटिंग ऐप्स, और जनरेटिव एआई सिस्टम को डिज़ाइन किया गया है लोगों की वास्तविक अवतार छवियों को 'टच अप' करें (चूंकि ऐसे अनुप्रयोगों के लिए प्रभावशीलता के माप के रूप में सौंदर्य के एक परिमाणित मानक की आवश्यकता होती है)।
चेहरे बनाना
आकर्षक व्यक्ति विज्ञापन और प्रभाव-निर्माण में एक मूल्यवान परिसंपत्ति बने हुए हैं, जिससे इन क्षेत्रों में वित्तीय प्रोत्साहन अत्याधुनिक FAP डेटासेट और ढांचे को आगे बढ़ाने के लिए एक स्पष्ट अवसर बन गया है।
उदाहरण के लिए, चेहरे की सुंदरता का आकलन करने और रेटिंग देने के लिए वास्तविक दुनिया के डेटा से प्रशिक्षित एक AI मॉडल संभावित रूप से उन घटनाओं या व्यक्तियों की पहचान कर सकता है जिनमें विज्ञापन प्रभाव की उच्च क्षमता है। यह क्षमता विशेष रूप से लाइव वीडियो स्ट्रीमिंग संदर्भों में प्रासंगिक होगी, जहाँ 'फ़ॉलोअर्स' और 'लाइक' जैसे मेट्रिक्स वर्तमान में केवल एक के रूप में काम करते हैं। अंतर्निहित किसी व्यक्ति (या यहां तक कि चेहरे के प्रकार) की दर्शकों को आकर्षित करने की क्षमता के संकेतक।
यह निश्चित रूप से एक सतही मीट्रिक है, और आवाज़, प्रस्तुति और दृष्टिकोण भी दर्शकों को इकट्ठा करने में महत्वपूर्ण भूमिका निभाते हैं। इसलिए FAP डेटासेट के क्यूरेशन के लिए मानवीय निगरानी की आवश्यकता होती है, साथ ही चेहरे को 'दिखावटी' आकर्षण से अलग करने की क्षमता की भी आवश्यकता होती है (जिसके बिना, एलेक्स जोन्स जैसे आउट-ऑफ-डोमेन प्रभावशाली व्यक्ति केवल चेहरे की सुंदरता का अनुमान लगाने के लिए डिज़ाइन किए गए संग्रह के लिए औसत FAP वक्र को प्रभावित कर सकते हैं)।
लाइवब्यूटी
एफएपी डेटासेट की कमी को दूर करने के लिए, चीन के शोधकर्ता पहला बड़े पैमाने का एफएपी डेटासेट पेश कर रहे हैं, जिसमें 100,000 चेहरे की छवियां शामिल हैं, साथ ही चेहरे की सुंदरता का अनुमान लगाने वाले 200,000 मानव एनोटेशन भी शामिल हैं।

नए लाइवब्यूटी डेटासेट से नमूने. स्रोत: https://arxiv.org/pdf/2501.02509
हकदार लाइवब्यूटीडेटासेट में 10,000 अलग-अलग पहचानें हैं, जो सभी (अनिर्दिष्ट) लाइव स्ट्रीमिंग प्लेटफार्मों से मार्च 2024 में ली गई हैं।
लेखक FPEM भी प्रस्तुत करते हैं, जो एक नवीन मल्टी-मोडल FAP विधि है। FPEM समग्र चेहरे के पूर्व ज्ञान और मल्टी-मोडल सौंदर्य अर्थ को एकीकृत करता है विशेषताएं एक वैयक्तिकृत आकर्षण पूर्व मॉड्यूल (पीएपीएम), एक बहु-मोडल आकर्षण एनकोडर मॉड्यूल (एमएईएम), और एक क्रॉस-मोडल फ्यूजन मॉड्यूल (सीएमएफएम) के माध्यम से।
पेपर का दावा है कि FPEM नए लाइवब्यूटी डेटासेट और अन्य FAP डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त करता है। लेखकों ने नोट किया कि इस शोध में वीडियो की गुणवत्ता बढ़ाने, सामग्री अनुशंसा और लाइव स्ट्रीमिंग में चेहरे की रिटचिंग के लिए संभावित अनुप्रयोग हैं।
लेखकों ने यह भी वादा किया है कि वे डेटासेट को 'शीघ्र' उपलब्ध करा देंगे - हालांकि यह स्वीकार किया जाना चाहिए कि स्रोत डोमेन में निहित कोई भी लाइसेंसिंग प्रतिबंध, अधिकांश लागू परियोजनाओं पर लागू होने की संभावना है, जो इस कार्य का उपयोग कर सकती हैं।
RSI नया कागज शीर्षक है लाइव स्ट्रीमिंग में चेहरे के आकर्षण का पूर्वानुमान: एक नया बेंचमार्क और मल्टी-मोडल तरीका, और अलीबाबा समूह और शंघाई जियाओ टोंग विश्वविद्यालय के दस शोधकर्ताओं से आया है।
विधि और डेटा
लाइव स्ट्रीमिंग प्लेटफॉर्म से प्रत्येक 10 घंटे के प्रसारण से, शोधकर्ताओं ने पहले तीन घंटों के लिए प्रति घंटे एक छवि चुनी। सबसे अधिक पेज व्यू वाले प्रसारणों का चयन किया गया।
इसके बाद एकत्रित डेटा को कई पूर्व-प्रसंस्करण चरणों से गुज़ारा गया। इनमें से पहला चरण है चेहरे के क्षेत्र का आकार माप, जो 2018 सीपीयू-आधारित का उपयोग करता है फेसबॉक्स चेहरे की रेखाओं के चारों ओर एक बाउंडिंग बॉक्स बनाने के लिए डिटेक्शन मॉडल। पाइपलाइन यह सुनिश्चित करती है कि बाउंडिंग बॉक्स का छोटा भाग 90 पिक्सेल से अधिक हो, जिससे छोटे या अस्पष्ट चेहरे वाले क्षेत्रों से बचा जा सके।
दूसरा चरण है धुंधलापन पहचान, जो कि भिन्नता का उपयोग करके चेहरे के क्षेत्र पर लागू किया जाता है लाप्लासियन ऑपरेटर चेहरे की फसल की ऊंचाई (Y) चैनल में। यह भिन्नता 10 से अधिक होनी चाहिए, जो धुंधली छवियों को फ़िल्टर करने में मदद करती है।
तीसरा चरण है चेहरे की मुद्रा का अनुमान, जो 2021 का उपयोग करता है 3DDFA-V2 मुद्रा आकलन मॉडल:

3DDFA-V2 अनुमान मॉडल से उदाहरण. स्रोत: https://arxiv.org/pdf/2009.09960
यहां कार्यप्रवाह यह सुनिश्चित करता है कि काटे गए चेहरे का पिच कोण 20 डिग्री से अधिक न हो, तथा यॉ कोण 15 डिग्री से अधिक न हो, जिसमें चरम मुद्रा वाले चेहरे शामिल नहीं हैं।
चौथा चरण है चेहरे के अनुपात का आकलन, जो 3DDFA-V2 मॉडल की विभाजन क्षमताओं का भी उपयोग करता है, यह सुनिश्चित करता है कि क्रॉप किए गए चेहरे के क्षेत्र का अनुपात छवि के 60% से अधिक है, उन छवियों को छोड़कर जहां चेहरा प्रमुख नहीं है। यानी, समग्र चित्र में छोटा है।
अंत में, पांचवां चरण है डुप्लिकेट वर्ण हटाना, जो एक (अप्रमाणित) अत्याधुनिक चेहरा पहचान मॉडल का उपयोग करता है, उन मामलों के लिए जहां एक ही पहचान 10 घंटे के वीडियो के लिए एकत्र की गई तीन छवियों में से एक से अधिक में दिखाई देती है।
मानव मूल्यांकन और एनोटेशन
बीस एनोटेटर्स की भर्ती की गई, जिसमें छह पुरुष और 14 महिलाएं शामिल थीं, जो इस्तेमाल किए गए लाइव प्लेटफ़ॉर्म की जनसांख्यिकी को दर्शाती हैं। लगातार प्रयोगशाला स्थितियों के तहत, iPhone 6.7 प्रो मैक्स की 14 इंच की स्क्रीन पर चेहरे प्रदर्शित किए गए।
मूल्यांकन 200 सत्रों में विभाजित किया गया था, जिनमें से प्रत्येक में 50 छवियों का उपयोग किया गया था। विषयों को नमूनों के चेहरे के आकर्षण को 1-5 के स्कोर पर रेट करने के लिए कहा गया था, प्रत्येक सत्र के बीच पांच मिनट का ब्रेक लागू किया गया था, और सभी विषयों ने सभी सत्रों में भाग लिया था।
अतः 10,000 छवियों का मूल्यांकन बीस मानव विषयों पर किया गया, जिससे 200,000 टिप्पणियां प्राप्त हुईं।
विश्लेषण और पूर्व प्रसंस्करण
सबसे पहले, आउटलाइअर अनुपात का उपयोग करके विषय की पोस्ट-स्क्रीनिंग की गई और स्पीयरमैन रैंक सहसंबंध गुणांक (एसआरओसीसी)। वे विषय जिनकी रेटिंग में एसआरओसीसी 0.75 से कम या ग़ैर 2% से अधिक अनुपात वाले विषयों को अविश्वसनीय माना गया और उन्हें हटा दिया गया, तथा अंततः 20 विषयों को प्राप्त किया गया।
फिर प्रत्येक चेहरे की छवि के लिए वैध विषयों द्वारा प्राप्त अंकों का औसत निकालकर एक औसत राय स्कोर (एमओएस) की गणना की गई। एमओएस एक प्रकार से कार्य करता है। वास्तविक्ता प्रत्येक छवि के लिए आकर्षण लेबल, तथा स्कोर की गणना प्रत्येक वैध विषय के सभी व्यक्तिगत स्कोर का औसत लेकर की जाती है।
अंत में, सभी नमूनों के साथ-साथ महिला और पुरुष नमूनों के लिए एमओएस वितरण के विश्लेषण से पता चला कि उन्होंने गाऊसी शैली का आकार, जो वास्तविक दुनिया के चेहरे के आकर्षण वितरण के अनुरूप है:

लाइवब्यूटी एमओएस वितरण के उदाहरण।
अधिकांश व्यक्तियों का चेहरा औसत आकर्षक होता है, तथा बहुत कम व्यक्तियों का चेहरा बहुत कम या बहुत अधिक आकर्षक होता है।
इसके अलावा, विश्लेषण तिरछापन और कुर्टोसिस मानों से पता चला कि वितरण पतली पूंछ द्वारा चिह्नित थे और औसत स्कोर के आसपास केंद्रित थे, और महिला नमूनों में उच्च आकर्षण अधिक प्रचलित था एकत्रित लाइव स्ट्रीमिंग वीडियो में।
आर्किटेक्चर
लाइवब्यूटी में फेशियल प्रायर एनहैंस्ड मल्टी-मोडल मॉडल (एफपीईएम) और हाइब्रिड फ्यूजन चरण के लिए दो-चरणीय प्रशिक्षण रणनीति का उपयोग किया गया, जिसे चार मॉड्यूलों में विभाजित किया गया: एक व्यक्तिगत आकर्षण प्रायर मॉड्यूल (पीएपीएम), एक मल्टी-मोडल आकर्षण एनकोडर मॉड्यूल (एमएईएम), एक क्रॉस-मोडल फ्यूजन मॉड्यूल (सीएमएफएम) और एक निर्णय फ्यूजन मॉड्यूल (डीएफएम)।

लाइवब्यूटी की प्रशिक्षण पाइपलाइन के लिए संकल्पनात्मक स्कीमा।
PAPM मॉड्यूल एक छवि को इनपुट के रूप में लेता है और एक छवि का उपयोग करके बहु-स्तरीय दृश्य विशेषताओं को निकालता है। स्विन ट्रांसफार्मर, और एक पूर्व प्रशिक्षित का उपयोग करके फेस-अवेयर फीचर्स भी निकालता है फेसनेट मॉडल का उपयोग करके इन सुविधाओं को संयोजित किया जाता है। क्रॉस-ध्यान एक व्यक्तिगत 'आकर्षकता' सुविधा बनाने के लिए ब्लॉक।
प्रारंभिक प्रशिक्षण चरण में भी, एमएईएम आकर्षण का चित्र और पाठ वर्णन का उपयोग करता है, क्लिप बहु-मोडल सौंदर्य अर्थ संबंधी विशेषताओं को निकालने के लिए।
टेम्पलेटेड पाठ विवरण इस प्रकार हैं 'किसी आकर्षक व्यक्ति की तस्वीर' (कहा पे {ए} हो सकता है बुरा, गरीब, निष्पक्ष, अच्छा or उत्तम) प्रक्रिया अनुमान लगाती है cosine समानता पाठ्य और दृश्य एम्बेडिंग के बीच आकर्षण स्तर की संभावना पर पहुंचने के लिए।
हाइब्रिड फ्यूजन चरण में, CMFM PAPM द्वारा उत्पन्न व्यक्तिगत आकर्षण विशेषता का उपयोग करके पाठ्य एम्बेडिंग को परिष्कृत करता है, जिससे व्यक्तिगत पाठ्य एम्बेडिंग उत्पन्न होती है। इसके बाद यह एक समानता प्रतिगमन भविष्यवाणी करने की रणनीति.
अंत में, डीएफएम पीएपीएम, एमएईएम और सीएमएफएम से अलग-अलग भविष्यवाणियों को मिलाकर एक एकल, अंतिम आकर्षण स्कोर तैयार करता है, जिसका लक्ष्य एक मजबूत आम सहमति प्राप्त करना है।
हानि कार्य
के लिए हानि मीट्रिक, PAPM को एक का उपयोग करके प्रशिक्षित किया जाता है एल1 हानि, पूर्वानुमानित आकर्षण स्कोर और वास्तविक (जमीनी सच्चाई) आकर्षण स्कोर के बीच पूर्ण अंतर का एक माप।
MAEM मॉड्यूल एक अधिक जटिल हानि फ़ंक्शन का उपयोग करता है जो स्कोरिंग हानि (LS) को मर्ज किए गए रैंकिंग हानि (LR) के साथ जोड़ता है। रैंकिंग हानि (LR) में एक फ़िडेलिटी हानि (LR1) और एक शामिल है दो-दिशा रैंकिंग हानि (एलआर2).
LR1 छवि युग्मों के सापेक्ष आकर्षण की तुलना करता है, जबकि LR2 सुनिश्चित करता है कि आकर्षण स्तरों के पूर्वानुमानित संभाव्यता वितरण में एक ही शिखर हो और दोनों दिशाओं में घटता हो। इस संयुक्त दृष्टिकोण का उद्देश्य आकर्षण के आधार पर छवियों के सटीक स्कोरिंग और सही रैंकिंग दोनों को अनुकूलित करना है।
सीएमएफएम और डीएफएम को सरल एल1 हानि का उपयोग करके प्रशिक्षित किया जाता है।
टेस्ट
परीक्षणों में, शोधकर्ताओं ने लाइवब्यूटी को नौ पूर्व तरीकों के विरुद्ध खड़ा किया: कॉम्बोनेट; 2डी-एफएपी; रेक्स-इनसेप; सीएनएन-ईआर (रेक्स-इनसेप में प्रदर्शित); एमईब्यूटी; एवीए-एमएलएसपी; टीएनेट; डेले-ट्रांस, और खाना खा लो.
आधारभूत विधियाँ जो एक के अनुरूप हैं छवि सौंदर्य मूल्यांकन (आईएए) प्रोटोकॉल का भी परीक्षण किया गया। वीआईटी-बी; रेसनेक्सट-50, और इनसेप्शन-V3.
लाइवब्यूटी के अलावा, परीक्षण किए गए अन्य डेटासेट थे स्कट-एफबीपी5000 और MEBeauty. नीचे, इन डेटासेट के MOS वितरण की तुलना की गई है:

बेंचमार्क डेटासेट का MOS वितरण.
क्रमशः, ये अतिथि डेटासेट थे विभाजित प्रशिक्षण और परीक्षण के लिए 60%-40% और 80%-20% अलग-अलग, ताकि उनके मूल प्रोटोकॉल के साथ एकरूपता बनी रहे। लाइवब्यूटी को 90%-10% के आधार पर विभाजित किया गया था।
MAEM में मॉडल आरंभीकरण के लिए, VT-B/16 और GPT-2 का उपयोग क्रमशः छवि और पाठ एनकोडर के रूप में किया गया था, जिन्हें CLIP से सेटिंग्स द्वारा आरंभीकृत किया गया था। PAPM के लिए, Swin-T का उपयोग एक प्रशिक्षित छवि एनकोडर के रूप में किया गया था, जो कि CLIP के अनुसार था। स्विनफेस.
RSI एडमडब्ल्यू अनुकूलक का उपयोग किया गया था, और सीखने की दर अनुसूचक के साथ सेट करें रैखिक वार्म-अप के तहत एक कोसाइन एनीलिंग योजना। प्रशिक्षण चरणों में सीखने की दरें अलग-अलग थीं, लेकिन प्रत्येक में एक अंतर था बैच का आकार 32 का, 50 के लिए अवधियों को.

परीक्षणों के परिणाम
तीन FAP डेटासेट पर किए गए परीक्षणों के परिणाम ऊपर दिखाए गए हैं। इन परिणामों के बारे में, पेपर में कहा गया है:
'हमारी प्रस्तावित विधि लाइवब्यूटी, एमईब्यूटी और एससीयूटी-एफबीपी0.012 पर एसआरओसीसी मानों के संदर्भ में प्रथम स्थान प्राप्त करती है और दूसरे स्थान को क्रमशः लगभग 0.081, 0.021, 5500 से पीछे छोड़ देती है, जो हमारी प्रस्तावित विधि की श्रेष्ठता को प्रदर्शित करता है।
'आईएए विधियां एफएपी विधियों से निम्न हैं, जिससे यह स्पष्ट होता है कि सामान्य सौंदर्य मूल्यांकन विधियां चेहरे के आकर्षण की व्यक्तिपरक प्रकृति में शामिल चेहरे की विशेषताओं को नजरअंदाज कर देती हैं, जिसके परिणामस्वरूप एफएपी कार्यों में खराब प्रदर्शन होता है।
'एमईब्यूटी पर सभी तरीकों का प्रदर्शन काफी कम हो जाता है। ऐसा इसलिए है क्योंकि प्रशिक्षण नमूने सीमित हैं और एमईब्यूटी में चेहरे जातीय रूप से विविध हैं, जो दर्शाता है कि चेहरे के आकर्षण में बड़ी विविधता है।
'ये सभी कारक MEBeauty में चेहरे के आकर्षण की भविष्यवाणी को और अधिक चुनौतीपूर्ण बनाते हैं।'
नैतिक प्रतिपूर्ति
आकर्षण पर शोध संभावित रूप से विभाजनकारी कार्य है, क्योंकि सौंदर्य के कथित अनुभवजन्य मानकों को स्थापित करने में, ऐसी प्रणालियां उम्र, नस्ल और कंप्यूटर विज़न शोध के कई अन्य वर्गों के बारे में पूर्वाग्रहों को मजबूत करेंगी, क्योंकि यह मनुष्यों से संबंधित है।
यह तर्क दिया जा सकता है कि FAP प्रणाली स्वाभाविक रूप से संवेदनशील आकर्षण पर पक्षपातपूर्ण और पक्षपाती दृष्टिकोण को सुदृढ़ और स्थायी बनाने के लिए। ये निर्णय मानव-नेतृत्व वाली टिप्पणियों से उत्पन्न हो सकते हैं - अक्सर प्रभावी डोमेन सामान्यीकरण के लिए बहुत सीमित पैमाने पर किए जाते हैं - या स्ट्रीमिंग प्लेटफ़ॉर्म जैसे ऑनलाइन वातावरण में ध्यान पैटर्न का विश्लेषण करने से, जो यकीनन योग्यता आधारित होने से बहुत दूर हैं।
* इस पत्र में अनाम स्रोत डोमेन/डोमेनों का उल्लेख एकवचन और बहुवचन दोनों में किया गया है।
पहली बार प्रकाशित बुधवार, 8 जनवरी 2025