Connect with us

рдПрдЖрдИ рдПрдХ рдлреЛрдЯреЛ рдХреЗ рд╡рд░реНрд╖ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓реЛрдЧреЛрдВ рдХреА рдЙрдореНрд░ рд╕реЗ рд▓рдЧрд╛ рд╕рдХрддрд╛ рд╣реИ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдПрдХ рдлреЛрдЯреЛ рдХреЗ рд╡рд░реНрд╖ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓реЛрдЧреЛрдВ рдХреА рдЙрдореНрд░ рд╕реЗ рд▓рдЧрд╛ рд╕рдХрддрд╛ рд╣реИ

mm
An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

नई रिसर्च से पता चलता है कि एआई लोगों के चेहरों का उपयोग करके फोटो के वर्ष का अनुमान लगा सकता है, ज्ञात जन्म वर्ष के साथ उम्र के अनुमानों को जोड़कर वर्तमान दृश्य-आधारित तरीकों को पार कर सकता है।

 

फोटो की तारीख का अनुमान लगाना पहले इतना मुश्किल नहीं था, क्योंकि बाल और कपड़ों के फैशन पहले तेजी से विकसित होते थे। तेजी से विकसित होने वाले दृश्य शैली के इस परिवर्तन के कारण, यह अब उतना आसान नहीं है कि आप एक हेयरस्टाइल या कपड़ों के आइटम को देखकर वर्ष का अनुमान लगा सकें।

कुछ समय के लिए, यह संभव था कि रंग रिज़ॉल्यूशन और ग्रेन विशेषताओं के आधार पर फिल्म स्टॉक के आधार पर छवियों और फिल्मों को दिनांकित किया जा सके। आपको एक फोरेंसिक विशेषज्ञ होने की आवश्यकता नहीं थी; यदि आप पर्याप्त पुरानी फिल्में देखते हैं, तो सांस्कृतिक संकेत (जैसे संगीत, कार, फैशन, विषय, आदि) अंततः दृश्यरूप से जुड़ जाएंगे। फिल्म स्टॉक शैलियों के साथ देखने वाले के द्वारा:

рдПрдХ рдЪрд┐рддреНрд░рдг рдЬреЛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ рдХрд┐ рдлрд┐рд▓реНрдо рд╕реНрдЯреЙрдХ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХреИрд╕реЗ рдзреАрд░реЗ-рдзреАрд░реЗ рддреНрд╡рдЪрд╛ рдХреЗ рдЯреЛрди рдФрд░ рдкреНрд░рдХрд╛рд╢ рд╢реИрд▓рд┐рдпреЛрдВ рдХреА рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХреЛ рдмрдврд╝рд╛рддрд╛ рд╣реИ, рд╕рд╛рдордиреЗ рдХреА рд╕реЗрдЯрдЕрдк рд╕реЗ рдЕрдзрд┐рдХ рдкреНрд░рд╛рдХреГрддрд┐рдХ рдФрд░ рд╡рд┐рд╡рд┐рдз рджрд┐рдЦрдиреЗ рд╡рд╛рд▓реЗ рджреГрд╢реНрдпреЛрдВ рдореЗрдВ рдЬрд╛рддрд╛ рд╣реИред [ рд╕реНрд░реЛрдд ] https://archive.is/3ZSjN (рдореЗрд░рд╛ рдЕрдкрдирд╛ рд▓реЗрдЦ)

एक चित्रण जो दिखाता है कि फिल्म स्टॉक में सुधार कैसे धीरे-धीरे त्वचा के टोन और प्रकाश शैलियों की श्रृंखला को बढ़ाता है, सामने की सेटअप से अधिक प्राकृतिक और विविध दिखने वाले दृश्यों में जाता है। स्रोत (मेरा अपना लेख)

एक अतिरिक्त ‘एंकर’ फोटो को दिनांकित करने के लिए यह था कि क्या यह काले और सफेद में था – एक अर्थव्यवस्था जो इस सदी की शुरुआत में डिजिटल फोटोग्राफी के लोकप्रिय होने के बाद अप्रचलित हो गई

विभिन्न व्यावसायिक और प्रायोगिक प्रणालियों, जैसे कि MyHeritage सदस्यता-बंडल PhotoDater फोटो को दिनांकित करने का प्रयास करते हैं इन और विभिन्न अन्य मानदंडों का उपयोग करके।

MyHeritage PhotoDater рд╕рджрд╕реНрдпрддрд╛-рдХреЗрд╡рд▓ рд╕реЗрд╡рд╛ рд╕реЗ рдлреЛрдЯреЛ рдЖрдпреБ рдЕрдиреБрдорд╛рди рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдгред рд╕реНрд░реЛрдд [ https://www.youtube.com/watch?v=2oVyLI6tBcY ]

MyHeritage PhotoDater सदस्यता-केवल सेवा से फोटो आयु अनुमान का एक उदाहरण。 स्रोत

अन्य स्पष्ट संकेतों के अभाव में, जैसे कि स्मार्टफोन या अन्य युग-विशिष्ट प्रौद्योगिकी, पिछले 15-25 वर्षों में ली गई फोटो की उम्र का अनुमान लगाने का सबसे अच्छा तरीका यह है कि यदि आप व्यक्ति (यानी, एक हस्ती, या शायद एक परिचित) से परिचित हैं, और उनकी उम्र का अनुमान लगा सकते हैं, जो एक अनुमानित वर्ष के बराबर है।

चेहरे की उम्र के रूप में संदर्भ

कंप्यूटर विजन के क्षेत्र में, और विभिन्न अन्य क्षेत्रों में (जैसे कि फोरेंसिक, संग्रह प्रसंस्करण, पत्रकारिता, डेटासेट वास्तुकला, आदि) फोटो की उम्र निर्धारित करने की क्षमता एक प्रतिष्ठित लक्ष्य है, क्योंकि कई सबसे दिलचस्प डिजिटल और एनालॉग संग्रह उचित एनोटेशन और मेटाडेटा की कमी है, या यहां तक कि पहले के गलत अनुमानों (गलत अनुमान) से गलत मेटाडेटा भी हो सकते हैं।

इसलिए, यदि एक एआई प्रणाली फोटो की समीक्षा कर सकती है जिस तरह हम अपने ऐतिहासिक संग्रहों पर वापस देखते हैं, और टिप्पणी करते हैं ‘ओह हाँ, यह तब था…’। प्रश्न यह है कि क्या हो सकता है हुक, सामान्य आवश्यक संकेतों के अभाव में?

चेक गणराज्य से एक नए शोध पत्र में इस दृष्टिकोण में एक प्रारंभिक पैर जमाने की पेशकश की जा रही है, एआई-आधारित उम्र मान्यता प्रणालियों का शोषण करके, साथ ही साथ चेहरे मान्यता प्रणालियों को एक सामान्य डेटाबेस के साथ जोड़कर (इस मामले में, एक आईएमडीबी-शैली के संग्रह में चेक प्रदर्शनकर्ताओं और फिल्म निर्माताओं की विशेषता):

рдЬреЛрдЪрд┐рдо, рдЗрд╕реЗ рдорд╢реАрди рдореЗрдВ рдбрд╛рд▓реЗрдВ (1974) рд╕реЗ рдПрдХ рд╕реНрдЯрд┐рд▓, рдЬреЛ рдбреЗрдЯрд┐рдВрдЧ рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреЛ рджрд░реНрд╢рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдореЙрдбрд▓ рдлреЛрдЯреЛ рдореЗрдВ рдЬреНрдЮрд╛рдд рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рддрд╛ рд╣реИ, рдПрдХ рдЪреЗрд╣рд░реЗ рдХреА рдЙрдореНрд░ рдЕрдиреБрдорд╛рдирд┐рдд (рджрд╛рдПрдВ рд╕реНрддрдВрдн) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЙрдирдХреА рдЙрдореНрд░ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рддрд╛ рд╣реИ, рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рд╡реНрдпрдХреНрддрд┐ рдХреЗ рдЬрдиреНрдо рд╡рд░реНрд╖ рд╕реЗ рдЙрд╕ рдореВрд▓реНрдп рдХреЛ рдШрдЯрд╛рдХрд░ рд╕рдВрднрд╛рд╡рд┐рдд рдлреЛрдЯреЛ рддрд┐рдерд┐рдпреЛрдВ рдкрд░ рдПрдХ рд╕рдВрднрд╛рд╡рдирд╛ рд╡рд┐рддрд░рдг рдЙрддреНрдкрдиреНрди рдХрд░рддрд╛ рд╣реИред рдЧреНрд░рд╛рдл рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ рдХрд┐ рдкреНрд░рддреНрдпреЗрдХ рдЙрдореНрд░ рдЕрдиреБрдорд╛рди рдХреА рд╕рдВрднрд╛рд╡рдирд╛, рдЬрд┐рд╕рдореЗрдВ рд╡реНрдпрдХреНрддрд┐ рдХреА рд╕рдЪреНрдЪреА рдЙрдореНрд░ рдХреЛ рд╕рдордп рдкрд░ рдлреЛрдЯреЛ рдХреЗ рд╕рд╛рде рдЪрд┐рд╣реНрдирд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реА рдбреИрд╢реНрдб рд▓рд╛рдЗрдиреЗрдВ рд╣реИрдВред [ рд╕реНрд░реЛрдд ] https://arxiv.org/pdf/2511.05464

जोचिम, इसे मशीन में डालें (1974) से एक स्टिल, जो डेटिंग प्रक्रिया को दर्शाने के लिए उपयोग किया जाता है। मॉडल फोटो में ज्ञात व्यक्तियों का पता लगाता है, एक चेहरे की उम्र अनुमानित (दाएं स्तंभ) का उपयोग करके उनकी उम्र का अनुमान लगाता है, और प्रत्येक व्यक्ति के जन्म वर्ष से उस मूल्य को घटाकर संभावित फोटो तिथियों पर एक संभावना वितरण उत्पन्न करता है। ग्राफ दिखाते हैं कि प्रत्येक उम्र अनुमान की संभावना, जिसमें व्यक्ति की सच्ची उम्र को समय पर फोटो के साथ चिह्नित करने वाली डैश्ड लाइनें हैं। स्रोत

प्रणाली काम करती है ज्ञात व्यक्तियों का पता लगाकर एक फोटो में, एक पूर्व-प्रशिक्षित मॉडल का उपयोग करके उनकी चेहरे की उम्र का अनुमान लगाकर, और संभावित तिथियों पर एक संभावना वितरण उत्पन्न करने के लिए उनके प्रलेखित जन्म वर्ष से उस अनुमान को घटाकर। जब एक से अधिक चेहरे मौजूद होते हैं, तो तिथि अनुमानों को एक अंतिम भविष्यवाणी उत्पन्न करने के लिए एकत्रित किया जाता है।

इस पद्धति को छवियों पर परीक्षण किया गया था जो चेको-स्लोवाक मूवी डेटाबेस (सीएसएफडी) से क्यूरेट की गई थी, जिसके परिणामस्वरूप दृष्टिकोण, लेखकों का दावा है, एक ही डेटा पर प्रशिक्षित दृश्य-आधारित मॉडल (स्थिर मॉडल जो पृष्ठभूमि तत्वों या दृश्य संदर्भ पर निर्भर करते हैं, न कि चेहरों पर) की तुलना में निरंतर रूप से बेहतर सटीकता प्रदान करता है।

इस विधि के लिए एक केंद्रीय डेटाबेस की आवश्यकता होती है जिसमें व्यक्तियों के एक व्यापक समूह के बारे में ज्ञान होता है, इस मामले में आईएमडीबी-शैली का चेक मूवी डेटाबेस; लेकिन किसी भी समान संग्रह में पुष्टि की गई जन्म तिथियों और केंद्र तिथि-पुष्टि की घटनाओं की विशेषता हो सकती है जो एक समान परिणाम प्रदान कर सकती है।

लेख में कहा गया है:

‘अद्वितीय रूप से, हमारा डेटासेट एक ही छवि में कई व्यक्तियों के लिए एनोटेशन प्रदान करता है, जो मल्टी-फेस जानकारी एकत्रीकरण का अध्ययन करने में सक्षम बनाता है। हम एक संभावित ढांचे का प्रस्ताव करते हैं जो आधुनिक चेहरे की मान्यता और उम्र अनुमान मॉडल से दृश्य साक्ष्य को正式 रूप से जोड़ता है, और करियर-आधारित समय पूर्वाग्रहों को फोटो कैप्चर वर्ष का अनुमान लगाने के लिए। ‘

‘हमारे प्रयोग यह प्रदर्शित करते हैं कि कई चेहरों से साक्ष्य को एकत्रित करने से लगातार प्रदर्शन में सुधार होता है और दृष्टिकोण मजबूत, दृश्य-आधारित बेसलाइन से काफी बेहतर प्रदर्शन करता है, विशेष रूप से कई पहचानने योग्य व्यक्तियों वाली छवियों के लिए।’

नया लेख शीर्षक है फोटो डेटिंग द्वारा चेहरे की उम्र एकत्रीकरण, और चेक टेक्निकल यूनिवर्सिटी इन प्राग के दो शोधकर्ताओं से है, जिसमें बाद में कोड/डेटा रिलीज़ का वादा है।

विधि

फोटो लेने के समय का अनुमान लगाने के लिए, लेखकों की नई प्रणाली प्रत्येक पता लगाए गए चेहरे को देखती है और अनुमान लगाने की कोशिश करती है कि यह कौन हो सकता है, ज्ञात लोगों के डेटाबेस का उपयोग करके। चूंकि एक व्यक्ति एक फोटो में केवल एक बार दिखाई दे सकता है, प्रणाली सभी संभावित पहचान संयोजनों की जांच करती है और उनके ज्ञात जन्म वर्ष का उपयोग करके प्रत्येक व्यक्ति की उम्र का अनुमान लगाने की कोशिश करती है।

इसके बाद, यह उस वर्ष का अनुमान लगाने के लिए काम करता है जो उन उम्रों को संरेखित करेगा:

рдмрд╛рдПрдВ: рдкреНрд░рдгрд╛рд▓реА рдЙрдирдХреЗ рдЬреНрдЮрд╛рдд рдХрд░рд┐рдпрд░ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдкрд╣рдЪрд╛рдиреЗ рдЧрдП рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреА рдПрдХ рд╕рдордпрд░реЗрдЦрд╛ рдмрдирд╛рддреА рд╣реИред рджрд╛рдПрдВ: рдпрд╣ рдЪреЗрд╣рд░реЗ рдХреА рдЙрдореНрд░ рдХреЗ рдЕрдиреБрдорд╛рдиреЛрдВ рдХреЗ рд╕рд╛рде рдЬреЛрдбрд╝рдХрд░ рдлреЛрдЯреЛ рд▓реЗрдиреЗ рдХрд╛ рдЕрдВрддрд┐рдо рдЕрдиреБрдорд╛рди рдЙрддреНрдкрдиреНрди рдХрд░рддрд╛ рд╣реИред

बाएं: प्रणाली उनके ज्ञात करियर के आधार पर पहचाने गए व्यक्तियों की एक समयरेखा बनाती है। दाएं: यह चेहरे की उम्र के अनुमानों के साथ जोड़कर फोटो लेने का अंतिम अनुमान उत्पन्न करता है।

चेहरों की बड़ी संख्या को संभालने के लिए, प्रणाली मानती है कि चेहरे स्वतंत्र हैं, और प्रत्येक एक की उपस्थिति केवल इसकी पहचान और फोटो की तिथि पर निर्भर करती है।

फोटो लेने के समय का अनुमान लगाने के लिए, प्रणाली पहले प्रत्येक पता लगाए गए चेहरे की उम्र का अनुमान लगाती है cvut-002 मॉडल का उपयोग करके, जो एक ViT-B/16 आर्किटेक्चर पर आधारित है, और एक निजी डेटासेट पर प्रशिक्षित किया गया है (जो लेखकों के अनुसार, एनआईएसटी के फेस एनालिसिस टेक्नोलॉजी इवैल्यूएशन (एफएटीई) डेटाबेस में उच्च रैंकिंग रखता है)।

एक बार जब व्यक्ति का जन्म वर्ष ज्ञात हो जाता है, तो मॉडल उम्र अनुमान को एक संभावित फोटो वर्ष में परिवर्तित करता है, जो उम्र को जन्म वर्ष में जोड़कर एक संभावना वितरण परिणाम देता है। चेहरे की पहचान के साथ मेल खाने का मूल्यांकन करने के लिए, प्रणाली उनके एम्बेडिंग की तुलना ArcFace स्पेस में करती है:

ArcFace, рдЕрдм рд▓реЛрдХрдкреНрд░рд┐рдп InsightFace рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдХреЗрдВрджреНрд░реАрдп рдпреЛрдЧрджрд╛рди рд╡рд╛рд▓реА рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░, 2015 рдореЗрдВ рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рдЬреЛ рдЪреЗрд╣рд░реЗ рдХреЗ рдореВрд▓реНрдпрд╛рдВрдХрди рдФрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рдореЗрдВ рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рдкрд░рд┐рдпреЛрдЬрдирд╛ рдмрдирдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдерд╛ред [рд╕реНрд░реЛрдд] https://arxiv.org/pdf/1801.07698

ArcFace, अब लोकप्रिय InsightFace मॉडल के लिए केंद्रीय योगदान वाली आर्किटेक्चर, 2015 में लॉन्च किया गया था, जो चेहरे के मूल्यांकन और मूल्यांकन में एक प्रभावशाली परियोजना बनने के लिए निर्धारित था। स्रोत

प्रत्येक पहचान को उनके संदर्भ चित्रों से एक औसत एम्बेडिंग द्वारा दर्शाया जाता है। परीक्षण चेहरे और पहचान के बीच समानता तब एक वॉन मिसेस फिशर वितरण का उपयोग करके मापी जाती है, जो यह मॉडल करता है कि कितनी紧न से पहचान के संदर्भ चित्र उस औसत एम्बेडिंग के चारों ओर क्लस्टर करते हैं। एक साझा तीक्ष्णता पैरामीटर नियंत्रित करता है कि प्रणाली उन क्लस्टर में कितनी विश्वास करती है, और एक छोड़-एक-बाहर रणनीति का उपयोग करके पहचान के संदर्भ चित्रों पर अनुमानित किया जाता है।

मॉडल पांच प्रकार के प्राथमिकता को परिभाषित करता है ताकि यह अनुमान लगा सके कि एक पहचाने गए व्यक्ति कब एक फोटो में दिखाई दे सकता है: समान; दशक; फिल्म; छवि; और एक उत्तल संयोजन प्राथमिकता जो सबसे मजबूत और सबसे कमजोर विकल्पों को मिलाती है, ताकि प्राथमिकता की ताकत के प्रति संवेदनशीलता का परीक्षण किया जा सके (यानी, प्राथमिकताओं की लचीलापन जब तनाव में):

अनिश्चित चेहरों को संभालने के लिए, मॉडल में एक फallback ‘अज्ञात’ पहचान शामिल है जिसमें अनइन्फॉर्मेटिव वितरण होते हैं, जिसमें एम्बेडिंग स्पेस में एक फ्लैट चेहरे की संभावना होती है, और एक समय पूर्वाग्रह जो सभी वर्षों में फ्लैट होता है। यह अनिश्चित चेहरों को बिना पूर्वाग्रह के नजरअंदाज करने की अनुमति देता है:

рдПрдХ рд╣реА рдЫрд╡рд┐ рдореЗрдВ рдЬреНрдЮрд╛рдд рдФрд░ рдЕрдЬреНрдЮрд╛рдд рдЪреЗрд╣рд░реЛрдВ рдХреА рдЙрдкрд╕реНрдерд┐рддрд┐ рдореЗрдВ рдЦреБрд▓реА рд╕реЗрдЯ рд╕реНрдерд┐рддрд┐рдпреЛрдВ рдореЗрдВ рдкреВрд░реНрдг рдореЙрдбрд▓ рдХрд╛ рдкреНрд░рджрд░реНрд╢рдиред рдорд╛рдзреНрдп рдкреВрд░реНрдг рддреНрд░реБрдЯрд┐ (рдПрдордПрдИ) рдЕрдЬреНрдЮрд╛рдд рдкрд╣рдЪрд╛рдиреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЗ рд╕рд╛рде рдмрдврд╝рддреА рд╣реИ, рд▓реЗрдХрд┐рди рдЬреНрдЮрд╛рдд рдкрд╣рдЪрд╛рдиреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЗ рд╕рд╛рде рд▓рдЧрд╛рддрд╛рд░ рд╕реБрдзрд╛рд░ рдХрд░рддреА рд╣реИред рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрдЧ рдХрд╛ рдЖрдХрд╛рд░ рдирдореВрдирд╛ рдЧрдгрдирд╛ рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ, рдЬреЛ рдпрд╣ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ рдХрдо рддреНрд░реБрдЯрд┐ рд╡рд╛рд▓реЗ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди рдбреЗрдЯрд╛рд╕реЗрдЯ рд╡рд┐рддрд░рдг рдореЗрдВ рднреА рдкреНрд░рдореБрдЦ рд╣реИрдВред

एक ही छवि में ज्ञात और अज्ञात चेहरों की उपस्थिति में खुली सेट स्थितियों में पूर्ण मॉडल का प्रदर्शन। माध्य पूर्ण त्रुटि (एमएई) अज्ञात पहचानों की संख्या के साथ बढ़ती है, लेकिन ज्ञात पहचानों की संख्या के साथ लगातार सुधार करती है। प्रत्येक वर्ग का आकार नमूना गणना को दर्शाता है, जो यह दर्शाता है कि कम त्रुटि वाले कॉन्फ़िगरेशन डेटासेट वितरण में भी प्रमुख हैं।

डेटा और परीक्षण

लेखकों ने अपने नए संग्रह के लिए डेटा प्रदान करने के लिए सीएसएफडी डेटासेट का उपयोग किया, जिसे उन्होंने सीएसएफडी-1.6एम नाम दिया। डेटासेट का निर्माण कई लोगों को दिखाने वाले दृश्यों से किया गया था, जिसमें प्रत्येक चेहरे को पहचान और वर्ष द्वारा लेबल किया गया था। यह संरचना मॉडल को सिखाने के लिए आवश्यक थी कि चेहरे एक संदर्भ में कैसे संबंधित होते हैं; एकल-चेहरे वाले डेटासेट जैसे कि आईएमडीबी-विकी इसका समर्थन नहीं करते हैं, क्योंकि वे प्रति छवि केवल एक व्यक्ति को लेबल करते हैं।

चेको-स्लोवाक मूवी डेटाबेस से फिल्म रिलीज़ वर्ष का उपयोग यह अनुमान लगाने के लिए किया गया था कि प्रत्येक फोटो कब ली गई थी, प्रत्येक व्यक्ति को एक सार्वजनिक प्रोफ़ाइल से मेल खाया गया जिसमें उनका जन्म वर्ष और एक पोर्ट्रेट शामिल था।

इसके बाद, छवि में प्रत्येक चेहरे को ज्ञात पहचानों में से एक से मेल खाया गया, आर्सफेस का उपयोग करके चेहरे के एम्बेडिंग बनाने और प्रत्येक पहचान के लिए एक औसत एम्बेडिंग गणना करने के लिए।

इसके बाद हंगेरियन एल्गोरिदम का उपयोग किया गया था ताकि एम्बेडिंग समानता की तुलना करके चेहरों को पहचानों से संबंधित किया जा सके, एससीआरएफडी-10जीई फ्रेमवर्क द्वारा पता लगाए गए चेहरों की संख्या के साथ मेल खाने के लिए समायोजन किए गए थे।

рд╕реАрдПрд╕рдПрдлрдбреА-1.6рдПрдо рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рдЖрдВрдХрдбрд╝реЗ, рдЬрд┐рд╕рдореЗрдВ рд╕реНрдХреНрд░реИрдкреНрдб рдЫрд╡рд┐рдпреЛрдВ, рдкрддрд╛ рд▓рдЧрд╛рдП рдЧрдП рдЪреЗрд╣рд░реЛрдВ, рдкрд╣рдЪрд╛рди рдореЗрд▓, рдЕрдВрддрд┐рдо рдПрдиреЛрдЯреЗрдЯреЗрдб рдирдореВрдиреЗ, рдФрд░ рдЙрдкрд▓рдмреНрдз рдкрд╣рдЪрд╛рди рдкреВрд▓ рдХреА рдЬрд╛рдирдХрд╛рд░реА рд╢рд╛рдорд┐рд▓ рд╣реИред

सीएसएफडी-1.6एम डेटासेट से आंकड़े, जिसमें स्क्रैप्ड छवियों, पता लगाए गए चेहरों, पहचान मेल, अंतिम एनोटेटेड नमूने, और उपलब्ध पहचान पूल की जानकारी शामिल है।

मेल खाने वाले चेहरों को अस्वीकार कर दिया गया था यदि समानता बहुत कम थी या यदि अनुमानित उम्र बहुत अधिक उनकी ज्ञात उम्र से भिन्न थी, बड़े विषयों के लिए अधिक सहनशीलता की अनुमति दी गई थी, और चेहरों को गुणवत्ता या आकार द्वारा फिल्टर नहीं किया गया था।

लेखकों ने अपने क्यूरेटेड सेट की तुलना में आईएमडीबी-विकी के निकटतम तुलनीय डेटासेट की श्रेष्ठता की ओर इशारा किया:

‘हमारा डेटासेट न केवल महत्वपूर्ण रूप से बड़ा है, बल्कि महत्वपूर्ण रूप से बहु-व्यक्ति दृश्यों से बना है, जो हमारे मॉडल द्वारा आवश्यक है। जबकि कोई वेब-स्क्रैप्ड डेटासेट लेबल शोर से मुक्त नहीं है, हमारी एनोटेशन पाइपलाइन डेटाबेस द्वारा प्रदान किए गए छवियों और पहचान प्रोफाइल के बीच स्पष्ट लिंक का लाभ उठाती है, उच्च-गुणवत्ता वाली पहचान असाइनमेंट के लिए लक्ष्य रखती है।’

उनके मूल्यांकन ने कई संस्करणों की तुलना की ताकि यह समझा जा सके कि उनकी डेटिंग प्रणाली के लाभ कहां से आ रहे थे। एक मॉडल ने यह माना कि फोटो में कौन है, यह जानने के लिए एक ऊपरी सीमा प्रदान की, पहचान मान्यता में किसी भी अनिश्चितता को दूर करने के लिए, जो प्रदर्शन पर एक ऊपरी सीमा प्रदान करता है। पूर्ण संस्करण के मॉडल ने तब पहचानों और तिथियों का संयुक्त रूप से अनुमान लगाया, विभिन्न संभावित पहचान असाइनमेंट को तौलने से पहले एक अंतिम वर्ष का अनुमान लगाया।

एक सरल संस्करण ने एकल सबसे संभावित पहचान कॉन्फ़िगरेशन का चयन किया, बिना विकल्पों पर विचार किए, जो अभ्यास में लगभग उतना ही प्रभावी साबित हुआ।

इसके विपरीत, सबसे बुनियादी बेसलाइन ने प्रत्येक चेहरे को स्वतंत्र रूप से सौंप दिया और परिणामस्वरूप उम्र-आधारित वर्ष के अनुमानों को जोड़ दिया, यह नहीं माना कि पहचान एक साथ कैसे जुड़ती हैं।

परीक्षण यह देखने के लिए किया गया था कि चेहरों का उपयोग करके विधि को कितना लाभ हुआ, एक अलग मॉडल को सीधे पूरी दृश्य से तिथि का अनुमान लगाने के लिए प्रशिक्षित किया गया था। यह दृश्य-आधारित मॉडल वर्तमान में छवि तिथि अनुमान में उपयोग किए जाने वाले सबसे मजबूत वैकल्पिक दृष्टिकोण का प्रतिनिधित्व करता है, क्योंकि यह पूरी छवि में युग-विशिष्ट दृश्य पैटर्न सीखने में सक्षम है, चेहरे या उम्र पर निर्भर नहीं है।

मेट्रिक्स और डेटा

माध्य पूर्ण त्रुटि (एमएई) अनुमानित वर्ष और ज्ञात मैदान सच्चाई के बीच मुख्य मेट्रिक थी जिसका उपयोग प्रयोगों में किया गया था।

डेटा को विभाजित पांच भागों में किया गया था, सावधानी बरती गई थी कि एक ही फिल्म से सभी छवियां एक ही भाग में रखी जाएं। तीन भागों का उपयोग प्रशिक्षण के लिए किया गया था, एक सत्यापन के लिए, और एक परीक्षण के लिए। यह पांच-गुना घुमावदार लागू किया गया था अति-फिटिंग को रोकने के लिए।

चूंकि चेहरे-आधारित मॉडल इस डेटासेट पर प्रशिक्षित नहीं थे, इसलिए विभाजन की आवश्यकता नहीं थी, और इसके बजाय उन्हें सीधे पूरे सीएसएफडी-1.6एम सेट पर मूल्यांकन किया गया था।

दृश्य मॉडल को एडम ऑप्टिमाइज़र के तहत 200 epochs के लिए प्रशिक्षित किया गया था, छवियों को 384×384 क्रॉप में बदल दिया गया था।

परिणाम

लेख का परिणाम अनुभाग असामान्य रूप से कई प्रदर्शन संकेतकों में विभाजित है, जिसमें कोई एक आउटस्टैंडिंग या केंद्रीय परीक्षण नहीं है। हालांकि, हम यहां सबसे प्रासंगिक परिणामों का एक चयन प्रस्तुत करेंगे।

सबसे महत्वपूर्ण परिणाम एक एकल संख्या नहीं है, बल्कि एक पैटर्न है: चेहरे के एकत्रीकरण मॉडल (विशेष रूप से पूर्ण और शीर्ष-1 संस्करण) दो या अधिक ज्ञात पहचानों की उपस्थिति में लगातार दृश्य-आधारित दृश्य बेसलाइन को बेहतर प्रदर्शन करते हैं – भले ही दृश्य मॉडल सीधे डेटासेट पर प्रशिक्षित किया गया हो, जो केंद्रीय दावे का समर्थन करता है कि पहचान-संबंधित चेहरे की तिथि एक अधिक मजबूत संकेत प्रदान करती है दृश्य व्याख्या की तुलना में।

प्राथमिकता के प्रभाव का मूल्यांकन करने के लिए, लेखकों ने अपने पूर्ण मॉडल के कई कॉन्फ़िगरेशन की तुलना की। सबसे मजबूत प्रदर्शन दशक प्राथमिकता का उपयोग करके प्राप्त किया गया था, जो नायव मॉडल (जो कोई प्राथमिकता पूर्वाग्रह का उपयोग नहीं करता है) और समान प्राथमिकता (जो वर्षों पर कोई प्राथमिकता नहीं देता है) दोनों से काफी बेहतर प्रदर्शन करता है:

рд╕рднреА рд╡рд┐рдзрд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рдкреНрд░рджрд░реНрд╢рди рддреЗрдЬреА рд╕реЗ рдЧрд┐рд░рддрд╛ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рдЪреЗрд╣рд░реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдмрдврд╝рддреА рд╣реИ, рд▓реЗрдХрд┐рди рдпрдерд╛рд░реНрдерд╡рд╛рджреА рдкреНрд░рд╛рдердорд┐рдХрддрд╛ рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣ рдЬреИрд╕реЗ рджрд╢рдХ рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдкреНрд░рднрд╛рд╡рд┐рдд рд╣реЛрддреЗ рд╣реИрдВред рдирд╛рдпрд╡ рдФрд░ рджреГрд╢реНрдп рдмреЗрд╕рд▓рд╛рдЗрди рд╕рдорддрд▓ рдпрд╛ рдмрдбрд╝реЗ рд╕рдореВрд╣реЛрдВ рдХреЗ рд╕рд╛рде рдЦрд░рд╛рдм рд╣реЛ рдЬрд╛рддреЗ рд╣реИрдВ, рдЬрдмрдХрд┐ рд╕реВрдЪрд┐рдд рдкреНрд░рд╛рдердорд┐рдХрддрд╛рдУрдВ рджреНрд╡рд╛рд░рд╛ рдирд┐рд░реНрджреЗрд╢рд┐рдд рдкреВрд░реНрдг рдореЙрдбрд▓ рдХрдо рддреНрд░реБрдЯрд┐ рдмрдирд╛рдП рд░рдЦрддрд╛ рд╣реИред рдСрд░реЗрдХрд▓-рдЖрдзрд╛рд░рд┐рдд рдкреНрд░рд╛рдердорд┐рдХрддрд╛рдПрдВ, рдЬреЛ рдкрд░реАрдХреНрд╖рдг-рд╕реЗрдЯ рдЖрдВрдХрдбрд╝реЛрдВ рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддреА рд╣реИрдВ, рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдпреЛрдЧреНрдп рдкреНрд░рджрд░реНрд╢рди рдХреА рдирд┐рдореНрди рд╕реАрдорд╛ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рддреА рд╣реИрдВред

सभी विधियों के लिए प्रदर्शन तेजी से गिरता है क्योंकि चेहरों की संख्या बढ़ती है, लेकिन यथार्थवादी प्राथमिकता पूर्वाग्रह जैसे दशक पूर्वाग्रह का उपयोग करने वाले मॉडल प्रभावित होते हैं। नायव और दृश्य बेसलाइन समतल या बड़े समूहों के साथ खराब हो जाते हैं, जबकि सूचित प्राथमिकताओं द्वारा निर्देशित पूर्ण मॉडल कम त्रुटि बनाए रखता है। ऑरेकल-आधारित प्राथमिकताएं, जो परीक्षण-सेट आंकड़ों पर निर्भर करती हैं, प्राप्त करने योग्य प्रदर्शन की निम्न सीमा को परिभाषित करती हैं।

फोटो डेटिंग के परे सीएसएफडी-1.6एम के मूल्य को प्रदर्शित करने के लिए, डेटासेट का परीक्षण भी व्यापक कार्य के लिए चेहरे की उम्र के अनुमान के लिए प्री-प्रशिक्षण संसाधन के रूप में किया गया था। एक मानक मूल्यांकन प्रोटोकॉल का पालन करते हुए, रेसनेट101 मॉडल को सीएसएफडी-1.6एम पर प्री-प्रशिक्षित किया गया और आईएमडीबी-विकी और इमेजनेट पर प्री-प्रशिक्षित समकक्षों के साथ तुलना की गई। इन मॉडलों को फिर पांच लोकप्रिय बेंचमार्क पर मूल्यांकन के लिए फाइन-ट्यून और मूल्यांकन किया गया: एजडीबी; एएफएडी, मॉर्फ; यूटीकेफेस; और सीएलएपी2016:

рдкрд╛рдВрдЪ рдЖрдпреБ рдЕрдиреБрдорд╛рди рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдкрд░ рдорд╛рдзреНрдп рдкреВрд░реНрдг рддреНрд░реБрдЯрд┐ (рдкреНрд▓рд╕ рдорд╛рдЗрдирд╕ рдорд╛рдирдХ рд╡рд┐рдЪрд▓рди), рдЗрдореЗрдЬрдиреЗрдЯ, рдЖрдИрдПрдордбреАрдмреА-рд╡рд┐рдХреА рдФрд░ рд╕реАрдПрд╕рдПрдлрдбреА-1.6рдПрдо рдкрд░ рдкреНрд░реА-рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓ рдХреА рддреБрд▓рдирд╛ рдХрд░рддреЗ рд╣реБрдПред рдирд┐рдореНрди рдорд╛рди рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХреЛ рджрд░реНрд╢рд╛рддреЗ рд╣реИрдВред рд╕реАрдПрд╕рдПрдлрдбреА-1.6рдПрдо рд╕рднреА рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдкрд░ рд╕рдмрд╕реЗ рдордЬрдмреВрдд рдкрд░рд┐рдгрд╛рдо рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред

पांच आयु अनुमान बेंचमार्क पर माध्य पूर्ण त्रुटि (प्लस माइनस मानक विचलन), इमेजनेट, आईएमडीबी-विकी और सीएसएफडी-1.6एम पर प्री-प्रशिक्षित मॉडल की तुलना करते हुए। निम्न मान बेहतर प्रदर्शन को दर्शाते हैं। सीएसएफडी-1.6एम सभी बेंचमार्क पर सबसे मजबूत परिणाम प्रदान करता है।

पांच डेटासेट में से, सीएसएफडी-1.6एम पर प्री-प्रशिक्षण ने सबसे कम त्रुटि दरों का उत्पादन किया, जो अन्य दो प्री-प्रशिक्षण स्रोतों से स्पष्ट रूप से बेहतर प्रदर्शन करता था – एक प्रदर्शन अंतर जो एएफएडी और सीएलएपी2016 पर सबसे मजबूत था, लेकिन समग्र रूप से सुसंगत रहा।

हम पाठक को स्रोत पत्र में परिणाम अनुभाग के बाकी हिस्सों का संदर्भ देते हैं, जो विस्तार से अपवर्जन अध्ययनों से भी संबंधित है।

निष्कर्ष

हालांकि नया पत्र जल्दी से घना और आकस्मिक पाठक के लिए दुर्गम हो जाता है, संबोधित विषय कंप्यूटर विजन साहित्य में सबसे दिलचस्प और प्रासंगिक में से एक है – न केवल इसलिए कि यह संस्कृति और मानवविज्ञान में भी अच्छी तरह से पार कर जाता है, जहां स्थिरांक को निर्धारित करना मुश्किल हो सकता है।

 

* जैसे कि संगीत का विकास भी परिवर्तन की अपनी दर को धीमा कर देता है

सोमवार, 10 नवंबर, 2025 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai