Connect with us

рдПрдЖрдИ рдХреЗ рд╕рд╛рде ‘рдмреЗрд╣рддрд░’ рд╢рд░реАрд░ рдмрдирд╛рдирд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдЖрдИ рдХреЗ рд╕рд╛рде ‘рдмреЗрд╣рддрд░’ рд╢рд░реАрд░ рдмрдирд╛рдирд╛

mm

अलीबाबा डैमो अकादमी से नई रिसर्च में एक एआई-ड्रिवन वर्कफ्लो पेश किया गया है जो छवियों के शरीर को फिर से आकार देने के लिए एक ऑटोमेटेड प्रोसेस प्रदान करता है – यह कंप्यूटर विजन सेक्टर में एक दुर्लभ प्रयास है, जो वर्तमान में फेस-आधारित मैनिपुलेशन जैसे डीपफेक्स और जीएन-आधारित फेस एडिटिंग पर केंद्रित है।

рдЗрдирд╕реЗрдЯ рдореЗрдВ 'рдкрд░рд┐рдгрд╛рдо' рдХреЙрд▓рдо, рдЬреЛ рд╕рдВрд╢реЛрдзрд┐рдд рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдЬрдирд░реЗрдЯреЗрдб рдЕрдЯреЗрдВрд╢рди рдореИрдкреНрд╕ рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2203.04670.pdf

इनसेट में ‘परिणाम’ कॉलम, जो संशोधित क्षेत्रों को परिभाषित करने वाले जनरेटेड अटेंशन मैप्स हैं। स्रोत: https://arxiv.org/pdf/2203.04670.pdf

शोधकर्ताओं की आर्किटेक्चर स्केलेटन पोज़ एस्टीमेशन का उपयोग करती है ताकि छवि सिंथेसिस और एडिटिंग सिस्टम को शरीर की छवियों को概念ualize और पैरामीटरize करने में बड़ी जटिलता का सामना किया जा सके, कम से कम उस स्तर पर जो वास्तव में अर्थपूर्ण और चयनात्मक संपादन की अनुमति देता है।

अनुमानित स्केलेटन मैप्स उन क्षेत्रों को अलग करने और ध्यान केंद्रित करने में मदद करते हैं जिन्हें संभवतः रीटच किया जा सकता है, जैसे कि ऊपरी बांह क्षेत्र।

सिस्टम अंततः एक उपयोगकर्ता को पैरामीटर सेट करने में सक्षम बनाता है जो वजन, मांसपेशियों के द्रव्यमान, या वजन वितरण की उपस्थिति को पूर्ण-लंबाई या मध्य-लंबाई की तस्वीरों में बदल सकता है, और कपड़े पहने हुए या बिना कपड़े पहने हुए शरीर के हिस्सों पर मनमानी रूपांतरण उत्पन्न करने में सक्षम है।

рдмрд╛рдПрдВ, рдЗрдирдкреБрдЯ рдЫрд╡рд┐; рдордзреНрдп, рд╡реНрдпреБрддреНрдкрдиреНрди рдзреНрдпрд╛рди рдХреНрд╖реЗрддреНрд░реЛрдВ рдХрд╛ рд╣реАрдЯрдореИрдк; рджрд╛рдПрдВ, рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдЫрд╡рд┐ред

बाएं, इनपुट छवि; मध्य, व्युत्पन्न ध्यान क्षेत्रों का हीटमैप; दाएं, परिवर्तित छवि।

काम का प्रेरणा मीडिया की विभिन्न शाखाओं में फोटोग्राफरों और प्रोडक्शन ग्राफिक्स कलाकारों द्वारा किए जाने वाले श्रमसाध्य डिजिटल मैनिपुलेशन को बदलने के लिए स्वचालित वर्कफ्लो का विकास है, जो फैशन से लेकर पत्रिका शैली के आउटपुट और प्रचार सामग्री तक है।

सामान्य तौर पर, लेखकों का स्वीकार करते हैं, ये परिवर्तन आमतौर पर फोटोशॉप और अन्य पारंपरिक बिटमैप संपादकों में ‘वार्प’ तकनीकों के साथ लागू किए जाते हैं, और लगभग विशेष रूप से महिलाओं की छवियों पर उपयोग किए जाते हैं। परिणामस्वरूप, नए प्रक्रिया को सुविधाजनक बनाने के लिए विकसित किए गए कस्टम डेटासेट में अधिकांश महिला विषयों की तस्वीरें शामिल हैं:

‘चूंकि शरीर रीटचिंग मुख्य रूप से महिलाओं द्वारा वांछित है, हमारे संग्रह में अधिकांश महिला फोटो हैं, जो उम्र, नस्ल (अफ्रीकी: एशियाई: कोकेशियान = 0.33:0.35:0.32), मुद्रा, और परिधानों की विविधता को ध्यान में रखते हुए।’

लेख पेपर का शीर्षक मानव शरीर पुनर्गठन के लिए संरचना-जागरूक प्रवाह जनरेशन है, और अलीबाबा की वैश्विक डैमो अकादमी से जुड़े पांच लेखकों से आता है।

डेटासेट विकास

जैसा कि आमतौर पर छवि सिंथेसिस और एडिटिंग सिस्टम के साथ होता है, परियोजना के लिए आर्किटेक्चर एक कस्टम ट्रेनिंग डेटासेट की आवश्यकता थी। लेखकों ने तीन फोटोग्राफरों को स्टॉक फोटोग्राफी साइट Unsplash से उपयुक्त छवियों के मानक फोटोशॉप मैनिपुलेशन उत्पादन के लिए कमीशन किया, जिसके परिणामस्वरूप 2K रिज़ॉल्यूशन पर 5,000 उच्च गुणवत्ता वाली छवियों का एक डेटासेट – बीआर-5के* हुआ।

शोधकर्ताओं का जोर है कि इस डेटासेट पर प्रशिक्षण का उद्देश्य ‘आदर्शीकृत’ और सामान्य विशेषताओं का उत्पादन करना नहीं है जो आकर्षण या वांछनीय उपस्थिति के सूचकांक से संबंधित हैं, बल्कि पेशेवर शरीर छवियों के मैनिपुलेशन से संबंधित केंद्रीय विशेषता मैपिंग को निकालना है।

हालांकि, वे स्वीकार करते हैं कि मैनिपुलेशन अंततः ‘वास्तविक’ से एक पूर्व-निर्धारित ‘आदर्श’ की ओर एक परिवर्तनकारी प्रक्रिया का प्रतिनिधित्व करते हैं:

‘हम तीन पेशेवर कलाकारों को फोटोशॉप का उपयोग करके स्वतंत्र रूप से शरीर को रीटच करने के लिए आमंत्रित करते हैं, जिसका उद्देश्य लोकप्रिय सौंदर्यशास्त्र के अनुरूप पतले आकार प्राप्त करना है, और सर्वश्रेष्ठ एक को ग्राउंड-ट्रुथ के रूप में चुनते हैं। ‘

चूंकि फ्रेमवर्क चेहरों से संबंधित नहीं है, उन्हें डेटासेट में शामिल करने से पहले उन्हें धुंधला कर दिया गया था।

आर्किटेक्चर और कोर कॉन्सेप्ट

सिस्टम का वर्कफ्लो एक उच्च-रिज़ॉल्यूशन पोर्ट्रेट को फीड करने, इसे कम रिज़ॉल्यूशन में डाउनसैंपल करने और उपलब्ध कंप्यूटिंग संसाधनों में फिट होने के लिए, साथ ही एक अनुमानित स्केलेटन-मैप पोज़ (नीचे दी गई छवि में दूसरा फिगर) और पार्ट अफिनिटी फील्ड्स (पीएएफ) निकालने शामिल है, जो 2016 में कार्नेगी मेलन यूनिवर्सिटी के द रोबोटिक्स इंस्टीट्यूट द्वारा नवाचार किया गया था।

पार्ट अफिनिटी फील्ड्स अंगों की दिशा और व्यापक स्केलेटल फ्रेमवर्क के साथ सामान्य संबंध को परिभाषित करने में मदद करते हैं, जो नए परियोजना को एक अतिरिक्त ध्यान/स्थानीयकरण टूल प्रदान करते हैं।

2016 рдХреЗ рдкрд╛рд░реНрдЯ рдЕрдлрд┐рдирд┐рдЯреА рдлреАрд▓реНрдбреНрд╕ рдкреЗрдкрд░ рд╕реЗ, рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рдирд┐рдд рдкреАрдПрдПрдл рдЕрдВрдЧ рдХреА рджрд┐рд╢рд╛ рдХреЛ рдПрдХ 2рдбреА рд╡реЗрдХреНрдЯрд░ рдХреЗ рд╣рд┐рд╕реНрд╕реЗ рдХреЗ рд░реВрдк рдореЗрдВ рдПрдирдХреЛрдб рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рд╕рдореЗрдВ рдЕрдВрдЧ рдХреА рд╕рд╛рдорд╛рдиреНрдп рд╕реНрдерд┐рддрд┐ рднреА рд╢рд╛рдорд┐рд▓ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/1611.08050.pdf

2016 के पार्ट अफिनिटी फील्ड्स पेपर से, पूर्वानुमानित पीएएफ अंग की दिशा को एक 2डी वेक्टर के हिस्से के रूप में एनकोड करते हैं जिसमें अंग की सामान्य स्थिति भी शामिल है। स्रोत: https://arxiv.org/pdf/1611.08050.pdf

हड्डियों के नक्शे का उपयोग अंतिम परिवर्तनकारी प्रक्रियाओं को उन शरीर के हिस्सों की ओर निर्देशित करने के लिए किया जाता है जिन्हें संशोधित किया जाना है, जैसे कि ऊपरी बांहें, पीछे और जांघें।

इसके बाद, परिणामों को प्रक्रिया के केंद्रीय बोतलनेक में स्ट्रक्चर अफिनिटी सेल्फ-एटेंशन (एसएएसए) में फीड किया जाता है।

एसएएसए प्रवाह जनरेटर की संगति को नियंत्रित करता है जो प्रक्रिया को ईंधन देता है, जिसके परिणामों को तब वार्पिंग मॉड्यूल (उपरोक्त छवि में दूसरा से दाएं) में पास किया जाता है, जो डेटासेट में शामिल मैनुअल संशोधनों से सीखे गए परिवर्तनों को लागू करता है।

рд╕реНрдЯреНрд░рдХреНрдЪрд░ рдЕрдлрд┐рдирд┐рдЯреА рд╕реЗрд▓реНрдл-рдПрдЯреЗрдВрд╢рди (рдПрд╕рдПрдПрд╕рдП) рдореЙрдбреНрдпреВрд▓ рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рд╢рд░реАрд░ рдХреЗ рд╣рд┐рд╕реНрд╕реЛрдВ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИ, рдЬреЛ рдЕрдирд╛рд╡рд╢реНрдпрдХ рдпрд╛ рдЕрдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рдкрд░рд┐рд╡рд░реНрддрдиреЛрдВ рд╕реЗ рдмрдЪрдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИред

स्ट्रक्चर अफिनिटी सेल्फ-एटेंशन (एसएएसए) मॉड्यूल प्रासंगिक शरीर के हिस्सों पर ध्यान केंद्रित करने में मदद करता है, जो अनावश्यक या अप्रासंगिक परिवर्तनों से बचने में मदद करता है।

आउटपुट छवि को बाद में मूल 2K रिज़ॉल्यूशन में अपसैंपल किया जाता है, जो 2017 शैली के डीपफेक आर्किटेक्चर से मिलता-जुलता है, जिससे लोकप्रिय पैकेज जैसे डीपफेसलैब व्युत्पन्न हुए हैं; अपसैंपलिंग प्रक्रिया जीएन एडिटिंग फ्रेमवर्क में भी सामान्य है।

स्कीमा के लिए ध्यान नेटवर्क कंपोज़िशनल डी-एटेंशन नेटवर्क (सीओडीए) के बाद मॉडल किया गया है, जो 2019 में अमेज़न एआई और माइक्रोसॉफ्ट के साथ एक यूएस/सिंगापुर अकादमिक सहयोग है।

परीक्षण

फ्लो-आधारित फ्रेमवर्क का प्रIOR फ्लो-आधारित विधियों एफएएल और एनिमेटिंग थ्रू वार्पिंग (एटीडब्ल्यू) के साथ-साथ इमेज ट्रांसलेशन आर्किटेक्चर पिक्स2पिक्सएचडी और जीएफएलए के खिलाफ परीक्षण किया गया था, जिसमें एसएसआईएम, पीएसएनआर और एलपीआईपीएस मूल्यांकन मीट्रिक के रूप में उपयोग किए गए थे।

рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдо (рд╣реЗрдбрд░ рдореЗрдВ рддреАрд░ рдХреА рджрд┐рд╢рд╛ рдпрд╣ рджрд░реНрд╢рд╛рддреА рд╣реИ рдХрд┐ рдХреНрдпрд╛ рдХрдо рдпрд╛ рдЙрдЪреНрдЪ рд╕рдВрдЦреНрдпрд╛ рдмреЗрд╣рддрд░ рд╣реИ)ред

प्रारंभिक परीक्षणों के परिणाम (हेडर में तीर की दिशा यह दर्शाती है कि क्या कम या उच्च संख्या बेहतर है)।

ग्रहण किए गए मीट्रिक के आधार पर, लेखकों का सिस्टम पूर्ववर्ती आर्किटेक्चर को बेहतर प्रदर्शन करता है।

рдЪрдпрдирд┐рдд рдкрд░рд┐рдгрд╛рдоред рдХреГрдкрдпрд╛ рдЙрдЪреНрдЪ рд░рд┐рдЬрд╝реЙрд▓реНрдпреВрд╢рди рддреБрд▓рдирд╛ рдХреЗ рд▓рд┐рдП рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ рдЬреБрдбрд╝реЗ рдореВрд▓ рдкреАрдбреАрдПрдл рдкрд░ рдЬрд╛рдПрдВред

चयनित परिणाम। कृपया उच्च रिज़ॉल्यूशन तुलना के लिए इस लेख में जुड़े मूल पीडीएफ पर जाएं।

स्वचालित मीट्रिक के अलावा, शोधकर्ताओं ने एक उपयोगकर्ता अध्ययन (पूर्व में चित्रित परिणाम तालिका का अंतिम कॉलम) आयोजित किया, जिसमें 40 प्रतिभागियों को 100-प्रश्न पूल से यादृच्छिक रूप से चुने गए 30 प्रश्न दिखाए गए, जो विभिन्न तरीकों से उत्पन्न छवियों से संबंधित थे। 70% उत्तरदाताओं ने नए तकनीक को अधिक ‘दृश्य रूप से आकर्षक’ के रूप में पसंद किया।

चुनौतियाँ

नई पेपर एआई-आधारित शरीर मैनिपुलेशन में एक दुर्लभ उत्साह है। छवि सिंथेसिस सेक्टर वर्तमान में या तो संपादन योग्य शरीर को उत्पन्न करने के लिए न्यूरल रेडिएंस फील्ड्स (नेर्फ) जैसे तरीकों के माध्यम से रुचि रखता है, या जीएन के लेटेंट स्पेस और स्वचालित एनकोडर के संभावित को अन्वेषण करने में या चेहरे के मैनिपुलेशन के लिए रुचि रखता है।

लेखकों की पहल वर्तमान में केवल वजन में परिवर्तन उत्पन्न करने तक सीमित है, और उन्होंने पृष्ठभूमि को पुनर्स्थापित करने के लिए किसी भी प्रकार की इनपेंटिंग तकनीक को लागू नहीं किया है जो वास्तव में छवि में मानव ‘अपरिपूर्णता’ द्वारा छुपी हुई है।

हालांकि, वे पोर्ट्रेट मैटिंग और पोर्ट्रेट मैटिंग और पृष्ठभूमि मिश्रण के माध्यम से छवि में पुनर्स्थापित की जा सकने वाली पृष्ठभूमि को पुनर्स्थापित करने के लिए टेक्सचर इन्फेरेंस का प्रस्ताव करते हैं।

рдПрдЖрдИ-рдбреНрд░рд┐рд╡рди рдлреИрдЯ рд░рд┐рдбрдХреНрд╢рди рджреНрд╡рд╛рд░рд╛ рдЦреБрд▓рд╛рд╕рд╛ рдХреА рдЧрдИ рдкреГрд╖реНрдарднреВрдорд┐ рдХреЛ рдкреБрдирд░реНрд╕реНрдерд╛рдкрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рд╕рдорд╛рдзрд╛рдиред

एआई-ड्रिवन फैट रिडक्शन द्वारा खुलासा की गई पृष्ठभूमि को पुनर्स्थापित करने के लिए एक प्रस्तावित समाधान।

 

* हालांकि प्रीप्रिंट डेटासेट और परियोजना से अतिरिक्त उदाहरणों के बारे में अधिक जानकारी देने वाली सहायक सामग्री का उल्लेख करता है, इस सामग्री का स्थान पेपर में उपलब्ध नहीं है, और संबंधित लेखक ने अभी तक हमारे अनुरोध का जवाब नहीं दिया है।

पहली बार 10 मार्च 2022 को प्रकाशित।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai