рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдЖрдИ рдХреЗ рд╕рд╛рде ‘рдмреЗрд╣рддрд░’ рд╢рд░реАрд░ рдмрдирд╛рдирд╛

अलीबाबा डैमो अकादमी से नई रिसर्च में एक एआई-ड्रिवन वर्कफ्लो पेश किया गया है जो छवियों के शरीर को फिर से आकार देने के लिए एक ऑटोमेटेड प्रोसेस प्रदान करता है – यह कंप्यूटर विजन सेक्टर में एक दुर्लभ प्रयास है, जो वर्तमान में फेस-आधारित मैनिपुलेशन जैसे डीपफेक्स और जीएन-आधारित फेस एडिटिंग पर केंद्रित है।

इनसेट में ‘परिणाम’ कॉलम, जो संशोधित क्षेत्रों को परिभाषित करने वाले जनरेटेड अटेंशन मैप्स हैं। स्रोत: https://arxiv.org/pdf/2203.04670.pdf
शोधकर्ताओं की आर्किटेक्चर स्केलेटन पोज़ एस्टीमेशन का उपयोग करती है ताकि छवि सिंथेसिस और एडिटिंग सिस्टम को शरीर की छवियों को概念ualize और पैरामीटरize करने में बड़ी जटिलता का सामना किया जा सके, कम से कम उस स्तर पर जो वास्तव में अर्थपूर्ण और चयनात्मक संपादन की अनुमति देता है।

अनुमानित स्केलेटन मैप्स उन क्षेत्रों को अलग करने और ध्यान केंद्रित करने में मदद करते हैं जिन्हें संभवतः रीटच किया जा सकता है, जैसे कि ऊपरी बांह क्षेत्र।
सिस्टम अंततः एक उपयोगकर्ता को पैरामीटर सेट करने में सक्षम बनाता है जो वजन, मांसपेशियों के द्रव्यमान, या वजन वितरण की उपस्थिति को पूर्ण-लंबाई या मध्य-लंबाई की तस्वीरों में बदल सकता है, और कपड़े पहने हुए या बिना कपड़े पहने हुए शरीर के हिस्सों पर मनमानी रूपांतरण उत्पन्न करने में सक्षम है।

बाएं, इनपुट छवि; मध्य, व्युत्पन्न ध्यान क्षेत्रों का हीटमैप; दाएं, परिवर्तित छवि।
काम का प्रेरणा मीडिया की विभिन्न शाखाओं में फोटोग्राफरों और प्रोडक्शन ग्राफिक्स कलाकारों द्वारा किए जाने वाले श्रमसाध्य डिजिटल मैनिपुलेशन को बदलने के लिए स्वचालित वर्कफ्लो का विकास है, जो फैशन से लेकर पत्रिका शैली के आउटपुट और प्रचार सामग्री तक है।
सामान्य तौर पर, लेखकों का स्वीकार करते हैं, ये परिवर्तन आमतौर पर फोटोशॉप और अन्य पारंपरिक बिटमैप संपादकों में ‘वार्प’ तकनीकों के साथ लागू किए जाते हैं, और लगभग विशेष रूप से महिलाओं की छवियों पर उपयोग किए जाते हैं। परिणामस्वरूप, नए प्रक्रिया को सुविधाजनक बनाने के लिए विकसित किए गए कस्टम डेटासेट में अधिकांश महिला विषयों की तस्वीरें शामिल हैं:
‘चूंकि शरीर रीटचिंग मुख्य रूप से महिलाओं द्वारा वांछित है, हमारे संग्रह में अधिकांश महिला फोटो हैं, जो उम्र, नस्ल (अफ्रीकी: एशियाई: कोकेशियान = 0.33:0.35:0.32), मुद्रा, और परिधानों की विविधता को ध्यान में रखते हुए।’
लेख पेपर का शीर्षक मानव शरीर पुनर्गठन के लिए संरचना-जागरूक प्रवाह जनरेशन है, और अलीबाबा की वैश्विक डैमो अकादमी से जुड़े पांच लेखकों से आता है।
डेटासेट विकास
जैसा कि आमतौर पर छवि सिंथेसिस और एडिटिंग सिस्टम के साथ होता है, परियोजना के लिए आर्किटेक्चर एक कस्टम ट्रेनिंग डेटासेट की आवश्यकता थी। लेखकों ने तीन फोटोग्राफरों को स्टॉक फोटोग्राफी साइट Unsplash से उपयुक्त छवियों के मानक फोटोशॉप मैनिपुलेशन उत्पादन के लिए कमीशन किया, जिसके परिणामस्वरूप 2K रिज़ॉल्यूशन पर 5,000 उच्च गुणवत्ता वाली छवियों का एक डेटासेट – बीआर-5के* हुआ।
शोधकर्ताओं का जोर है कि इस डेटासेट पर प्रशिक्षण का उद्देश्य ‘आदर्शीकृत’ और सामान्य विशेषताओं का उत्पादन करना नहीं है जो आकर्षण या वांछनीय उपस्थिति के सूचकांक से संबंधित हैं, बल्कि पेशेवर शरीर छवियों के मैनिपुलेशन से संबंधित केंद्रीय विशेषता मैपिंग को निकालना है।
हालांकि, वे स्वीकार करते हैं कि मैनिपुलेशन अंततः ‘वास्तविक’ से एक पूर्व-निर्धारित ‘आदर्श’ की ओर एक परिवर्तनकारी प्रक्रिया का प्रतिनिधित्व करते हैं:
‘हम तीन पेशेवर कलाकारों को फोटोशॉप का उपयोग करके स्वतंत्र रूप से शरीर को रीटच करने के लिए आमंत्रित करते हैं, जिसका उद्देश्य लोकप्रिय सौंदर्यशास्त्र के अनुरूप पतले आकार प्राप्त करना है, और सर्वश्रेष्ठ एक को ग्राउंड-ट्रुथ के रूप में चुनते हैं। ‘
चूंकि फ्रेमवर्क चेहरों से संबंधित नहीं है, उन्हें डेटासेट में शामिल करने से पहले उन्हें धुंधला कर दिया गया था।
आर्किटेक्चर और कोर कॉन्सेप्ट
सिस्टम का वर्कफ्लो एक उच्च-रिज़ॉल्यूशन पोर्ट्रेट को फीड करने, इसे कम रिज़ॉल्यूशन में डाउनसैंपल करने और उपलब्ध कंप्यूटिंग संसाधनों में फिट होने के लिए, साथ ही एक अनुमानित स्केलेटन-मैप पोज़ (नीचे दी गई छवि में दूसरा फिगर) और पार्ट अफिनिटी फील्ड्स (पीएएफ) निकालने शामिल है, जो 2016 में कार्नेगी मेलन यूनिवर्सिटी के द रोबोटिक्स इंस्टीट्यूट द्वारा नवाचार किया गया था।
पार्ट अफिनिटी फील्ड्स अंगों की दिशा और व्यापक स्केलेटल फ्रेमवर्क के साथ सामान्य संबंध को परिभाषित करने में मदद करते हैं, जो नए परियोजना को एक अतिरिक्त ध्यान/स्थानीयकरण टूल प्रदान करते हैं।

2016 के पार्ट अफिनिटी फील्ड्स पेपर से, पूर्वानुमानित पीएएफ अंग की दिशा को एक 2डी वेक्टर के हिस्से के रूप में एनकोड करते हैं जिसमें अंग की सामान्य स्थिति भी शामिल है। स्रोत: https://arxiv.org/pdf/1611.08050.pdf
हड्डियों के नक्शे का उपयोग अंतिम परिवर्तनकारी प्रक्रियाओं को उन शरीर के हिस्सों की ओर निर्देशित करने के लिए किया जाता है जिन्हें संशोधित किया जाना है, जैसे कि ऊपरी बांहें, पीछे और जांघें।
इसके बाद, परिणामों को प्रक्रिया के केंद्रीय बोतलनेक में स्ट्रक्चर अफिनिटी सेल्फ-एटेंशन (एसएएसए) में फीड किया जाता है।

एसएएसए प्रवाह जनरेटर की संगति को नियंत्रित करता है जो प्रक्रिया को ईंधन देता है, जिसके परिणामों को तब वार्पिंग मॉड्यूल (उपरोक्त छवि में दूसरा से दाएं) में पास किया जाता है, जो डेटासेट में शामिल मैनुअल संशोधनों से सीखे गए परिवर्तनों को लागू करता है।

स्ट्रक्चर अफिनिटी सेल्फ-एटेंशन (एसएएसए) मॉड्यूल प्रासंगिक शरीर के हिस्सों पर ध्यान केंद्रित करने में मदद करता है, जो अनावश्यक या अप्रासंगिक परिवर्तनों से बचने में मदद करता है।
आउटपुट छवि को बाद में मूल 2K रिज़ॉल्यूशन में अपसैंपल किया जाता है, जो 2017 शैली के डीपफेक आर्किटेक्चर से मिलता-जुलता है, जिससे लोकप्रिय पैकेज जैसे डीपफेसलैब व्युत्पन्न हुए हैं; अपसैंपलिंग प्रक्रिया जीएन एडिटिंग फ्रेमवर्क में भी सामान्य है।
स्कीमा के लिए ध्यान नेटवर्क कंपोज़िशनल डी-एटेंशन नेटवर्क (सीओडीए) के बाद मॉडल किया गया है, जो 2019 में अमेज़न एआई और माइक्रोसॉफ्ट के साथ एक यूएस/सिंगापुर अकादमिक सहयोग है।
परीक्षण
फ्लो-आधारित फ्रेमवर्क का प्रIOR फ्लो-आधारित विधियों एफएएल और एनिमेटिंग थ्रू वार्पिंग (एटीडब्ल्यू) के साथ-साथ इमेज ट्रांसलेशन आर्किटेक्चर पिक्स2पिक्सएचडी और जीएफएलए के खिलाफ परीक्षण किया गया था, जिसमें एसएसआईएम, पीएसएनआर और एलपीआईपीएस मूल्यांकन मीट्रिक के रूप में उपयोग किए गए थे।

प्रारंभिक परीक्षणों के परिणाम (हेडर में तीर की दिशा यह दर्शाती है कि क्या कम या उच्च संख्या बेहतर है)।
ग्रहण किए गए मीट्रिक के आधार पर, लेखकों का सिस्टम पूर्ववर्ती आर्किटेक्चर को बेहतर प्रदर्शन करता है।
स्वचालित मीट्रिक के अलावा, शोधकर्ताओं ने एक उपयोगकर्ता अध्ययन (पूर्व में चित्रित परिणाम तालिका का अंतिम कॉलम) आयोजित किया, जिसमें 40 प्रतिभागियों को 100-प्रश्न पूल से यादृच्छिक रूप से चुने गए 30 प्रश्न दिखाए गए, जो विभिन्न तरीकों से उत्पन्न छवियों से संबंधित थे। 70% उत्तरदाताओं ने नए तकनीक को अधिक ‘दृश्य रूप से आकर्षक’ के रूप में पसंद किया।
चुनौतियाँ
नई पेपर एआई-आधारित शरीर मैनिपुलेशन में एक दुर्लभ उत्साह है। छवि सिंथेसिस सेक्टर वर्तमान में या तो संपादन योग्य शरीर को उत्पन्न करने के लिए न्यूरल रेडिएंस फील्ड्स (नेर्फ) जैसे तरीकों के माध्यम से रुचि रखता है, या जीएन के लेटेंट स्पेस और स्वचालित एनकोडर के संभावित को अन्वेषण करने में या चेहरे के मैनिपुलेशन के लिए रुचि रखता है।
लेखकों की पहल वर्तमान में केवल वजन में परिवर्तन उत्पन्न करने तक सीमित है, और उन्होंने पृष्ठभूमि को पुनर्स्थापित करने के लिए किसी भी प्रकार की इनपेंटिंग तकनीक को लागू नहीं किया है जो वास्तव में छवि में मानव ‘अपरिपूर्णता’ द्वारा छुपी हुई है।
हालांकि, वे पोर्ट्रेट मैटिंग और पोर्ट्रेट मैटिंग और पृष्ठभूमि मिश्रण के माध्यम से छवि में पुनर्स्थापित की जा सकने वाली पृष्ठभूमि को पुनर्स्थापित करने के लिए टेक्सचर इन्फेरेंस का प्रस्ताव करते हैं।

एआई-ड्रिवन फैट रिडक्शन द्वारा खुलासा की गई पृष्ठभूमि को पुनर्स्थापित करने के लिए एक प्रस्तावित समाधान।
* हालांकि प्रीप्रिंट डेटासेट और परियोजना से अतिरिक्त उदाहरणों के बारे में अधिक जानकारी देने वाली सहायक सामग्री का उल्लेख करता है, इस सामग्री का स्थान पेपर में उपलब्ध नहीं है, और संबंधित लेखक ने अभी तक हमारे अनुरोध का जवाब नहीं दिया है।
पहली बार 10 मार्च 2022 को प्रकाशित।











