कृत्रिम बुद्धिमत्ता

एआई के साथ ‘बेहतर’ शरीर बनाना

Published March 10, 2022

Updated April 5, 2026

Martin Anderson

अलीबाबा डैमो अकादमी से नई रिसर्च में एक एआई-ड्रिवन वर्कफ्लो पेश किया गया है जो छवियों के शरीर को फिर से आकार देने के लिए एक ऑटोमेटेड प्रोसेस प्रदान करता है – यह कंप्यूटर विजन सेक्टर में एक दुर्लभ प्रयास है, जो वर्तमान में फेस-आधारित मैनिपुलेशन जैसे डीपफेक्स और जीएन-आधारित फेस एडिटिंग पर केंद्रित है।

इनसेट में ‘परिणाम’ कॉलम, जो संशोधित क्षेत्रों को परिभाषित करने वाले जनरेटेड अटेंशन मैप्स हैं। स्रोत: https://arxiv.org/pdf/2203.04670.pdf

शोधकर्ताओं की आर्किटेक्चर स्केलेटन पोज़ एस्टीमेशन का उपयोग करती है ताकि छवि सिंथेसिस और एडिटिंग सिस्टम को शरीर की छवियों को概念ualize और पैरामीटरize करने में बड़ी जटिलता का सामना किया जा सके, कम से कम उस स्तर पर जो वास्तव में अर्थपूर्ण और चयनात्मक संपादन की अनुमति देता है।

अनुमानित स्केलेटन मैप्स उन क्षेत्रों को अलग करने और ध्यान केंद्रित करने में मदद करते हैं जिन्हें संभवतः रीटच किया जा सकता है, जैसे कि ऊपरी बांह क्षेत्र।

सिस्टम अंततः एक उपयोगकर्ता को पैरामीटर सेट करने में सक्षम बनाता है जो वजन, मांसपेशियों के द्रव्यमान, या वजन वितरण की उपस्थिति को पूर्ण-लंबाई या मध्य-लंबाई की तस्वीरों में बदल सकता है, और कपड़े पहने हुए या बिना कपड़े पहने हुए शरीर के हिस्सों पर मनमानी रूपांतरण उत्पन्न करने में सक्षम है।

बाएं, इनपुट छवि; मध्य, व्युत्पन्न ध्यान क्षेत्रों का हीटमैप; दाएं, परिवर्तित छवि।

काम का प्रेरणा मीडिया की विभिन्न शाखाओं में फोटोग्राफरों और प्रोडक्शन ग्राफिक्स कलाकारों द्वारा किए जाने वाले श्रमसाध्य डिजिटल मैनिपुलेशन को बदलने के लिए स्वचालित वर्कफ्लो का विकास है, जो फैशन से लेकर पत्रिका शैली के आउटपुट और प्रचार सामग्री तक है।

सामान्य तौर पर, लेखकों का स्वीकार करते हैं, ये परिवर्तन आमतौर पर फोटोशॉप और अन्य पारंपरिक बिटमैप संपादकों में ‘वार्प’ तकनीकों के साथ लागू किए जाते हैं, और लगभग विशेष रूप से महिलाओं की छवियों पर उपयोग किए जाते हैं। परिणामस्वरूप, नए प्रक्रिया को सुविधाजनक बनाने के लिए विकसित किए गए कस्टम डेटासेट में अधिकांश महिला विषयों की तस्वीरें शामिल हैं:

‘चूंकि शरीर रीटचिंग मुख्य रूप से महिलाओं द्वारा वांछित है, हमारे संग्रह में अधिकांश महिला फोटो हैं, जो उम्र, नस्ल (अफ्रीकी: एशियाई: कोकेशियान = 0.33:0.35:0.32), मुद्रा, और परिधानों की विविधता को ध्यान में रखते हुए।’

लेख पेपर का शीर्षक मानव शरीर पुनर्गठन के लिए संरचना-जागरूक प्रवाह जनरेशन है, और अलीबाबा की वैश्विक डैमो अकादमी से जुड़े पांच लेखकों से आता है।

डेटासेट विकास

जैसा कि आमतौर पर छवि सिंथेसिस और एडिटिंग सिस्टम के साथ होता है, परियोजना के लिए आर्किटेक्चर एक कस्टम ट्रेनिंग डेटासेट की आवश्यकता थी। लेखकों ने तीन फोटोग्राफरों को स्टॉक फोटोग्राफी साइट Unsplash से उपयुक्त छवियों के मानक फोटोशॉप मैनिपुलेशन उत्पादन के लिए कमीशन किया, जिसके परिणामस्वरूप 2K रिज़ॉल्यूशन पर 5,000 उच्च गुणवत्ता वाली छवियों का एक डेटासेट – बीआर-5के* हुआ।

शोधकर्ताओं का जोर है कि इस डेटासेट पर प्रशिक्षण का उद्देश्य ‘आदर्शीकृत’ और सामान्य विशेषताओं का उत्पादन करना नहीं है जो आकर्षण या वांछनीय उपस्थिति के सूचकांक से संबंधित हैं, बल्कि पेशेवर शरीर छवियों के मैनिपुलेशन से संबंधित केंद्रीय विशेषता मैपिंग को निकालना है।

हालांकि, वे स्वीकार करते हैं कि मैनिपुलेशन अंततः ‘वास्तविक’ से एक पूर्व-निर्धारित ‘आदर्श’ की ओर एक परिवर्तनकारी प्रक्रिया का प्रतिनिधित्व करते हैं:

‘हम तीन पेशेवर कलाकारों को फोटोशॉप का उपयोग करके स्वतंत्र रूप से शरीर को रीटच करने के लिए आमंत्रित करते हैं, जिसका उद्देश्य लोकप्रिय सौंदर्यशास्त्र के अनुरूप पतले आकार प्राप्त करना है, और सर्वश्रेष्ठ एक को ग्राउंड-ट्रुथ के रूप में चुनते हैं। ‘

चूंकि फ्रेमवर्क चेहरों से संबंधित नहीं है, उन्हें डेटासेट में शामिल करने से पहले उन्हें धुंधला कर दिया गया था।

आर्किटेक्चर और कोर कॉन्सेप्ट

सिस्टम का वर्कफ्लो एक उच्च-रिज़ॉल्यूशन पोर्ट्रेट को फीड करने, इसे कम रिज़ॉल्यूशन में डाउनसैंपल करने और उपलब्ध कंप्यूटिंग संसाधनों में फिट होने के लिए, साथ ही एक अनुमानित स्केलेटन-मैप पोज़ (नीचे दी गई छवि में दूसरा फिगर) और पार्ट अफिनिटी फील्ड्स (पीएएफ) निकालने शामिल है, जो 2016 में कार्नेगी मेलन यूनिवर्सिटी के द रोबोटिक्स इंस्टीट्यूट द्वारा नवाचार किया गया था।

पार्ट अफिनिटी फील्ड्स अंगों की दिशा और व्यापक स्केलेटल फ्रेमवर्क के साथ सामान्य संबंध को परिभाषित करने में मदद करते हैं, जो नए परियोजना को एक अतिरिक्त ध्यान/स्थानीयकरण टूल प्रदान करते हैं।

2016 के पार्ट अफिनिटी फील्ड्स पेपर से, पूर्वानुमानित पीएएफ अंग की दिशा को एक 2डी वेक्टर के हिस्से के रूप में एनकोड करते हैं जिसमें अंग की सामान्य स्थिति भी शामिल है। स्रोत: https://arxiv.org/pdf/1611.08050.pdf

हड्डियों के नक्शे का उपयोग अंतिम परिवर्तनकारी प्रक्रियाओं को उन शरीर के हिस्सों की ओर निर्देशित करने के लिए किया जाता है जिन्हें संशोधित किया जाना है, जैसे कि ऊपरी बांहें, पीछे और जांघें।

इसके बाद, परिणामों को प्रक्रिया के केंद्रीय बोतलनेक में स्ट्रक्चर अफिनिटी सेल्फ-एटेंशन (एसएएसए) में फीड किया जाता है।

एसएएसए प्रवाह जनरेटर की संगति को नियंत्रित करता है जो प्रक्रिया को ईंधन देता है, जिसके परिणामों को तब वार्पिंग मॉड्यूल (उपरोक्त छवि में दूसरा से दाएं) में पास किया जाता है, जो डेटासेट में शामिल मैनुअल संशोधनों से सीखे गए परिवर्तनों को लागू करता है।

स्ट्रक्चर अफिनिटी सेल्फ-एटेंशन (एसएएसए) मॉड्यूल प्रासंगिक शरीर के हिस्सों पर ध्यान केंद्रित करने में मदद करता है, जो अनावश्यक या अप्रासंगिक परिवर्तनों से बचने में मदद करता है।

आउटपुट छवि को बाद में मूल 2K रिज़ॉल्यूशन में अपसैंपल किया जाता है, जो 2017 शैली के डीपफेक आर्किटेक्चर से मिलता-जुलता है, जिससे लोकप्रिय पैकेज जैसे डीपफेसलैब व्युत्पन्न हुए हैं; अपसैंपलिंग प्रक्रिया जीएन एडिटिंग फ्रेमवर्क में भी सामान्य है।

स्कीमा के लिए ध्यान नेटवर्क कंपोज़िशनल डी-एटेंशन नेटवर्क (सीओडीए) के बाद मॉडल किया गया है, जो 2019 में अमेज़न एआई और माइक्रोसॉफ्ट के साथ एक यूएस/सिंगापुर अकादमिक सहयोग है।

परीक्षण

फ्लो-आधारित फ्रेमवर्क का प्रIOR फ्लो-आधारित विधियों एफएएल और एनिमेटिंग थ्रू वार्पिंग (एटीडब्ल्यू) के साथ-साथ इमेज ट्रांसलेशन आर्किटेक्चर पिक्स2पिक्सएचडी और जीएफएलए के खिलाफ परीक्षण किया गया था, जिसमें एसएसआईएम, पीएसएनआर और एलपीआईपीएस मूल्यांकन मीट्रिक के रूप में उपयोग किए गए थे।

प्रारंभिक परीक्षणों के परिणाम (हेडर में तीर की दिशा यह दर्शाती है कि क्या कम या उच्च संख्या बेहतर है)।

ग्रहण किए गए मीट्रिक के आधार पर, लेखकों का सिस्टम पूर्ववर्ती आर्किटेक्चर को बेहतर प्रदर्शन करता है।

चयनित परिणाम। कृपया उच्च रिज़ॉल्यूशन तुलना के लिए इस लेख में जुड़े मूल पीडीएफ पर जाएं।

स्वचालित मीट्रिक के अलावा, शोधकर्ताओं ने एक उपयोगकर्ता अध्ययन (पूर्व में चित्रित परिणाम तालिका का अंतिम कॉलम) आयोजित किया, जिसमें 40 प्रतिभागियों को 100-प्रश्न पूल से यादृच्छिक रूप से चुने गए 30 प्रश्न दिखाए गए, जो विभिन्न तरीकों से उत्पन्न छवियों से संबंधित थे। 70% उत्तरदाताओं ने नए तकनीक को अधिक ‘दृश्य रूप से आकर्षक’ के रूप में पसंद किया।

चुनौतियाँ

नई पेपर एआई-आधारित शरीर मैनिपुलेशन में एक दुर्लभ उत्साह है। छवि सिंथेसिस सेक्टर वर्तमान में या तो संपादन योग्य शरीर को उत्पन्न करने के लिए न्यूरल रेडिएंस फील्ड्स (नेर्फ) जैसे तरीकों के माध्यम से रुचि रखता है, या जीएन के लेटेंट स्पेस और स्वचालित एनकोडर के संभावित को अन्वेषण करने में या चेहरे के मैनिपुलेशन के लिए रुचि रखता है।

लेखकों की पहल वर्तमान में केवल वजन में परिवर्तन उत्पन्न करने तक सीमित है, और उन्होंने पृष्ठभूमि को पुनर्स्थापित करने के लिए किसी भी प्रकार की इनपेंटिंग तकनीक को लागू नहीं किया है जो वास्तव में छवि में मानव ‘अपरिपूर्णता’ द्वारा छुपी हुई है।

हालांकि, वे पोर्ट्रेट मैटिंग और पोर्ट्रेट मैटिंग और पृष्ठभूमि मिश्रण के माध्यम से छवि में पुनर्स्थापित की जा सकने वाली पृष्ठभूमि को पुनर्स्थापित करने के लिए टेक्सचर इन्फेरेंस का प्रस्ताव करते हैं।

एआई-ड्रिवन फैट रिडक्शन द्वारा खुलासा की गई पृष्ठभूमि को पुनर्स्थापित करने के लिए एक प्रस्तावित समाधान।

* हालांकि प्रीप्रिंट डेटासेट और परियोजना से अतिरिक्त उदाहरणों के बारे में अधिक जानकारी देने वाली सहायक सामग्री का उल्लेख करता है, इस सामग्री का स्थान पेपर में उपलब्ध नहीं है, और संबंधित लेखक ने अभी तक हमारे अनुरोध का जवाब नहीं दिया है।

पहली बार 10 मार्च 2022 को प्रकाशित।

Related Topics:deepfake DeepFakes image synthesis research

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एआई के साथ ‘बेहतर’ शरीर बनाना

डेटासेट विकास

आर्किटेक्चर और कोर कॉन्सेप्ट

परीक्षण

चुनौतियाँ

You may like