Connect with us

рдПрдЖрдИ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдореЛрдЯрд╛ рд╣реЛрдиреЗ рдХреЗ рдлрд╛рдпрджреЗ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдореЛрдЯрд╛ рд╣реЛрдиреЗ рдХреЗ рдлрд╛рдпрджреЗ

mm
Images of synthetically altered data, from the paper 'Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping at https://arxiv.org/abs/2508.13065

एक नया एआई सिस्टम लोगों के शरीर को फोटो में वास्तविक रूप से बदल सकता है, उन्हें मोटा, पतला या अधिक मांसपेशियों वाला बना सकता है, बिना उनके चेहरे, कपड़ों या पृष्ठभूमि को बदले। सिस्टम एक पूरी तरह से सिंथेटिक डेटासेट पर प्रशिक्षित किया गया है जो प्रत्येक पहचान को कई शरीर के प्रकारों में दिखाता है।

 

एआई का सामाजिक नेटवर्क पर शरीर के आकार को परिष्कृत करने के तरीके के रूप में बढ़ती हुई उपयोग के अलावा, या (संभावित रूप से) वीएफएक्स उद्देश्यों के लिए शरीर के प्रकार को बदलने के लिए, मशीन लर्निंग का उपयोग व्यक्तियों की उपस्थिति को बदलने के लिए एक अधिक महत्वपूर्ण कार्य कर सकता है: खाने के विकार वाले व्यक्तियों को उनकी अपनी दृश्य विकृत व्याख्या को समझने में मदद करना, साथ ही साथ अधिक सामान्य खेल और फिटनेस उद्देश्यों के लिए एक संभावित प्रेरक उपकरण प्रदान करना:

рдкреЗрдкрд░ 'рдмреЙрдбреА рд╕рд╛рдЗрдЬ рдПрд╕реНрдЯреАрдореЗрд╢рди рдЗрди рд╡реАрдореЗрди рд╡рд┐рдж рдПрдиреЛрд░реЗрдХреНрд╕рд┐рдпрд╛ рдирд░реНрд╡реЛрд╕рд╛ рдПрдВрдб рд╣реЗрд▓реНрджреА рдХрдВрдЯреНрд░реЛрд▓реНрд╕ рдпреВрдЬрд┐рдВрдЧ 3рдбреА рдЕрд╡рддрд╛рд░реНрд╕' рд╕реЗ, рдмреЙрдбреА рд╢реЗрдк рдЪреЗрдВрдЬреЗрд╕ рдХреЛ рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЬреАрдпреВрдЖрдИред рдмреЙрдбреА рдбрд┐рд╕рдореЙрд░реНрдлрд┐рдпрд╛ рд╡рд╛рд▓реЗ рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреЛ рдПрдХ рд╕рдорд╛рди рдЫрд╡рд┐ рдХреЗ рд╕рд╛рде рдПрдХ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХреЛ рд╕рдВрдмрдВрдзрд┐рдд рдХрд░рдиреЗ рдореЗрдВ рд╕рдВрдШрд░реНрд╖ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдХреНрд▓рд┐рдирд┐рд╢рд┐рдпрди рдХреЛ рдбрд┐рд╕рдореЙрд░реНрдлрд┐рдХ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЗ рд▓рд┐рдП рдПрдХ рдореАрдЯреНрд░рд┐рдХ рджрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЕрдиреНрдп рдЙрджреНрджреЗрд╢реНрдпреЛрдВ рдХреЗ рдмреАрдЪред

पेपर ‘बॉडी साइज एस्टीमेशन इन वीमेन विद एनोरेक्सिया नर्वोसा एंड हेल्दी कंट्रोल्स यूजिंग 3डी अवतार्स’ से, बॉडी शेप चेंजेस को विज़ुअलाइज़ करने के लिए एक जीयूआई। बॉडी डिसमॉर्फिया वाले व्यक्तियों को एक समान छवि के साथ एक वास्तविक व्याख्या को संबंधित करने में संघर्ष हो सकता है, जिससे क्लिनिशियन को डिसमॉर्फिक प्रतिक्रियाओं के लिए एक मीट्रिक दिया जा सकता है, अन्य उद्देश्यों के बीच। स्रोत: https://www.nature.com/articles/s41598-017-15339-z.pdf

इसके अलावा, कंप्यूटर विजन रिसर्च में फैशन ट्राई-ऑन सब-स्ट्रैंड में भी विभिन्न शरीर के आकारों में सटीक दृश्यीकरण प्रदान करने में रुचि है। जबकि जापान के त्सुकुबा विश्वविद्यालय के 2024 DiffBody ऑफरिंग जैसे फ्रेमवर्क ने इस क्षेत्र में कुछ आकर्षक कार्यक्षमता बनाई है:

рдкреВрд░реНрд╡ рдбрд┐рдлрдмреЙрдбреА рддрдХрдиреАрдХ рдХрд╛ рдЙрдкрдпреЛрдЧ рд╕рдВрднрд╡ рдкрд░рд┐рд╡рд░реНрддрдиред

पूर्व डिफबॉडी तकनीक का उपयोग संभव परिवर्तन। स्रोत: https://arxiv.org/pdf/2401.02804

चूंकि एआई फाउंडेशन मॉडल सामान्य रूप से आकर्षक या अन्य सामान्य शरीर के आकार के प्रति अनुकूलित होते हैं, असामान्य आकार जैसे ‘मोटा’ मानक मॉडल में न्यूनतम रूप से उपलब्ध होते हैं, या कुछ दंडात्मक पूर्वाग्रह के साथ आते हैं।

पेयर आवश्यकताएं

मानवों की तस्वीरों में वसा या मांसपेशियों को वास्तविक रूप से जोड़ने या घटाने वाले एआई सिस्टम बनाने में सबसे बड़ी चुनौतियों में से एक यह है कि यह जोड़े गए प्रशिक्षण को शामिल करता है, जहां एआई सिस्टम प्रभावी रूप से ‘पहले’ और ‘बाद’ की छवियों को सीखता है जो किसी भी परिवर्तन को परिभाषित करता है जिसे मॉडल को करने का इरादा है:

यह प्रशिक्षण ब्लैक फॉरेस्ट लैब्स के कॉन्टेक्स्ट श्रृंखला के चित्र संपादन मॉडल की सफलता के कारण गर्मियों के दौरान प्रमुखता में वापस आया है, जहां इस प्रकार के जोड़े गए डेटा का उपयोग मॉडल को विभिन्न परिवर्तन सिखाने के लिए किया गया था:

рдлреНрд▓рдХреНрд╕ рдХреЙрдиреНрдЯреЗрдХреНрд╕реНрдЯ рд╕рд╛рдЗрдЯ рд╕реЗ, рдПрдХ рдкрд░рд┐рд╡рд░реНрддрди рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдЬреЛ рд╕реНрд░реЛрдд рдбреЗрдЯрд╛ рдХреЗ рдкреНрд░рдХрд╛рд░ рдХреЛ рдкреНрд░рддрд┐рдмрд┐рдВрдмрд┐рдд рдХрд░рддрд╛ рд╣реИ рдЬрд┐рд╕реЗ рдореЙрдбрд▓ рдХреЛ рдЫрд╡рд┐ рдХреА рдЕрдЦрдВрдбрддрд╛ рдХреЛ рдмрдирд╛рдП рд░рдЦрдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

फ्लक्स कॉन्टेक्स्ट साइट से, एक परिवर्तन का एक उदाहरण जो स्रोत डेटा के प्रकार को प्रतिबिंबित करता है जिसे मॉडल को छवि की अखंडता को बनाए रखने में सक्षम होने के लिए प्रशिक्षित करने की आवश्यकता है। स्रोत: https://bfl.ai/models/flux-kontext

स्पष्ट रूप से, किसी व्यक्ति की उपस्थिति (पूरी छवि को पुनः कल्पना किए बिना) को महत्वपूर्ण रूप से बदलने वाले मॉडल के विकास के मामले में, कुछ ऐसा चाहिए जो वास्तविक दुनिया में पूरी तरह से असंभव है: कुछ सेकंड के भीतर ली गई कट्टर ‘पहले’ और ‘बाद’ की तस्वीरें।

एकमात्र उपाय सिंथेटिक डेटा है। इस प्रकार की कुछ परियोजनाओं ने व्यक्तिगत, उच्च-प्रयास वाले विपरीत जोड़े बनाए हैं जो मैन्युअल रूप से फोटोशॉप में बनाए गए हैं; हालांकि, यह पैमाने पर अवास्तविक है, और एक स्वचालित या अर्ध-स्वचालित, एआई-चालित प्रक्रिया जोड़े को उत्पन्न करने के लिए अब बढ़ती जा रही है जो पसंद की जा रही है。

GAN-आधारित और अधिकांश SMPL/X-आधारित दृष्टिकोणों (जहां एक आभासी सीजीआई आंकड़ा वास्तविक छवियों और वांछित परिवर्तनों के बीच एक प्रकार के विनिमय तंत्र के रूप में कार्य करता है), और दृष्टिकोणों के साथ जो छवि-वार्पिंग का उपयोग करते हैं, यह है कि पृष्ठभूमि और पहचान प्रक्रिया में पीड़ित होने के लिए लगती है।

рдкреИрд░рд╛рдореЗрдЯреНрд░рд┐рдХ, рд╡реЗрдХреНрдЯрд░-рдЖрдзрд╛рд░рд┐рдд рд╕реАрдЬреАрдЖрдИ рдореЙрдбрд▓ рдЬреИрд╕реЗ рдПрд╕рдПрдордкреАрдПрд▓ рдФрд░ рдПрд╕рдПрдордкреАрдПрд▓-рдПрдХреНрд╕ (рдЕрдиреНрдп рд▓реЛрдЧреЛрдВ рдХреЗ рдмреАрдЪ), рдкрд░рд┐рднрд╛рд╖рд┐рдд рдкрд╛рд░рдВрдкрд░рд┐рдХ рднреМрддрд┐рдХ 3рдбреА рдирд┐рд░реНрджреЗрд╢рд╛рдВрдХ рдкреНрд░рджрд╛рди рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдХрдВрдкреНрдпреВрдЯрд░ рджреГрд╖реНрдЯрд┐ рдлреНрд░реЗрдорд╡рд░реНрдХ рдореЗрдВ рд╡реНрдпрд╛рдЦреНрдпрд╛ рдФрд░ рдПрдХреАрдХреГрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред

पैरामेट्रिक, वेक्टर-आधारित सीजीआई मॉडल जैसे एसएमपीएल और एसएमपीएल-एक्स (अन्य लोगों के बीच), परिभाषित पारंपरिक भौतिक 3डी निर्देशांक प्रदान करते हैं जिन्हें कंप्यूटर दृष्टि फ्रेमवर्क में व्याख्या और एकीकृत किया जा सकता है। स्रोत: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

चूंकि यह महत्वपूर्ण है कि एआई केवल वांछित पहलुओं को बदलना सीखे, न कि पृष्ठभूमि और अन्य अवांछित त्रुटियों को विकृत करना सीखे, इसलिए कोई भी शरीर-परिवर्तन प्रणाली अभी तक एक आदर्श समाधान पर नहीं पहुंची है।

हालांकि, भारत से एक हालिया पेपर राज्य की कला पर एक उल्लेखनीय प्रगति का प्रस्ताव करता है, जो पुराने फ्लक्स डिफ्यूजन मॉडल फ्रेमवर्क का उपयोग करके गaires किया जाता है, जो कई माध्यमिक दृष्टिकोणों के साथ बढ़ाया जाता है जो एक श्रेष्ठ और अधिक संगत जोड़े गए डेटासेट को सक्षम बनाता है:

рдирдИ рдкрд░рд┐рдпреЛрдЬрдирд╛ рд╕реЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЗ рдЙрджрд╛рд╣рд░рдгред

नई परियोजना से डेटासेट के उदाहरण。 स्रोत: https://arxiv.org/pdf/2508.13065

परियोजना में एक नई और व्यापक जोड़े गए डेटासेट; ओडो, एक वितरित मॉडल जो इस डेटा पर प्रशिक्षित है; और एक विशेष नए बेंचमार्क शामिल हैं जो मानव आकार-संपादन प्रदर्शन का मात्रात्मक मूल्यांकन करने के लिए डिज़ाइन किया गया है। परीक्षणों में, लेखक दावा करते हैं कि समान मॉडल द्वारा प्राप्त मानकों पर एक उल्लेखनीय प्रगति हासिल की गई है।

नई पेपर का शीर्षक ओडो: डेप्थ-गाइडेड डिफ्यूजन फॉर आइडेंटिटी-प्रिजर्विंग बॉडी रीशेपिंग है, और यह भारत के बैंगलोर में फास्ट कोड एआई प्राइवेट लिमिटेड के तीन शोधकर्ताओं से आता है।

डेटा और विधि

शोधकर्ताओं द्वारा बनाए गए डेटासेट में प्रत्येक लक्ष्य शरीर प्रकार (मोटा, पतला, और मांसपेशियों वाला) के लिए 7,615 उच्च-रिज़ॉल्यूशन (960x1280px) छवियां हैं।

प्रारंभ में, 1,523 मानव चेहरे FLUX.1-dev 12-बिलियन पैरामीटर डिफ्यूजन मॉडल के माध्यम से उत्पन्न किए गए थे, हालांकि पेक्सल्स और अनस्प्लैश से एक निर्दिष्ट संख्या में लाइसेंस-मुक्त संदर्भ चेहरों का लाभ उठाकर विविधता बढ़ाने के लिए।

इन चेहरों को शामिल करने वाली पूर्ण-शरीर की छवियों को उत्पन्न करने के लिए, शोधकर्ताओं ने बाइटडांस के 2024 PuLID का उपयोग किया, जो एक चेकपॉइंट है जो फ्लक्स पर फाइन-ट्यून किया गया है, और इसमें एक विपरीत आईडी हानि शामिल है जो परिवर्तनकारी प्रक्रियाओं के दौरान चेहरे की पहचान को संरक्षित करने में मदद करने के लिए डिज़ाइन की गई है:

PuLID рдкрд░рд┐рдпреЛрдЬрдирд╛ рд╕реЗ рдЙрджрд╛рд╣рд░рдгред

PuLID परियोजना से उदाहरण。 स्रोत: https://arxiv.org/pdf/2404.16022

मॉडल को एक चेहरे की छवि और एक मानकीकृत प्रोम्प्ट प्राप्त हुआ, जिसमें लिंग, कपड़े, मुद्रा, दृश्य, साथ ही पतला, मोटा, या मांसपेशियों वाला शरीर प्रकार का अनुरोध किया गया था।

प्रत्येक पहचान के लिए तीन शरीर प्रकार की छवियां कभी-कभी पृष्ठभूमि संरेखण और विषय के आकार में मामूली बदलाव प्रदर्शित करती हैं, जो स्टोकास्टिक व्यवहार के कारण होता है डिफ्यूजन मॉडल, जहां प्रत्येक पीढ़ी एक नए शोर बीज से शुरू होती है। यहां तक कि प्रोम्प्ट में मामूली बदलाव, जैसे कि शरीर प्रकार के विवरण को संशोधित करना, मॉडल की पथ को लेटेंट स्पेस में प्रभावित कर सकता है, और दृश्य ड्रिफ्ट का कारण बन सकता है।

इस भिन्नता को ठीक करने के लिए, एक चार-चरण स्वचालित पोस्ट-प्रोसेसिंग पाइपलाइन लागू की गई, जिसमें प्रत्येक त्रिपल में पतली छवि को संदर्भ के रूप में चुना गया, क्योंकि इसका छोटा सिल्हूट अधिक पृष्ठभूमि को उजागर करता है।

व्यक्ति का पता लगाने के लिए RT-DETRv2 का उपयोग किया गया, इसके बाद SAM 2.1 के साथ सेगमेंटेशन किया गया ताकि तीनों शरीर प्रकारों के लिए विषय मास्क निकाले जा सकें। पतली संदर्भ छवि को फ्लक्स.1 कॉन्टेक्स्ट प्रो (नया चित्र संपादन प्रणाली) के लिए पृष्ठभूमि पेंटिंग के लिए पारित किया गया, जिससे विषय को हटाकर एक साफ संस्करण của दृश्य बना।

मोटा और मांसपेशियों वाला संस्करणों को समान फ्रेमिंग के लिए पतली संदर्भ मास्क की ऊंचाई से मेल खाने के लिए एक समान स्केलिंग का उपयोग करके पुनः आकार दिया गया, और नीचे के संरेखण पर साफ पृष्ठभूमि पर संयोजित किया गया।

लेखकों का कहना है:

‘परिणामी परिवर्तन त्रिपल (पतला, मोटा और मांसपेशियों वाला) में एक ही पृष्ठभूमि और एक समान विषय के पैमाने होते हैं। यह अनावश्यक भिन्नताएं हटा देता है जो बाद के प्रशिक्षण या मूल्यांकन को नकारात्मक रूप से प्रभावित कर सकती हैं। ‘

प्रत्येक त्रिपल की पतली, मोटा, और मांसपेशियों वाला छवियों की त्रिपल ने छह संभावित परिवर्तन जोड़े प्रदान किए, जिससे 7,615 पहचानों में 45,690 सैद्धांतिक संयोजन हुए।

असंगत कपड़े, अस्वाभाविक मुद्रा, विकृत अंग, पहचान ड्रिफ्ट, या न्यूनतम आकार परिवर्तन वाले उदाहरणों को फिल्टर करने के बाद, 18,573 उच्च-गुणवत्ता वाले जोड़े बनाए रखे गए। हालांकि कुछ मामूली मुद्रा भिन्नताएं बनी रहीं, मॉडल इन भिन्नताओं के प्रति मजबूत साबित हुआ।

प्रशिक्षण और परीक्षण

परिणामी छवियों का उपयोग ओडो मॉडल को प्रशिक्षित करने के लिए किया गया – एक डिफ्यूजन-आधारित दृष्टिकोण मानवों को पुनः आकार देने के लिए, स्किन्ड मulti-पर्सन लाइनियर मॉडल (SMPL, अर्थात मध्यवर्ती सीजीआई) मानचित्रों का उपयोग करके।

2024 न्यूरल लोकलाइज़र की विधियों से सूचित, डेटा को प्रति व्यक्ति के आधार पर एसएमपीएल आकृति में अनुकूलित किया गया, जिससे परिणामस्वरूप अनुकूलित पैरामीटर गहराई मानचित्र उत्पन्न करने में सक्षम हो गए जिनसे संशोधित छवियां व्युत्पन्न की जा सकेंगी:

рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдкрд╛рдЗрдкрд▓рд╛рдЗрди рдХреЗ рд▓рд┐рдП рд╕реНрдХреАрдорд╛ред рдмрд╛рдПрдВ рдкрдХреНрд╖ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯрдЕрдк рдХреЛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ, рдЬрд╣рд╛рдВ рд▓рдХреНрд╖реНрдп рдЫрд╡рд┐ рд╕реЗ рдПрд╕рдПрдордкреАрдПрд▓ рдЧрд╣рд░рд╛рдИ рдорд╛рдирдЪрд┐рддреНрд░ рд░реАрд╢реЗрдкрдиреЗрдЯ рдХреЛ рдХрдВрдЯреНрд░реЛрд▓рдиреЗрдЯ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╢рд░реАрд░ рдкрд░рд┐рд╡рд░реНрддрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдорд╛рд░реНрдЧрджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВред рд╕реНрд░реЛрдд рдЫрд╡рд┐ рд╕реЗ рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ рд░реЗрдлрд░реЗрдВрд╕рдиреЗрдЯ рджреНрд╡рд╛рд░рд╛ рдирд┐рдХрд╛рд▓реА рдЬрд╛рддреА рд╣реИрдВ рдФрд░ рд╕реНрдерд╛рдирд┐рдХ рд╕реНрд╡-рдзреНрдпрд╛рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд░реАрд╢реЗрдкрдиреЗрдЯ рдореЗрдВ рдорд┐рд▓рд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рджрд╛рдПрдВ рдкрдХреНрд╖ рдЕрдиреБрдорд╛рди рдХреЛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ, рдЬрд╣рд╛рдВ рдПрд╕рдПрдордкреАрдПрд▓ рдкреИрд░рд╛рдореАрдЯрд░ рдЗрдирдкреБрдЯ рдЫрд╡рд┐ рд╕реЗ рдЕрдиреБрдорд╛рдирд┐рдд рд╣реЛрддреЗ рд╣реИрдВ, рд╕реЗрдореЗрдВрдЯрд┐рдХ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рджреНрд╡рд╛рд░рд╛ рд╕рдВрд╢реЛрдзрд┐рдд рд╣реЛрддреЗ рд╣реИрдВ, рдФрд░ рдПрдХ рд▓рдХреНрд╖реНрдп рдЧрд╣рд░рд╛рдИ рдорд╛рдирдЪрд┐рддреНрд░ рдореЗрдВ рд░реЗрдВрдбрд░ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдЬреЛ рд░реАрд╢реЗрдкрдиреЗрдЯ рдХреЛ рд╢реЛрд░ рдореБрдХреНрдд рдХрд░рдиреЗ рдХреЗ рджреМрд░рд╛рди рд╕рд╢рд░реНрдд рдмрдирд╛рддрд╛ рд╣реИ рддрд╛рдХрд┐ рдЕрдВрддрд┐рдо рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдЫрд╡рд┐ рдХрд╛ рдЙрддреНрдкрд╛рджрди рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред

प्रशिक्षण पाइपलाइन के लिए स्कीमा। बाएं पक्ष प्रशिक्षण सेटअप को दिखाता है, जहां लक्ष्य छवि से एसएमपीएल गहराई मानचित्र रीशेपनेट को कंट्रोलनेट के माध्यम से शरीर परिवर्तन करने के लिए मार्गदर्शन करते हैं। स्रोत छवि से विशेषताएं रेफरेंसनेट द्वारा निकाली जाती हैं और स्थानिक स्व-ध्यान का उपयोग करके रीशेपनेट में मिलाया जाता है। दाएं पक्ष अनुमान को दिखाता है, जहां एसएमपीएल पैरामीटर इनपुट छवि से अनुमानित होते हैं, सेमेंटिक विशेषताओं द्वारा संशोधित होते हैं, और एक लक्ष्य गहराई मानचित्र में रेंडर किया जाता है जो रीशेपनेट को शोर मुक्त करने के दौरान सशर्त बनाता है ताकि अंतिम परिवर्तित छवि का उत्पादन किया जा सके।

मॉडल (ऊपर स्कीमा देखें) में रीशेपनेट मॉड्यूल शामिल है, जो तीन सहायक मॉड्यूल द्वारा समर्थित है: रेफरेंसनेट; एक आईपी-एडाप्टर मॉड्यूल; और एक गहराई-आधारित कंट्रोलनेट मॉड्यूल।

रेफरेंसनेट स्रोत छवि से विस्तृत विशेषताएं निकालता है, जैसे कि पृष्ठभूमि, कपड़े और पहचान, और उन्हें रीशेपनेट में पारित करता है। आईपी-एडाप्टर उच्च-स्तरीय विशेषता मार्गदर्शन प्रदान करता है, जबकि गहराई कंट्रोलनेट एसएमपीएल-आधारित सशर्तता लागू करता है जो शरीर परिवर्तन को मार्गदर्शन करता है। पिछले कार्यों के अनुसार, एक एसडीएक्सएल-आधारित फ्रोजन यूनेट का उपयोग मध्यवर्ती विशेषताओं को निकालने के लिए किया गया था।

आईपी-एडाप्टर मॉड्यूल के लिए, यह इनपुट छवि को क्लिप के माध्यम से एन्कोड करता है, जिसके परिणामस्वरूप एम्बेडिंग होते हैं जो रीशेपनेट में क्रॉस-ध्यान के माध्यम से एकीकृत होते हैं।

गहराई कंट्रोलनेट मॉड्यूल के लिए, यह रीशेपनेट के मध्य और डीकोडर परतों को शेष संबंध के माध्यम से मार्गदर्शन करता है। इसके बाद, यह एक लक्ष्य गहराई मानचित्र लेता है जो लक्ष्य एसएमपीएल पैरामीटर से रेंडर किया जाता है और इसे लक्ष्य छवि के साथ संरेखित करता है।

रीशेपनेट, एसडीएक्सएल यूनेट पर आधारित है, ओडो का मुख्य नेटवर्क है। प्रशिक्षण के दौरान, लक्ष्य छवियों को एक वेरिएशनल ऑटोएन्कोडर के माध्यम से लेटेंट स्पेस में एन्कोड किया जाता है, समय के साथ शोर किया जाता है, और फिर रीशेपनेट द्वारा कंट्रोलनेट और रेफरेंसनेट से विशेषताओं का उपयोग करके शोर मुक्त किया जाता है।

श्रेणी-विशिष्ट पाठ प्रोम्प्ट जैसे ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ जोड़े गए, ताकि परिवर्तनों को मार्गदर्शन किया जा सके। जबकि गहराई मानचित्र ने मोटे शरीर के आकार को पकड़ा, प्रोम्प्ट ने परिवर्तनों के लिए आवश्यक सेमेंटिक विवरण प्रदान किया, जैसे कि मांसपेशियों की परिभाषा, जिससे मॉडल अधिक सटीक और वास्तविक परिवर्तन उत्पन्न कर सके।

प्रशिक्षण कार्यान्वयन

ओडो को परियोजना के सिंथेटिक डेटासेट के साथ प्रशिक्षित किया गया, जिसे डीपफैशन-मल्टीमॉडल डेटासेट के एक सबसेट के साथ जोड़ा गया, जिससे कुल 20,000 छवि जोड़े प्राप्त हुए।

डीपफैशन-मल्टीमॉडल डेटा ने कपड़ों और चेहरे की विशेषताओं में विविधता प्रदान की, जिसमें प्रशिक्षण के दौरान खुद के खिलाफ जोड़े गए छवियां थीं। सभी एसएमपीएल गहराई मानचित्रों को कुशलता के लिए पूर्व-गणना किया गया, प्रशिक्षण एक एकल एनवीडिया ए100 जीपीयू पर 60 प्रशिक्षण युग के लिए चलाया गया, जिसमें 80GB का वीआरएएम था।

इनपुट छवियों को 768×1024 तक कम करने के साथ, एडम ऑप्टिमाइज़र का उपयोग 1×10⁻⁵ की सीखने की दर पर किया गया। रीशेपनेट को एसडीएक्सएल यूनेट वजन के साथ आरंभ किया गया और संयुक्त रूप से आईपी-एडाप्टर के साथ फाइन-ट्यून किया गया।

रेफरेंसनेट को एसडीएक्सएल वजन के साथ आरंभ किया गया और जमे हुए रखा गया, जबकि गहराई कंट्रोलनेट ने पूर्व-प्रशिक्षित वजन का उपयोग किया और जमे हुए रहा।

अंतिम मॉडल को लगभग 23GB का जीपीयू मेमोरी की आवश्यकता थी, और एकल-छवि अनुमान के लिए 18 सेकंड की आवश्यकता थी।

एक नई मीट्रिक

इस प्रकार की परियोजना के लिए आवश्यक डेटासेट की कमी का अर्थ है कि कोई मौजूदा मीट्रिक वास्तव में इस चुनौती को संबोधित नहीं करता है। इसलिए, लेखकों ने एक नई बेंचमार्क बनाई, जिसमें 3,600 छवि जोड़े शामिल हैं, जिसमें वास्तविक चेहरे की छवियां और पृष्ठभूमि विवरण शामिल हैं, साथ ही विविध शरीर के आकार भिन्नताएं हैं:

अन्य मीट्रिक जो उपयोग किए गए थे वे हैं संरचनात्मक समानता सूचकांक (एसएसआईएम); पीक सिग्नल-टू-शोर अनुपात (पीएसएनआर); सीखा हुआ संवेदी छवि पैच समानता (एलपीआईपीएस); और स्केल सुधारित प्रति-शीर्ष यूक्लिडियन त्रुटि न्यूट्रल (टी-) मुद्रा में (पीवीई-टी-एससी).

सबसे पहले, लेखकों ने अपनी विधि का गुणात्मक रूप से इन-द-वाइल्ड छवियों (प्रशिक्षण के दौरान मॉडल द्वारा नहीं देखी गई छवियों) के खिलाफ परीक्षण किया:

рдЧреБрдгрд╛рддреНрдордХ рдкрд░реАрдХреНрд╖рдгред рдЙрджрд╛рд╣рд░рдг рдореВрд▓ рдЫрд╡рд┐ рд╕реЗ рдкрддрд▓реЗ, рдЕрдзрд┐рдХ рд╡рдЬрди рд╡рд╛рд▓реЗ рдФрд░ рдорд╛рдВрд╕рдкреЗрд╢рд┐рдпреЛрдВ рд╡рд╛рд▓реЗ рд╢рд░реАрд░ рдкреНрд░рдХрд╛рд░ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрди рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ, рдЬрд┐рд╕рдореЗрдВ рдмреИрдардиреЗ рдФрд░ рдЦрдбрд╝реЗ рд╣реЛрдиреЗ рдЬреИрд╕реА рдореБрджреНрд░рд╛рдПрдВ рд╢рд╛рдорд┐рд▓ рд╣реИрдВред рдХреГрдкрдпрд╛ рдмреЗрд╣рддрд░ рдкрд░рд┐рднрд╛рд╖рд╛ рдФрд░ рд╡рд┐рд╡рд░рдг рдХреЗ рд▓рд┐рдП рд╕реНрд░реЛрдд рдкрддреНрд░ рджреЗрдЦреЗрдВред

गुणात्मक परीक्षण। उदाहरण मूल छवि से पतले, अधिक वजन वाले और मांसपेशियों वाले शरीर प्रकार में परिवर्तन दिखाते हैं, जिसमें बैठने और खड़े होने जैसी मुद्राएं शामिल हैं। कृपया बेहतर परिभाषा और विवरण के लिए स्रोत पत्र देखें।

इन परिणामों में, पेपर कहता है:

‘हमारी विधि विविध मुद्रा, पृष्ठभूमि और कपड़ों को संभालने में प्रभावी रूप से काम करती है, जबकि व्यक्ति की पहचान को संरक्षित करती है।

‘इसके अलावा, एसएमपीएल लक्ष्य आकार के अलावा, हम वांछित परिवर्तनों को स्पष्ट रूप से निर्देशित करने के लिए पाठ प्रोम्प्ट – ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ – प्रदान करते हैं…’

…’नीचे दी गई छवि हमारे मॉडल की क्षमता को और भी प्रदर्शित करती है विभिन्न आकार परिवर्तन करने के लिए। मॉडल संदर्भ छवि से विभिन्न पतले और मोटे संस्करणों को उत्पन्न करने के लिए एसएमपीएल गहराई मानचित्र का सटीक रूप से अनुसरण करता है।’

рд▓рдХреНрд╖реНрдп рд╢рд░реАрд░ рдкреНрд░рдХрд╛рд░реЛрдВ рдХреА рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХреЛ рдХрд╡рд░ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдЖрдЧреЗ рдХреЗ рдЧреБрдгрд╛рддреНрдордХ рдкрд░реАрдХреНрд╖рдгред рдХреГрдкрдпрд╛ рдмреЗрд╣рддрд░ рдкрд░рд┐рднрд╛рд╖рд╛ рдФрд░ рд╡рд┐рд╡рд░рдг рдХреЗ рд▓рд┐рдП рд╕реНрд░реЛрдд рдкрддреНрд░ рджреЗрдЦреЗрдВред

लक्ष्य शरीर प्रकारों की श्रृंखला को कवर करने वाले आगे के गुणात्मक परीक्षण। कृपया बेहतर परिभाषा और विवरण के लिए स्रोत पत्र देखें।

लेखक आगे टिप्पणी करते हैं:

‘हमारे परिणाम अधिक वास्तविक परिवर्तनों को प्रदर्शित करते हैं जो लक्ष्य वजन के अनुसार होते हैं, क्योंकि हमारा मॉडल समान समय में समग्र शरीर के आकार, अंगों के अनुपात और कपड़ों को समायोजित करता है, जिससे शारीरिक रूप से सुसंगत और दृश्य रूप से आश्वस्त परिवर्तन होते हैं। ‘

मात्रात्मक परीक्षण के लिए, लेखकों ने अपनी प्रणाली को ओपन-सोर्स फ्लक्स कॉन्टेक्स्ट [डेव] मॉडल, FLUX.1, और 2022 प्रस्ताव स्ट्रक्चर-एवेयर फ्लो जेनरेशन फॉर ह्यूमन बॉडी रीशेपिंग के खिलाफ पिट किया:

फ्लक्स.1 कॉन्टेक्स्ट [डेव] के लिए, प्रोम्प्ट डिज़ाइन किए गए थे जो ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ के निर्देश देते थे, लक्ष्य वजन निर्दिष्ट किए गए थे – हालांकि महीन-दांतेदार नियंत्रण की कमी प्रदर्शन को सीमित करती थी:

рдУрдбреЛ рдХреА рддреБрд▓рдирд╛ рд╕реНрдЯреНрд░рдХреНрдЪрд░-рдПрд╡реЗрдпрд░ рдлреНрд▓реЛ рдЬреЗрдирд░реЗрд╢рди рдлреЙрд░ рд╣реНрдпреВрдорди рдмреЙрдбреА рд░реАрд╢реЗрдкрд┐рдВрдЧ рдФрд░ рдлреНрд▓рдХреНрд╕.1 рдХреЙрдиреНрдЯреЗрдХреНрд╕реНрдЯ [рдбреЗрд╡] рдХреЗ рд╕рд╛рде рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рдкрд░, рд╕рд╛рде рд╣реА рд░реАрд╢реЗрдкрдиреЗрдЯ рдореЗрдВ рдкреНрд░реЛрдореНрдкреНрдЯ рд╕рд╢рд░реНрддрддрд╛ рдХреЗ рдмрд┐рдирд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓, рд░реЗрдлрд░реЗрдВрд╕рдиреЗрдЯ (рдХреЗрд╡рд▓ рдЖрдИрдкреА-рдПрдбрд╛рдкреНрдЯрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ) рдХреЗ рдмрд┐рдирд╛, рдФрд░ рдмреАрдЖрд░-5рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рддрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд╕рд╛рде рд╕реАрдорд┐рдд рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЕрдкрд╕рд╛рд░рдг рдкрд░рд┐рдгрд╛рдоред

ओडो की तुलना स्ट्रक्चर-एवेयर फ्लो जेनरेशन फॉर ह्यूमन बॉडी रीशेपिंग और फ्लक्स.1 कॉन्टेक्स्ट [डेव] के साथ परीक्षण सेट पर, साथ ही रीशेपनेट में प्रोम्प्ट सशर्तता के बिना प्रशिक्षित मॉडल, रेफरेंसनेट (केवल आईपी-एडाप्टर का उपयोग करके) के बिना, और बीआर-5के डेटासेट तक प्रशिक्षण के साथ सीमित मॉडल के लिए अपसारण परिणाम।

निष्कर्ष

फ्लक्स कॉन्टेक्स्ट का आगमन इस वर्ष, और हाल ही में क्वेन इमेज एडिट के लिए अनक्वांटाइज्ड वजन की रिलीज़, ने जोड़े गए डेटा को फिर से पेशेवर और शौकिया समुदायों में आगे बढ़ाया है। बढ़ती आलोचना और जनरेटिव एआई की अस्पष्टता के बावजूद, इस प्रकार के मॉडल उच्च विश्वसनीयता के लिए डिज़ाइन किए गए हैं (हालांकि छोटे पैमाने पर मॉडल कभी-कभी उनके बहुत विशिष्ट प्रशिक्षण लक्ष्यों से बाधित होते हैं)।

इस मामले में, एक शरीर-आकार प्रणाली की उपयोगिता मनोवैज्ञानिक, चिकित्सा और फैशन-आधारित क्षेत्रों में होने की संभावना है। फिर भी, यह संभव है कि इस प्रकार की प्रणालियां एक उच्च स्तर की प्रमुखता प्राप्त करेंगी, और शायद एक अधिक अनौपचारिक और संभावित रूप से चिंताजनक सेट का उपयोग करेंगी।

 

सोमवार, 25 अगस्त, 2025 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai