Anderson рдХрд╛ рдПрдВрдЧрд▓
рдПрдЖрдИ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдореЛрдЯрд╛ рд╣реЛрдиреЗ рдХреЗ рдлрд╛рдпрджреЗ

एक नया एआई सिस्टम लोगों के शरीर को फोटो में वास्तविक रूप से बदल सकता है, उन्हें मोटा, पतला या अधिक मांसपेशियों वाला बना सकता है, बिना उनके चेहरे, कपड़ों या पृष्ठभूमि को बदले। सिस्टम एक पूरी तरह से सिंथेटिक डेटासेट पर प्रशिक्षित किया गया है जो प्रत्येक पहचान को कई शरीर के प्रकारों में दिखाता है।
एआई का सामाजिक नेटवर्क पर शरीर के आकार को परिष्कृत करने के तरीके के रूप में बढ़ती हुई उपयोग के अलावा, या (संभावित रूप से) वीएफएक्स उद्देश्यों के लिए शरीर के प्रकार को बदलने के लिए, मशीन लर्निंग का उपयोग व्यक्तियों की उपस्थिति को बदलने के लिए एक अधिक महत्वपूर्ण कार्य कर सकता है: खाने के विकार वाले व्यक्तियों को उनकी अपनी दृश्य विकृत व्याख्या को समझने में मदद करना, साथ ही साथ अधिक सामान्य खेल और फिटनेस उद्देश्यों के लिए एक संभावित प्रेरक उपकरण प्रदान करना:

पेपर ‘बॉडी साइज एस्टीमेशन इन वीमेन विद एनोरेक्सिया नर्वोसा एंड हेल्दी कंट्रोल्स यूजिंग 3डी अवतार्स’ से, बॉडी शेप चेंजेस को विज़ुअलाइज़ करने के लिए एक जीयूआई। बॉडी डिसमॉर्फिया वाले व्यक्तियों को एक समान छवि के साथ एक वास्तविक व्याख्या को संबंधित करने में संघर्ष हो सकता है, जिससे क्लिनिशियन को डिसमॉर्फिक प्रतिक्रियाओं के लिए एक मीट्रिक दिया जा सकता है, अन्य उद्देश्यों के बीच। स्रोत: https://www.nature.com/articles/s41598-017-15339-z.pdf
इसके अलावा, कंप्यूटर विजन रिसर्च में फैशन ट्राई-ऑन सब-स्ट्रैंड में भी विभिन्न शरीर के आकारों में सटीक दृश्यीकरण प्रदान करने में रुचि है। जबकि जापान के त्सुकुबा विश्वविद्यालय के 2024 DiffBody ऑफरिंग जैसे फ्रेमवर्क ने इस क्षेत्र में कुछ आकर्षक कार्यक्षमता बनाई है:

पूर्व डिफबॉडी तकनीक का उपयोग संभव परिवर्तन। स्रोत: https://arxiv.org/pdf/2401.02804
चूंकि एआई फाउंडेशन मॉडल सामान्य रूप से आकर्षक या अन्य सामान्य शरीर के आकार के प्रति अनुकूलित होते हैं, असामान्य आकार जैसे ‘मोटा’ मानक मॉडल में न्यूनतम रूप से उपलब्ध होते हैं, या कुछ दंडात्मक पूर्वाग्रह के साथ आते हैं।
पेयर आवश्यकताएं
मानवों की तस्वीरों में वसा या मांसपेशियों को वास्तविक रूप से जोड़ने या घटाने वाले एआई सिस्टम बनाने में सबसे बड़ी चुनौतियों में से एक यह है कि यह जोड़े गए प्रशिक्षण को शामिल करता है, जहां एआई सिस्टम प्रभावी रूप से ‘पहले’ और ‘बाद’ की छवियों को सीखता है जो किसी भी परिवर्तन को परिभाषित करता है जिसे मॉडल को करने का इरादा है:
यह प्रशिक्षण ब्लैक फॉरेस्ट लैब्स के कॉन्टेक्स्ट श्रृंखला के चित्र संपादन मॉडल की सफलता के कारण गर्मियों के दौरान प्रमुखता में वापस आया है, जहां इस प्रकार के जोड़े गए डेटा का उपयोग मॉडल को विभिन्न परिवर्तन सिखाने के लिए किया गया था:

फ्लक्स कॉन्टेक्स्ट साइट से, एक परिवर्तन का एक उदाहरण जो स्रोत डेटा के प्रकार को प्रतिबिंबित करता है जिसे मॉडल को छवि की अखंडता को बनाए रखने में सक्षम होने के लिए प्रशिक्षित करने की आवश्यकता है। स्रोत: https://bfl.ai/models/flux-kontext
स्पष्ट रूप से, किसी व्यक्ति की उपस्थिति (पूरी छवि को पुनः कल्पना किए बिना) को महत्वपूर्ण रूप से बदलने वाले मॉडल के विकास के मामले में, कुछ ऐसा चाहिए जो वास्तविक दुनिया में पूरी तरह से असंभव है: कुछ सेकंड के भीतर ली गई कट्टर ‘पहले’ और ‘बाद’ की तस्वीरें।
एकमात्र उपाय सिंथेटिक डेटा है। इस प्रकार की कुछ परियोजनाओं ने व्यक्तिगत, उच्च-प्रयास वाले विपरीत जोड़े बनाए हैं जो मैन्युअल रूप से फोटोशॉप में बनाए गए हैं; हालांकि, यह पैमाने पर अवास्तविक है, और एक स्वचालित या अर्ध-स्वचालित, एआई-चालित प्रक्रिया जोड़े को उत्पन्न करने के लिए अब बढ़ती जा रही है जो पसंद की जा रही है。
GAN-आधारित और अधिकांश SMPL/X-आधारित दृष्टिकोणों (जहां एक आभासी सीजीआई आंकड़ा वास्तविक छवियों और वांछित परिवर्तनों के बीच एक प्रकार के विनिमय तंत्र के रूप में कार्य करता है), और दृष्टिकोणों के साथ जो छवि-वार्पिंग का उपयोग करते हैं, यह है कि पृष्ठभूमि और पहचान प्रक्रिया में पीड़ित होने के लिए लगती है।

पैरामेट्रिक, वेक्टर-आधारित सीजीआई मॉडल जैसे एसएमपीएल और एसएमपीएल-एक्स (अन्य लोगों के बीच), परिभाषित पारंपरिक भौतिक 3डी निर्देशांक प्रदान करते हैं जिन्हें कंप्यूटर दृष्टि फ्रेमवर्क में व्याख्या और एकीकृत किया जा सकता है। स्रोत: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
चूंकि यह महत्वपूर्ण है कि एआई केवल वांछित पहलुओं को बदलना सीखे, न कि पृष्ठभूमि और अन्य अवांछित त्रुटियों को विकृत करना सीखे, इसलिए कोई भी शरीर-परिवर्तन प्रणाली अभी तक एक आदर्श समाधान पर नहीं पहुंची है।
हालांकि, भारत से एक हालिया पेपर राज्य की कला पर एक उल्लेखनीय प्रगति का प्रस्ताव करता है, जो पुराने फ्लक्स डिफ्यूजन मॉडल फ्रेमवर्क का उपयोग करके गaires किया जाता है, जो कई माध्यमिक दृष्टिकोणों के साथ बढ़ाया जाता है जो एक श्रेष्ठ और अधिक संगत जोड़े गए डेटासेट को सक्षम बनाता है:

नई परियोजना से डेटासेट के उदाहरण。 स्रोत: https://arxiv.org/pdf/2508.13065
परियोजना में एक नई और व्यापक जोड़े गए डेटासेट; ओडो, एक वितरित मॉडल जो इस डेटा पर प्रशिक्षित है; और एक विशेष नए बेंचमार्क शामिल हैं जो मानव आकार-संपादन प्रदर्शन का मात्रात्मक मूल्यांकन करने के लिए डिज़ाइन किया गया है। परीक्षणों में, लेखक दावा करते हैं कि समान मॉडल द्वारा प्राप्त मानकों पर एक उल्लेखनीय प्रगति हासिल की गई है।
नई पेपर का शीर्षक ओडो: डेप्थ-गाइडेड डिफ्यूजन फॉर आइडेंटिटी-प्रिजर्विंग बॉडी रीशेपिंग है, और यह भारत के बैंगलोर में फास्ट कोड एआई प्राइवेट लिमिटेड के तीन शोधकर्ताओं से आता है।
डेटा और विधि
शोधकर्ताओं द्वारा बनाए गए डेटासेट में प्रत्येक लक्ष्य शरीर प्रकार (मोटा, पतला, और मांसपेशियों वाला) के लिए 7,615 उच्च-रिज़ॉल्यूशन (960x1280px) छवियां हैं।
प्रारंभ में, 1,523 मानव चेहरे FLUX.1-dev 12-बिलियन पैरामीटर डिफ्यूजन मॉडल के माध्यम से उत्पन्न किए गए थे, हालांकि पेक्सल्स और अनस्प्लैश से एक निर्दिष्ट संख्या में लाइसेंस-मुक्त संदर्भ चेहरों का लाभ उठाकर विविधता बढ़ाने के लिए।
इन चेहरों को शामिल करने वाली पूर्ण-शरीर की छवियों को उत्पन्न करने के लिए, शोधकर्ताओं ने बाइटडांस के 2024 PuLID का उपयोग किया, जो एक चेकपॉइंट है जो फ्लक्स पर फाइन-ट्यून किया गया है, और इसमें एक विपरीत आईडी हानि शामिल है जो परिवर्तनकारी प्रक्रियाओं के दौरान चेहरे की पहचान को संरक्षित करने में मदद करने के लिए डिज़ाइन की गई है:

PuLID परियोजना से उदाहरण。 स्रोत: https://arxiv.org/pdf/2404.16022
मॉडल को एक चेहरे की छवि और एक मानकीकृत प्रोम्प्ट प्राप्त हुआ, जिसमें लिंग, कपड़े, मुद्रा, दृश्य, साथ ही पतला, मोटा, या मांसपेशियों वाला शरीर प्रकार का अनुरोध किया गया था।
प्रत्येक पहचान के लिए तीन शरीर प्रकार की छवियां कभी-कभी पृष्ठभूमि संरेखण और विषय के आकार में मामूली बदलाव प्रदर्शित करती हैं, जो स्टोकास्टिक व्यवहार के कारण होता है डिफ्यूजन मॉडल, जहां प्रत्येक पीढ़ी एक नए शोर बीज से शुरू होती है। यहां तक कि प्रोम्प्ट में मामूली बदलाव, जैसे कि शरीर प्रकार के विवरण को संशोधित करना, मॉडल की पथ को लेटेंट स्पेस में प्रभावित कर सकता है, और दृश्य ड्रिफ्ट का कारण बन सकता है।
इस भिन्नता को ठीक करने के लिए, एक चार-चरण स्वचालित पोस्ट-प्रोसेसिंग पाइपलाइन लागू की गई, जिसमें प्रत्येक त्रिपल में पतली छवि को संदर्भ के रूप में चुना गया, क्योंकि इसका छोटा सिल्हूट अधिक पृष्ठभूमि को उजागर करता है।
व्यक्ति का पता लगाने के लिए RT-DETRv2 का उपयोग किया गया, इसके बाद SAM 2.1 के साथ सेगमेंटेशन किया गया ताकि तीनों शरीर प्रकारों के लिए विषय मास्क निकाले जा सकें। पतली संदर्भ छवि को फ्लक्स.1 कॉन्टेक्स्ट प्रो (नया चित्र संपादन प्रणाली) के लिए पृष्ठभूमि पेंटिंग के लिए पारित किया गया, जिससे विषय को हटाकर एक साफ संस्करण của दृश्य बना।
मोटा और मांसपेशियों वाला संस्करणों को समान फ्रेमिंग के लिए पतली संदर्भ मास्क की ऊंचाई से मेल खाने के लिए एक समान स्केलिंग का उपयोग करके पुनः आकार दिया गया, और नीचे के संरेखण पर साफ पृष्ठभूमि पर संयोजित किया गया।
लेखकों का कहना है:
‘परिणामी परिवर्तन त्रिपल (पतला, मोटा और मांसपेशियों वाला) में एक ही पृष्ठभूमि और एक समान विषय के पैमाने होते हैं। यह अनावश्यक भिन्नताएं हटा देता है जो बाद के प्रशिक्षण या मूल्यांकन को नकारात्मक रूप से प्रभावित कर सकती हैं। ‘
प्रत्येक त्रिपल की पतली, मोटा, और मांसपेशियों वाला छवियों की त्रिपल ने छह संभावित परिवर्तन जोड़े प्रदान किए, जिससे 7,615 पहचानों में 45,690 सैद्धांतिक संयोजन हुए।
असंगत कपड़े, अस्वाभाविक मुद्रा, विकृत अंग, पहचान ड्रिफ्ट, या न्यूनतम आकार परिवर्तन वाले उदाहरणों को फिल्टर करने के बाद, 18,573 उच्च-गुणवत्ता वाले जोड़े बनाए रखे गए। हालांकि कुछ मामूली मुद्रा भिन्नताएं बनी रहीं, मॉडल इन भिन्नताओं के प्रति मजबूत साबित हुआ।
प्रशिक्षण और परीक्षण
परिणामी छवियों का उपयोग ओडो मॉडल को प्रशिक्षित करने के लिए किया गया – एक डिफ्यूजन-आधारित दृष्टिकोण मानवों को पुनः आकार देने के लिए, स्किन्ड मulti-पर्सन लाइनियर मॉडल (SMPL, अर्थात मध्यवर्ती सीजीआई) मानचित्रों का उपयोग करके।
2024 न्यूरल लोकलाइज़र की विधियों से सूचित, डेटा को प्रति व्यक्ति के आधार पर एसएमपीएल आकृति में अनुकूलित किया गया, जिससे परिणामस्वरूप अनुकूलित पैरामीटर गहराई मानचित्र उत्पन्न करने में सक्षम हो गए जिनसे संशोधित छवियां व्युत्पन्न की जा सकेंगी:

प्रशिक्षण पाइपलाइन के लिए स्कीमा। बाएं पक्ष प्रशिक्षण सेटअप को दिखाता है, जहां लक्ष्य छवि से एसएमपीएल गहराई मानचित्र रीशेपनेट को कंट्रोलनेट के माध्यम से शरीर परिवर्तन करने के लिए मार्गदर्शन करते हैं। स्रोत छवि से विशेषताएं रेफरेंसनेट द्वारा निकाली जाती हैं और स्थानिक स्व-ध्यान का उपयोग करके रीशेपनेट में मिलाया जाता है। दाएं पक्ष अनुमान को दिखाता है, जहां एसएमपीएल पैरामीटर इनपुट छवि से अनुमानित होते हैं, सेमेंटिक विशेषताओं द्वारा संशोधित होते हैं, और एक लक्ष्य गहराई मानचित्र में रेंडर किया जाता है जो रीशेपनेट को शोर मुक्त करने के दौरान सशर्त बनाता है ताकि अंतिम परिवर्तित छवि का उत्पादन किया जा सके।
मॉडल (ऊपर स्कीमा देखें) में रीशेपनेट मॉड्यूल शामिल है, जो तीन सहायक मॉड्यूल द्वारा समर्थित है: रेफरेंसनेट; एक आईपी-एडाप्टर मॉड्यूल; और एक गहराई-आधारित कंट्रोलनेट मॉड्यूल।
रेफरेंसनेट स्रोत छवि से विस्तृत विशेषताएं निकालता है, जैसे कि पृष्ठभूमि, कपड़े और पहचान, और उन्हें रीशेपनेट में पारित करता है। आईपी-एडाप्टर उच्च-स्तरीय विशेषता मार्गदर्शन प्रदान करता है, जबकि गहराई कंट्रोलनेट एसएमपीएल-आधारित सशर्तता लागू करता है जो शरीर परिवर्तन को मार्गदर्शन करता है। पिछले कार्यों के अनुसार, एक एसडीएक्सएल-आधारित फ्रोजन यूनेट का उपयोग मध्यवर्ती विशेषताओं को निकालने के लिए किया गया था।
आईपी-एडाप्टर मॉड्यूल के लिए, यह इनपुट छवि को क्लिप के माध्यम से एन्कोड करता है, जिसके परिणामस्वरूप एम्बेडिंग होते हैं जो रीशेपनेट में क्रॉस-ध्यान के माध्यम से एकीकृत होते हैं।
गहराई कंट्रोलनेट मॉड्यूल के लिए, यह रीशेपनेट के मध्य और डीकोडर परतों को शेष संबंध के माध्यम से मार्गदर्शन करता है। इसके बाद, यह एक लक्ष्य गहराई मानचित्र लेता है जो लक्ष्य एसएमपीएल पैरामीटर से रेंडर किया जाता है और इसे लक्ष्य छवि के साथ संरेखित करता है।
रीशेपनेट, एसडीएक्सएल यूनेट पर आधारित है, ओडो का मुख्य नेटवर्क है। प्रशिक्षण के दौरान, लक्ष्य छवियों को एक वेरिएशनल ऑटोएन्कोडर के माध्यम से लेटेंट स्पेस में एन्कोड किया जाता है, समय के साथ शोर किया जाता है, और फिर रीशेपनेट द्वारा कंट्रोलनेट और रेफरेंसनेट से विशेषताओं का उपयोग करके शोर मुक्त किया जाता है।
श्रेणी-विशिष्ट पाठ प्रोम्प्ट जैसे ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ जोड़े गए, ताकि परिवर्तनों को मार्गदर्शन किया जा सके। जबकि गहराई मानचित्र ने मोटे शरीर के आकार को पकड़ा, प्रोम्प्ट ने परिवर्तनों के लिए आवश्यक सेमेंटिक विवरण प्रदान किया, जैसे कि मांसपेशियों की परिभाषा, जिससे मॉडल अधिक सटीक और वास्तविक परिवर्तन उत्पन्न कर सके।
प्रशिक्षण कार्यान्वयन
ओडो को परियोजना के सिंथेटिक डेटासेट के साथ प्रशिक्षित किया गया, जिसे डीपफैशन-मल्टीमॉडल डेटासेट के एक सबसेट के साथ जोड़ा गया, जिससे कुल 20,000 छवि जोड़े प्राप्त हुए।
डीपफैशन-मल्टीमॉडल डेटा ने कपड़ों और चेहरे की विशेषताओं में विविधता प्रदान की, जिसमें प्रशिक्षण के दौरान खुद के खिलाफ जोड़े गए छवियां थीं। सभी एसएमपीएल गहराई मानचित्रों को कुशलता के लिए पूर्व-गणना किया गया, प्रशिक्षण एक एकल एनवीडिया ए100 जीपीयू पर 60 प्रशिक्षण युग के लिए चलाया गया, जिसमें 80GB का वीआरएएम था।
इनपुट छवियों को 768×1024 तक कम करने के साथ, एडम ऑप्टिमाइज़र का उपयोग 1×10⁻⁵ की सीखने की दर पर किया गया। रीशेपनेट को एसडीएक्सएल यूनेट वजन के साथ आरंभ किया गया और संयुक्त रूप से आईपी-एडाप्टर के साथ फाइन-ट्यून किया गया।
रेफरेंसनेट को एसडीएक्सएल वजन के साथ आरंभ किया गया और जमे हुए रखा गया, जबकि गहराई कंट्रोलनेट ने पूर्व-प्रशिक्षित वजन का उपयोग किया और जमे हुए रहा।
अंतिम मॉडल को लगभग 23GB का जीपीयू मेमोरी की आवश्यकता थी, और एकल-छवि अनुमान के लिए 18 सेकंड की आवश्यकता थी।
एक नई मीट्रिक
इस प्रकार की परियोजना के लिए आवश्यक डेटासेट की कमी का अर्थ है कि कोई मौजूदा मीट्रिक वास्तव में इस चुनौती को संबोधित नहीं करता है। इसलिए, लेखकों ने एक नई बेंचमार्क बनाई, जिसमें 3,600 छवि जोड़े शामिल हैं, जिसमें वास्तविक चेहरे की छवियां और पृष्ठभूमि विवरण शामिल हैं, साथ ही विविध शरीर के आकार भिन्नताएं हैं:
अन्य मीट्रिक जो उपयोग किए गए थे वे हैं संरचनात्मक समानता सूचकांक (एसएसआईएम); पीक सिग्नल-टू-शोर अनुपात (पीएसएनआर); सीखा हुआ संवेदी छवि पैच समानता (एलपीआईपीएस); और स्केल सुधारित प्रति-शीर्ष यूक्लिडियन त्रुटि न्यूट्रल (टी-) मुद्रा में (पीवीई-टी-एससी).
सबसे पहले, लेखकों ने अपनी विधि का गुणात्मक रूप से इन-द-वाइल्ड छवियों (प्रशिक्षण के दौरान मॉडल द्वारा नहीं देखी गई छवियों) के खिलाफ परीक्षण किया:

गुणात्मक परीक्षण। उदाहरण मूल छवि से पतले, अधिक वजन वाले और मांसपेशियों वाले शरीर प्रकार में परिवर्तन दिखाते हैं, जिसमें बैठने और खड़े होने जैसी मुद्राएं शामिल हैं। कृपया बेहतर परिभाषा और विवरण के लिए स्रोत पत्र देखें।
इन परिणामों में, पेपर कहता है:
‘हमारी विधि विविध मुद्रा, पृष्ठभूमि और कपड़ों को संभालने में प्रभावी रूप से काम करती है, जबकि व्यक्ति की पहचान को संरक्षित करती है।
‘इसके अलावा, एसएमपीएल लक्ष्य आकार के अलावा, हम वांछित परिवर्तनों को स्पष्ट रूप से निर्देशित करने के लिए पाठ प्रोम्प्ट – ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ – प्रदान करते हैं…’
…’नीचे दी गई छवि हमारे मॉडल की क्षमता को और भी प्रदर्शित करती है विभिन्न आकार परिवर्तन करने के लिए। मॉडल संदर्भ छवि से विभिन्न पतले और मोटे संस्करणों को उत्पन्न करने के लिए एसएमपीएल गहराई मानचित्र का सटीक रूप से अनुसरण करता है।’

लक्ष्य शरीर प्रकारों की श्रृंखला को कवर करने वाले आगे के गुणात्मक परीक्षण। कृपया बेहतर परिभाषा और विवरण के लिए स्रोत पत्र देखें।
लेखक आगे टिप्पणी करते हैं:
‘हमारे परिणाम अधिक वास्तविक परिवर्तनों को प्रदर्शित करते हैं जो लक्ष्य वजन के अनुसार होते हैं, क्योंकि हमारा मॉडल समान समय में समग्र शरीर के आकार, अंगों के अनुपात और कपड़ों को समायोजित करता है, जिससे शारीरिक रूप से सुसंगत और दृश्य रूप से आश्वस्त परिवर्तन होते हैं। ‘
मात्रात्मक परीक्षण के लिए, लेखकों ने अपनी प्रणाली को ओपन-सोर्स फ्लक्स कॉन्टेक्स्ट [डेव] मॉडल, FLUX.1, और 2022 प्रस्ताव स्ट्रक्चर-एवेयर फ्लो जेनरेशन फॉर ह्यूमन बॉडी रीशेपिंग के खिलाफ पिट किया:
फ्लक्स.1 कॉन्टेक्स्ट [डेव] के लिए, प्रोम्प्ट डिज़ाइन किए गए थे जो ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ के निर्देश देते थे, लक्ष्य वजन निर्दिष्ट किए गए थे – हालांकि महीन-दांतेदार नियंत्रण की कमी प्रदर्शन को सीमित करती थी:
![рдУрдбреЛ рдХреА рддреБрд▓рдирд╛ рд╕реНрдЯреНрд░рдХреНрдЪрд░-рдПрд╡реЗрдпрд░ рдлреНрд▓реЛ рдЬреЗрдирд░реЗрд╢рди рдлреЙрд░ рд╣реНрдпреВрдорди рдмреЙрдбреА рд░реАрд╢реЗрдкрд┐рдВрдЧ рдФрд░ рдлреНрд▓рдХреНрд╕.1 рдХреЙрдиреНрдЯреЗрдХреНрд╕реНрдЯ [рдбреЗрд╡] рдХреЗ рд╕рд╛рде рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рдкрд░, рд╕рд╛рде рд╣реА рд░реАрд╢реЗрдкрдиреЗрдЯ рдореЗрдВ рдкреНрд░реЛрдореНрдкреНрдЯ рд╕рд╢рд░реНрддрддрд╛ рдХреЗ рдмрд┐рдирд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓, рд░реЗрдлрд░реЗрдВрд╕рдиреЗрдЯ (рдХреЗрд╡рд▓ рдЖрдИрдкреА-рдПрдбрд╛рдкреНрдЯрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ) рдХреЗ рдмрд┐рдирд╛, рдФрд░ рдмреАрдЖрд░-5рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рддрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд╕рд╛рде рд╕реАрдорд┐рдд рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЕрдкрд╕рд╛рд░рдг рдкрд░рд┐рдгрд╛рдоред](https://www.unite.ai/wp-content/uploads/2025/08/table-2-1.jpg)
ओडो की तुलना स्ट्रक्चर-एवेयर फ्लो जेनरेशन फॉर ह्यूमन बॉडी रीशेपिंग और फ्लक्स.1 कॉन्टेक्स्ट [डेव] के साथ परीक्षण सेट पर, साथ ही रीशेपनेट में प्रोम्प्ट सशर्तता के बिना प्रशिक्षित मॉडल, रेफरेंसनेट (केवल आईपी-एडाप्टर का उपयोग करके) के बिना, और बीआर-5के डेटासेट तक प्रशिक्षण के साथ सीमित मॉडल के लिए अपसारण परिणाम।
निष्कर्ष
फ्लक्स कॉन्टेक्स्ट का आगमन इस वर्ष, और हाल ही में क्वेन इमेज एडिट के लिए अनक्वांटाइज्ड वजन की रिलीज़, ने जोड़े गए डेटा को फिर से पेशेवर और शौकिया समुदायों में आगे बढ़ाया है। बढ़ती आलोचना और जनरेटिव एआई की अस्पष्टता के बावजूद, इस प्रकार के मॉडल उच्च विश्वसनीयता के लिए डिज़ाइन किए गए हैं (हालांकि छोटे पैमाने पर मॉडल कभी-कभी उनके बहुत विशिष्ट प्रशिक्षण लक्ष्यों से बाधित होते हैं)।
इस मामले में, एक शरीर-आकार प्रणाली की उपयोगिता मनोवैज्ञानिक, चिकित्सा और फैशन-आधारित क्षेत्रों में होने की संभावना है। फिर भी, यह संभव है कि इस प्रकार की प्रणालियां एक उच्च स्तर की प्रमुखता प्राप्त करेंगी, और शायद एक अधिक अनौपचारिक और संभावित रूप से चिंताजनक सेट का उपयोग करेंगी।
सोमवार, 25 अगस्त, 2025 को पहली बार प्रकाशित












