Anderson का एंगल

एआई के माध्यम से मोटा होने के फायदे

Published August 25, 2025

Updated April 26, 2026

Martin Anderson

Images of synthetically altered data, from the paper 'Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping at https://arxiv.org/abs/2508.13065

एक नया एआई सिस्टम लोगों के शरीर को फोटो में वास्तविक रूप से बदल सकता है, उन्हें मोटा, पतला या अधिक मांसपेशियों वाला बना सकता है, बिना उनके चेहरे, कपड़ों या पृष्ठभूमि को बदले। सिस्टम एक पूरी तरह से सिंथेटिक डेटासेट पर प्रशिक्षित किया गया है जो प्रत्येक पहचान को कई शरीर के प्रकारों में दिखाता है।

एआई का सामाजिक नेटवर्क पर शरीर के आकार को परिष्कृत करने के तरीके के रूप में बढ़ती हुई उपयोग के अलावा, या (संभावित रूप से) वीएफएक्स उद्देश्यों के लिए शरीर के प्रकार को बदलने के लिए, मशीन लर्निंग का उपयोग व्यक्तियों की उपस्थिति को बदलने के लिए एक अधिक महत्वपूर्ण कार्य कर सकता है: खाने के विकार वाले व्यक्तियों को उनकी अपनी दृश्य विकृत व्याख्या को समझने में मदद करना, साथ ही साथ अधिक सामान्य खेल और फिटनेस उद्देश्यों के लिए एक संभावित प्रेरक उपकरण प्रदान करना:

पेपर ‘बॉडी साइज एस्टीमेशन इन वीमेन विद एनोरेक्सिया नर्वोसा एंड हेल्दी कंट्रोल्स यूजिंग 3डी अवतार्स’ से, बॉडी शेप चेंजेस को विज़ुअलाइज़ करने के लिए एक जीयूआई। बॉडी डिसमॉर्फिया वाले व्यक्तियों को एक समान छवि के साथ एक वास्तविक व्याख्या को संबंधित करने में संघर्ष हो सकता है, जिससे क्लिनिशियन को डिसमॉर्फिक प्रतिक्रियाओं के लिए एक मीट्रिक दिया जा सकता है, अन्य उद्देश्यों के बीच। स्रोत: https://www.nature.com/articles/s41598-017-15339-z.pdf

इसके अलावा, कंप्यूटर विजन रिसर्च में फैशन ट्राई-ऑन सब-स्ट्रैंड में भी विभिन्न शरीर के आकारों में सटीक दृश्यीकरण प्रदान करने में रुचि है। जबकि जापान के त्सुकुबा विश्वविद्यालय के 2024 DiffBody ऑफरिंग जैसे फ्रेमवर्क ने इस क्षेत्र में कुछ आकर्षक कार्यक्षमता बनाई है:

पूर्व डिफबॉडी तकनीक का उपयोग संभव परिवर्तन। स्रोत: https://arxiv.org/pdf/2401.02804

चूंकि एआई फाउंडेशन मॉडल सामान्य रूप से आकर्षक या अन्य सामान्य शरीर के आकार के प्रति अनुकूलित होते हैं, असामान्य आकार जैसे ‘मोटा’ मानक मॉडल में न्यूनतम रूप से उपलब्ध होते हैं, या कुछ दंडात्मक पूर्वाग्रह के साथ आते हैं।

पेयर आवश्यकताएं

मानवों की तस्वीरों में वसा या मांसपेशियों को वास्तविक रूप से जोड़ने या घटाने वाले एआई सिस्टम बनाने में सबसे बड़ी चुनौतियों में से एक यह है कि यह जोड़े गए प्रशिक्षण को शामिल करता है, जहां एआई सिस्टम प्रभावी रूप से ‘पहले’ और ‘बाद’ की छवियों को सीखता है जो किसी भी परिवर्तन को परिभाषित करता है जिसे मॉडल को करने का इरादा है:

यह प्रशिक्षण ब्लैक फॉरेस्ट लैब्स के कॉन्टेक्स्ट श्रृंखला के चित्र संपादन मॉडल की सफलता के कारण गर्मियों के दौरान प्रमुखता में वापस आया है, जहां इस प्रकार के जोड़े गए डेटा का उपयोग मॉडल को विभिन्न परिवर्तन सिखाने के लिए किया गया था:

फ्लक्स कॉन्टेक्स्ट साइट से, एक परिवर्तन का एक उदाहरण जो स्रोत डेटा के प्रकार को प्रतिबिंबित करता है जिसे मॉडल को छवि की अखंडता को बनाए रखने में सक्षम होने के लिए प्रशिक्षित करने की आवश्यकता है। स्रोत: https://bfl.ai/models/flux-kontext

स्पष्ट रूप से, किसी व्यक्ति की उपस्थिति (पूरी छवि को पुनः कल्पना किए बिना) को महत्वपूर्ण रूप से बदलने वाले मॉडल के विकास के मामले में, कुछ ऐसा चाहिए जो वास्तविक दुनिया में पूरी तरह से असंभव है: कुछ सेकंड के भीतर ली गई कट्टर ‘पहले’ और ‘बाद’ की तस्वीरें।

एकमात्र उपाय सिंथेटिक डेटा है। इस प्रकार की कुछ परियोजनाओं ने व्यक्तिगत, उच्च-प्रयास वाले विपरीत जोड़े बनाए हैं जो मैन्युअल रूप से फोटोशॉप में बनाए गए हैं; हालांकि, यह पैमाने पर अवास्तविक है, और एक स्वचालित या अर्ध-स्वचालित, एआई-चालित प्रक्रिया जोड़े को उत्पन्न करने के लिए अब बढ़ती जा रही है जो पसंद की जा रही है。

GAN-आधारित और अधिकांश SMPL/X-आधारित दृष्टिकोणों (जहां एक आभासी सीजीआई आंकड़ा वास्तविक छवियों और वांछित परिवर्तनों के बीच एक प्रकार के विनिमय तंत्र के रूप में कार्य करता है), और दृष्टिकोणों के साथ जो छवि-वार्पिंग का उपयोग करते हैं, यह है कि पृष्ठभूमि और पहचान प्रक्रिया में पीड़ित होने के लिए लगती है।

पैरामेट्रिक, वेक्टर-आधारित सीजीआई मॉडल जैसे एसएमपीएल और एसएमपीएल-एक्स (अन्य लोगों के बीच), परिभाषित पारंपरिक भौतिक 3डी निर्देशांक प्रदान करते हैं जिन्हें कंप्यूटर दृष्टि फ्रेमवर्क में व्याख्या और एकीकृत किया जा सकता है। स्रोत: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

चूंकि यह महत्वपूर्ण है कि एआई केवल वांछित पहलुओं को बदलना सीखे, न कि पृष्ठभूमि और अन्य अवांछित त्रुटियों को विकृत करना सीखे, इसलिए कोई भी शरीर-परिवर्तन प्रणाली अभी तक एक आदर्श समाधान पर नहीं पहुंची है।

हालांकि, भारत से एक हालिया पेपर राज्य की कला पर एक उल्लेखनीय प्रगति का प्रस्ताव करता है, जो पुराने फ्लक्स डिफ्यूजन मॉडल फ्रेमवर्क का उपयोग करके गaires किया जाता है, जो कई माध्यमिक दृष्टिकोणों के साथ बढ़ाया जाता है जो एक श्रेष्ठ और अधिक संगत जोड़े गए डेटासेट को सक्षम बनाता है:

नई परियोजना से डेटासेट के उदाहरण。 स्रोत: https://arxiv.org/pdf/2508.13065

परियोजना में एक नई और व्यापक जोड़े गए डेटासेट; ओडो, एक वितरित मॉडल जो इस डेटा पर प्रशिक्षित है; और एक विशेष नए बेंचमार्क शामिल हैं जो मानव आकार-संपादन प्रदर्शन का मात्रात्मक मूल्यांकन करने के लिए डिज़ाइन किया गया है। परीक्षणों में, लेखक दावा करते हैं कि समान मॉडल द्वारा प्राप्त मानकों पर एक उल्लेखनीय प्रगति हासिल की गई है।

नई पेपर का शीर्षक ओडो: डेप्थ-गाइडेड डिफ्यूजन फॉर आइडेंटिटी-प्रिजर्विंग बॉडी रीशेपिंग है, और यह भारत के बैंगलोर में फास्ट कोड एआई प्राइवेट लिमिटेड के तीन शोधकर्ताओं से आता है।

डेटा और विधि

शोधकर्ताओं द्वारा बनाए गए डेटासेट में प्रत्येक लक्ष्य शरीर प्रकार (मोटा, पतला, और मांसपेशियों वाला) के लिए 7,615 उच्च-रिज़ॉल्यूशन (960x1280px) छवियां हैं।

प्रारंभ में, 1,523 मानव चेहरे FLUX.1-dev 12-बिलियन पैरामीटर डिफ्यूजन मॉडल के माध्यम से उत्पन्न किए गए थे, हालांकि पेक्सल्स और अनस्प्लैश से एक निर्दिष्ट संख्या में लाइसेंस-मुक्त संदर्भ चेहरों का लाभ उठाकर विविधता बढ़ाने के लिए।

इन चेहरों को शामिल करने वाली पूर्ण-शरीर की छवियों को उत्पन्न करने के लिए, शोधकर्ताओं ने बाइटडांस के 2024 PuLID का उपयोग किया, जो एक चेकपॉइंट है जो फ्लक्स पर फाइन-ट्यून किया गया है, और इसमें एक विपरीत आईडी हानि शामिल है जो परिवर्तनकारी प्रक्रियाओं के दौरान चेहरे की पहचान को संरक्षित करने में मदद करने के लिए डिज़ाइन की गई है:

PuLID परियोजना से उदाहरण。 स्रोत: https://arxiv.org/pdf/2404.16022

मॉडल को एक चेहरे की छवि और एक मानकीकृत प्रोम्प्ट प्राप्त हुआ, जिसमें लिंग, कपड़े, मुद्रा, दृश्य, साथ ही पतला, मोटा, या मांसपेशियों वाला शरीर प्रकार का अनुरोध किया गया था।

प्रत्येक पहचान के लिए तीन शरीर प्रकार की छवियां कभी-कभी पृष्ठभूमि संरेखण और विषय के आकार में मामूली बदलाव प्रदर्शित करती हैं, जो स्टोकास्टिक व्यवहार के कारण होता है डिफ्यूजन मॉडल, जहां प्रत्येक पीढ़ी एक नए शोर बीज से शुरू होती है। यहां तक कि प्रोम्प्ट में मामूली बदलाव, जैसे कि शरीर प्रकार के विवरण को संशोधित करना, मॉडल की पथ को लेटेंट स्पेस में प्रभावित कर सकता है, और दृश्य ड्रिफ्ट का कारण बन सकता है।

इस भिन्नता को ठीक करने के लिए, एक चार-चरण स्वचालित पोस्ट-प्रोसेसिंग पाइपलाइन लागू की गई, जिसमें प्रत्येक त्रिपल में पतली छवि को संदर्भ के रूप में चुना गया, क्योंकि इसका छोटा सिल्हूट अधिक पृष्ठभूमि को उजागर करता है।

व्यक्ति का पता लगाने के लिए RT-DETRv2 का उपयोग किया गया, इसके बाद SAM 2.1 के साथ सेगमेंटेशन किया गया ताकि तीनों शरीर प्रकारों के लिए विषय मास्क निकाले जा सकें। पतली संदर्भ छवि को फ्लक्स.1 कॉन्टेक्स्ट प्रो (नया चित्र संपादन प्रणाली) के लिए पृष्ठभूमि पेंटिंग के लिए पारित किया गया, जिससे विषय को हटाकर एक साफ संस्करण của दृश्य बना।

मोटा और मांसपेशियों वाला संस्करणों को समान फ्रेमिंग के लिए पतली संदर्भ मास्क की ऊंचाई से मेल खाने के लिए एक समान स्केलिंग का उपयोग करके पुनः आकार दिया गया, और नीचे के संरेखण पर साफ पृष्ठभूमि पर संयोजित किया गया।

लेखकों का कहना है:

‘परिणामी परिवर्तन त्रिपल (पतला, मोटा और मांसपेशियों वाला) में एक ही पृष्ठभूमि और एक समान विषय के पैमाने होते हैं। यह अनावश्यक भिन्नताएं हटा देता है जो बाद के प्रशिक्षण या मूल्यांकन को नकारात्मक रूप से प्रभावित कर सकती हैं। ‘

प्रत्येक त्रिपल की पतली, मोटा, और मांसपेशियों वाला छवियों की त्रिपल ने छह संभावित परिवर्तन जोड़े प्रदान किए, जिससे 7,615 पहचानों में 45,690 सैद्धांतिक संयोजन हुए।

असंगत कपड़े, अस्वाभाविक मुद्रा, विकृत अंग, पहचान ड्रिफ्ट, या न्यूनतम आकार परिवर्तन वाले उदाहरणों को फिल्टर करने के बाद, 18,573 उच्च-गुणवत्ता वाले जोड़े बनाए रखे गए। हालांकि कुछ मामूली मुद्रा भिन्नताएं बनी रहीं, मॉडल इन भिन्नताओं के प्रति मजबूत साबित हुआ।

प्रशिक्षण और परीक्षण

परिणामी छवियों का उपयोग ओडो मॉडल को प्रशिक्षित करने के लिए किया गया – एक डिफ्यूजन-आधारित दृष्टिकोण मानवों को पुनः आकार देने के लिए, स्किन्ड मulti-पर्सन लाइनियर मॉडल (SMPL, अर्थात मध्यवर्ती सीजीआई) मानचित्रों का उपयोग करके।

2024 न्यूरल लोकलाइज़र की विधियों से सूचित, डेटा को प्रति व्यक्ति के आधार पर एसएमपीएल आकृति में अनुकूलित किया गया, जिससे परिणामस्वरूप अनुकूलित पैरामीटर गहराई मानचित्र उत्पन्न करने में सक्षम हो गए जिनसे संशोधित छवियां व्युत्पन्न की जा सकेंगी:

प्रशिक्षण पाइपलाइन के लिए स्कीमा। बाएं पक्ष प्रशिक्षण सेटअप को दिखाता है, जहां लक्ष्य छवि से एसएमपीएल गहराई मानचित्र रीशेपनेट को कंट्रोलनेट के माध्यम से शरीर परिवर्तन करने के लिए मार्गदर्शन करते हैं। स्रोत छवि से विशेषताएं रेफरेंसनेट द्वारा निकाली जाती हैं और स्थानिक स्व-ध्यान का उपयोग करके रीशेपनेट में मिलाया जाता है। दाएं पक्ष अनुमान को दिखाता है, जहां एसएमपीएल पैरामीटर इनपुट छवि से अनुमानित होते हैं, सेमेंटिक विशेषताओं द्वारा संशोधित होते हैं, और एक लक्ष्य गहराई मानचित्र में रेंडर किया जाता है जो रीशेपनेट को शोर मुक्त करने के दौरान सशर्त बनाता है ताकि अंतिम परिवर्तित छवि का उत्पादन किया जा सके।

मॉडल (ऊपर स्कीमा देखें) में रीशेपनेट मॉड्यूल शामिल है, जो तीन सहायक मॉड्यूल द्वारा समर्थित है: रेफरेंसनेट; एक आईपी-एडाप्टर मॉड्यूल; और एक गहराई-आधारित कंट्रोलनेट मॉड्यूल।

रेफरेंसनेट स्रोत छवि से विस्तृत विशेषताएं निकालता है, जैसे कि पृष्ठभूमि, कपड़े और पहचान, और उन्हें रीशेपनेट में पारित करता है। आईपी-एडाप्टर उच्च-स्तरीय विशेषता मार्गदर्शन प्रदान करता है, जबकि गहराई कंट्रोलनेट एसएमपीएल-आधारित सशर्तता लागू करता है जो शरीर परिवर्तन को मार्गदर्शन करता है। पिछले कार्यों के अनुसार, एक एसडीएक्सएल-आधारित फ्रोजन यूनेट का उपयोग मध्यवर्ती विशेषताओं को निकालने के लिए किया गया था।

आईपी-एडाप्टर मॉड्यूल के लिए, यह इनपुट छवि को क्लिप के माध्यम से एन्कोड करता है, जिसके परिणामस्वरूप एम्बेडिंग होते हैं जो रीशेपनेट में क्रॉस-ध्यान के माध्यम से एकीकृत होते हैं।

गहराई कंट्रोलनेट मॉड्यूल के लिए, यह रीशेपनेट के मध्य और डीकोडर परतों को शेष संबंध के माध्यम से मार्गदर्शन करता है। इसके बाद, यह एक लक्ष्य गहराई मानचित्र लेता है जो लक्ष्य एसएमपीएल पैरामीटर से रेंडर किया जाता है और इसे लक्ष्य छवि के साथ संरेखित करता है।

रीशेपनेट, एसडीएक्सएल यूनेट पर आधारित है, ओडो का मुख्य नेटवर्क है। प्रशिक्षण के दौरान, लक्ष्य छवियों को एक वेरिएशनल ऑटोएन्कोडर के माध्यम से लेटेंट स्पेस में एन्कोड किया जाता है, समय के साथ शोर किया जाता है, और फिर रीशेपनेट द्वारा कंट्रोलनेट और रेफरेंसनेट से विशेषताओं का उपयोग करके शोर मुक्त किया जाता है।

श्रेणी-विशिष्ट पाठ प्रोम्प्ट जैसे ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ जोड़े गए, ताकि परिवर्तनों को मार्गदर्शन किया जा सके। जबकि गहराई मानचित्र ने मोटे शरीर के आकार को पकड़ा, प्रोम्प्ट ने परिवर्तनों के लिए आवश्यक सेमेंटिक विवरण प्रदान किया, जैसे कि मांसपेशियों की परिभाषा, जिससे मॉडल अधिक सटीक और वास्तविक परिवर्तन उत्पन्न कर सके।

प्रशिक्षण कार्यान्वयन

ओडो को परियोजना के सिंथेटिक डेटासेट के साथ प्रशिक्षित किया गया, जिसे डीपफैशन-मल्टीमॉडल डेटासेट के एक सबसेट के साथ जोड़ा गया, जिससे कुल 20,000 छवि जोड़े प्राप्त हुए।

डीपफैशन-मल्टीमॉडल डेटा ने कपड़ों और चेहरे की विशेषताओं में विविधता प्रदान की, जिसमें प्रशिक्षण के दौरान खुद के खिलाफ जोड़े गए छवियां थीं। सभी एसएमपीएल गहराई मानचित्रों को कुशलता के लिए पूर्व-गणना किया गया, प्रशिक्षण एक एकल एनवीडिया ए100 जीपीयू पर 60 प्रशिक्षण युग के लिए चलाया गया, जिसमें 80GB का वीआरएएम था।

इनपुट छवियों को 768×1024 तक कम करने के साथ, एडम ऑप्टिमाइज़र का उपयोग 1×10⁻⁵ की सीखने की दर पर किया गया। रीशेपनेट को एसडीएक्सएल यूनेट वजन के साथ आरंभ किया गया और संयुक्त रूप से आईपी-एडाप्टर के साथ फाइन-ट्यून किया गया।

रेफरेंसनेट को एसडीएक्सएल वजन के साथ आरंभ किया गया और जमे हुए रखा गया, जबकि गहराई कंट्रोलनेट ने पूर्व-प्रशिक्षित वजन का उपयोग किया और जमे हुए रहा।

अंतिम मॉडल को लगभग 23GB का जीपीयू मेमोरी की आवश्यकता थी, और एकल-छवि अनुमान के लिए 18 सेकंड की आवश्यकता थी।

एक नई मीट्रिक

इस प्रकार की परियोजना के लिए आवश्यक डेटासेट की कमी का अर्थ है कि कोई मौजूदा मीट्रिक वास्तव में इस चुनौती को संबोधित नहीं करता है। इसलिए, लेखकों ने एक नई बेंचमार्क बनाई, जिसमें 3,600 छवि जोड़े शामिल हैं, जिसमें वास्तविक चेहरे की छवियां और पृष्ठभूमि विवरण शामिल हैं, साथ ही विविध शरीर के आकार भिन्नताएं हैं:

अन्य मीट्रिक जो उपयोग किए गए थे वे हैं संरचनात्मक समानता सूचकांक (एसएसआईएम); पीक सिग्नल-टू-शोर अनुपात (पीएसएनआर); सीखा हुआ संवेदी छवि पैच समानता (एलपीआईपीएस); और स्केल सुधारित प्रति-शीर्ष यूक्लिडियन त्रुटि न्यूट्रल (टी-) मुद्रा में (पीवीई-टी-एससी).

सबसे पहले, लेखकों ने अपनी विधि का गुणात्मक रूप से इन-द-वाइल्ड छवियों (प्रशिक्षण के दौरान मॉडल द्वारा नहीं देखी गई छवियों) के खिलाफ परीक्षण किया:

गुणात्मक परीक्षण। उदाहरण मूल छवि से पतले, अधिक वजन वाले और मांसपेशियों वाले शरीर प्रकार में परिवर्तन दिखाते हैं, जिसमें बैठने और खड़े होने जैसी मुद्राएं शामिल हैं। कृपया बेहतर परिभाषा और विवरण के लिए स्रोत पत्र देखें।

इन परिणामों में, पेपर कहता है:

‘हमारी विधि विविध मुद्रा, पृष्ठभूमि और कपड़ों को संभालने में प्रभावी रूप से काम करती है, जबकि व्यक्ति की पहचान को संरक्षित करती है।

‘इसके अलावा, एसएमपीएल लक्ष्य आकार के अलावा, हम वांछित परिवर्तनों को स्पष्ट रूप से निर्देशित करने के लिए पाठ प्रोम्प्ट – ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ – प्रदान करते हैं…’

…’नीचे दी गई छवि हमारे मॉडल की क्षमता को और भी प्रदर्शित करती है विभिन्न आकार परिवर्तन करने के लिए। मॉडल संदर्भ छवि से विभिन्न पतले और मोटे संस्करणों को उत्पन्न करने के लिए एसएमपीएल गहराई मानचित्र का सटीक रूप से अनुसरण करता है।’

लक्ष्य शरीर प्रकारों की श्रृंखला को कवर करने वाले आगे के गुणात्मक परीक्षण। कृपया बेहतर परिभाषा और विवरण के लिए स्रोत पत्र देखें।

लेखक आगे टिप्पणी करते हैं:

‘हमारे परिणाम अधिक वास्तविक परिवर्तनों को प्रदर्शित करते हैं जो लक्ष्य वजन के अनुसार होते हैं, क्योंकि हमारा मॉडल समान समय में समग्र शरीर के आकार, अंगों के अनुपात और कपड़ों को समायोजित करता है, जिससे शारीरिक रूप से सुसंगत और दृश्य रूप से आश्वस्त परिवर्तन होते हैं। ‘

मात्रात्मक परीक्षण के लिए, लेखकों ने अपनी प्रणाली को ओपन-सोर्स फ्लक्स कॉन्टेक्स्ट [डेव] मॉडल, FLUX.1, और 2022 प्रस्ताव स्ट्रक्चर-एवेयर फ्लो जेनरेशन फॉर ह्यूमन बॉडी रीशेपिंग के खिलाफ पिट किया:

फ्लक्स.1 कॉन्टेक्स्ट [डेव] के लिए, प्रोम्प्ट डिज़ाइन किए गए थे जो ‘व्यक्ति को मोटा बनाएं,’ ‘व्यक्ति को पतला बनाएं,’ या ‘व्यक्ति को मांसपेशियों वाला बनाएं’ के निर्देश देते थे, लक्ष्य वजन निर्दिष्ट किए गए थे – हालांकि महीन-दांतेदार नियंत्रण की कमी प्रदर्शन को सीमित करती थी:

ओडो की तुलना स्ट्रक्चर-एवेयर फ्लो जेनरेशन फॉर ह्यूमन बॉडी रीशेपिंग और फ्लक्स.1 कॉन्टेक्स्ट [डेव] के साथ परीक्षण सेट पर, साथ ही रीशेपनेट में प्रोम्प्ट सशर्तता के बिना प्रशिक्षित मॉडल, रेफरेंसनेट (केवल आईपी-एडाप्टर का उपयोग करके) के बिना, और बीआर-5के डेटासेट तक प्रशिक्षण के साथ सीमित मॉडल के लिए अपसारण परिणाम।

निष्कर्ष

फ्लक्स कॉन्टेक्स्ट का आगमन इस वर्ष, और हाल ही में क्वेन इमेज एडिट के लिए अनक्वांटाइज्ड वजन की रिलीज़, ने जोड़े गए डेटा को फिर से पेशेवर और शौकिया समुदायों में आगे बढ़ाया है। बढ़ती आलोचना और जनरेटिव एआई की अस्पष्टता के बावजूद, इस प्रकार के मॉडल उच्च विश्वसनीयता के लिए डिज़ाइन किए गए हैं (हालांकि छोटे पैमाने पर मॉडल कभी-कभी उनके बहुत विशिष्ट प्रशिक्षण लक्ष्यों से बाधित होते हैं)।

इस मामले में, एक शरीर-आकार प्रणाली की उपयोगिता मनोवैज्ञानिक, चिकित्सा और फैशन-आधारित क्षेत्रों में होने की संभावना है। फिर भी, यह संभव है कि इस प्रकार की प्रणालियां एक उच्च स्तर की प्रमुखता प्राप्त करेंगी, और शायद एक अधिक अनौपचारिक और संभावित रूप से चिंताजनक सेट का उपयोग करेंगी।

सोमवार, 25 अगस्त, 2025 को पहली बार प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai