Connect with us

рдЧреВрдЧрд▓ рдХреЗ рдЗрдореИрдЧрд┐рдХ рдФрд░ рд░рдирд╡реЗ рдХреЗ ‘рдорд┐рдЯрд╛рдирд╛ рдФрд░ рдмрджрд▓рдирд╛’ рдХреЗ рд╕рд╛рде рдПрдЖрдИ-рд╕рд╣рд╛рдпрддрд╛ рдкреНрд░рд╛рдкреНрдд рд╡рд╕реНрддреБ рд╕рдВрдкрд╛рджрди

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЧреВрдЧрд▓ рдХреЗ рдЗрдореИрдЧрд┐рдХ рдФрд░ рд░рдирд╡реЗ рдХреЗ ‘рдорд┐рдЯрд╛рдирд╛ рдФрд░ рдмрджрд▓рдирд╛’ рдХреЗ рд╕рд╛рде рдПрдЖрдИ-рд╕рд╣рд╛рдпрддрд╛ рдкреНрд░рд╛рдкреНрдд рд╡рд╕реНрддреБ рд╕рдВрдкрд╛рджрди

mm

इस सप्ताह दो नए, लेकिन विरोधाभासी एआई-संचालित ग्राफिक्स एल्गोरिदम उपयोगकर्ताओं को फोटो में वस्तुओं में अत्यधिक विस्तृत और प्रभावी परिवर्तन करने के लिए नए तरीके प्रदान कर रहे हैं।

पहला इमैगिक है, जो गूगल रिसर्च द्वारा इज़राइल के प्रौद्योगिकी संस्थान और वेइज़मैन विज्ञान संस्थान के साथ संयोजन में है। इमैगिक प्रसार मॉडल के फ़ाइन-ट्यूनिंग के माध्यम से वस्तुओं के लिए पाठ-शर्त, महीन-दाने वाला संपादन प्रदान करता है।

рдЬреЛ рдЖрдк рдмрджрд▓рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рдФрд░ рдмрд╛рдХреА рдХреЛ рдЫреЛрдбрд╝ рджреЗрдВ - рдЗрдореИрдЧрд┐рдХ рдХреЗрд╡рд▓ рдЙрди рд╣рд┐рд╕реНрд╕реЛрдВ рдХреЛ рдмрджрд▓рдиреЗ рдХрд╛ рд╡рд╛рджрд╛ рдХрд░рддрд╛ рд╣реИ рдЬрд┐рдиреНрд╣реЗрдВ рдЖрдк рдмрджрд▓рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2210.09276.pdf

जो आप बदलना चाहते हैं, और बाकी को छोड़ दें – इमैगिक केवल उन हिस्सों को बदलने का वादा करता है जिन्हें आप बदलना चाहते हैं। स्रोत: https://arxiv.org/pdf/2210.09276.pdf

जिन लोगों ने स्थिर प्रसार में केवल एक तत्व बदलने की कोशिश की है, वे जानते हैं कि प्रत्येक सफल संपादन के लिए, प्रणाली उन पांच चीजों को बदल देगी जिन्हें आप वैसे ही पसंद करते हैं जैसे वे हैं। यह एक कमी है जो वर्तमान में स्थिर प्रसार और फ़ोटोशॉप के बीच लगातार शफ़लिंग करने वाले कई प्रतिभाशाली एसडी उत्साही लोगों को प्रभावित करती है। इस दृष्टिकोण से, इमैगिक की उपलब्धियां उल्लेखनीय लगती हैं।

लेखन के समय, इमैगिक में अभी तक एक प्रचार वीडियो भी नहीं है, और गूगल के सावधानी से दृष्टिकोण को देखते हुए, यह अनिश्चित है कि हम इस प्रणाली का परीक्षण करने का मौका किस हद तक, यदि कोई हो, प्राप्त करेंगे।

दूसरा प्रस्ताव रनवे एमएल का अधिक सुलभ मिटाना और बदलना सुविधा है, जो इसके विशेष रूप से ऑनलाइन सूट के ‘एआई मैजिक टूल्स’ अनुभाग में एक नई सुविधा है।

रनवे एमएल की मिटाना और बदलना सुविधा, जो पहले से ही एक पाठ-से-वीडियो संपादन प्रणाली के पूर्वावलोकन में देखी जा चुकी है। स्रोत: https://www.youtube.com/watch?v=41Qb58ZPO60

रनवे एमएल की मिटाना और बदलना सुविधा, जो पहले से ही एक पाठ-से-वीडियो संपादन प्रणाली के पूर्वावलोकन में देखी जा चुकी है। स्रोत: https://www.youtube.com/watch?v=41Qb58ZPO60

आइए रनवे के प्रस्ताव पर पहले नज़र डालें।

मिटाना और बदलना

इमैगिक की तरह, मिटाना और बदलना विशेष रूप से स्थिर चित्रों के साथ व्यवहार करता है, हालांकि रनवे ने पूर्वावलोकन किया है कि यही कार्यक्षमता एक पाठ-से-वीडियो संपादन समाधान में है जो अभी तक जारी नहीं किया गया है:

हालांकि कोई भी छवियों पर नए मिटाना और बदलना का परीक्षण कर सकता है, वीडियो संस्करण अभी तक सार्वजनिक रूप से उपलब्ध नहीं है। स्रोत: https://twitter.com/runwayml/status/1568220303808991232

हालांकि कोई भी छवियों पर नए मिटाना और बदलना का परीक्षण कर सकता है, वीडियो संस्करण अभी तक सार्वजनिक रूप से उपलब्ध नहीं है। स्रोत: https://twitter.com/runwayml/status/1568220303808991232

रनवे एमएल ने मिटाना और बदलना के पीछे की तकनीकों के बारे में विवरण जारी नहीं किया है, लेकिन रोनाल्ड रीगन के एक संवादात्मक बस्ट के साथ एक घरेलू पौधे को प्रतिस्थापित करने की गति से यह सुझाव दिया जा सकता है कि स्थिर प्रसार (या बहुत कम संभावना के साथ, एक लाइसेंस प्राप्त डीएलएल-ई 2) इंजन है जो मिटाना और बदलना में वस्तु का पुनर्निर्माण कर रहा है।

एक घरेलू पौधे को द गिपर के बस्ट से बदलना इतनी तेजी से नहीं है, लेकिन यह काफी तेज है। स्रोत: https://app.runwayml.com/

एक घरेलू पौधे को द गिपर के बस्ट से बदलना इतनी तेजी से नहीं है, लेकिन यह काफी तेज है। स्रोत: https://app.runwayml.com/

प्रणाली में कुछ डीएलएल-ई 2 प्रकार की प्रतिबंध हैं – छवियों या पाठ जो मिटाना और बदलना फिल्टर को झंडा दिखाएंगे, संभावित खाता निलंबन के बारे में चेतावनी को ट्रिगर करेंगे यदि आगे के उल्लंघन होते हैं – व्यावहारिक रूप से ओपनएआई की नीतियों का एक बायलरप्लेट क्लोन डीएलएल-ई 2 के लिए।

परिणामों में से अधिकांश में स्थिर प्रसार के विशिष्ट खुरदरे किनारे नहीं हैं। रनवे एमएल एसडी में निवेशक और अनुसंधान भागीदार हैं, और यह संभव है कि उन्होंने एक प्रोप्राइटरी मॉडल को प्रशिक्षित किया है जो वर्तमान में हमारे साथ जुड़े हुए 1.4 चेकपॉइंट वजन से बेहतर है।

रनवे एमएल के मिटाना और बदलना में एक घरेलू टेबल को 'बर्फ से बनी टेबल' में बदलना।

रनवे एमएल के मिटाना और बदलना में एक घरेलू टेबल को ‘बर्फ से बनी टेबल’ में बदलना।

जैसा कि इमैगिक (नीचे देखें) के साथ है, मिटाना और बदलना ‘वस्तु-उन्मुख’ है, जैसा कि यह हो सकता है – आप केवल एक ‘खाली’ हिस्से को मिटा नहीं सकते हैं और इसे अपने पाठ प्रोम्प्ट के परिणाम से पेंट नहीं कर सकते हैं; इस दृश्य में, प्रणाली बस निकटतम स्पष्ट वस्तु को मास्क की रेखा के साथ ट्रेस करेगी (जैसे कि एक दीवार, या एक टेलीविजन), और वहां परिवर्तन लागू करेगी।

जैसा कि नाम से पता चलता है, आप मिटाना और बदलना में खाली स्थान में वस्तुओं को इंजेक्ट नहीं कर सकते हैं। यहाँ, सिथ लॉर्ड्स के सबसे प्रसिद्ध को召म करने का प्रयास टीवी पर एक अजीब वाडर-संबंधित म्यूरल में परिणत होता है, जो लगभग वही है जहां 'प्रतिस्थापित' क्षेत्र खींचा गया था।

जैसा कि नाम से पता चलता है, आप मिटाना और बदलना में खाली स्थान में वस्तुओं को इंजेक्ट नहीं कर सकते हैं। यहाँ, सिथ लॉर्ड्स के सबसे प्रसिद्ध को召म करने का प्रयास टीवी पर एक अजीब वाडर-संबंधित म्यूरल में परिणत होता है, जो लगभग वही है जहां ‘प्रतिस्थापित’ क्षेत्र खींचा गया था।

यह जानना मुश्किल है कि मिटाना और बदलना कॉपीराइट छवियों के उपयोग के संबंध में बचाव कर रहा है या नहीं (जो अभी भी डीएलएल-ई 2 में विभिन्न सफलता के साथ अवरुद्ध हैं), या यदि बैकएंड रेंडरिंग इंजन में उपयोग किया जाने वाला मॉडल इस तरह की चीजों के लिए अनुकूलित नहीं है।

рдирд┐рдХреЛрд▓ рдХрд┐рдбрдореИрди рдХрд╛ рдереЛрдбрд╝рд╛ рдПрдирдПрд╕рдПрдлрдбрдмреНрд▓реНрдпреВ 'рдореНрдпреВрд░рд▓' рдпрд╣ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ рд╣рд╛рде рдореЗрдВ (рд╕рдВрднрд╡рддрдГ) рдкреНрд░рд╕рд╛рд░-рдЖрдзрд╛рд░рд┐рдд рдореЙрдбрд▓ рдореЗрдВ рдбреАрдПрд▓рдПрд▓-рдИ 2 рдХреЗ рдкреВрд░реНрд╡ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЪреЗрд╣рд░реЗ рдпрд╛ рд░реЗрд╕реА рд╕рд╛рдордЧреНрд░реА рдХреЛ рдкреНрд░рд╕реНрддреБрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╕рд┐рд╕реНрдЯрдореЗрдЯрд┐рдХ рд░рд┐рдЬреЗрдХреНрд╢рди рдХреА рдХрдореА рд╣реИ, рдЬрдмрдХрд┐ рдХреЙрдкреАрд░рд╛рдЗрдЯ рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рдкреНрд░рдпрд╛рд╕реЛрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдо рдЕрд╕реНрдкрд╖реНрдЯ ('рдЬрд╝реЗрдиреЛрдореЙрд░реНрдл') рд╕реЗ рд▓реЗрдХрд░ рд╣рд╛рд╕реНрдпрдордп ('рдЖрдпрд░рди рдереНрд░реЛрди') рддрдХ рд╣реЛрддреЗ рд╣реИрдВред рдиреАрдЪреЗ рджрд╛рдИрдВ рдУрд░, рд╕реНрд░реЛрдд рдЪрд┐рддреНрд░ред

निकोल किडमैन का थोड़ा एनएसएफडब्ल्यू ‘म्यूरल’ यह दर्शाता है कि हाथ में (संभवतः) प्रसार-आधारित मॉडल में डीएलएल-ई 2 के पूर्व में वास्तविक चेहरे या रेसी सामग्री को प्रस्तुत करने के लिए एक सिस्टमेटिक रिजेक्शन की कमी है, जबकि कॉपीराइट कार्यों को उत्पन्न करने के प्रयासों के परिणाम अस्पष्ट (‘ज़ेनोमॉर्फ’) से लेकर हास्यमय (‘आयरन थ्रोन’) तक होते हैं। नीचे दाईं ओर, स्रोत चित्र।

यह जानना दिलचस्प होगा कि मिटाना और बदलना किस विधि का उपयोग वस्तुओं को अलग करने के लिए कर रहा है जिन्हें यह प्रतिस्थापित करने में सक्षम है। संभवतः, छवि को कुछ सीएलआईपी के व्युत्पन्न के माध्यम से चलाया जा रहा है, जिसमें विविध वस्तुएं वस्तु पहचान और बाद के सेमेंटिक सेगमेंटेशन द्वारा व्यक्तिगत की जाती हैं। इनमें से कोई भी ऑपरेशन स्थिर प्रसार की एक सामान्य स्थापना में लगभग उतना अच्छा काम नहीं करता है।

लेकिन कुछ भी परिपूर्ण नहीं है – कभी-कभी प्रणाली मिटाने और प्रतिस्थापित नहीं करने का प्रतीत होता है, भले ही (जैसा कि हमने ऊपर देखा है), अंतर्निहित रेंडरिंग तंत्र निश्चित रूप से जानता है कि एक पाठ प्रोम्प्ट का क्या अर्थ है। इस मामले में, यह साबित होता है कि एक कॉफी टेबल को ज़ेनोमॉर्फ में बदलना असंभव है – इसके बजाय, टेबल बस गायब हो जाता है।

व्हेयर्स वाल्डो का एक डरावना संस्करण, क्योंकि मिटाना और बदलना एक एलियन का उत्पादन करने में विफल रहता है।

व्हेयर्स वाल्डो का एक डरावना संस्करण, क्योंकि मिटाना और बदलना एक एलियन का उत्पादन करने में विफल रहता है।

मिटाना और बदलना एक प्रभावी वस्तु प्रतिस्थापन प्रणाली के रूप में प्रकट होता है, जिसमें उत्कृष्ट इनपेंटिंग है। हालांकि, यह मौजूदा वस्तुओं को संपादित नहीं कर सकता है, लेकिन केवल उन्हें प्रतिस्थापित कर सकता है। वास्तविक छवि सामग्री को समझौता किए बिना मौजूदा छवि सामग्री को बदलना वास्तव में एक कठिन कार्य है, जो कंप्यूटर दृष्टि अनुसंधान क्षेत्र के लंबे संघर्ष से जुड़ा हुआ है विभिन्न लैटेंट स्पेस में विच्छेदन के लिए।

इमैगिक

यह एक कार्य है जिसे इमैगिक संबोधित करता है। नई पेपर में कई संपादन के उदाहरण हैं जो एक फोटो में व्यक्तिगत पहलुओं को सफलतापूर्वक संशोधित करते हैं जबकि छवि के बाकी हिस्सों को छोड़ देते हैं।

рдЗрдореИрдЧрд┐рдХ рдореЗрдВ, рд╕рдВрд╢реЛрдзрд┐рдд рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рдЧрд╣рд░реЗ рдкреНрд░рд╕рд╛рд░ рдкреНрд░рддрд┐рд░реВрдкрдг рдХреА рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЦрд┐рдВрдЪрд╛рд╡, рд╡рд┐рдХреГрддрд┐ рдФрд░ 'рдУрдХреНрд▓реВрдЬрди рдЕрдиреБрдорд╛рди' рдХрд╛ рдЕрднрд╛рд╡ рд╣реИ, рдЬреЛ рдПрдХ рдПрдХрд▓ рдЫрд╡рд┐ рд╕реЗ рдкреНрд░рд╛рдкреНрдд рд╕реАрдорд┐рдд рдкреНрд░рд╛рдердорд┐рдХрддрд╛рдУрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИред

इमैगिक में, संशोधित छवियों में गहरे प्रसार प्रतिरूपण की विशिष्ट खिंचाव, विकृति और ‘ओक्लूजन अनुमान’ का अभाव है, जो एक एकल छवि से प्राप्त सीमित प्राथमिकताओं का उपयोग करता है।

प्रणाली एक तीन-चरण प्रक्रिया का उपयोग करती है – पाठ एम्बेडिंग अनुकूलन; मॉडल फ़ाइन-ट्यूनिंग; और, अंत में, संशोधित छवि का उत्पादन।

рдЗрдореИрдЧрд┐рдХ рд▓рдХреНрд╖реНрдп рдкрд╛рда рдкреНрд░реЛрдореНрдкреНрдЯ рдХреЛ рдПрдиреНрдХреЛрдб рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдкрд╛рда рдПрдореНрдмреЗрдбрд┐рдВрдЧ рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдФрд░ рдлрд┐рд░ рдкрд░рд┐рдгрд╛рдо рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЗрдирдкреБрдЯ рдЫрд╡рд┐ рдХреЛ рдкреНрд░рд╛рдкреНрдд рдХрд░рддрд╛ рд╣реИред рдЗрд╕рдХреЗ рдмрд╛рдж, рдЙрддреНрдкрд╛рджрдХ рдореЙрдбрд▓ рдХреЛ рд╕реНрд░реЛрдд рдЫрд╡рд┐ рдореЗрдВ рдлрд╝рд╛рдЗрди-рдЯреНрдпреВрди рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдкреИрд░рд╛рдореАрдЯрд░ рдЬреЛрдбрд╝реЗ рдЬрд╛рддреЗ рд╣реИрдВ, рдЗрд╕рд╕реЗ рдкрд╣рд▓реЗ рдХрд┐ рдпрд╣ рдЕрдиреБрд░реЛрдзрд┐рдд рдЗрдВрдЯрд░рдкреЛрд▓реЗрд╢рди рдХреЗ рдЕрдзреАрди рд╣реЛред

इमैगिक लक्ष्य पाठ प्रोम्प्ट को एन्कोड करने के लिए प्रारंभिक पाठ एम्बेडिंग प्राप्त करने के लिए, और फिर परिणाम को अनुकूलित करने के लिए प्राप्त करने के लिए इनपुट छवि को प्राप्त करता है। इसके बाद, उत्पादक मॉडल को स्रोत छवि में फ़ाइन-ट्यून किया जाता है, जिसमें एक श्रृंखला पैरामीटर जोड़े जाते हैं, इससे पहले कि यह अनुरोधित इंटरपोलेशन के अधीन हो।

आश्चर्य की बात नहीं है, फ्रेमवर्क गूगल के इमेजन पाठ-से-वीडियो आर्किटेक्चर पर आधारित है, हालांकि शोधकर्ता कहते हैं कि प्रणाली के सिद्धांत व्यापक रूप से लेटेंट प्रसार मॉडल पर लागू होते हैं।

इमेजन एक तीन-टियर आर्किटेक्चर का उपयोग करता है, जो कंपनी के पाठ-से-वीडियो के लिए हाल ही में सॉफ़्टवेयर के संस्करण के लिए उपयोग किए जाने वाले सात-टियर सरणी की तुलना में कम है। तीन अलग-अलग मॉड्यूल 64x64px रिज़ॉल्यूशन पर एक उत्पादक प्रसार मॉडल शामिल हैं; एक सुपर-रिज़ॉल्यूशन मॉडल जो आउटपुट को 256x256px तक अपस्केल करता है; और एक अतिरिक्त सुपर-रिज़ॉल्यूशन मॉडल जो आउटपुट को 1024×1024 रिज़ॉल्यूशन तक ले जाता है।

इमैगिक इस प्रक्रिया के सबसे पहले चरण में हस्तक्षेप करता है, 64px चरण में अनुरोधित पाठ एम्बेडिंग को 0.0001 की स्थिर सीखने की दर पर एडम ऑप्टिमाइज़र पर अनुकूलित करता है।

рд╡рд┐рдЪреНрдЫреЗрджрди рдореЗрдВ рдПрдХ рдорд╛рд╕реНрдЯрд░-рдХреНрд▓рд╛рд╕: рдЙрди рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рдХреЗ рд▓рд┐рдП рдЬрд┐рдиреНрд╣реЛрдВрдиреЗ рдкреНрд░рд╕рд╛рд░, рдЬреАрдПрдирдПрди рдпрд╛ рдиреЗрдЕрд░рдПрдл рдореЙрдбрд▓ рдореЗрдВ рдПрдХ рдкреНрд░рд╕реНрддреБрдд рд╡рд╕реНрддреБ рдХрд╛ рд░рдВрдЧ рдЬреИрд╕реА рдПрдХ рд╕рд░рд▓ рдЪреАрдЬрд╝ рдмрджрд▓рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХреА рд╣реИ, рдпрд╣ рдЬрд╛рдирдирд╛ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ рдХрд┐ рдЗрдореИрдЧрд┐рдХ рдРрд╕реЗ рдкрд░рд┐рд╡рд░реНрддрди рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдмрд┐рдирд╛ рдЫрд╡рд┐ рдХреА рд╕рдВрдЧрддрд┐ рдХреЛ 'рддреЛрдбрд╝реЗред

विच्छेदन में एक मास्टर-क्लास: उन उपयोगकर्ताओं के लिए जिन्होंने प्रसार, जीएनएन या नेअरएफ मॉडल में एक प्रस्तुत वस्तु का रंग जैसी एक सरल चीज़ बदलने की कोशिश की है, यह जानना महत्वपूर्ण है कि इमैगिक ऐसे परिवर्तन कर सकता है बिना छवि की संगति को ‘तोड़े।

फ़ाइन-ट्यूनिंग तब इमेजन के बेस मॉडल पर होती है, जो प्रति इनपुट छवि 1500 कदम पर होती है, जो संशोधित एम्बेडिंग पर सशर्त होती है। इसी समय, द्वितीयक 64px>256px परत को सशर्त छवि पर समांतर में अनुकूलित किया जाता है। शोधकर्ता ध्यान देते हैं कि अंतिम 256px>1024px परत के लिए एक समान अनुकूलन परिणामों पर ‘थोड़ा या कोई प्रभाव’ नहीं पड़ता है, और इसलिए उन्होंने इसे लागू नहीं किया है।

पेपर में कहा गया है कि अनुकूलन प्रक्रिया प्रति छवि लगभग आठ मिनट लेती है जुड़वां टीपीयूवी4 चिप्स पर। अंतिम रेंडर इमेजन में डीडीआईएम नमूनाकरण योजना के तहत होता है।

गूगल के ड्रीमबूथ के लिए फ़ाइन-ट्यूनिंग प्रक्रिया के समान, परिणामी एम्बेडिंग को स्टाइलाइजेशन के साथ-साथ इमेजन द्वारा संचालित व्यापक डेटाबेस से जानकारी को शामिल करने वाले फ़ोटोरियलिस्टिक संपादन के लिए भी उपयोग किया जा सकता है (चूंकि पहले कॉलम में दिखाया गया है, स्रोत छवियों में इन परिवर्तनों को प्रभावित करने के लिए आवश्यक सामग्री नहीं है)।

рдЗрдореИрдЧрд┐рдХ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд▓рдЪреАрд▓рд╛ рдлрд╝реЛрдЯреЛрд░рд┐рдпрд▓рд┐рд╕реНрдЯрд┐рдХ рдЖрдВрджреЛрд▓рди рдФрд░ рд╕рдВрдкрд╛рджрди рдЙрддреНрдкрдиреНрди рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рдкреНрд░рд╛рдкреНрдд рд╡рд┐рдЪреНрдЫреЗрджрди рдФрд░ рд╡рд┐рдЪреНрдЫреЗрджрди рдХреЛрдб рдХреЛ рдЖрд╕рд╛рдиреА рд╕реЗ рд╕реНрдЯрд╛рдЗрд▓рд╛рдЗрдЬрд╝ рдЖрдЙрдЯрдкреБрдЯ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред

इमैगिक के माध्यम से लचीला फ़ोटोरियलिस्टिक आंदोलन और संपादन उत्पन्न किया जा सकता है, जबकि प्राप्त विच्छेदन और विच्छेदन कोड को आसानी से स्टाइलाइज़ आउटपुट के लिए उपयोग किया जा सकता है।

शोधकर्ताओं ने इमैगिक की तुलना पूर्व कार्यों एसडीईडिट से की, जो 2021 में स्टैनफोर्ड विश्वविद्यालय और कार्नेगी मेलन विश्वविद्यालय के बीच एक जीएनएन-आधारित दृष्टिकोण है; और टेक्स्ट2लाइव, जो अप्रैल 2022 में वेइज़मैन विज्ञान संस्थान और एनवीडिया के बीच एक सहयोग है।

рдЗрдореИрдЧрд┐рдХ, рдПрд╕рдбреАрдИрдбрд┐рдЯ рдФрд░ рдЯреЗрдХреНрд╕реНрдЯ2рд▓рд╛рдЗрд╡ рдХреЗ рдмреАрдЪ рдПрдХ рджреГрд╢реНрдп рддреБрд▓рдирд╛ред

इमैगिक, एसडीईडिट और टेक्स्ट2लाइव के बीच एक दृश्य तुलना।

यह स्पष्ट है कि पूर्व दृष्टिकोण संघर्ष कर रहे हैं, लेकिन नीचे की पंक्ति में, जो एक बड़े पोज़ परिवर्तन को अंतर्निहित करती है, वर्तमान प्रणाली पूरी तरह से विफल हो जाती है, जबकि इमैगिक से एक उल्लेखनीय सफलता है।

इमैगिक की संसाधन आवश्यकताएं और प्रति छवि प्रशिक्षण समय, जबकि इस तरह के प्रयासों के मानकों द्वारा कम है, इसे एक स्थानीय छवि संपादन अनुप्रयोग में शामिल करने के लिए एक अनुपयुक्त बनाता है व्यक्तिगत कंप्यूटरों पर – और यह स्पष्ट नहीं है कि फ़ाइन-ट्यूनिंग प्रक्रिया को उपभोक्ता स्तर तक कितना कम किया जा सकता है।

जैसा कि यह खड़ा है, इमैगिक एक प्रभावशाली प्रस्ताव है जो एपीआई के लिए अधिक उपयुक्त है – एक वातावरण जिसमें गूगल रिसर्च, गहरे प्रसार को सुविधाजनक बनाने के संबंध में आलोचना के प्रति सावधानी से दृष्टिकोण रखता है।

पहली बार 18 अक्टूबर 2022 को प्रकाशित।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai