рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдЧреВрдЧрд▓ рдХреЗ рдЗрдореИрдЧрд┐рдХ рдФрд░ рд░рдирд╡реЗ рдХреЗ ‘рдорд┐рдЯрд╛рдирд╛ рдФрд░ рдмрджрд▓рдирд╛’ рдХреЗ рд╕рд╛рде рдПрдЖрдИ-рд╕рд╣рд╛рдпрддрд╛ рдкреНрд░рд╛рдкреНрдд рд╡рд╕реНрддреБ рд╕рдВрдкрд╛рджрди

इस सप्ताह दो नए, लेकिन विरोधाभासी एआई-संचालित ग्राफिक्स एल्गोरिदम उपयोगकर्ताओं को फोटो में वस्तुओं में अत्यधिक विस्तृत और प्रभावी परिवर्तन करने के लिए नए तरीके प्रदान कर रहे हैं।
पहला इमैगिक है, जो गूगल रिसर्च द्वारा इज़राइल के प्रौद्योगिकी संस्थान और वेइज़मैन विज्ञान संस्थान के साथ संयोजन में है। इमैगिक प्रसार मॉडल के फ़ाइन-ट्यूनिंग के माध्यम से वस्तुओं के लिए पाठ-शर्त, महीन-दाने वाला संपादन प्रदान करता है।

जो आप बदलना चाहते हैं, और बाकी को छोड़ दें – इमैगिक केवल उन हिस्सों को बदलने का वादा करता है जिन्हें आप बदलना चाहते हैं। स्रोत: https://arxiv.org/pdf/2210.09276.pdf
जिन लोगों ने स्थिर प्रसार में केवल एक तत्व बदलने की कोशिश की है, वे जानते हैं कि प्रत्येक सफल संपादन के लिए, प्रणाली उन पांच चीजों को बदल देगी जिन्हें आप वैसे ही पसंद करते हैं जैसे वे हैं। यह एक कमी है जो वर्तमान में स्थिर प्रसार और फ़ोटोशॉप के बीच लगातार शफ़लिंग करने वाले कई प्रतिभाशाली एसडी उत्साही लोगों को प्रभावित करती है। इस दृष्टिकोण से, इमैगिक की उपलब्धियां उल्लेखनीय लगती हैं।
लेखन के समय, इमैगिक में अभी तक एक प्रचार वीडियो भी नहीं है, और गूगल के सावधानी से दृष्टिकोण को देखते हुए, यह अनिश्चित है कि हम इस प्रणाली का परीक्षण करने का मौका किस हद तक, यदि कोई हो, प्राप्त करेंगे।
दूसरा प्रस्ताव रनवे एमएल का अधिक सुलभ मिटाना और बदलना सुविधा है, जो इसके विशेष रूप से ऑनलाइन सूट के ‘एआई मैजिक टूल्स’ अनुभाग में एक नई सुविधा है।

रनवे एमएल की मिटाना और बदलना सुविधा, जो पहले से ही एक पाठ-से-वीडियो संपादन प्रणाली के पूर्वावलोकन में देखी जा चुकी है। स्रोत: https://www.youtube.com/watch?v=41Qb58ZPO60
आइए रनवे के प्रस्ताव पर पहले नज़र डालें।
मिटाना और बदलना
इमैगिक की तरह, मिटाना और बदलना विशेष रूप से स्थिर चित्रों के साथ व्यवहार करता है, हालांकि रनवे ने पूर्वावलोकन किया है कि यही कार्यक्षमता एक पाठ-से-वीडियो संपादन समाधान में है जो अभी तक जारी नहीं किया गया है:

हालांकि कोई भी छवियों पर नए मिटाना और बदलना का परीक्षण कर सकता है, वीडियो संस्करण अभी तक सार्वजनिक रूप से उपलब्ध नहीं है। स्रोत: https://twitter.com/runwayml/status/1568220303808991232
रनवे एमएल ने मिटाना और बदलना के पीछे की तकनीकों के बारे में विवरण जारी नहीं किया है, लेकिन रोनाल्ड रीगन के एक संवादात्मक बस्ट के साथ एक घरेलू पौधे को प्रतिस्थापित करने की गति से यह सुझाव दिया जा सकता है कि स्थिर प्रसार (या बहुत कम संभावना के साथ, एक लाइसेंस प्राप्त डीएलएल-ई 2) इंजन है जो मिटाना और बदलना में वस्तु का पुनर्निर्माण कर रहा है।

एक घरेलू पौधे को द गिपर के बस्ट से बदलना इतनी तेजी से नहीं है, लेकिन यह काफी तेज है। स्रोत: https://app.runwayml.com/
प्रणाली में कुछ डीएलएल-ई 2 प्रकार की प्रतिबंध हैं – छवियों या पाठ जो मिटाना और बदलना फिल्टर को झंडा दिखाएंगे, संभावित खाता निलंबन के बारे में चेतावनी को ट्रिगर करेंगे यदि आगे के उल्लंघन होते हैं – व्यावहारिक रूप से ओपनएआई की नीतियों का एक बायलरप्लेट क्लोन डीएलएल-ई 2 के लिए।
परिणामों में से अधिकांश में स्थिर प्रसार के विशिष्ट खुरदरे किनारे नहीं हैं। रनवे एमएल एसडी में निवेशक और अनुसंधान भागीदार हैं, और यह संभव है कि उन्होंने एक प्रोप्राइटरी मॉडल को प्रशिक्षित किया है जो वर्तमान में हमारे साथ जुड़े हुए 1.4 चेकपॉइंट वजन से बेहतर है।

रनवे एमएल के मिटाना और बदलना में एक घरेलू टेबल को ‘बर्फ से बनी टेबल’ में बदलना।
जैसा कि इमैगिक (नीचे देखें) के साथ है, मिटाना और बदलना ‘वस्तु-उन्मुख’ है, जैसा कि यह हो सकता है – आप केवल एक ‘खाली’ हिस्से को मिटा नहीं सकते हैं और इसे अपने पाठ प्रोम्प्ट के परिणाम से पेंट नहीं कर सकते हैं; इस दृश्य में, प्रणाली बस निकटतम स्पष्ट वस्तु को मास्क की रेखा के साथ ट्रेस करेगी (जैसे कि एक दीवार, या एक टेलीविजन), और वहां परिवर्तन लागू करेगी।

जैसा कि नाम से पता चलता है, आप मिटाना और बदलना में खाली स्थान में वस्तुओं को इंजेक्ट नहीं कर सकते हैं। यहाँ, सिथ लॉर्ड्स के सबसे प्रसिद्ध को召म करने का प्रयास टीवी पर एक अजीब वाडर-संबंधित म्यूरल में परिणत होता है, जो लगभग वही है जहां ‘प्रतिस्थापित’ क्षेत्र खींचा गया था।
यह जानना मुश्किल है कि मिटाना और बदलना कॉपीराइट छवियों के उपयोग के संबंध में बचाव कर रहा है या नहीं (जो अभी भी डीएलएल-ई 2 में विभिन्न सफलता के साथ अवरुद्ध हैं), या यदि बैकएंड रेंडरिंग इंजन में उपयोग किया जाने वाला मॉडल इस तरह की चीजों के लिए अनुकूलित नहीं है।

निकोल किडमैन का थोड़ा एनएसएफडब्ल्यू ‘म्यूरल’ यह दर्शाता है कि हाथ में (संभवतः) प्रसार-आधारित मॉडल में डीएलएल-ई 2 के पूर्व में वास्तविक चेहरे या रेसी सामग्री को प्रस्तुत करने के लिए एक सिस्टमेटिक रिजेक्शन की कमी है, जबकि कॉपीराइट कार्यों को उत्पन्न करने के प्रयासों के परिणाम अस्पष्ट (‘ज़ेनोमॉर्फ’) से लेकर हास्यमय (‘आयरन थ्रोन’) तक होते हैं। नीचे दाईं ओर, स्रोत चित्र।
यह जानना दिलचस्प होगा कि मिटाना और बदलना किस विधि का उपयोग वस्तुओं को अलग करने के लिए कर रहा है जिन्हें यह प्रतिस्थापित करने में सक्षम है। संभवतः, छवि को कुछ सीएलआईपी के व्युत्पन्न के माध्यम से चलाया जा रहा है, जिसमें विविध वस्तुएं वस्तु पहचान और बाद के सेमेंटिक सेगमेंटेशन द्वारा व्यक्तिगत की जाती हैं। इनमें से कोई भी ऑपरेशन स्थिर प्रसार की एक सामान्य स्थापना में लगभग उतना अच्छा काम नहीं करता है।
लेकिन कुछ भी परिपूर्ण नहीं है – कभी-कभी प्रणाली मिटाने और प्रतिस्थापित नहीं करने का प्रतीत होता है, भले ही (जैसा कि हमने ऊपर देखा है), अंतर्निहित रेंडरिंग तंत्र निश्चित रूप से जानता है कि एक पाठ प्रोम्प्ट का क्या अर्थ है। इस मामले में, यह साबित होता है कि एक कॉफी टेबल को ज़ेनोमॉर्फ में बदलना असंभव है – इसके बजाय, टेबल बस गायब हो जाता है।

व्हेयर्स वाल्डो का एक डरावना संस्करण, क्योंकि मिटाना और बदलना एक एलियन का उत्पादन करने में विफल रहता है।
मिटाना और बदलना एक प्रभावी वस्तु प्रतिस्थापन प्रणाली के रूप में प्रकट होता है, जिसमें उत्कृष्ट इनपेंटिंग है। हालांकि, यह मौजूदा वस्तुओं को संपादित नहीं कर सकता है, लेकिन केवल उन्हें प्रतिस्थापित कर सकता है। वास्तविक छवि सामग्री को समझौता किए बिना मौजूदा छवि सामग्री को बदलना वास्तव में एक कठिन कार्य है, जो कंप्यूटर दृष्टि अनुसंधान क्षेत्र के लंबे संघर्ष से जुड़ा हुआ है विभिन्न लैटेंट स्पेस में विच्छेदन के लिए।
इमैगिक
यह एक कार्य है जिसे इमैगिक संबोधित करता है। नई पेपर में कई संपादन के उदाहरण हैं जो एक फोटो में व्यक्तिगत पहलुओं को सफलतापूर्वक संशोधित करते हैं जबकि छवि के बाकी हिस्सों को छोड़ देते हैं।

इमैगिक में, संशोधित छवियों में गहरे प्रसार प्रतिरूपण की विशिष्ट खिंचाव, विकृति और ‘ओक्लूजन अनुमान’ का अभाव है, जो एक एकल छवि से प्राप्त सीमित प्राथमिकताओं का उपयोग करता है।
प्रणाली एक तीन-चरण प्रक्रिया का उपयोग करती है – पाठ एम्बेडिंग अनुकूलन; मॉडल फ़ाइन-ट्यूनिंग; और, अंत में, संशोधित छवि का उत्पादन।

इमैगिक लक्ष्य पाठ प्रोम्प्ट को एन्कोड करने के लिए प्रारंभिक पाठ एम्बेडिंग प्राप्त करने के लिए, और फिर परिणाम को अनुकूलित करने के लिए प्राप्त करने के लिए इनपुट छवि को प्राप्त करता है। इसके बाद, उत्पादक मॉडल को स्रोत छवि में फ़ाइन-ट्यून किया जाता है, जिसमें एक श्रृंखला पैरामीटर जोड़े जाते हैं, इससे पहले कि यह अनुरोधित इंटरपोलेशन के अधीन हो।
आश्चर्य की बात नहीं है, फ्रेमवर्क गूगल के इमेजन पाठ-से-वीडियो आर्किटेक्चर पर आधारित है, हालांकि शोधकर्ता कहते हैं कि प्रणाली के सिद्धांत व्यापक रूप से लेटेंट प्रसार मॉडल पर लागू होते हैं।
इमेजन एक तीन-टियर आर्किटेक्चर का उपयोग करता है, जो कंपनी के पाठ-से-वीडियो के लिए हाल ही में सॉफ़्टवेयर के संस्करण के लिए उपयोग किए जाने वाले सात-टियर सरणी की तुलना में कम है। तीन अलग-अलग मॉड्यूल 64x64px रिज़ॉल्यूशन पर एक उत्पादक प्रसार मॉडल शामिल हैं; एक सुपर-रिज़ॉल्यूशन मॉडल जो आउटपुट को 256x256px तक अपस्केल करता है; और एक अतिरिक्त सुपर-रिज़ॉल्यूशन मॉडल जो आउटपुट को 1024×1024 रिज़ॉल्यूशन तक ले जाता है।
इमैगिक इस प्रक्रिया के सबसे पहले चरण में हस्तक्षेप करता है, 64px चरण में अनुरोधित पाठ एम्बेडिंग को 0.0001 की स्थिर सीखने की दर पर एडम ऑप्टिमाइज़र पर अनुकूलित करता है।

विच्छेदन में एक मास्टर-क्लास: उन उपयोगकर्ताओं के लिए जिन्होंने प्रसार, जीएनएन या नेअरएफ मॉडल में एक प्रस्तुत वस्तु का रंग जैसी एक सरल चीज़ बदलने की कोशिश की है, यह जानना महत्वपूर्ण है कि इमैगिक ऐसे परिवर्तन कर सकता है बिना छवि की संगति को ‘तोड़े।
फ़ाइन-ट्यूनिंग तब इमेजन के बेस मॉडल पर होती है, जो प्रति इनपुट छवि 1500 कदम पर होती है, जो संशोधित एम्बेडिंग पर सशर्त होती है। इसी समय, द्वितीयक 64px>256px परत को सशर्त छवि पर समांतर में अनुकूलित किया जाता है। शोधकर्ता ध्यान देते हैं कि अंतिम 256px>1024px परत के लिए एक समान अनुकूलन परिणामों पर ‘थोड़ा या कोई प्रभाव’ नहीं पड़ता है, और इसलिए उन्होंने इसे लागू नहीं किया है।
पेपर में कहा गया है कि अनुकूलन प्रक्रिया प्रति छवि लगभग आठ मिनट लेती है जुड़वां टीपीयूवी4 चिप्स पर। अंतिम रेंडर इमेजन में डीडीआईएम नमूनाकरण योजना के तहत होता है।
गूगल के ड्रीमबूथ के लिए फ़ाइन-ट्यूनिंग प्रक्रिया के समान, परिणामी एम्बेडिंग को स्टाइलाइजेशन के साथ-साथ इमेजन द्वारा संचालित व्यापक डेटाबेस से जानकारी को शामिल करने वाले फ़ोटोरियलिस्टिक संपादन के लिए भी उपयोग किया जा सकता है (चूंकि पहले कॉलम में दिखाया गया है, स्रोत छवियों में इन परिवर्तनों को प्रभावित करने के लिए आवश्यक सामग्री नहीं है)।

इमैगिक के माध्यम से लचीला फ़ोटोरियलिस्टिक आंदोलन और संपादन उत्पन्न किया जा सकता है, जबकि प्राप्त विच्छेदन और विच्छेदन कोड को आसानी से स्टाइलाइज़ आउटपुट के लिए उपयोग किया जा सकता है।
शोधकर्ताओं ने इमैगिक की तुलना पूर्व कार्यों एसडीईडिट से की, जो 2021 में स्टैनफोर्ड विश्वविद्यालय और कार्नेगी मेलन विश्वविद्यालय के बीच एक जीएनएन-आधारित दृष्टिकोण है; और टेक्स्ट2लाइव, जो अप्रैल 2022 में वेइज़मैन विज्ञान संस्थान और एनवीडिया के बीच एक सहयोग है।

इमैगिक, एसडीईडिट और टेक्स्ट2लाइव के बीच एक दृश्य तुलना।
यह स्पष्ट है कि पूर्व दृष्टिकोण संघर्ष कर रहे हैं, लेकिन नीचे की पंक्ति में, जो एक बड़े पोज़ परिवर्तन को अंतर्निहित करती है, वर्तमान प्रणाली पूरी तरह से विफल हो जाती है, जबकि इमैगिक से एक उल्लेखनीय सफलता है।
इमैगिक की संसाधन आवश्यकताएं और प्रति छवि प्रशिक्षण समय, जबकि इस तरह के प्रयासों के मानकों द्वारा कम है, इसे एक स्थानीय छवि संपादन अनुप्रयोग में शामिल करने के लिए एक अनुपयुक्त बनाता है व्यक्तिगत कंप्यूटरों पर – और यह स्पष्ट नहीं है कि फ़ाइन-ट्यूनिंग प्रक्रिया को उपभोक्ता स्तर तक कितना कम किया जा सकता है।
जैसा कि यह खड़ा है, इमैगिक एक प्रभावशाली प्रस्ताव है जो एपीआई के लिए अधिक उपयुक्त है – एक वातावरण जिसमें गूगल रिसर्च, गहरे प्रसार को सुविधाजनक बनाने के संबंध में आलोचना के प्रति सावधानी से दृष्टिकोण रखता है।
पहली बार 18 अक्टूबर 2022 को प्रकाशित।












