कृत्रिम बुद्धिमत्ता

गूगल के इमैगिक और रनवे के ‘मिटाना और बदलना’ के साथ एआई-सहायता प्राप्त वस्तु संपादन

Published October 18, 2022

Updated April 26, 2026

Martin Anderson

इस सप्ताह दो नए, लेकिन विरोधाभासी एआई-संचालित ग्राफिक्स एल्गोरिदम उपयोगकर्ताओं को फोटो में वस्तुओं में अत्यधिक विस्तृत और प्रभावी परिवर्तन करने के लिए नए तरीके प्रदान कर रहे हैं।

पहला इमैगिक है, जो गूगल रिसर्च द्वारा इज़राइल के प्रौद्योगिकी संस्थान और वेइज़मैन विज्ञान संस्थान के साथ संयोजन में है। इमैगिक प्रसार मॉडल के फ़ाइन-ट्यूनिंग के माध्यम से वस्तुओं के लिए पाठ-शर्त, महीन-दाने वाला संपादन प्रदान करता है।

जो आप बदलना चाहते हैं, और बाकी को छोड़ दें – इमैगिक केवल उन हिस्सों को बदलने का वादा करता है जिन्हें आप बदलना चाहते हैं। स्रोत: https://arxiv.org/pdf/2210.09276.pdf

जिन लोगों ने स्थिर प्रसार में केवल एक तत्व बदलने की कोशिश की है, वे जानते हैं कि प्रत्येक सफल संपादन के लिए, प्रणाली उन पांच चीजों को बदल देगी जिन्हें आप वैसे ही पसंद करते हैं जैसे वे हैं। यह एक कमी है जो वर्तमान में स्थिर प्रसार और फ़ोटोशॉप के बीच लगातार शफ़लिंग करने वाले कई प्रतिभाशाली एसडी उत्साही लोगों को प्रभावित करती है। इस दृष्टिकोण से, इमैगिक की उपलब्धियां उल्लेखनीय लगती हैं।

लेखन के समय, इमैगिक में अभी तक एक प्रचार वीडियो भी नहीं है, और गूगल के सावधानी से दृष्टिकोण को देखते हुए, यह अनिश्चित है कि हम इस प्रणाली का परीक्षण करने का मौका किस हद तक, यदि कोई हो, प्राप्त करेंगे।

दूसरा प्रस्ताव रनवे एमएल का अधिक सुलभ मिटाना और बदलना सुविधा है, जो इसके विशेष रूप से ऑनलाइन सूट के ‘एआई मैजिक टूल्स’ अनुभाग में एक नई सुविधा है।

रनवे एमएल की मिटाना और बदलना सुविधा, जो पहले से ही एक पाठ-से-वीडियो संपादन प्रणाली के पूर्वावलोकन में देखी जा चुकी है। स्रोत: https://www.youtube.com/watch?v=41Qb58ZPO60

आइए रनवे के प्रस्ताव पर पहले नज़र डालें।

मिटाना और बदलना

इमैगिक की तरह, मिटाना और बदलना विशेष रूप से स्थिर चित्रों के साथ व्यवहार करता है, हालांकि रनवे ने पूर्वावलोकन किया है कि यही कार्यक्षमता एक पाठ-से-वीडियो संपादन समाधान में है जो अभी तक जारी नहीं किया गया है:

हालांकि कोई भी छवियों पर नए मिटाना और बदलना का परीक्षण कर सकता है, वीडियो संस्करण अभी तक सार्वजनिक रूप से उपलब्ध नहीं है। स्रोत: https://twitter.com/runwayml/status/1568220303808991232

रनवे एमएल ने मिटाना और बदलना के पीछे की तकनीकों के बारे में विवरण जारी नहीं किया है, लेकिन रोनाल्ड रीगन के एक संवादात्मक बस्ट के साथ एक घरेलू पौधे को प्रतिस्थापित करने की गति से यह सुझाव दिया जा सकता है कि स्थिर प्रसार (या बहुत कम संभावना के साथ, एक लाइसेंस प्राप्त डीएलएल-ई 2) इंजन है जो मिटाना और बदलना में वस्तु का पुनर्निर्माण कर रहा है।

एक घरेलू पौधे को द गिपर के बस्ट से बदलना इतनी तेजी से नहीं है, लेकिन यह काफी तेज है। स्रोत: https://app.runwayml.com/

प्रणाली में कुछ डीएलएल-ई 2 प्रकार की प्रतिबंध हैं – छवियों या पाठ जो मिटाना और बदलना फिल्टर को झंडा दिखाएंगे, संभावित खाता निलंबन के बारे में चेतावनी को ट्रिगर करेंगे यदि आगे के उल्लंघन होते हैं – व्यावहारिक रूप से ओपनएआई की नीतियों का एक बायलरप्लेट क्लोन डीएलएल-ई 2 के लिए।

परिणामों में से अधिकांश में स्थिर प्रसार के विशिष्ट खुरदरे किनारे नहीं हैं। रनवे एमएल एसडी में निवेशक और अनुसंधान भागीदार हैं, और यह संभव है कि उन्होंने एक प्रोप्राइटरी मॉडल को प्रशिक्षित किया है जो वर्तमान में हमारे साथ जुड़े हुए 1.4 चेकपॉइंट वजन से बेहतर है।

रनवे एमएल के मिटाना और बदलना में एक घरेलू टेबल को ‘बर्फ से बनी टेबल’ में बदलना।

जैसा कि इमैगिक (नीचे देखें) के साथ है, मिटाना और बदलना ‘वस्तु-उन्मुख’ है, जैसा कि यह हो सकता है – आप केवल एक ‘खाली’ हिस्से को मिटा नहीं सकते हैं और इसे अपने पाठ प्रोम्प्ट के परिणाम से पेंट नहीं कर सकते हैं; इस दृश्य में, प्रणाली बस निकटतम स्पष्ट वस्तु को मास्क की रेखा के साथ ट्रेस करेगी (जैसे कि एक दीवार, या एक टेलीविजन), और वहां परिवर्तन लागू करेगी।

जैसा कि नाम से पता चलता है, आप मिटाना और बदलना में खाली स्थान में वस्तुओं को इंजेक्ट नहीं कर सकते हैं। यहाँ, सिथ लॉर्ड्स के सबसे प्रसिद्ध को召म करने का प्रयास टीवी पर एक अजीब वाडर-संबंधित म्यूरल में परिणत होता है, जो लगभग वही है जहां ‘प्रतिस्थापित’ क्षेत्र खींचा गया था।

यह जानना मुश्किल है कि मिटाना और बदलना कॉपीराइट छवियों के उपयोग के संबंध में बचाव कर रहा है या नहीं (जो अभी भी डीएलएल-ई 2 में विभिन्न सफलता के साथ अवरुद्ध हैं), या यदि बैकएंड रेंडरिंग इंजन में उपयोग किया जाने वाला मॉडल इस तरह की चीजों के लिए अनुकूलित नहीं है।

निकोल किडमैन का थोड़ा एनएसएफडब्ल्यू ‘म्यूरल’ यह दर्शाता है कि हाथ में (संभवतः) प्रसार-आधारित मॉडल में डीएलएल-ई 2 के पूर्व में वास्तविक चेहरे या रेसी सामग्री को प्रस्तुत करने के लिए एक सिस्टमेटिक रिजेक्शन की कमी है, जबकि कॉपीराइट कार्यों को उत्पन्न करने के प्रयासों के परिणाम अस्पष्ट (‘ज़ेनोमॉर्फ’) से लेकर हास्यमय (‘आयरन थ्रोन’) तक होते हैं। नीचे दाईं ओर, स्रोत चित्र।

यह जानना दिलचस्प होगा कि मिटाना और बदलना किस विधि का उपयोग वस्तुओं को अलग करने के लिए कर रहा है जिन्हें यह प्रतिस्थापित करने में सक्षम है। संभवतः, छवि को कुछ सीएलआईपी के व्युत्पन्न के माध्यम से चलाया जा रहा है, जिसमें विविध वस्तुएं वस्तु पहचान और बाद के सेमेंटिक सेगमेंटेशन द्वारा व्यक्तिगत की जाती हैं। इनमें से कोई भी ऑपरेशन स्थिर प्रसार की एक सामान्य स्थापना में लगभग उतना अच्छा काम नहीं करता है।

लेकिन कुछ भी परिपूर्ण नहीं है – कभी-कभी प्रणाली मिटाने और प्रतिस्थापित नहीं करने का प्रतीत होता है, भले ही (जैसा कि हमने ऊपर देखा है), अंतर्निहित रेंडरिंग तंत्र निश्चित रूप से जानता है कि एक पाठ प्रोम्प्ट का क्या अर्थ है। इस मामले में, यह साबित होता है कि एक कॉफी टेबल को ज़ेनोमॉर्फ में बदलना असंभव है – इसके बजाय, टेबल बस गायब हो जाता है।

व्हेयर्स वाल्डो का एक डरावना संस्करण, क्योंकि मिटाना और बदलना एक एलियन का उत्पादन करने में विफल रहता है।

मिटाना और बदलना एक प्रभावी वस्तु प्रतिस्थापन प्रणाली के रूप में प्रकट होता है, जिसमें उत्कृष्ट इनपेंटिंग है। हालांकि, यह मौजूदा वस्तुओं को संपादित नहीं कर सकता है, लेकिन केवल उन्हें प्रतिस्थापित कर सकता है। वास्तविक छवि सामग्री को समझौता किए बिना मौजूदा छवि सामग्री को बदलना वास्तव में एक कठिन कार्य है, जो कंप्यूटर दृष्टि अनुसंधान क्षेत्र के लंबे संघर्ष से जुड़ा हुआ है विभिन्न लैटेंट स्पेस में विच्छेदन के लिए।

इमैगिक

यह एक कार्य है जिसे इमैगिक संबोधित करता है। नई पेपर में कई संपादन के उदाहरण हैं जो एक फोटो में व्यक्तिगत पहलुओं को सफलतापूर्वक संशोधित करते हैं जबकि छवि के बाकी हिस्सों को छोड़ देते हैं।

इमैगिक में, संशोधित छवियों में गहरे प्रसार प्रतिरूपण की विशिष्ट खिंचाव, विकृति और ‘ओक्लूजन अनुमान’ का अभाव है, जो एक एकल छवि से प्राप्त सीमित प्राथमिकताओं का उपयोग करता है।

प्रणाली एक तीन-चरण प्रक्रिया का उपयोग करती है – पाठ एम्बेडिंग अनुकूलन; मॉडल फ़ाइन-ट्यूनिंग; और, अंत में, संशोधित छवि का उत्पादन।

इमैगिक लक्ष्य पाठ प्रोम्प्ट को एन्कोड करने के लिए प्रारंभिक पाठ एम्बेडिंग प्राप्त करने के लिए, और फिर परिणाम को अनुकूलित करने के लिए प्राप्त करने के लिए इनपुट छवि को प्राप्त करता है। इसके बाद, उत्पादक मॉडल को स्रोत छवि में फ़ाइन-ट्यून किया जाता है, जिसमें एक श्रृंखला पैरामीटर जोड़े जाते हैं, इससे पहले कि यह अनुरोधित इंटरपोलेशन के अधीन हो।

आश्चर्य की बात नहीं है, फ्रेमवर्क गूगल के इमेजन पाठ-से-वीडियो आर्किटेक्चर पर आधारित है, हालांकि शोधकर्ता कहते हैं कि प्रणाली के सिद्धांत व्यापक रूप से लेटेंट प्रसार मॉडल पर लागू होते हैं।

इमेजन एक तीन-टियर आर्किटेक्चर का उपयोग करता है, जो कंपनी के पाठ-से-वीडियो के लिए हाल ही में सॉफ़्टवेयर के संस्करण के लिए उपयोग किए जाने वाले सात-टियर सरणी की तुलना में कम है। तीन अलग-अलग मॉड्यूल 64x64px रिज़ॉल्यूशन पर एक उत्पादक प्रसार मॉडल शामिल हैं; एक सुपर-रिज़ॉल्यूशन मॉडल जो आउटपुट को 256x256px तक अपस्केल करता है; और एक अतिरिक्त सुपर-रिज़ॉल्यूशन मॉडल जो आउटपुट को 1024×1024 रिज़ॉल्यूशन तक ले जाता है।

इमैगिक इस प्रक्रिया के सबसे पहले चरण में हस्तक्षेप करता है, 64px चरण में अनुरोधित पाठ एम्बेडिंग को 0.0001 की स्थिर सीखने की दर पर एडम ऑप्टिमाइज़र पर अनुकूलित करता है।

विच्छेदन में एक मास्टर-क्लास: उन उपयोगकर्ताओं के लिए जिन्होंने प्रसार, जीएनएन या नेअरएफ मॉडल में एक प्रस्तुत वस्तु का रंग जैसी एक सरल चीज़ बदलने की कोशिश की है, यह जानना महत्वपूर्ण है कि इमैगिक ऐसे परिवर्तन कर सकता है बिना छवि की संगति को ‘तोड़े।

फ़ाइन-ट्यूनिंग तब इमेजन के बेस मॉडल पर होती है, जो प्रति इनपुट छवि 1500 कदम पर होती है, जो संशोधित एम्बेडिंग पर सशर्त होती है। इसी समय, द्वितीयक 64px>256px परत को सशर्त छवि पर समांतर में अनुकूलित किया जाता है। शोधकर्ता ध्यान देते हैं कि अंतिम 256px>1024px परत के लिए एक समान अनुकूलन परिणामों पर ‘थोड़ा या कोई प्रभाव’ नहीं पड़ता है, और इसलिए उन्होंने इसे लागू नहीं किया है।

पेपर में कहा गया है कि अनुकूलन प्रक्रिया प्रति छवि लगभग आठ मिनट लेती है जुड़वां टीपीयूवी4 चिप्स पर। अंतिम रेंडर इमेजन में डीडीआईएम नमूनाकरण योजना के तहत होता है।

गूगल के ड्रीमबूथ के लिए फ़ाइन-ट्यूनिंग प्रक्रिया के समान, परिणामी एम्बेडिंग को स्टाइलाइजेशन के साथ-साथ इमेजन द्वारा संचालित व्यापक डेटाबेस से जानकारी को शामिल करने वाले फ़ोटोरियलिस्टिक संपादन के लिए भी उपयोग किया जा सकता है (चूंकि पहले कॉलम में दिखाया गया है, स्रोत छवियों में इन परिवर्तनों को प्रभावित करने के लिए आवश्यक सामग्री नहीं है)।

इमैगिक के माध्यम से लचीला फ़ोटोरियलिस्टिक आंदोलन और संपादन उत्पन्न किया जा सकता है, जबकि प्राप्त विच्छेदन और विच्छेदन कोड को आसानी से स्टाइलाइज़ आउटपुट के लिए उपयोग किया जा सकता है।

शोधकर्ताओं ने इमैगिक की तुलना पूर्व कार्यों एसडीईडिट से की, जो 2021 में स्टैनफोर्ड विश्वविद्यालय और कार्नेगी मेलन विश्वविद्यालय के बीच एक जीएनएन-आधारित दृष्टिकोण है; और टेक्स्ट2लाइव, जो अप्रैल 2022 में वेइज़मैन विज्ञान संस्थान और एनवीडिया के बीच एक सहयोग है।

इमैगिक, एसडीईडिट और टेक्स्ट2लाइव के बीच एक दृश्य तुलना।

यह स्पष्ट है कि पूर्व दृष्टिकोण संघर्ष कर रहे हैं, लेकिन नीचे की पंक्ति में, जो एक बड़े पोज़ परिवर्तन को अंतर्निहित करती है, वर्तमान प्रणाली पूरी तरह से विफल हो जाती है, जबकि इमैगिक से एक उल्लेखनीय सफलता है।

इमैगिक की संसाधन आवश्यकताएं और प्रति छवि प्रशिक्षण समय, जबकि इस तरह के प्रयासों के मानकों द्वारा कम है, इसे एक स्थानीय छवि संपादन अनुप्रयोग में शामिल करने के लिए एक अनुपयुक्त बनाता है व्यक्तिगत कंप्यूटरों पर – और यह स्पष्ट नहीं है कि फ़ाइन-ट्यूनिंग प्रक्रिया को उपभोक्ता स्तर तक कितना कम किया जा सकता है।

जैसा कि यह खड़ा है, इमैगिक एक प्रभावशाली प्रस्ताव है जो एपीआई के लिए अधिक उपयुक्त है – एक वातावरण जिसमें गूगल रिसर्च, गहरे प्रसार को सुविधाजनक बनाने के संबंध में आलोचना के प्रति सावधानी से दृष्टिकोण रखता है।

पहली बार 18 अक्टूबर 2022 को प्रकाशित।

Related Topics:google image synthesis nvidia research

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

गूगल के इमैगिक और रनवे के ‘मिटाना और बदलना’ के साथ एआई-सहायता प्राप्त वस्तु संपादन

मिटाना और बदलना

इमैगिक

You may like