कृत्रिम बुद्धिमत्ता

गॉसियन स्प्लैटिंग के साथ इमेज एडिटिंग

Published October 3, 2024

Updated April 27, 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

पोलैंड और यूके के शोधकर्ताओं के बीच एक नए सहयोग में गॉसियन स्प्लैटिंग का उपयोग करके इमेज एडिटिंग की संभावना का प्रस्ताव किया गया है, जिसमें एक चुने हुए हिस्से को अस्थायी रूप से 3डी स्पेस में व्याख्या की जाती है, जिससे उपयोगकर्ता 3डी प्रतिनिधित्व को संशोधित और हेरफेर कर सकता है, और फिर परिवर्तन लागू कर सकता है।

बिल्ली के सिर की दिशा बदलने के लिए, प्रासंगिक अनुभाग को गॉसियन स्प्लैटिंग के माध्यम से 3डी स्पेस में ले जाया जाता है, और फिर उपयोगकर्ता द्वारा हेरफेर किया जाता है। संशोधन तब लागू किया जाता है। यह प्रक्रिया एडोब सॉफ्टवेयर में विभिन्न मोडल तकनीकों के समान है, जो वर्तमान जटिल प्रक्रिया पूरी होने तक इंटरफेस को लॉक कर देती है। स्रोत: https://github.com/waczjoan/MiraGe/

चूंकि गॉसियन स्प्लैट तत्व अस्थायी रूप से त्रिभुजों के एक जाल के रूप में प्रस्तुत किया जाता है, और क्षणभंगुर रूप से ‘सीजीआई राज्य’ में प्रवेश करता है, एक भौतिक इंजन जो प्रक्रिया में एकीकृत है, प्राकृतिक गति की व्याख्या कर सकता है, या तो एक वस्तु की स्थिर स्थिति को बदलने के लिए, या एक एनिमेशन उत्पन्न करने के लिए।

नया मिरागे सिस्टम में एक भौतिक इंजन शामिल किया गया है जो भौतिक गति की प्राकृतिक व्याख्या कर सकता है, या तो एनिमेशन के लिए या एक इमेज में स्थिर परिवर्तन के लिए।

इस प्रक्रिया में कोई जनरेटिव एआई शामिल नहीं है, जिसका अर्थ है कि कोई लेटेंट डिफ्यूजन मॉडल (एलडीएम) शामिल नहीं हैं, एडोब के फायरफ्लाई सिस्टम के विपरीत, जो एडोब स्टॉक (पूर्व में फोटोलिया) पर प्रशिक्षित है।

सिस्टम – जिसे मिरागे कहा जाता है – 3डी स्पेस में व्याख्या करता है और ज्यामिति का अनुमान लगाता है जो एक मिरर इमेज बनाकर और 3डी निर्देशांक का अनुमान लगाकर जो एक स्प्लैट में निहित किया जा सकता है, जो तब इमेज को एक जाल में व्याख्या करता है।

प्ले करने के लिए क्लिक करें। मिरागे सिस्टम द्वारा या तो मैन्युअल रूप से उपयोगकर्ता द्वारा संशोधित किए गए या भौतिक-आधारित विकृति के अधीन तत्वों के और उदाहरण।

लेखकों ने मिरागे सिस्टम की तुलना पूर्व दृष्टिकोणों से की और पाया कि यह लक्ष्य कार्य में राज्य-ऑफ-द-आर्ट प्रदर्शन प्राप्त करता है।

ज़ेब्रैश मॉडलिंग सिस्टम के उपयोगकर्ता इस प्रक्रिया से परिचित होंगे, क्योंकि ज़ेब्रैश उपयोगकर्ता को मूल रूप से ‘फ्लैट’ 3डी मॉडल और 2डी विवरण जोड़ने की अनुमति देता है, जबकि अंतर्निहित जाल को संरक्षित करता है, और नए विवरण को व्याख्या करता है – एक ‘फ्रीज’ जो मिरागे विधि के विपरीत है, जो फायरफ्लाई या अन्य फोटोशॉप-शैली के मोडल हेरफेर के समान काम करती है, जैसे कि वार्पिंग या क्रूड 3डी व्याख्या।

पैरामीटरीकृत गॉसियन स्प्लैट मिरागे को 2डी इमेज के चयनित क्षेत्रों के उच्च-गुणवत्ता वाले पुनर्निर्माण बनाने और अस्थायी रूप से 3डी चयन पर नरम-शरीर भौतिकी लागू करने की अनुमति देता है।

कागज़ में कहा गया है:

‘[हम] एक मॉडल पेश करते हैं जो 2डी इमेज को मानव व्याख्या की नकल करके एनकोड करता है। विशेष रूप से, हमारा मॉडल 2डी इमेज को एक मानव की तरह देखता है जैसे वह एक फोटो या कागज़ की शीट को देखता है, इसे 3डी स्पेस में एक समतल वस्तु के रूप में मानता है।

‘यह दृष्टिकोण इमेज एडिटिंग के लिए सहज और लचीला बनाता है, मानव धारणा की बारीकियों को पकड़ता है और जटिल परिवर्तनों को सक्षम बनाता है।’

नया कागज़ मिरागे: गॉसियन स्प्लैटिंग का उपयोग करके संपादन योग्य 2डी इमेज शीर्षक से है, और यह क्राको में जागेलोनियन विश्वविद्यालय और कैम्ब्रिज विश्वविद्यालय के चार लेखकों से है। सिस्टम के लिए पूरा कोड गिटहब पर जारी किया गया है।

आइए देखें कि शोधकर्ताओं ने चुनौती का सामना कैसे किया।

विधि

मिरागे दृष्टिकोण गॉसियन मेश स्प्लैटिंग (गेम्स) पैरामीटरीकरण का उपयोग करता है, जो एक तकनीक है जिसे एक समूह द्वारा विकसित किया गया है जिसमें नए कागज़ के दो लेखक शामिल हैं। गेम्स गॉसियन स्प्लैट को पारंपरिक सीजीआई जाल के रूप में व्याख्या करने और मानक श्रृंखला के वार्पिंग और संशोधन तकनीकों के अधीन होने की अनुमति देता है जो सीजीआई समुदाय ने पिछले कुछ दशकों में विकसित की है।

मिरागे 2डी स्पेस में ‘फ्लैट’ गॉसियन की व्याख्या करता है, और जीएसप्लैट-सक्षम 3डी स्पेस में सामग्री को ‘खींच’ करने के लिए गेम्स का उपयोग करता है, अस्थायी रूप से।

प्रत्येक फ्लैट गॉसियन को त्रिभुजों के बादल में तीन बिंदुओं के रूप में प्रस्तुत किया जाता है, जिसे ‘त्रिभुज सूप’ कहा जाता है, जो अनुमानित इमेज को हेरफेर के लिए खोलता है। स्रोत: https://arxiv.org/pdf/2410.01521

हम देख सकते हैं कि ऊपर दी गई छवि के निचले बाएं कोने में मिरागे चयनित अनुभाग की एक ‘मिरर’ छवि बनाता है।

लेखकों का कहना है:

‘[हम] एक नए दृष्टिकोण का उपयोग करते हैं जिसमें दो विरोधी कैमरे शामिल हैं जो यी-अक्ष के साथ स्थित हैं और एक दूसरे की ओर निर्देशित हैं। पहला कैमरा मूल इमेज को पुनर्निर्माण के लिए जिम्मेदार है, जबकि दूसरा दर्पण प्रतिबिंब का मॉडल बनाता है। फोटोग्राफ को इस प्रकार 3डी स्थानिक संदर्भ में एक पारदर्शी ट्रेसिंग पेपर शीट के रूप में概念बद्ध किया जाता है। प्रतिबिंब को प्रभावी ढंग से [इमेज] को क्षैतिज रूप से फ्लिप करके प्रस्तुत किया जा सकता है। यह मिरर-कैमरा सेटअप उत्पन्न प्रतिबिंबों की विश्वसनीयता को बढ़ाता है, दृश्य तत्वों को सटीक रूप से पकड़ने के लिए एक मजबूत समाधान प्रदान करता है।’

कागज़ में कहा गया है कि एक बार यह निष्कर्षण प्राप्त हो जाने के बाद, दृष्टिकोण समायोजन जो आमतौर पर चुनौतीपूर्ण होते हैं, 3डी में सीधे संपादन के माध्यम से सुलभ हो जाते हैं। नीचे दिए गए उदाहरण में, हम एक महिला की एक इमेज का चयन देखते हैं जो केवल उसकी बांह को शामिल करता है। इस मामले में, उपयोगकर्ता ने हाथ को नीचे की ओर एक यथार्थवादी तरीके से झुकाया है, जो कि केवल पिक्सेल को हेरफेर करके एक चुनौतीपूर्ण कार्य होगा।

मिरागे संपादन तकनीक का एक उदाहरण।

फायरफ्लाई जेनरेटिव टूल्स का उपयोग करके फोटोशॉप में यह प्रयास करने का प्रयास करने से आमतौर पर हाथ को संश्लेषित, डिफ्यूजन-कल्पना हाथ से बदल दिया जाएगा, जो संपादन की प्रामाणिकता को तोड़ देगा। यहां तक कि अधिक सक्षम सिस्टम, जैसे कि कंट्रोलनेट और फ्लक्स जैसे लेटेंट डिफ्यूजन मॉडल, एक इमेज-टू-इमेज पाइपलाइन में इस तरह के संपादन को प्राप्त करने में संघर्ष करते हैं।

यह विशिष्ट पीछा आमतौर पर अंतर्निहित तंत्रिका प्रतिनिधित्व (आईएनआर) जैसे सायरन और वायर का उपयोग करके विधियों द्वारा प्रमुख है। आईएनआर और एक्सप्लिसिट प्रतिनिधित्व विधि के बीच अंतर यह है कि मॉडल के निर्देशांक आईएनआर में सीधे संबोधित नहीं किए जा सकते हैं, जो एक निरंतर कार्य का उपयोग करते हैं।

गॉसियन स्प्लैटिंग के विपरीत, स्पष्ट और संबोधित एक्स/वाई/जेड कार्टेशियन निर्देशांक प्रदान करता है, भले ही यह गॉसियन एलिप्स का उपयोग करता है न कि वोक्सेल या 3डी स्पेस में सामग्री को चित्रित करने के अन्य तरीकों का उपयोग करता है।

2डी स्पेस में जीएसप्लैट का उपयोग करने का विचार सबसे प्रमुख रूप से 2024 चीनी अकादमिक सहयोग गॉसियनइमेज में प्रस्तुत किया गया है, जिसने 2डी गॉसियन स्प्लैटिंग का एक संस्करण प्रदान किया है, जो 1000fps की अंतर्दृष्टि फ्रेम दर को सक्षम बनाता है। हालांकि, इस मॉडल में इमेज एडिटिंग से संबंधित कोई कार्यान्वयन नहीं है।

गेम्स पैरामीटरीकरण निकाले गए क्षेत्र को एक गॉसियन/जाल प्रतिनिधित्व में निकाल देता है, इमेज को सामग्री बिंदु विधि (एमपीएम) तकनीक का उपयोग करके पुनर्निर्मित किया जाता है, जो पहली बार 2018 सीएसएआईएल पेपर में रेखांकित किया गया था।

मिरागे में, परिवर्तन की प्रक्रिया के दौरान, गॉसियन स्प्लैट एक समान जाल संस्करण के लिए एक गाइडिंग प्रॉक्सी के रूप में मौजूद है, जैसे कि 3डीएमएम सीजीआई मॉडल अक्सर न्यूरल रेडिएंस फील्ड्स (एनईआरएफ) जैसे अंतर्निहित तंत्रिका प्रतिपादन तकनीकों के लिए ऑर्केस्ट्रेशन विधियों के रूप में उपयोग किए जाते हैं।

इस प्रक्रिया में, दो-आयामी वस्तुओं को 3डी स्पेस में मॉडल किया जाता है, और इमेज के जिन हिस्सों पर प्रभाव नहीं पड़ रहा है, वे अंतिम उपयोगकर्ता के लिए दिखाई नहीं देते हैं, ताकि हेरफेर के संदर्भ प्रभाव स्पष्ट न हों जब तक कि प्रक्रिया पूरी नहीं हो जाती।

मिरागे को लोकप्रिय ओपन-सोर्स 3डी प्रोग्राम ब्लेंडर में एकीकृत किया जा सकता है, जो अब आमतौर पर एआई-समावेशी वर्कफ्लो में उपयोग किया जाता है, मुख्य रूप से इमेज-टू-इमेज उद्देश्यों के लिए।

ब्लेंडर में मिरागे के लिए एक वर्कफ्लो, जिसमें एक 2डी इमेज में चित्रित एक आकृति की बांह की गति शामिल है।

लेखक दो प्रकार के विकृति दृष्टिकोण प्रदान करते हैं जो गॉसियन स्प्लैटिंग पर आधारित हैं – अमोर्फस और ग्राफाइट।

अमोर्फस दृष्टिकोण सीधे गेम्स विधि का उपयोग करता है, और निकाले गए 2डी चयन को 3डी स्पेस में स्वतंत्र रूप से घूमने की अनुमति देता है, जबकि ग्राफाइट दृष्टिकोण गॉसियन को 2डी स्पेस में प्रशिक्षण के दौरान सीमित करता है।

शोधकर्ताओं ने पाया कि अमोर्फस दृष्टिकोण जटिल आकारों को बेहतर ढंग से संभाल सकता है, लेकिन ‘आंसू’ या फटे हुए किनारे दिखाई दे सकते हैं, जहां विकृति का किनारा अस्रभावित इमेज के हिस्से के साथ संरेखित होता है।

इसलिए, उन्होंने उपरोक्त ‘मिरर इमेज’ प्रणाली विकसित की:

कागज़ में कहा गया है कि मिरागे बाहरी भौतिक इंजनों का उपयोग कर सकता है, जैसे कि ब्लेंडर में उपलब्ध है, या टैची एलिमेंट्स में।

डेटा और परीक्षण

मिरागे के लिए परीक्षणों में इमेज गुणवत्ता मूल्यांकन के लिए सिग्नल-टू-नॉइज़ रेशियो (एसएनआर) और एमएस-एसआईएम मेट्रिक्स का उपयोग किया गया था।

परीक्षणों में उपयोग किए गए डेटासेट कोडक लॉसलेस ट्रू कलर इमेज सूट और डीआईवी2के वैधीकरण सेट थे। इन डेटासेट के रिज़ॉल्यूशन गॉसियन इमेज के साथ तुलना के लिए उपयुक्त थे। अन्य प्रतिद्वंद्वी फ्रेमवर्क जो परीक्षण किए गए थे वे एसआईआरईएन, वायर, एनवीडिया के इंस्टेंट न्यूरल ग्राफिक्स प्रिमिटिव (आई-एनजीपी), और न्यूरबीएफ थे।

प्रयोग एक एनवीडिया जीफोर्स आरटीएक्स 4070 लैपटॉप और एक एनवीडिया आरटीएक्स 2080 पर हुए थे।

मिरागे चुने हुए पूर्ववर्ती फ्रेमवर्क के खिलाफ राज्य-ऑफ-द-आर्ट परिणाम प्रदान करता है, नए कागज़ में दिखाए गए परिणामों के अनुसार।

इन परिणामों में, लेखकों का कहना है:

‘हम देखते हैं कि हमारा प्रस्ताव दोनों डेटासेट पर पिछले समाधानों से बेहतर प्रदर्शन करता है। दोनों मेट्रिक्स द्वारा मापी गई गुणवत्ता में सभी पिछले दृष्टिकोणों की तुलना में महत्वपूर्ण सुधार दिखाई देता है।’

निष्कर्ष

मिरागे का 2डी गॉसियन स्प्लैटिंग का अनुकूलन स्पष्ट रूप से एक नए और संभावित रूप से दिलचस्प विकल्प के रूप में उभर रहा है जो संभावित रूप से इमेज में संशोधनों को प्रभावित करने के लिए डिफ्यूजन मॉडल की अनियमितताओं और अनियमितताओं (यानी, फायरफ्लाई और अन्य एपीआई-आधारित डिफ्यूजन विधियों के माध्यम से) का विकल्प हो सकता है।

हालांकि कई डिफ्यूजन मॉडल हैं जो इमेज में छोटे परिवर्तन कर सकते हैं, एलडीएम सेमेंटिक और अक्सर ‘अति-कल्पनाशील’ दृष्टिकोण के लिए सीमित होते हैं जो एक पाठ-आधारित उपयोगकर्ता अनुरोध के लिए एक संशोधन के लिए होता है।

इसलिए, इमेज के एक हिस्से को अस्थायी रूप से 3डी स्पेस में खींचने, हेरफेर करने और फिर से इमेज में वापस रखने की क्षमता, केवल स्रोत इमेज का संदर्भ लेते हुए, एक ऐसा कार्य लगता है जिसके लिए गॉसियन स्प्लैटिंग भविष्य में उपयुक्त हो सकता है।

* कागज़ में कुछ भ्रम है, जिसमें यह ‘अमोर्फस-मिराज’ को सबसे प्रभावी और सक्षम विधि के रूप में उद्धृत करता है,尽管 यह अक्सर अवांछित गॉसियन (कलाकृतियों) का उत्पादन करता है, जबकि यह तर्क देता है कि ‘ग्राफाइट-मिराज’ अधिक लचीला है। ऐसा लगता है कि अमोर्फस-मिराज विस्तार को प्राप्त करता है, और ग्राफाइट-मिराज लचीलेपन को प्राप्त करता है। चूंकि दोनों विधियां कागज़ में प्रस्तुत की गई हैं, उनके विभिन्न शक्तियों और कमजोरियों के साथ, लेखकों की पसंद, यदि कोई है, इस समय स्पष्ट नहीं लगती है।

पहली बार गुरुवार, 3 अक्टूबर, 2024 को प्रकाशित।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

गॉसियन स्प्लैटिंग के साथ इमेज एडिटिंग

विधि

डेटा और परीक्षण

निष्कर्ष

You may like