Connect with us

एआई के साथ वीडियो से वस्तुओं और लोगों को मिटाना

Anderson का एंगल

एआई के साथ वीडियो से वस्तुओं और लोगों को मिटाना

mm
AI-generated stylized image depicting a magician robot showing an empty cabinet with a lady's tiara at the bottom. GPT-1.5

नहीं, बच्चा तस्वीर में नहीं रहता, अगर एआई का इसमें कुछ लेना-देना है।

 

छवियों और वीडियो से लोगों और वस्तुओं को हटाना, वीएफएक्स-केंद्रित एआई साहित्य में शोध का एक लोकप्रिय उप-क्षेत्र है, जिसके लिए चुनौती का सामना करने वाले समर्पित डेटासेट और फ्रेमवर्क की बढ़ती संख्या है। इनमें से नवीनतम, चीन के फ़ुडान विश्वविद्यालय के इंस्टीट्यूट ऑफ बिग डेटा से, EffectErase है, जो एक ‘प्रभाव-सचेत’ वीडियो ऑब्जेक्ट रिमूवल सिस्टम है, जिसके बारे में लेखकों का दावा है कि यह परीक्षणों में अत्याधुनिक तकनीक पर काफी सुधार करता है:

परियोजना वेबसाइट की सामग्री से संकलित, EffectErase विधि के उदाहरण (कृपया ध्यान दें कि हम एक लिंक प्रदान करते हैं, लेकिन स्रोत साइट में इतने अधिक हाई-रेस और अन-ऑप्टिमाइज़्ड ऑटोप्ले वीडियो हैं कि इससे आपके वेब ब्राउज़र की स्थिरता प्रभावित हो सकती है। संलग्न YouTube वीडियो एक आसान और पूर्ण संदर्भ है, और इस लेख के अंत में एम्बेडेड है)। स्रोत

नए कार्य में लगभग 350 मूल वास्तविक-विश्व और संश्लेषित दृश्यों (सार्वजनिक रिपॉजिटरी* का उपयोग करते हुए) से युक्त एक अर्ध-नवीन डेटासेट के निर्माण/संकलन शामिल थे, जिन्हें या तो समर्पित उपकरणों से कैप्चर किया गया था या ओपन सोर्स Blender 3D फ्रेमवर्क के आसपास बने वर्कफ़्लो में सोर्स और पुनः उपयोग किया गया था।

हाइब्रिड वीडियो ऑब्जेक्ट रिमूवल (VOR) डेटासेट EffectErase एप्लिकेशन का आधार बनता है, जो Wan2.1 वीडियो-जनरेशन सिस्टम पर बनाया गया है। सिस्टम दो नए संबंधित बेंचमार्क भी परिभाषित करता है: VOR Eval और VOR Wild – क्रमशः, ग्राउंड ट्रुथ वाले और बिना ग्राउंड ट्रुथ वाले नमूनों के लिए।

(हालांकि पेपर के साथ एक संगत प्रोजेक्ट साइट है, यह कई हाई-रेस वीडियो से काफी अधिक भरी हुई है, और लोड करना कठिन है; इसलिए कृपया ऊपर एम्बेडेड वीडियो में मेरे द्वारा संकलित अंशों का संदर्भ लें, यदि आपको प्रोजेक्ट साइट का उपयोग करना कठिन लगता है)

A comparison of quantities across comparable prior datasets, with respect to the new offering. Source - https://arxiv.org/pdf/2603.19224

नए प्रस्ताव के संबंध में, तुलनीय पूर्व डेटासेट में मात्राओं की तुलना। स्रोत

शोधकर्ताओं का दावा है कि उनका दृष्टिकोण मात्रात्मक मेट्रिक्स और मानव अध्ययन के माध्यम से निर्णय किए गए गुणात्मक परिणामों दोनों में अत्याधुनिक प्रदर्शन प्रदान करता है।

वे ध्यान देते हैं कि पूर्व के कार्यों ने किसी वस्तु के सहायक प्रभावों, जैसे छाया और प्रतिबिंबों को हटाने में हमेशा सफलता नहीं पाई है, और उनके डेटासेट को इस कमी को दूर करने के लिए सावधानीपूर्वक बनाया गया है:

Examples of prior approaches' failure to look beyond the object sought for removal, to secondary indications, such as reflections and shadows.

पूर्व के दृष्टिकोणों की विफलता के उदाहरण, जो हटाने के लिए मांगी गई वस्तु से आगे, द्वितीयक संकेतों, जैसे प्रतिबिंबों और छायाओं को देखने में विफल रहे।

नया पेपर का शीर्षक EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing है, और यह फ़ुडान विश्वविद्यालय के कॉलेज ऑफ कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस के चार शोधकर्ताओं से आया है।

विधि

हाइब्रिड VOR डेटासेट को पर्याप्त रूप से विस्तृत परिदृश्यों को शामिल करने के लिए डिज़ाइन किया गया था ताकि वीडियो से किसी व्यक्ति या वस्तु को हटाने के प्रयास के सभी निहितार्थों को कवर किया जा सके:

Paired frames from the VOR dataset illustrate how object removal must extend beyond the visible subject to its induced effects, with examples showing occlusion, shadow, lighting shifts, reflections, and physical deformation, each presented as input (object present) alongside the corresponding clean background after removal.

VOR डेटासेट से युग्मित फ्रेम दर्शाते हैं कि कैसे वस्तु हटाना दृश्यमान विषय से आगे उसके प्रेरित प्रभावों तक विस्तारित होना चाहिए, जिसमें ओक्लूज़न, छाया, प्रकाश परिवर्तन, प्रतिबिंब और भौतिक विरूपण दिखाने वाले उदाहरण हैं, प्रत्येक को इनपुट (वस्तु मौजूद) के रूप में प्रस्तुत किया गया है, साथ ही हटाने के बाद संबंधित स्वच्छ पृष्ठभूमि के साथ। अधिक उदाहरणों के लिए, इस लेख के अंत में एम्बेडेड संगत YouTube वीडियो देखें।

संबोधित किए जाने वाले ‘हस्तक्षेप’ के पांच प्रतिनिधि प्रकारों को लेखकों द्वारा ओक्लूज़न (विभिन्न प्रकार के ग्लास और धुएं के ओक्लूज़न सहित); छाया; प्रकाश व्यवस्था (उदाहरण के लिए, जब हटाई जाने वाली वस्तु प्रकाश का मार्ग बनाती है या बदलती है); प्रतिबिंब; और विरूपण (उदाहरण के लिए, कुशन पर उपयोगकर्ता की छाप, जो व्यक्ति के हटने के बाद नहीं रहनी चाहिए) के रूप में परिभाषित किया गया है।

Dataset construction pipeline for VOR, combining Blender-generated synthetic scenes with real-world captures, where synthetic data is built from curated 3D environments, objects, and camera trajectories, and real footage recorded across diverse scenes, augmented with Ken Burns motion. SAM2 segmentation and manual refinement then produce aligned foreground and background video triplets with corresponding masks.

VOR के लिए डेटासेट निर्माण पाइपलाइन, Blender-जनरेटेड सिंथेटिक दृश्यों को वास्तविक-विश्व कैप्चर के साथ जोड़ती है, जहां सिंथेटिक डेटा क्यूरेटेड 3D वातावरण, वस्तुओं और कैमरा प्रक्षेपवक्र से बनाया जाता है, और वास्तविक फुटेज विविध दृश्यों में रिकॉर्ड की जाती है, जिसे Ken Burns मोशन से संवर्धित किया जाता है। SAM2 सेगमेंटेशन और मैन्युअल रिफाइनमेंट तब संबंधित मास्क के साथ संरेखित फोरग्राउंड और बैकग्राउंड वीडियो ट्रिपलेट उत्पन्न करते हैं।

वास्तविक-विश्व के मूल डेटा के लिए, शोधकर्ताओं ने विभिन्न वातावरणों, दिन के समय और मौसम की स्थितियों को कवर करने वाले ‘साथ’ और ‘बिना’ दृश्यों को रिकॉर्ड करने के लिए फिक्स्ड कैमरों का उपयोग किया।

संश्लेषित डेटा के लिए, कई दृष्टिकोण रेंडर किए गए, और बहु-वस्तु परिदृश्य बनाए गए, जिनमें जानबूझकर जटिल और चुनौतीपूर्ण प्रकार के कैमरा मूवमेंट शामिल थे, जैसे कि वास्तविक-विश्व फुटेज में हो सकते हैं; और शोधकर्ता ध्यान देते हैं कि यह दृष्टिकोण अन्यथा समान Remove Objects with Side Effects in Videos (ROSE) डेटासेट के लिए उपयोग की जाने वाली विधि से अधिक परिष्कृत और प्रयासपूर्ण है।

गति विविधता बढ़ाने के लिए, कैमरा-कैप्चर की गई जोड़ियों पर Ken Burns प्रभाव लागू किया गया, चौदह पूर्वनिर्धारित नियमों के तहत नियंत्रित पैन, ज़ूम और हल्के हैंडहेल्ड मूवमेंट जोड़ते हुए, प्रति जोड़ी पांच गति पैटर्न नमूने लिए गए जबकि क्रॉप को मूल फ्रेम के अंदर रखा गया।

पैमाने और विविधता को सिंथेटिक वस्तुओं को कई कैमरा सेटअप के साथ जोड़कर और अधिक विस्तारित किया गया। मास्क मैन्युअल पॉइंट प्रॉम्प्ट को मुख्य फ्रेम पर रखकर, Segment Anything 2 (SAM2) के साथ सेगमेंटेशन को प्रचारित करके, परिणामों को साफ़ और परिष्कृत करके, और प्रशिक्षण के लिए मान्य फोरग्राउंड, बैकग्राउंड और मास्क ट्रिपलेट को असेंबल करके उत्पन्न किए गए।

अंतिम संग्रह 443 दृश्यों में 366 वस्तु वर्गों को कवर करते हुए, वास्तविक और सिंथेटिक, 60,000 युग्मित वीडियो में 145 घंटे के वीडियो तक पहुंचता है।

EffectErase नेटवर्क स्वयं सामग्री को एक वेरिएशनल ऑटो-एनकोडर (VAE) के माध्यम से ग्रहण करता है, जिसमें अव्यक्त डिनॉइज़िंग Wan2.1 द्वारा संभाली जाती है। इस बैकबोन पर, EffectErase Removal-Insertion Joint Learning संचालित करता है, जो दोनों कार्यों को एक साथ समान क्षेत्रों पर प्रशिक्षित करता है; Task-Aware Region Guidance (TARG), जो वस्तुओं और उनके प्रभावों के बीच स्थानिक-समयिक लिंक को मॉडल करने और कार्य स्विचिं

लेखक मशीन लर्निंग पर, मानव छवि संश्लेषण में डोमेन विशेषज्ञ। Metaphysic.ai में पूर्व अनुसंधान सामग्री प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai