Artificial Intelligence

मशीन लर्निंग के साथ वीडियो से वस्तुओं को अधिक कुशलता से हटाना

Updated on दिसम्बर 9/2022

चीन के नए शोध ने एक नए वीडियो इनपेंटिंग सिस्टम के लिए अत्याधुनिक परिणामों के साथ-साथ दक्षता में प्रभावशाली सुधार की रिपोर्ट दी है, जो फुटेज से वस्तुओं को चतुराई से हटा सकता है।

हैंग-ग्लाइडर के हार्नेस को नई प्रक्रिया द्वारा चित्रित किया गया है। बेहतर रिज़ॉल्यूशन और अधिक उदाहरणों के लिए स्रोत वीडियो (इस आलेख के नीचे एम्बेडेड) देखें। स्रोत: https://www.youtube.com/watch?v=N–qC3T2wc4

तकनीक, जिसे फ्लो-गाइडेड वीडियो इनपेंटिंग के लिए एंड-टू-एंड फ्रेमवर्क कहा जाता है (E²एफजीवीआई), वीडियो सामग्री से वॉटरमार्क और विभिन्न अन्य प्रकार की रुकावटों को हटाने में भी सक्षम है।

E2FGVI उन सामग्री के लिए पूर्वानुमानों की गणना करता है जो अवरोधों के पीछे हैं, यहां तक कि उल्लेखनीय और कठिन वॉटरमार्क को हटाने में भी सक्षम बनाता है। स्रोत: https://github.com/MCG-NKU/E2FGVI

E2FGVI उन सामग्री के लिए पूर्वानुमानों की गणना करता है जो अवरोधों के पीछे हैं, यहां तक कि उल्लेखनीय और अन्यथा कठिन वॉटरमार्क को हटाने में सक्षम बनाता है। स्रोत: https://github.com/MCG-NKU/E2FGVI

बेहतर रिज़ॉल्यूशन में अधिक उदाहरण देखने के लिए, लेख के अंत में एम्बेड किया गया वीडियो देखें।

हालाँकि प्रकाशित पेपर में प्रदर्शित मॉडल को 432px x 240px वीडियो (आमतौर पर कम इनपुट आकार, उपलब्ध GPU स्थान बनाम इष्टतम बैच आकार और अन्य कारकों द्वारा बाधित) पर प्रशिक्षित किया गया था, लेखकों ने तब से जारी किया है E²एफजीवीआई-मुख्यालय, जो मनमाने रिज़ॉल्यूशन पर वीडियो को संभाल सकता है।

वर्तमान संस्करण के लिए कोड है उपलब्ध GitHub पर, जबकि पिछले रविवार को जारी मुख्यालय संस्करण को यहां से डाउनलोड किया जा सकता है गूगल ड्राइव और Baidu डिस्क.

बच्चा तस्वीर में रहता है.

E²FGVI टाइटन XP GPU (432GB VRAM) पर 240 सेकंड प्रति फ्रेम पर 0.12×12 वीडियो प्रोसेस कर सकता है, और लेखकों की रिपोर्ट है कि सिस्टम पिछले अत्याधुनिक तरीकों की तुलना में पंद्रह गुना तेजी से काम करता है। ऑप्टिकल प्रवाह.

एक टेनिस खिलाड़ी अप्रत्याशित रूप से बाहर निकल जाता है।

छवि संश्लेषण अनुसंधान के इस उप-क्षेत्र के लिए मानक डेटासेट पर परीक्षण किया गया, नई विधि गुणात्मक और मात्रात्मक मूल्यांकन दोनों दौरों में प्रतिद्वंद्वियों से बेहतर प्रदर्शन करने में सक्षम थी।

पूर्व दृष्टिकोणों के विरुद्ध परीक्षण। स्रोत: https://arxiv.org/pdf/2204.02663.pdf

RSI काग़ज़ शीर्षक है फ्लो-गाइडेड वीडियो इनपेंटिंग के लिए एक एंड-टू-एंड फ्रेमवर्क की ओर, और हिसिलिकॉन टेक्नोलॉजीज के एक शोधकर्ता के साथ, नानकई विश्वविद्यालय के चार शोधकर्ताओं के बीच एक सहयोग है।

इस तस्वीर में क्या कमी है?

दृश्य प्रभावों के लिए इसके स्पष्ट अनुप्रयोगों के अलावा, उच्च गुणवत्ता वाली वीडियो इनपेंटिंग नई एआई-आधारित छवि संश्लेषण और छवि-परिवर्तन प्रौद्योगिकियों की मुख्य परिभाषित विशेषता बनने के लिए तैयार है।

यह विशेष रूप से शरीर-परिवर्तनकारी फैशन अनुप्रयोगों और अन्य रूपरेखाओं के मामले में है 'पतला होना' चाहते हैं या अन्यथा छवियों और वीडियो में दृश्यों को बदल दें। ऐसे मामलों में, संश्लेषण द्वारा उजागर की गई अतिरिक्त पृष्ठभूमि को दृढ़तापूर्वक 'भरना' आवश्यक है।

हाल के एक पेपर से, एक बॉडी 'रीशेपिंग' एल्गोरिदम को किसी विषय का आकार बदलने पर नव-प्रकट पृष्ठभूमि को चित्रित करने का काम सौंपा गया है। यहां, उस कमी को लाल रूपरेखा द्वारा दर्शाया गया है जिस पर (वास्तविक जीवन, बाईं ओर की छवि देखें) पूर्ण शरीर वाले व्यक्ति का उपयोग किया जाता था। https://arxiv.org/pdf/2203.10496.pdf से स्रोत सामग्री पर आधारित

सुसंगत ऑप्टिकल प्रवाह

वीडियो ऑब्जेक्ट हटाने के विकास में ऑप्टिकल फ्लो (ओएफ) एक मुख्य तकनीक बन गई है। एक की तरह एटलस, OF एक अस्थायी अनुक्रम का एक-शॉट मानचित्र प्रदान करता है। अक्सर कंप्यूटर विज़न पहल में वेग को मापने के लिए उपयोग किया जाता है, ओएफ अस्थायी रूप से सुसंगत इन-पेंटिंग को भी सक्षम कर सकता है, जहां डिज्नी-शैली 'प्रति-फ्रेम' ध्यान के बजाय, कार्य के कुल योग पर एक ही पास में विचार किया जा सकता है, जो अनिवार्य रूप से आगे बढ़ता है अस्थायी असंततता के लिए.

आज तक वीडियो इनपेंटिंग के तरीके तीन चरण की प्रक्रिया पर केंद्रित हैं: प्रवाह पूर्णता, जहां वीडियो को अनिवार्य रूप से एक अलग और अन्वेषण योग्य इकाई में मैप किया जाता है; पिक्सेल प्रसार, जहां 'दूषित' वीडियो के छिद्रों को द्विदिश रूप से प्रचारित पिक्सेल द्वारा भरा जाता है; और सामग्री मतिभ्रम (पिक्सेल 'आविष्कार' जो हममें से अधिकांश डीपफेक और DALL-E श्रृंखला जैसे टेक्स्ट-टू-इमेज फ्रेमवर्क से परिचित है) जहां अनुमानित 'लापता' सामग्री का आविष्कार किया जाता है और फुटेज में डाला जाता है।

ई का केंद्रीय नवाचार²एफजीवीआई का उद्देश्य इन तीन चरणों को एक एंड-टू-एंड सिस्टम में संयोजित करना है, जिससे सामग्री या प्रक्रिया पर मैन्युअल संचालन करने की आवश्यकता समाप्त हो जाएगी।

पेपर में पाया गया है कि मैन्युअल हस्तक्षेप की आवश्यकता के लिए पुरानी प्रक्रियाओं को GPU का लाभ नहीं उठाना पड़ता है, जिससे उन्हें काफी समय लगता है। पेपर से*:

'ले रहा डीएफवीआई उदाहरण के तौर पर, 432 × 240 के आकार के साथ एक वीडियो को पूरा करना डेविसजिसमें लगभग 70 फ़्रेम हैं, इसके लिए लगभग 4 मिनट की आवश्यकता होती है, जो अधिकांश वास्तविक दुनिया के अनुप्रयोगों में अस्वीकार्य है। इसके अलावा, उपर्युक्त कमियों को छोड़कर, सामग्री मतिभ्रम चरण में केवल पूर्व-प्रशिक्षित छवि इनपेंटिंग नेटवर्क का उपयोग करने से अस्थायी पड़ोसियों के बीच सामग्री संबंधों की अनदेखी होती है, जिससे वीडियो में असंगत उत्पन्न सामग्री होती है।'

वीडियो इनपेंटिंग के तीन चरणों को एकजुट करके, ई²एफजीवीआई फीचर प्रसार के साथ दूसरे चरण, पिक्सेल प्रसार को प्रतिस्थापित करने में सक्षम है। पिछले कार्यों की अधिक खंडित प्रक्रियाओं में, सुविधाएँ इतनी व्यापक रूप से उपलब्ध नहीं हैं, क्योंकि प्रत्येक चरण अपेक्षाकृत सुव्यवस्थित है, और वर्कफ़्लो केवल अर्ध-स्वचालित है।

इसके अतिरिक्त, शोधकर्ताओं ने एक तैयार किया है टेम्पोरल फोकल ट्रांसफार्मर सामग्री मतिभ्रम चरण के लिए, जो न केवल वर्तमान फ्रेम में पिक्सेल के प्रत्यक्ष पड़ोसियों पर विचार करता है (यानी पिछली या अगली छवि में फ्रेम के उस हिस्से में क्या हो रहा है), बल्कि दूर के पड़ोसियों पर भी विचार करता है जो कई फ्रेम दूर हैं, और फिर भी समग्र रूप से वीडियो पर किए गए किसी भी ऑपरेशन के सामंजस्यपूर्ण प्रभाव को प्रभावित करेगा।

E2FGVI की वास्तुकला।

वर्कफ़्लो का नया फ़ीचर-आधारित केंद्रीय अनुभाग अधिक फ़ीचर-स्तरीय प्रक्रियाओं और सीखने योग्य नमूनाकरण ऑफ़सेट का लाभ उठाने में सक्षम है, जबकि लेखकों के अनुसार, प्रोजेक्ट का नया फ़ोकल ट्रांसफार्मर, फ़ोकल विंडो के आकार को '2D से 3D' तक बढ़ाता है। .

परीक्षण और डेटा

ई का परीक्षण करने के लिए²FGVI, शोधकर्ताओं ने दो लोकप्रिय वीडियो ऑब्जेक्ट सेगमेंटेशन डेटासेट के विरुद्ध सिस्टम का मूल्यांकन किया: यूट्यूब-वीओएस, तथा डेविस. YouTube-VOS में 3741 प्रशिक्षण वीडियो क्लिप, 474 सत्यापन क्लिप और 508 परीक्षण क्लिप हैं, जबकि DAVIS में 60 प्रशिक्षण वीडियो क्लिप और 90 परीक्षण क्लिप हैं।

E²FGVI को YouTube-VOS पर प्रशिक्षित किया गया और दोनों डेटासेट पर मूल्यांकन किया गया। प्रशिक्षण के दौरान, वीडियो समापन का अनुकरण करने के लिए ऑब्जेक्ट मास्क (ऊपर की छवियों में हरे क्षेत्र और नीचे एम्बेडेड वीडियो) उत्पन्न किए गए थे।

मेट्रिक्स के लिए, शोधकर्ताओं ने प्रभावित वीडियो में अस्थायी स्थिरता को मापने के लिए पीक सिग्नल-टू-शोर अनुपात (पीएसएनआर), संरचनात्मक समानता (एसएसआईएम), वीडियो-आधारित फ़्रेचेट इंसेप्शन डिस्टेंस (वीएफआईडी), और फ्लो वार्पिंग एरर को अपनाया।

पूर्व आर्किटेक्चर जिनके विरुद्ध सिस्टम का परीक्षण किया गया था वे थे VINET, डीएफवीआई, एलजीटीएसएम, कैप, एफजीवीसी, एसटीटीएन, तथा फ़्यूज़फॉर्मर.

पेपर के मात्रात्मक परिणाम अनुभाग से। ऊपर और नीचे तीर इंगित करते हैं कि क्रमशः उच्च या निम्न संख्याएँ बेहतर हैं। E2FGVI ने पूरे बोर्ड में सर्वश्रेष्ठ स्कोर हासिल किया है। विधियों का मूल्यांकन फ़्यूज़फ़ॉर्मर के अनुसार किया जाता है, हालाँकि DFVI, VINet और FGVC एंड-टू-एंड सिस्टम नहीं हैं, जिससे उनके FLOPs का अनुमान लगाना असंभव हो जाता है।

सभी प्रतिस्पर्धी प्रणालियों के मुकाबले सर्वोत्तम स्कोर प्राप्त करने के अलावा, शोधकर्ताओं ने एक गुणात्मक उपयोगकर्ता-अध्ययन किया, जिसमें पांच प्रतिनिधि तरीकों से रूपांतरित वीडियो को व्यक्तिगत रूप से बीस स्वयंसेवकों को दिखाया गया, जिनसे उन्हें दृश्य गुणवत्ता के संदर्भ में रेटिंग देने के लिए कहा गया।

ऊर्ध्वाधर अक्ष उन प्रतिभागियों के प्रतिशत का प्रतिनिधित्व करता है जिन्होंने दृश्य गुणवत्ता के संदर्भ में E2FGVI आउटपुट को प्राथमिकता दी।

ऊर्ध्वाधर अक्ष उन प्रतिभागियों के प्रतिशत का प्रतिनिधित्व करता है जिन्होंने ई को प्राथमिकता दी²दृश्य गुणवत्ता के संदर्भ में FGVI आउटपुट।

लेखकों का कहना है कि उनकी पद्धति के लिए सर्वसम्मत प्राथमिकता के बावजूद, परिणामों में से एक, एफजीवीसी, मात्रात्मक परिणामों को प्रतिबिंबित नहीं करता है, और उनका सुझाव है कि यह इंगित करता है कि ई²एफजीवीआई, विशेष रूप से, 'अधिक दृष्टिगत सुखद परिणाम' उत्पन्न कर सकता है।

दक्षता के संदर्भ में, लेखक ध्यान देते हैं कि उनका सिस्टम डीएवीआईएस डेटासेट पर एकल टाइटन जीपीयू पर प्रति सेकंड फ़्लोटिंग पॉइंट ऑपरेशंस (एफएलओपी) और अनुमान समय को काफी कम कर देता है, और देखते हैं कि परिणाम ई दिखाते हैं²FGVI प्रवाह-आधारित विधियों की तुलना में x15 तेज़ चल रहा है।

वे टिप्पणी करते हैं:

'[इ²FGVI] अन्य सभी तरीकों की तुलना में सबसे कम FLOP रखता है। यह इंगित करता है कि प्रस्तावित विधि वीडियो इनपेंटिंग के लिए अत्यधिक कुशल है।'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*लेखकों के इनलाइन उद्धरणों का हाइपरलिंक में मेरा रूपांतरण।

पहली बार 19 मई 2022 को प्रकाशित।