Artificial Intelligence
मशीन लर्निंग के साथ वीडियो से वस्तुओं को अधिक कुशलता से हटाना
चीन के नए शोध ने एक नए वीडियो इनपेंटिंग सिस्टम के लिए अत्याधुनिक परिणामों के साथ-साथ दक्षता में प्रभावशाली सुधार की रिपोर्ट दी है, जो फुटेज से वस्तुओं को चतुराई से हटा सकता है।
तकनीक, जिसे फ्लो-गाइडेड वीडियो इनपेंटिंग के लिए एंड-टू-एंड फ्रेमवर्क कहा जाता है (E2एफजीवीआई), वीडियो सामग्री से वॉटरमार्क और विभिन्न अन्य प्रकार की रुकावटों को हटाने में भी सक्षम है।
बेहतर रिज़ॉल्यूशन में अधिक उदाहरण देखने के लिए, लेख के अंत में एम्बेड किया गया वीडियो देखें।
हालाँकि प्रकाशित पेपर में प्रदर्शित मॉडल को 432px x 240px वीडियो (आमतौर पर कम इनपुट आकार, उपलब्ध GPU स्थान बनाम इष्टतम बैच आकार और अन्य कारकों द्वारा बाधित) पर प्रशिक्षित किया गया था, लेखकों ने तब से जारी किया है E2एफजीवीआई-मुख्यालय, जो मनमाने रिज़ॉल्यूशन पर वीडियो को संभाल सकता है।
वर्तमान संस्करण के लिए कोड है उपलब्ध GitHub पर, जबकि पिछले रविवार को जारी मुख्यालय संस्करण को यहां से डाउनलोड किया जा सकता है गूगल ड्राइव और Baidu डिस्क.
E2FGVI टाइटन XP GPU (432GB VRAM) पर 240 सेकंड प्रति फ्रेम पर 0.12×12 वीडियो प्रोसेस कर सकता है, और लेखकों की रिपोर्ट है कि सिस्टम पिछले अत्याधुनिक तरीकों की तुलना में पंद्रह गुना तेजी से काम करता है। ऑप्टिकल प्रवाह.
छवि संश्लेषण अनुसंधान के इस उप-क्षेत्र के लिए मानक डेटासेट पर परीक्षण किया गया, नई विधि गुणात्मक और मात्रात्मक मूल्यांकन दोनों दौरों में प्रतिद्वंद्वियों से बेहतर प्रदर्शन करने में सक्षम थी।
RSI काग़ज़ शीर्षक है फ्लो-गाइडेड वीडियो इनपेंटिंग के लिए एक एंड-टू-एंड फ्रेमवर्क की ओर, और हिसिलिकॉन टेक्नोलॉजीज के एक शोधकर्ता के साथ, नानकई विश्वविद्यालय के चार शोधकर्ताओं के बीच एक सहयोग है।
इस तस्वीर में क्या कमी है?
दृश्य प्रभावों के लिए इसके स्पष्ट अनुप्रयोगों के अलावा, उच्च गुणवत्ता वाली वीडियो इनपेंटिंग नई एआई-आधारित छवि संश्लेषण और छवि-परिवर्तन प्रौद्योगिकियों की मुख्य परिभाषित विशेषता बनने के लिए तैयार है।
यह विशेष रूप से शरीर-परिवर्तनकारी फैशन अनुप्रयोगों और अन्य रूपरेखाओं के मामले में है 'पतला होना' चाहते हैं या अन्यथा छवियों और वीडियो में दृश्यों को बदल दें। ऐसे मामलों में, संश्लेषण द्वारा उजागर की गई अतिरिक्त पृष्ठभूमि को दृढ़तापूर्वक 'भरना' आवश्यक है।
सुसंगत ऑप्टिकल प्रवाह
वीडियो ऑब्जेक्ट हटाने के विकास में ऑप्टिकल फ्लो (ओएफ) एक मुख्य तकनीक बन गई है। एक की तरह एटलस, OF एक अस्थायी अनुक्रम का एक-शॉट मानचित्र प्रदान करता है। अक्सर कंप्यूटर विज़न पहल में वेग को मापने के लिए उपयोग किया जाता है, ओएफ अस्थायी रूप से सुसंगत इन-पेंटिंग को भी सक्षम कर सकता है, जहां डिज्नी-शैली 'प्रति-फ्रेम' ध्यान के बजाय, कार्य के कुल योग पर एक ही पास में विचार किया जा सकता है, जो अनिवार्य रूप से आगे बढ़ता है अस्थायी असंततता के लिए.
आज तक वीडियो इनपेंटिंग के तरीके तीन चरण की प्रक्रिया पर केंद्रित हैं: प्रवाह पूर्णता, जहां वीडियो को अनिवार्य रूप से एक अलग और अन्वेषण योग्य इकाई में मैप किया जाता है; पिक्सेल प्रसार, जहां 'दूषित' वीडियो के छिद्रों को द्विदिश रूप से प्रचारित पिक्सेल द्वारा भरा जाता है; और सामग्री मतिभ्रम (पिक्सेल 'आविष्कार' जो हममें से अधिकांश डीपफेक और DALL-E श्रृंखला जैसे टेक्स्ट-टू-इमेज फ्रेमवर्क से परिचित है) जहां अनुमानित 'लापता' सामग्री का आविष्कार किया जाता है और फुटेज में डाला जाता है।
ई का केंद्रीय नवाचार2एफजीवीआई का उद्देश्य इन तीन चरणों को एक एंड-टू-एंड सिस्टम में संयोजित करना है, जिससे सामग्री या प्रक्रिया पर मैन्युअल संचालन करने की आवश्यकता समाप्त हो जाएगी।
पेपर में पाया गया है कि मैन्युअल हस्तक्षेप की आवश्यकता के लिए पुरानी प्रक्रियाओं को GPU का लाभ नहीं उठाना पड़ता है, जिससे उन्हें काफी समय लगता है। पेपर से*:
'ले रहा डीएफवीआई उदाहरण के तौर पर, 432 × 240 के आकार के साथ एक वीडियो को पूरा करना डेविसजिसमें लगभग 70 फ़्रेम हैं, इसके लिए लगभग 4 मिनट की आवश्यकता होती है, जो अधिकांश वास्तविक दुनिया के अनुप्रयोगों में अस्वीकार्य है। इसके अलावा, उपर्युक्त कमियों को छोड़कर, सामग्री मतिभ्रम चरण में केवल पूर्व-प्रशिक्षित छवि इनपेंटिंग नेटवर्क का उपयोग करने से अस्थायी पड़ोसियों के बीच सामग्री संबंधों की अनदेखी होती है, जिससे वीडियो में असंगत उत्पन्न सामग्री होती है।'
वीडियो इनपेंटिंग के तीन चरणों को एकजुट करके, ई2एफजीवीआई फीचर प्रसार के साथ दूसरे चरण, पिक्सेल प्रसार को प्रतिस्थापित करने में सक्षम है। पिछले कार्यों की अधिक खंडित प्रक्रियाओं में, सुविधाएँ इतनी व्यापक रूप से उपलब्ध नहीं हैं, क्योंकि प्रत्येक चरण अपेक्षाकृत सुव्यवस्थित है, और वर्कफ़्लो केवल अर्ध-स्वचालित है।
इसके अतिरिक्त, शोधकर्ताओं ने एक तैयार किया है टेम्पोरल फोकल ट्रांसफार्मर सामग्री मतिभ्रम चरण के लिए, जो न केवल वर्तमान फ्रेम में पिक्सेल के प्रत्यक्ष पड़ोसियों पर विचार करता है (यानी पिछली या अगली छवि में फ्रेम के उस हिस्से में क्या हो रहा है), बल्कि दूर के पड़ोसियों पर भी विचार करता है जो कई फ्रेम दूर हैं, और फिर भी समग्र रूप से वीडियो पर किए गए किसी भी ऑपरेशन के सामंजस्यपूर्ण प्रभाव को प्रभावित करेगा।
वर्कफ़्लो का नया फ़ीचर-आधारित केंद्रीय अनुभाग अधिक फ़ीचर-स्तरीय प्रक्रियाओं और सीखने योग्य नमूनाकरण ऑफ़सेट का लाभ उठाने में सक्षम है, जबकि लेखकों के अनुसार, प्रोजेक्ट का नया फ़ोकल ट्रांसफार्मर, फ़ोकल विंडो के आकार को '2D से 3D' तक बढ़ाता है। .
परीक्षण और डेटा
ई का परीक्षण करने के लिए2FGVI, शोधकर्ताओं ने दो लोकप्रिय वीडियो ऑब्जेक्ट सेगमेंटेशन डेटासेट के विरुद्ध सिस्टम का मूल्यांकन किया: यूट्यूब-वीओएस, तथा डेविस. YouTube-VOS में 3741 प्रशिक्षण वीडियो क्लिप, 474 सत्यापन क्लिप और 508 परीक्षण क्लिप हैं, जबकि DAVIS में 60 प्रशिक्षण वीडियो क्लिप और 90 परीक्षण क्लिप हैं।
E2FGVI को YouTube-VOS पर प्रशिक्षित किया गया और दोनों डेटासेट पर मूल्यांकन किया गया। प्रशिक्षण के दौरान, वीडियो समापन का अनुकरण करने के लिए ऑब्जेक्ट मास्क (ऊपर की छवियों में हरे क्षेत्र और नीचे एम्बेडेड वीडियो) उत्पन्न किए गए थे।
मेट्रिक्स के लिए, शोधकर्ताओं ने प्रभावित वीडियो में अस्थायी स्थिरता को मापने के लिए पीक सिग्नल-टू-शोर अनुपात (पीएसएनआर), संरचनात्मक समानता (एसएसआईएम), वीडियो-आधारित फ़्रेचेट इंसेप्शन डिस्टेंस (वीएफआईडी), और फ्लो वार्पिंग एरर को अपनाया।
पूर्व आर्किटेक्चर जिनके विरुद्ध सिस्टम का परीक्षण किया गया था वे थे VINET, डीएफवीआई, एलजीटीएसएम, कैप, एफजीवीसी, एसटीटीएन, तथा फ़्यूज़फॉर्मर.
सभी प्रतिस्पर्धी प्रणालियों के मुकाबले सर्वोत्तम स्कोर प्राप्त करने के अलावा, शोधकर्ताओं ने एक गुणात्मक उपयोगकर्ता-अध्ययन किया, जिसमें पांच प्रतिनिधि तरीकों से रूपांतरित वीडियो को व्यक्तिगत रूप से बीस स्वयंसेवकों को दिखाया गया, जिनसे उन्हें दृश्य गुणवत्ता के संदर्भ में रेटिंग देने के लिए कहा गया।
लेखकों का कहना है कि उनकी पद्धति के लिए सर्वसम्मत प्राथमिकता के बावजूद, परिणामों में से एक, एफजीवीसी, मात्रात्मक परिणामों को प्रतिबिंबित नहीं करता है, और उनका सुझाव है कि यह इंगित करता है कि ई2एफजीवीआई, विशेष रूप से, 'अधिक दृष्टिगत सुखद परिणाम' उत्पन्न कर सकता है।
दक्षता के संदर्भ में, लेखक ध्यान देते हैं कि उनका सिस्टम डीएवीआईएस डेटासेट पर एकल टाइटन जीपीयू पर प्रति सेकंड फ़्लोटिंग पॉइंट ऑपरेशंस (एफएलओपी) और अनुमान समय को काफी कम कर देता है, और देखते हैं कि परिणाम ई दिखाते हैं2FGVI प्रवाह-आधारित विधियों की तुलना में x15 तेज़ चल रहा है।
वे टिप्पणी करते हैं:
'[इ2FGVI] अन्य सभी तरीकों की तुलना में सबसे कम FLOP रखता है। यह इंगित करता है कि प्रस्तावित विधि वीडियो इनपेंटिंग के लिए अत्यधिक कुशल है।'
httpv://www.youtube.com/watch?v=N–qC3T2wc4
*लेखकों के इनलाइन उद्धरणों का हाइपरलिंक में मेरा रूपांतरण।
पहली बार 19 मई 2022 को प्रकाशित।