Anderson का एंगल

वीडियो को 1fps से अधिक पर कैप्शन देने की चुनौती

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

मशीन लर्निंग सिस्टम के लिए वीडियो के अंदर होने वाली घटनाओं को पहचानने की क्षमता एआई-आधारित वीडियो जेनरेशन के भविष्य के लिए महत्वपूर्ण है – कम से कम इसलिए क्योंकि वीडियो डेटासेट को उपयोगकर्ता के अनुरोध के अनुसार मॉडल उत्पन्न करने और अत्यधिक हॉलुसिनेट नहीं करने के लिए सटीक कैप्शन की आवश्यकता होती है।

गूगल के विड्रेकैप प्रोजेक्ट से कैप्शनिंग स्कीमा का एक उदाहरण。 स्रोत: https://sites.google.com/view/vidrecap

प्रशिक्षण डेटासेट के लिए आवश्यक वीडियो को मैन्युअल रूप से कैप्शन देना एक असहनीय परिदृश्य है। हालांकि एआई सिस्टम को ऑटो-कैप्शन वीडियो के लिए प्रशिक्षित करना संभव है, मानव-निर्मित उदाहरणों की बहुत आवश्यकता होती है जो मैदान और कवरेज के लिए आधार सत्य के रूप में कार्य करते हैं।

अधिक महत्वपूर्ण बात यह है कि लगभग हर वर्तमान एआई-आधारित वीडियो-कैप्शनिंग मॉडल 1fps पर काम करता है, जो कई परिदृश्यों में भिन्नताओं को निर्धारित करने के लिए पर्याप्त घना कैप्चर दर नहीं है: भावना-पहचान प्रणालियों के लिए अचानक माइक्रो-अभिव्यक्ति परिवर्तन; उच्च-गति खेल जैसे बास्केटबॉल में तेजी से घटनाएं; हिंसक आंदोलन; नाटकीय फिल्मों में तेजी से कट, जहां प्रणालियां जैसे पिसीनडिटेक्ट उन्हें पहचानने में विफल हो सकती हैं (या उनका उपयोग नहीं किया जा रहा है); और कई अन्य परिदृश्य जहां ध्यान की खिड़की स्पष्ट रूप से अधिक तीव्र होने की आवश्यकता है।

प्ले करने के लिए क्लिक करें।दुनिया के सबसे धीमे खेलों में से एक में तेज़ लेकिन जीवन बदलने वाली कार्रवाई, जैसे कि एलेक्स हिगिंस 1982 में रे रीडन के खिलाफ विश्व चैंपियनशिप जीतते हैं। स्रोत: https://www.youtube.com/watch?v=_1PuqKno_Ok

मूव फास्ट और ब्रेक लॉजिक

यह कम दर विभिन्न लॉजिस्टिक कारणों से मानक है। एक के लिए, वीडियो-कैप्शनिंग एक संसाधन-गहन गतिविधि है, चाहे सिस्टम एक के बाद एक अनुक्रमिक फ्रेम का अध्ययन कर रहा हो या विभिन्न तरीकों से एक व्याख्यात्मक कैप्शन अनुक्रम में फ्रेम को सेमेन्टिक रूप से सुसंगत करने के लिए। दोनों ही मामलों में, संदर्भ विंडो अपरिहार्य रूप से हार्डवेयर प्रतिबंधों द्वारा सीमित है।

1fps के वर्तमान मानक होने का एक और कारण यह है कि वीडियो आमतौर पर तेजी से घटनाओं से भरे नहीं होते हैं; इसलिए, 300 फ्रेम स्थिर स्नूकर टेबल को उसी ध्यान से देना जितना कि चैंपियनशिप जीतने वाले ब्लैक बॉल के लिए एक सेकंड में दिया जाता है (ऊपर देखें)।

यह संभव है कि बास्केटबॉल गेम में तेजी से स्लैम-डंक की लंबे समय तक चलने वाली भीड़ प्रतिक्रिया जैसे माध्यमिक संकेतों का उपयोग करके स्पोर्ट्स वीडियो में महत्वपूर्ण क्षणों की पहचान की जा सकती है। हालांकि, ऐसे संकेत अन्य कारणों से हो सकते हैं (जैसे कि अप्रत्याशित खिलाड़ी चोटें), और उन पर भरोसा नहीं किया जा सकता है। यह एक उदाहरण है कि कैसे एक गलत लेबल वाला वीडियो डेटासेट एक जनरेटिव वीडियो मॉडल का कारण बन सकता है जो हॉलुसिनेट या निर्देशों को गलत तरीके से व्याख्या करता है, अर्थात्, क्योंकि मॉडल एक स्लैम-डंक का अनुरोध करने पर एक खिलाड़ी की चोट दिखा सकता है (क्योंकि ‘माध्यमिक संकेत’ भीड़-उत्तेजना किसी विशिष्ट प्रकार की घटना के लिए विशिष्ट नहीं था)।

यह कई तरह से एक ‘बजट’ समस्या है, और अन्य तरह से एक प्रक्रियात्मक समस्या है। अब तक के फ्रेमवर्क ने इस सिद्धांत पर काम किया है कि दुर्लभ कीफ्रेम आवश्यक जानकारी को प्रभावी ढंग से कैप्चर कर सकते हैं, लेकिन यह वीडियो के विषय के अन्य पहलुओं को स्थापित करने में अधिक प्रभावी है, क्योंकि इस मामले में साक्ष्य कई फ्रेम पर बना रहता है।

एफ-16

चीन से एक नई पेपर एक समाधान प्रदान कर रही है, जो पहले मल्टीमोडल लार्ज लैंग्वेज मॉडल (एमएलएलएम, या बस एलएलएम) के रूप में है, जो 1fps के मानक के बजाय 16fps पर वीडियो का विश्लेषण कर सकता है, जबकि विश्लेषण दर बढ़ाने के प्रमुख जाल से बचता है।

परीक्षण में, लेखकों का दावा है कि नया सिस्टम, जिसे एफ-16 नाम दिया गया है, जीपीटी-4ओ और गूगल के जेमिनी-1.5 प्रो जैसे प्रोप्राइटरी स्टेट-ऑफ-द-आर्ट मॉडल को पार करता है। जबकि अन्य वर्तमान मॉडल परीक्षण में एफ-16 के परिणामों को मिलाने या पार करने में सक्षम थे, प्रतिस्पर्धी मॉडल बहुत बड़े और अव्यावहारिक थे।

हालांकि एफ-16 को कुछ गंभीर हार्डवेयर (जैसा कि हम जल्द ही देखेंगे) पर प्रशिक्षित किया गया था, अनुमान आमतौर पर प्रशिक्षण की तुलना में बहुत कम मांग वाला होता है। इसलिए, हमें उम्मीद है कि कोड (निकट भविष्य में रिलीज़ का वादा किया गया है) मध्यम या उच्च-स्तरीय घरेलू जीपीयू पर चलने में सक्षम होगा।

जो की आवश्यकता है शौकीन दृश्य (और इसमें पेशेवर वीएफएक्स दृश्य भी शामिल है, अधिकांश समय) के लिए एक वीडियो-कैप्शनिंग मॉडल की तरह है जो उपभोक्ता प्रणालियों पर चल सकता है, ताकि पूरा जनरेटिव वीडियो दृश्य व्यावसायिक एपीआई-आधारित प्रणालियों पर नहीं जाता है, या उपभोक्ताओं को स्थानीय फ्रेमवर्क को व्यावसायिक ऑनलाइन जीपीयू सेवाओं से जोड़ने के लिए मजबूर नहीं करता है।

स्केलिंग अप के परे

लेखकों का观察 है कि यह प्रकार का दृष्टिकोण डेटासेट को स्केल करने का एक व्यावहारिक विकल्प है। हम यह भी अनुमान लगा सकते हैं कि यदि आप समस्या पर अधिक डेटा फेंक रहे हैं, तो यह अभी भी इस प्रकार का दृष्टिकोण हो सकता है, क्योंकि नया सिस्टम अधिक बारीकी से घटनाओं को प्रतिष्ठित करता है।

वे कहते हैं:

‘निम्न फ्रेम दर नमूनाकरण महत्वपूर्ण दृश्य जानकारी के नुकसान का परिणाम हो सकता है, विशेष रूप से तेजी से बदलते दृश्य, जटिल विवरण, या तेज़ गति वाले वीडियो में। इसके अलावा, यदि कीफ्रेम छूट जाते हैं, लेकिन मॉडल को कीफ्रेम जानकारी पर निर्भर लेबल पर प्रशिक्षित किया जाता है, तो यह अपनी भविष्यवाणियों को अपेक्षित सामग्री के साथ संरेखित करने में संघर्ष कर सकता है, संभावित रूप से हॉलुसिनेशन और खराब प्रदर्शन का कारण बनता है…

‘… एफ-16 मॉडल के समान आकार के सामान्य वीडियो क्यूए में एसओटीए प्रदर्शन प्राप्त करता है और उच्च-फ्रेम-दर वीडियो समझने में स्पष्ट लाभ प्रदर्शित करता है, जीपीटी-4ओ जैसे व्यावसायिक मॉडलों को पार करता है। यह काम मल्टीमोडल एलएलएम अनुसंधान में उच्च-फ्रेम-दर वीडियो समझने के लिए नए दिशानिर्देश खोलता है।’

नया पेपर शीर्षक है एलएलएम वीडियो समझ में 16 फ्रेम प्रति सेकंड के साथ सुधार, और यह त्सिंगहुआ विश्वविद्यालय और बाइटडांस से आठ लेखकों द्वारा आयोजित किया गया है।

विधि

चूंकि अनुक्रमिक फ्रेम अक्सर अतिरिक्त जानकारी को बरकरार रखते हैं, एफ-16 एक उच्च-फ्रेम-दर संरेखक लागू करता है जो कीफ्रेम को संपीड़ित और एन्कोड करता है जबकि दृश्य सेमेन्टिक्स को बनाए रखता है। प्रत्येक फ्रेम को पहले एक पूर्व-प्रशिक्षित इमेज एनकोडर द्वारा संसाधित किया जाता है, जो विशेषता प्रतिनिधित्व निकालता है trước उन्हें जीएलयू (जीएलयू) पर आधारित एक संरेखक में पारित किया जाता है।

एफ-16 का आर्किटेक्चर 16 एफपीएस पर वीडियो को संसाधित करता है, जो पारंपरिक कम-फ्रेम-दर मॉडल की तुलना में अधिक फ्रेम कैप्चर करता है, और इसका उच्च-फ्रेम-दर संरेखक दृश्य सेमेन्टिक्स को बनाए रखते हुए गति गतिविधियों को कुशलता से एन्कोड करता है। स्रोत: https://arxiv.org/pdf/2503.13956

फ्रेम की बढ़ी हुई गणना को कुशलता से संभालने के लिए, एफ-16 फ्रेम को छोटे प्रसंस्करण खिड़कियों में समूहित करता है, एक तीन-परत मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) का उपयोग करके दृश्य विशेषताओं को मिलाता है, जो केवल सबसे प्रासंगिक गति विवरण को बनाए रखने में मदद करता है, और अनावश्यक दोहराव को कम करता है, जबकि क्रियाओं के समयिक प्रवाह को बनाए रखता है। एक स्थानिक मैक्स-पूलिंग परत टोकन गणना को और कम रखती है, कम्प्यूटेशनल लागत को सीमा के भीतर रखती है।

संसाधित वीडियो टोकन तब क्वेन2-7बी एलएलएम में डाले जाते हैं, जो निकाले गए दृश्य विशेषताओं और एक दिए गए उपयोगकर्ता प्रॉम्प्ट के आधार पर पाठक उत्तर उत्पन्न करता है।

इस प्रकार वीडियो इनपुट को संरचित करके, एफ-16, लेखकों का दावा है, गतिशील दृश्यों में अधिक सटीक घटना मान्यता को सक्षम बनाता है, जबकि अभी भी कुशलता बनाए रखता है।

संक्षिप्त संस्करण

एफ-16 एक पूर्व-प्रशिक्षित इमेज एलएलएम, एलएलएवी-वनविजन को वीडियो को संसाधित करने के लिए विस्तारित करता है bằng अपने दृश्य इनपुट पाइपलाइन को परिवर्तित करके। जबकि मानक इमेज एलएलएम अलग-अलग फ्रेम को संभालते हैं, एफ-16 का उच्च-फ्रेम-दर संरेखक कई फ्रेम को एक ऐसे रूप में पुनर्गठित करता है जिसे मॉडल अधिक कुशलता से संसाधित कर सकता है; यह प्रणाली को अतिरिक्त जानकारी से अभिभूत होने से बचाता है जबकि सटीक वीडियो समझ के लिए आवश्यक कीफ्रेम को बनाए रखता है।

एफ-16 अपने संरेखक को सब-मैट्रिक्स में पुनर्गठित करके अपने छवि-आधारित आधार के साथ संगतता सुनिश्चित करता है। यह दृष्टिकोण यह अनुमति देता है कि यह एकल-फ्रेम मॉडल से ज्ञान को पुनर्प्राप्त करे जबकि अनुक्रमिक वीडियो इनपुट के लिए अनुकूलन करता है।

संरेखक पहले फ्रेम अनुक्रम को एलएलएम के लिए अनुकूलित प्रारूप में संपीड़ित और एन्कोड करता है, जबकि सबसे जानकारीपूर्ण विशेषताओं को बनाए रखता है और अनावश्यक विवरण को त्यागता है। आर्किटेक्चर डिज़ाइन वीडियो को उच्च-फ्रेम-दर पर संसाधित करने की अनुमति देता है, जबकि कम्प्यूटेशनल मांगों को नियंत्रित में रखता है, जिसे लेखकों ने स्केलिंग के अलावा आगे बढ़ने के प्रमाण के रूप में प्रस्तुत किया है।

वैरिएबल फ्रेम-रेट

चूंकि 16fps पर वीडियो को संसाधित करना गति समझ में सुधार करता है लेकिन कम्प्यूटेशनल लागत बढ़ाता है, विशेष रूप से अनुमान के दौरान, एफ-16 एक वैरिएबल-फ्रेम-रेट डिकोडिंग विधि पेश करता है, जो इसे गतिविधि के बिना फ्रेम दर को गतिविधि को समायोजित करने की अनुमति देता है।

एफ-16 के लिए उपलब्ध एकल-फ्रेम और उच्च-फ्रेम-दर संरेखक。

यह लचीलापन मॉडल को कम फ्रेम दर पर कुशलता से संचालित करने की अनुमति देता है जब उच्च सटीकता की आवश्यकता नहीं होती है, और कम्प्यूटेशनल ओवरहेड को कम करता है।

परीक्षण के समय, जब एक कम फ्रेम दर चुनी जाती है, तो एफ-16 पूर्व-प्रशिक्षित संरेखक पैरामीटर का पुन: उपयोग करके इनपुट फ्रेम को दोहराता है ताकि अपेक्षित आयामों का मिलान किया जा सके। यह सुनिश्चित करता है कि मॉडल अभी भी वीडियो को प्रभावी ढंग से संसाधित कर सकता है बिना अपने आर्किटेक्चर को संशोधित किए।

नकली डाउनसैंपलिंग (अर्थात, बस फ्रेम हटाने) के विपरीत, जो महत्वपूर्ण गति विवरण खोने का जोखिम उठाता है, यह विधि संरेखक के सीखे गए गति प्रतिनिधित्व को बनाए रखती है, यहां तक कि कम फ्रेम दर पर भी सटीकता को बनाए रखती है। सामान्य वीडियो समझ के लिए, एक कम फ्रेम दर सेटिंग अनुमान को तेज कर सकती है बिना महत्वपूर्ण प्रदर्शन हानि के, जबकि उच्च-गति गति विश्लेषण अभी भी 16 एफपीएस की पूरी क्षमता का लाभ उठा सकता है।

डेटा और परीक्षण

क्यूवेन2-7बी पर निर्मित, एफ-16 एलएलएवा-वनविजन का उपयोग सिग्लिप के रूप में एक इमेज एनकोडर के साथ विस्तार करता है। वीडियो फ्रेम 16 एफपीएस पर नमूनाकरण किए जाते हैं, प्रति वीडियो अधिकतम 1,760 फ्रेम प्राप्त किए जा सकते हैं। लंबे वीडियो क्लिप के लिए, फ्रेम समान रूप से (अर्थात, अधिक दुर्लभ) नमूनाकरण किए गए थे।

प्रशिक्षण के लिए, एफ-16 ने एलएलएवा-वीडियो के समान सामान्य वीडियो डेटासेट का उपयोग किया, जिसमें एलएलएवा-वीडियो-178के, नेक्स्ट-क्यूए, एक्टिविटीनेट-क्यूए, और परसेप्शनटेस्ट शामिल हैं।

एफ-16 को अतिरिक्त रूप से फाइनगिम, डाइविंग48, और सोकเกอรनेट जैसे उच्च-गति खेल डेटासेट पर परिष्कृत किया गया था। लेखकों ने 276 एनबीए गेम्स का संग्रह भी तैयार किया, जो 13 नवंबर और 25 नवंबर, 2024 के बीच खेले गए थे, जिसमें यह देखने पर ध्यान केंद्रित किया गया था कि क्या एक शॉट सफल था (एक कार्य जिसमें उच्च-फ्रेम-दर प्रसंस्करण की आवश्यकता होती है)।

मॉडल का मूल्यांकन एनएसवीए परीक्षण सेट का उपयोग करके किया गया था, जिसमें प्रदर्शन एफ1 स्कोर द्वारा मापा गया था।

जिमनास्टिक और डाइविंग मॉडल का मूल्यांकन घटना मान्यता सटीकता के आधार पर किया गया था, जबकि सॉकर और बास्केटबॉल मॉडल पास और शॉट परिणामों को ट्रैक करते थे।

मॉडल को 1 प्रकरण के लिए 128 एनवीडिया एच100 जीपीयू (और 80जीबी प्रति जीपीयू के मानक-Issue वीआरएएम के साथ, यह 10,240 टेराबाइट जीपीयू मेमोरी का उपयोग करने के लिए आयोजित किया गया था; यहां तक कि हाल के मानकों द्वारा, यह कंप्यूटर विजन अनुसंधान साहित्य के साथ बने रहने में मुझे व्यक्तिगत रूप से मिली सबसे उच्च-स्पेक जीपीयू क्लस्टर है)। एक सीखने की दर 2×10⁻⁵ का उपयोग प्रशिक्षण के दौरान किया गया था।

इसके अलावा, लोरा को खेल डेटा पर 64 जीपीयू के साथ 5 प्रकरणों के लिए परिष्कृत किया गया था। यहां, केवल एलएलएम को प्रशिक्षित किया गया था, छवि एनकोडर जमे हुए थे।

प्रारंभिक दौर में परीक्षण किए गए प्रतिस्पर्धी फ्रेमवर्क ‘सामान्य वीडियो समझ’ के लिए जीपीटी-4ओ; जेमिनी-1.5-प्रो; क्यूवेन2-वीएल-7बी; वीडियोलामा2-7बी; वीडियोचैट2-एचडी-7बी; एलएलएवी-ओवी-7बी; मिनीसीपीएम-वी2.6-8बी; एलएलएवा-वीडियो-7बी; और एनवीआईएलए-7बी थे;

मॉडल का मूल्यांकन वीडियो-एमएमई; वीडियोविस्टा; टेम्पोरलबेंच; मोशनबेंच; नेक्स्ट-क्यूए; एमएलवीयू; और लॉन्गवीडियोबेंच पर किया गया था।

विभिन्न मॉडलों में वीडियो क्यूए परिणामों की तुलना, एफपीएस सीमा और कई बेंचमार्क पर प्रदर्शन दिखा रहा है। एफ-16 वीडियो-एमएमई, एनक्यूए, टीपीबी, और एमबी पर 7बी मॉडल के बीच एसओटीए हासिल करता है, जीपीटी-4ओ और जेमिनी-1.5-प्रो जैसे व्यावसायिक मॉडल के साथ प्रतिस्पर्धा करता है।

इन परिणामों में, लेखक कहते हैं:

‘वीडियो-एमएमई शॉर्ट, मीडियम, और नेक्स्ट-क्यूए डेटासेट—प्रत्येक छोटे वीडियो समझ के लिए डिज़ाइन किया गया—हमारे मॉडल ने पिछले 7बी एसओटीए मॉडल को 3.2%, 1.0%, और 0.9% सटीकता में पार किया, इसके छोटे वीडियो पर मजबूत प्रदर्शन को उजागर करता है। ‘

‘लंबे वीडियो समझ का मूल्यांकन करने वाले बेंचमार्क के लिए, जैसे कि वीडियो-एमएमई लॉन्ग, लॉन्गवीडियोबेंच, और एमएलवीयू, चुनौती अधिक है क्योंकि फ्रेम का नमूनाकरण अधिक दुर्लभ है, जिससे प्रसंस्करण खिड़की के भीतर फ्रेम अधिक महत्वपूर्ण भिन्नता प्रदर्शित करते हैं। ‘

‘यह मॉडलिटी संरेखक के लिए मोडलिटी को प्रभावी ढंग से एन्कोड करने में अधिक कठिन बनाता है, क्योंकि सीमित टोकन प्रतिनिधित्व के भीतर समयिक परिवर्तन। परिणामस्वरूप, एफ-16 को [एलएलएवा-वीडियो-7बी] की तुलना में प्रदर्शन में एक छोटी सी गिरावट का अनुभव होता है, जो समान वीडियो डेटासेट पर प्रशिक्षित है।’

एफ-16 के उच्च-फ्रेम-दर प्रसंस्करण ने टेम्पोरलबेंच पर 13.5% की वृद्धि और मोशनबेंच पर 2.5% की वृद्धि का परिणाम दिया, मौजूदा 7बी मॉडल की तुलना में, और जीपीटी-4ओ और जेमिनी-1.5-प्रो जैसे व्यावसायिक मॉडल के समान स्तर पर प्रदर्शन किया।

उच्च गति खेल वीडियो समझ

एफ-16 का मूल्यांकन फाइनगिम, डाइविंग48, सोकเกอรनेट, और एनबीए डेटासेट पर किया गया था ताकि इसकी उच्च-गति खेल क्रियाओं को समझने की क्षमता का मूल्यांकन किया जा सके।

10,000 मैन्युअल रूप से एनोटेटेड एनबीए क्लिप का उपयोग करके, प्रशिक्षण गेंद की गति और खिलाड़ी क्रियाओं पर केंद्रित था, और मॉडल यह निर्धारित करने में सक्षम था कि क्या एक शॉट सफल था, एनएसवीए परीक्षण सेट का उपयोग करके एफ1 स्कोर के साथ मूल्यांकन किया गया था।

उच्च गति खेल वीडियो विश्लेषण के परिणाम। एफ-16 ने उच्च-फ्रेम-दर संरेखक के साथ सभी खेल कार्यों में अपने निम्न-फ्रेम-दर समकक्ष की तुलना में बेहतर प्रदर्शन किया। जीपीटी-4ओ और जेमिनी-1.5-प्रो का भी एनबीए और सोकเกอรनेट क्यूए पर मूल्यांकन किया गया था, जहां डोमेन-विशिष्ट प्रशिक्षण ज्ञान की आवश्यकता नहीं थी।

फाइनगिम पर, जो जिमनास्टिक क्रिया मान्यता को मापता है, एफ-16 ने पिछले 7बी एसओटीए मॉडल की तुलना में 13.8% बेहतर प्रदर्शन किया, जो बारीकी से गति समझ में सुधार को प्रदर्शित करता है।

डाइविंग48 ने जटिल आंदोलन अनुक्रमों की पहचान की आवश्यकता की, जैसे कि टेकऑफ, सोमरसॉल्ट, ट्विस्ट, और फ्लाइट चरण, और एफ-16 ने इन संक्रमणों को पहचानने में उच्च सटीकता दिखाई।

सोकเกอรनेट पर, मॉडल ने 10-सेकंड क्लिप विश्लेषण किया, गेंद पास की पहचान की, और परिणामों ने मौजूदा 7बी मॉडल की तुलना में सुधार दिखाया, जो यह दर्शाता है कि उच्च फ्रेम दर छोटे और तेजी से आंदोलनों को ट्रैक करने में योगदान करता है।

एनबीए डेटासेट में, एफ-16 की शॉट परिणाम निर्धारित करने की क्षमता जीपीटी-4ओ और जेमिनी-1.5-प्रो जैसे बड़े व्यावसायिक मॉडल की सटीकता के करीब थी, जो यह सुझाव देता है कि उच्च फ्रेम दर इसकी गतिशील गति प्रसंस्करण क्षमता को बढ़ाता है।

वैरिएबल फ्रेम-रेट

एफ-16 का परीक्षण विभिन्न फ्रेम दर पर किया गया था ताकि इसकी अनुकूलन क्षमता को मापा जा सके। इसके बजाय पुनः प्रशिक्षण करने के, यह कम फ्रेम दर पर फ्रेम को दोहराकर संरेखक के इनपुट संरचना से मेल खाता है। यह दृष्टिकोण न केवल फ्रेम हटाने (जो सटीकता हानि का कारण बन सकता है) की तुलना में अधिक प्रदर्शन बनाए रखता है।

परिणामों से पता चलता है कि फ्रेम दर को कम करने से गति मान्यता पर कुछ प्रभाव पड़ा, लेकिन एफ-16 अभी भी निम्न-फ्रेम-दर मॉडल को पार करता है और कम फ्रेम दर पर भी मजबूत परिणाम बनाए रखता है।

बाएं, वीडियो-एमएमई लॉन्ग सेट के 300 वीडियो पर विभिन्न परीक्षण एफपीएस और अनुक्रम लंबाई पर एफ-16 मॉड्यूल के दौरान समय की खपत। दाएं, विभिन्न एफपीएस पर प्रशिक्षित और परीक्षण किए गए मॉडल के बीच वीडियो-एमएमई प्रदर्शन की तुलना। ठोस रेखा मॉडल को एक ही एफपीएस पर प्रशिक्षित और परीक्षण किया जाता है, जबकि डैश्ड लाइन 16 एफपीएस पर प्रशिक्षित मॉडल को कम फ्रेम दर पर परीक्षण किए जाने पर प्रदर्शन को दर्शाती है।

एफ-16 के उच्च-फ्रेम-दर प्रसंस्करण ने कम्प्यूटेशनल आवश्यकताओं को बढ़ाया, हालांकि इसके संरेखक ने लागत को प्रबंधित करने में मदद की bằng विशिष्ट दृश्य टोकन को संपीड़ित करके।

मॉडल ने प्रति वीडियो कम-फ्रेम-दर मॉडल की तुलना में अधिक फ्लॉप्स की आवश्यकता थी, लेकिन यह प्रति टोकन भी बेहतर सटीकता हासिल करता था, जो यह सुझाव देता है कि इसके फ्रेम चयन और टोकन संपीड़न रणनीतियों ने जोड़े गए कम्प्यूटेशन को ऑफसेट करने में मदद की।

निष्कर्ष

यह इस शोध के इस विशिष्ट तंतु के महत्व और चुनौतियों को अतिरंजित करना मुश्किल है—विशेष रूप से इस वर्ष, जो जनरेटिव वीडियो के लिए ब्रेकथ्रू वर्ष होने वाला है, जो वीडियो डेटासेट क्यूरेशन और कैप्शनिंग गुणवत्ता की कमियों को तेजी से राहत दिला रहा है।

यह भी जोर दिया जाना चाहिए कि वीडियो के आंतरिक विवरण के सटीक विवरण प्राप्त करने में शामिल चुनौतियों को विशेष रूप से वीआरएएम, समय, या डिस्क स्थान पर फेंककर हल नहीं किया जा सकता है। घटनाओं को वीडियो के लंबे और उबाऊ ट्रैक से अलग करने और निकालने की विधि, जैसे कि गोल्फ या स्नूकर वीडियो क्लिप के साथ, सेमेंटिक दृष्टिकोण और तंत्र की पुनःसंरचना से लाभान्वित होगी जो वर्तमान में एसओटीए समाधानों को प्रभावित करती है—क्योंकि इनमें से कुछ सीमाएं अधिक संसाधन-गरीब समय में स्थापित की गई थीं।

(गौरतलब है कि 16fps, 2025 के लिए एक बहुत ही कम फ्रेम दर प्रतीत हो सकती है, यह भी ध्यान देने योग्य है कि यह वीडियो क्लिप की मूल प्रशिक्षण गति भी है जिसका उपयोग वैन 2.1 जनरेटिव वीडियो मॉडल में किया जाता है, और यह गति जिस पर यह सबसे कम समस्याओं के साथ काम करता है। आशा है कि शोध दृश्य ‘मानक एंट्रोपी’ के संभावित मुद्दे पर नजर रखेगा; कभी-कभी पुराने प्रतिबंध भविष्य के मानकों को बनाए रखने में मदद कर सकते हैं)

पहली बार बुधवार, 19 मार्च, 2025 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai