Connect with us

рд╡реАрдбрд┐рдпреЛ рдХреЛ 1fps рд╕реЗ рдЕрдзрд┐рдХ рдкрд░ рдХреИрдкреНрд╢рди рджреЗрдиреЗ рдХреА рдЪреБрдиреМрддреА

Anderson рдХрд╛ рдПрдВрдЧрд▓

рд╡реАрдбрд┐рдпреЛ рдХреЛ 1fps рд╕реЗ рдЕрдзрд┐рдХ рдкрд░ рдХреИрдкреНрд╢рди рджреЗрдиреЗ рдХреА рдЪреБрдиреМрддреА

mm
Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

मशीन लर्निंग सिस्टम के लिए वीडियो के अंदर होने वाली घटनाओं को पहचानने की क्षमता एआई-आधारित वीडियो जेनरेशन के भविष्य के लिए महत्वपूर्ण है – कम से कम इसलिए क्योंकि वीडियो डेटासेट को उपयोगकर्ता के अनुरोध के अनुसार मॉडल उत्पन्न करने और अत्यधिक हॉलुसिनेट नहीं करने के लिए सटीक कैप्शन की आवश्यकता होती है।

рдЧреВрдЧрд▓ рдХреЗ рд╡рд┐рдбреНрд░реЗрдХреИрдк рдкреНрд░реЛрдЬреЗрдХреНрдЯ рд╕реЗ рдХреИрдкреНрд╢рдирд┐рдВрдЧ рд╕реНрдХреАрдорд╛ рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдгред рд╕реНрд░реЛрдд: https://sites.google.com/view/vidrecap

गूगल के विड्रेकैप प्रोजेक्ट से कैप्शनिंग स्कीमा का एक उदाहरण。 स्रोत: https://sites.google.com/view/vidrecap

प्रशिक्षण डेटासेट के लिए आवश्यक वीडियो को मैन्युअल रूप से कैप्शन देना एक असहनीय परिदृश्य है। हालांकि एआई सिस्टम को ऑटो-कैप्शन वीडियो के लिए प्रशिक्षित करना संभव है, मानव-निर्मित उदाहरणों की बहुत आवश्यकता होती है जो मैदान और कवरेज के लिए आधार सत्य के रूप में कार्य करते हैं।

अधिक महत्वपूर्ण बात यह है कि लगभग हर वर्तमान एआई-आधारित वीडियो-कैप्शनिंग मॉडल 1fps पर काम करता है, जो कई परिदृश्यों में भिन्नताओं को निर्धारित करने के लिए पर्याप्त घना कैप्चर दर नहीं है: भावना-पहचान प्रणालियों के लिए अचानक माइक्रो-अभिव्यक्ति परिवर्तन; उच्च-गति खेल जैसे बास्केटबॉल में तेजी से घटनाएं; हिंसक आंदोलन; नाटकीय फिल्मों में तेजी से कट, जहां प्रणालियां जैसे पिसीनडिटेक्ट उन्हें पहचानने में विफल हो सकती हैं (या उनका उपयोग नहीं किया जा रहा है); और कई अन्य परिदृश्य जहां ध्यान की खिड़की स्पष्ट रूप से अधिक तीव्र होने की आवश्यकता है।

प्ले करने के लिए क्लिक करें।दुनिया के सबसे धीमे खेलों में से एक में तेज़ लेकिन जीवन बदलने वाली कार्रवाई, जैसे कि एलेक्स हिगिंस 1982 में रे रीडन के खिलाफ विश्व चैंपियनशिप जीतते हैं। स्रोत: https://www.youtube.com/watch?v=_1PuqKno_Ok

मूव फास्ट और ब्रेक लॉजिक

यह कम दर विभिन्न लॉजिस्टिक कारणों से मानक है। एक के लिए, वीडियो-कैप्शनिंग एक संसाधन-गहन गतिविधि है, चाहे सिस्टम एक के बाद एक अनुक्रमिक फ्रेम का अध्ययन कर रहा हो या विभिन्न तरीकों से एक व्याख्यात्मक कैप्शन अनुक्रम में फ्रेम को सेमेन्टिक रूप से सुसंगत करने के लिए। दोनों ही मामलों में, संदर्भ विंडो अपरिहार्य रूप से हार्डवेयर प्रतिबंधों द्वारा सीमित है।

1fps के वर्तमान मानक होने का एक और कारण यह है कि वीडियो आमतौर पर तेजी से घटनाओं से भरे नहीं होते हैं; इसलिए, 300 फ्रेम स्थिर स्नूकर टेबल को उसी ध्यान से देना जितना कि चैंपियनशिप जीतने वाले ब्लैक बॉल के लिए एक सेकंड में दिया जाता है (ऊपर देखें)।

यह संभव है कि बास्केटबॉल गेम में तेजी से स्लैम-डंक की लंबे समय तक चलने वाली भीड़ प्रतिक्रिया जैसे माध्यमिक संकेतों का उपयोग करके स्पोर्ट्स वीडियो में महत्वपूर्ण क्षणों की पहचान की जा सकती है। हालांकि, ऐसे संकेत अन्य कारणों से हो सकते हैं (जैसे कि अप्रत्याशित खिलाड़ी चोटें), और उन पर भरोसा नहीं किया जा सकता है। यह एक उदाहरण है कि कैसे एक गलत लेबल वाला वीडियो डेटासेट एक जनरेटिव वीडियो मॉडल का कारण बन सकता है जो हॉलुसिनेट या निर्देशों को गलत तरीके से व्याख्या करता है, अर्थात्, क्योंकि मॉडल एक स्लैम-डंक का अनुरोध करने पर एक खिलाड़ी की चोट दिखा सकता है (क्योंकि ‘माध्यमिक संकेत’ भीड़-उत्तेजना किसी विशिष्ट प्रकार की घटना के लिए विशिष्ट नहीं था)।

यह कई तरह से एक ‘बजट’ समस्या है, और अन्य तरह से एक प्रक्रियात्मक समस्या है। अब तक के फ्रेमवर्क ने इस सिद्धांत पर काम किया है कि दुर्लभ कीफ्रेम आवश्यक जानकारी को प्रभावी ढंग से कैप्चर कर सकते हैं, लेकिन यह वीडियो के विषय के अन्य पहलुओं को स्थापित करने में अधिक प्रभावी है, क्योंकि इस मामले में साक्ष्य कई फ्रेम पर बना रहता है।

एफ-16

चीन से एक नई पेपर एक समाधान प्रदान कर रही है, जो पहले मल्टीमोडल लार्ज लैंग्वेज मॉडल (एमएलएलएम, या बस एलएलएम) के रूप में है, जो 1fps के मानक के बजाय 16fps पर वीडियो का विश्लेषण कर सकता है, जबकि विश्लेषण दर बढ़ाने के प्रमुख जाल से बचता है।

परीक्षण में, लेखकों का दावा है कि नया सिस्टम, जिसे एफ-16 नाम दिया गया है, जीपीटी-4ओ और गूगल के जेमिनी-1.5 प्रो जैसे प्रोप्राइटरी स्टेट-ऑफ-द-आर्ट मॉडल को पार करता है। जबकि अन्य वर्तमान मॉडल परीक्षण में एफ-16 के परिणामों को मिलाने या पार करने में सक्षम थे, प्रतिस्पर्धी मॉडल बहुत बड़े और अव्यावहारिक थे।

हालांकि एफ-16 को कुछ गंभीर हार्डवेयर (जैसा कि हम जल्द ही देखेंगे) पर प्रशिक्षित किया गया था, अनुमान आमतौर पर प्रशिक्षण की तुलना में बहुत कम मांग वाला होता है। इसलिए, हमें उम्मीद है कि कोड (निकट भविष्य में रिलीज़ का वादा किया गया है) मध्यम या उच्च-स्तरीय घरेलू जीपीयू पर चलने में सक्षम होगा।

जो की आवश्यकता है शौकीन दृश्य (और इसमें पेशेवर वीएफएक्स दृश्य भी शामिल है, अधिकांश समय) के लिए एक वीडियो-कैप्शनिंग मॉडल की तरह है जो उपभोक्ता प्रणालियों पर चल सकता है, ताकि पूरा जनरेटिव वीडियो दृश्य व्यावसायिक एपीआई-आधारित प्रणालियों पर नहीं जाता है, या उपभोक्ताओं को स्थानीय फ्रेमवर्क को व्यावसायिक ऑनलाइन जीपीयू सेवाओं से जोड़ने के लिए मजबूर नहीं करता है।

स्केलिंग अप के परे

लेखकों का观察 है कि यह प्रकार का दृष्टिकोण डेटासेट को स्केल करने का एक व्यावहारिक विकल्प है। हम यह भी अनुमान लगा सकते हैं कि यदि आप समस्या पर अधिक डेटा फेंक रहे हैं, तो यह अभी भी इस प्रकार का दृष्टिकोण हो सकता है, क्योंकि नया सिस्टम अधिक बारीकी से घटनाओं को प्रतिष्ठित करता है।

वे कहते हैं:

‘निम्न फ्रेम दर नमूनाकरण महत्वपूर्ण दृश्य जानकारी के नुकसान का परिणाम हो सकता है, विशेष रूप से तेजी से बदलते दृश्य, जटिल विवरण, या तेज़ गति वाले वीडियो में। इसके अलावा, यदि कीफ्रेम छूट जाते हैं, लेकिन मॉडल को कीफ्रेम जानकारी पर निर्भर लेबल पर प्रशिक्षित किया जाता है, तो यह अपनी भविष्यवाणियों को अपेक्षित सामग्री के साथ संरेखित करने में संघर्ष कर सकता है, संभावित रूप से हॉलुसिनेशन और खराब प्रदर्शन का कारण बनता है…

‘… एफ-16 मॉडल के समान आकार के सामान्य वीडियो क्यूए में एसओटीए प्रदर्शन प्राप्त करता है और उच्च-फ्रेम-दर वीडियो समझने में स्पष्ट लाभ प्रदर्शित करता है, जीपीटी-4ओ जैसे व्यावसायिक मॉडलों को पार करता है। यह काम मल्टीमोडल एलएलएम अनुसंधान में उच्च-फ्रेम-दर वीडियो समझने के लिए नए दिशानिर्देश खोलता है।’

नया पेपर शीर्षक है एलएलएम वीडियो समझ में 16 फ्रेम प्रति सेकंड के साथ सुधार, और यह त्सिंगहुआ विश्वविद्यालय और बाइटडांस से आठ लेखकों द्वारा आयोजित किया गया है।

विधि

चूंकि अनुक्रमिक फ्रेम अक्सर अतिरिक्त जानकारी को बरकरार रखते हैं, एफ-16 एक उच्च-फ्रेम-दर संरेखक लागू करता है जो कीफ्रेम को संपीड़ित और एन्कोड करता है जबकि दृश्य सेमेन्टिक्स को बनाए रखता है। प्रत्येक फ्रेम को पहले एक पूर्व-प्रशिक्षित इमेज एनकोडर द्वारा संसाधित किया जाता है, जो विशेषता प्रतिनिधित्व निकालता है trước उन्हें जीएलयू (जीएलयू) पर आधारित एक संरेखक में पारित किया जाता है।

рдПрдл-16 рдХрд╛ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ 16 рдПрдлрдкреАрдПрд╕ рдкрд░ рд╡реАрдбрд┐рдпреЛ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рддрд╛ рд╣реИ, рдЬреЛ рдкрд╛рд░рдВрдкрд░рд┐рдХ рдХрдо-рдлреНрд░реЗрдо-рджрд░ рдореЙрдбрд▓ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдЕрдзрд┐рдХ рдлреНрд░реЗрдо рдХреИрдкреНрдЪрд░ рдХрд░рддрд╛ рд╣реИ, рдФрд░ рдЗрд╕рдХрд╛ рдЙрдЪреНрдЪ-рдлреНрд░реЗрдо-рджрд░ рд╕рдВрд░реЗрдЦрдХ рджреГрд╢реНрдп рд╕реЗрдореЗрдиреНрдЯрд┐рдХреНрд╕ рдХреЛ рдмрдирд╛рдП рд░рдЦрддреЗ рд╣реБрдП рдЧрддрд┐ рдЧрддрд┐рд╡рд┐рдзрд┐рдпреЛрдВ рдХреЛ рдХреБрд╢рд▓рддрд╛ рд╕реЗ рдПрдиреНрдХреЛрдб рдХрд░рддрд╛ рд╣реИред

एफ-16 का आर्किटेक्चर 16 एफपीएस पर वीडियो को संसाधित करता है, जो पारंपरिक कम-फ्रेम-दर मॉडल की तुलना में अधिक फ्रेम कैप्चर करता है, और इसका उच्च-फ्रेम-दर संरेखक दृश्य सेमेन्टिक्स को बनाए रखते हुए गति गतिविधियों को कुशलता से एन्कोड करता है। स्रोत: https://arxiv.org/pdf/2503.13956

फ्रेम की बढ़ी हुई गणना को कुशलता से संभालने के लिए, एफ-16 फ्रेम को छोटे प्रसंस्करण खिड़कियों में समूहित करता है, एक तीन-परत मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) का उपयोग करके दृश्य विशेषताओं को मिलाता है, जो केवल सबसे प्रासंगिक गति विवरण को बनाए रखने में मदद करता है, और अनावश्यक दोहराव को कम करता है, जबकि क्रियाओं के समयिक प्रवाह को बनाए रखता है। एक स्थानिक मैक्स-पूलिंग परत टोकन गणना को और कम रखती है, कम्प्यूटेशनल लागत को सीमा के भीतर रखती है।

संसाधित वीडियो टोकन तब क्वेन2-7बी एलएलएम में डाले जाते हैं, जो निकाले गए दृश्य विशेषताओं और एक दिए गए उपयोगकर्ता प्रॉम्प्ट के आधार पर पाठक उत्तर उत्पन्न करता है।

इस प्रकार वीडियो इनपुट को संरचित करके, एफ-16, लेखकों का दावा है, गतिशील दृश्यों में अधिक सटीक घटना मान्यता को सक्षम बनाता है, जबकि अभी भी कुशलता बनाए रखता है।

संक्षिप्त संस्करण

एफ-16 एक पूर्व-प्रशिक्षित इमेज एलएलएम, एलएलएवी-वनविजन को वीडियो को संसाधित करने के लिए विस्तारित करता है bằng अपने दृश्य इनपुट पाइपलाइन को परिवर्तित करके। जबकि मानक इमेज एलएलएम अलग-अलग फ्रेम को संभालते हैं, एफ-16 का उच्च-फ्रेम-दर संरेखक कई फ्रेम को एक ऐसे रूप में पुनर्गठित करता है जिसे मॉडल अधिक कुशलता से संसाधित कर सकता है; यह प्रणाली को अतिरिक्त जानकारी से अभिभूत होने से बचाता है जबकि सटीक वीडियो समझ के लिए आवश्यक कीफ्रेम को बनाए रखता है।

एफ-16 अपने संरेखक को सब-मैट्रिक्स में पुनर्गठित करके अपने छवि-आधारित आधार के साथ संगतता सुनिश्चित करता है। यह दृष्टिकोण यह अनुमति देता है कि यह एकल-फ्रेम मॉडल से ज्ञान को पुनर्प्राप्त करे जबकि अनुक्रमिक वीडियो इनपुट के लिए अनुकूलन करता है।

संरेखक पहले फ्रेम अनुक्रम को एलएलएम के लिए अनुकूलित प्रारूप में संपीड़ित और एन्कोड करता है, जबकि सबसे जानकारीपूर्ण विशेषताओं को बनाए रखता है और अनावश्यक विवरण को त्यागता है। आर्किटेक्चर डिज़ाइन वीडियो को उच्च-फ्रेम-दर पर संसाधित करने की अनुमति देता है, जबकि कम्प्यूटेशनल मांगों को नियंत्रित में रखता है, जिसे लेखकों ने स्केलिंग के अलावा आगे बढ़ने के प्रमाण के रूप में प्रस्तुत किया है।

वैरिएबल फ्रेम-रेट

चूंकि 16fps पर वीडियो को संसाधित करना गति समझ में सुधार करता है लेकिन कम्प्यूटेशनल लागत बढ़ाता है, विशेष रूप से अनुमान के दौरान, एफ-16 एक वैरिएबल-फ्रेम-रेट डिकोडिंग विधि पेश करता है, जो इसे गतिविधि के बिना फ्रेम दर को गतिविधि को समायोजित करने की अनुमति देता है।

рдПрдл-16 рдХреЗ рд▓рд┐рдП рдЙрдкрд▓рдмреНрдз рдПрдХрд▓-рдлреНрд░реЗрдо рдФрд░ рдЙрдЪреНрдЪ-рдлреНрд░реЗрдо-рджрд░ рд╕рдВрд░реЗрдЦрдХред

एफ-16 के लिए उपलब्ध एकल-फ्रेम और उच्च-फ्रेम-दर संरेखक。

यह लचीलापन मॉडल को कम फ्रेम दर पर कुशलता से संचालित करने की अनुमति देता है जब उच्च सटीकता की आवश्यकता नहीं होती है, और कम्प्यूटेशनल ओवरहेड को कम करता है।

परीक्षण के समय, जब एक कम फ्रेम दर चुनी जाती है, तो एफ-16 पूर्व-प्रशिक्षित संरेखक पैरामीटर का पुन: उपयोग करके इनपुट फ्रेम को दोहराता है ताकि अपेक्षित आयामों का मिलान किया जा सके। यह सुनिश्चित करता है कि मॉडल अभी भी वीडियो को प्रभावी ढंग से संसाधित कर सकता है बिना अपने आर्किटेक्चर को संशोधित किए।

नकली डाउनसैंपलिंग (अर्थात, बस फ्रेम हटाने) के विपरीत, जो महत्वपूर्ण गति विवरण खोने का जोखिम उठाता है, यह विधि संरेखक के सीखे गए गति प्रतिनिधित्व को बनाए रखती है, यहां तक कि कम फ्रेम दर पर भी सटीकता को बनाए रखती है। सामान्य वीडियो समझ के लिए, एक कम फ्रेम दर सेटिंग अनुमान को तेज कर सकती है बिना महत्वपूर्ण प्रदर्शन हानि के, जबकि उच्च-गति गति विश्लेषण अभी भी 16 एफपीएस की पूरी क्षमता का लाभ उठा सकता है।

डेटा और परीक्षण

क्यूवेन2-7बी पर निर्मित, एफ-16 एलएलएवा-वनविजन का उपयोग सिग्लिप के रूप में एक इमेज एनकोडर के साथ विस्तार करता है। वीडियो फ्रेम 16 एफपीएस पर नमूनाकरण किए जाते हैं, प्रति वीडियो अधिकतम 1,760 फ्रेम प्राप्त किए जा सकते हैं। लंबे वीडियो क्लिप के लिए, फ्रेम समान रूप से (अर्थात, अधिक दुर्लभ) नमूनाकरण किए गए थे।

प्रशिक्षण के लिए, एफ-16 ने एलएलएवा-वीडियो के समान सामान्य वीडियो डेटासेट का उपयोग किया, जिसमें एलएलएवा-वीडियो-178के, नेक्स्ट-क्यूए, एक्टिविटीनेट-क्यूए, और परसेप्शनटेस्ट शामिल हैं।

एफ-16 को अतिरिक्त रूप से फाइनगिम, डाइविंग48, और सोकเกอรनेट जैसे उच्च-गति खेल डेटासेट पर परिष्कृत किया गया था। लेखकों ने 276 एनबीए गेम्स का संग्रह भी तैयार किया, जो 13 नवंबर और 25 नवंबर, 2024 के बीच खेले गए थे, जिसमें यह देखने पर ध्यान केंद्रित किया गया था कि क्या एक शॉट सफल था (एक कार्य जिसमें उच्च-फ्रेम-दर प्रसंस्करण की आवश्यकता होती है)।

मॉडल का मूल्यांकन एनएसवीए परीक्षण सेट का उपयोग करके किया गया था, जिसमें प्रदर्शन एफ1 स्कोर द्वारा मापा गया था।

जिमनास्टिक और डाइविंग मॉडल का मूल्यांकन घटना मान्यता सटीकता के आधार पर किया गया था, जबकि सॉकर और बास्केटबॉल मॉडल पास और शॉट परिणामों को ट्रैक करते थे।

मॉडल को 1 प्रकरण के लिए 128 एनवीडिया एच100 जीपीयू (और 80जीबी प्रति जीपीयू के मानक-Issue वीआरएएम के साथ, यह 10,240 टेराबाइट जीपीयू मेमोरी का उपयोग करने के लिए आयोजित किया गया था; यहां तक कि हाल के मानकों द्वारा, यह कंप्यूटर विजन अनुसंधान साहित्य के साथ बने रहने में मुझे व्यक्तिगत रूप से मिली सबसे उच्च-स्पेक जीपीयू क्लस्टर है)। एक सीखने की दर 2×10⁻⁵ का उपयोग प्रशिक्षण के दौरान किया गया था।

इसके अलावा, लोरा को खेल डेटा पर 64 जीपीयू के साथ 5 प्रकरणों के लिए परिष्कृत किया गया था। यहां, केवल एलएलएम को प्रशिक्षित किया गया था, छवि एनकोडर जमे हुए थे।

प्रारंभिक दौर में परीक्षण किए गए प्रतिस्पर्धी फ्रेमवर्क ‘सामान्य वीडियो समझ’ के लिए जीपीटी-4ओ; जेमिनी-1.5-प्रो; क्यूवेन2-वीएल-7बी; वीडियोलामा2-7बी; वीडियोचैट2-एचडी-7बी; एलएलएवी-ओवी-7बी; मिनीसीपीएम-वी2.6-8बी; एलएलएवा-वीडियो-7बी; और एनवीआईएलए-7बी थे;

मॉडल का मूल्यांकन वीडियो-एमएमई; वीडियोविस्टा; टेम्पोरलबेंच; मोशनबेंच; नेक्स्ट-क्यूए; एमएलवीयू; और लॉन्गवीडियोबेंच पर किया गया था।

рд╡рд┐рднрд┐рдиреНрди рдореЙрдбрд▓реЛрдВ рдореЗрдВ рд╡реАрдбрд┐рдпреЛ рдХреНрдпреВрдП рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рддреБрд▓рдирд╛, рдПрдлрдкреАрдПрд╕ рд╕реАрдорд╛ рдФрд░ рдХрдИ рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдкрд░ рдкреНрд░рджрд░реНрд╢рди рджрд┐рдЦрд╛ рд░рд╣рд╛ рд╣реИред рдПрдл-16 рд╡реАрдбрд┐рдпреЛ-рдПрдордПрдордИ, рдПрдирдХреНрдпреВрдП, рдЯреАрдкреАрдмреА, рдФрд░ рдПрдордмреА рдкрд░ 7рдмреА рдореЙрдбрд▓ рдХреЗ рдмреАрдЪ рдПрд╕рдУрдЯреАрдП рд╣рд╛рд╕рд┐рд▓ рдХрд░рддрд╛ рд╣реИ, рдЬреАрдкреАрдЯреА-4рдУ рдФрд░ рдЬреЗрдорд┐рдиреА-1.5-рдкреНрд░реЛ рдЬреИрд╕реЗ рд╡реНрдпрд╛рд╡рд╕рд╛рдпрд┐рдХ рдореЙрдбрд▓ рдХреЗ рд╕рд╛рде рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзрд╛ рдХрд░рддрд╛ рд╣реИред

विभिन्न मॉडलों में वीडियो क्यूए परिणामों की तुलना, एफपीएस सीमा और कई बेंचमार्क पर प्रदर्शन दिखा रहा है। एफ-16 वीडियो-एमएमई, एनक्यूए, टीपीबी, और एमबी पर 7बी मॉडल के बीच एसओटीए हासिल करता है, जीपीटी-4ओ और जेमिनी-1.5-प्रो जैसे व्यावसायिक मॉडल के साथ प्रतिस्पर्धा करता है।

इन परिणामों में, लेखक कहते हैं:

‘वीडियो-एमएमई शॉर्ट, मीडियम, और नेक्स्ट-क्यूए डेटासेट—प्रत्येक छोटे वीडियो समझ के लिए डिज़ाइन किया गया—हमारे मॉडल ने पिछले 7बी एसओटीए मॉडल को 3.2%, 1.0%, और 0.9% सटीकता में पार किया, इसके छोटे वीडियो पर मजबूत प्रदर्शन को उजागर करता है। ‘

‘लंबे वीडियो समझ का मूल्यांकन करने वाले बेंचमार्क के लिए, जैसे कि वीडियो-एमएमई लॉन्ग, लॉन्गवीडियोबेंच, और एमएलवीयू, चुनौती अधिक है क्योंकि फ्रेम का नमूनाकरण अधिक दुर्लभ है, जिससे प्रसंस्करण खिड़की के भीतर फ्रेम अधिक महत्वपूर्ण भिन्नता प्रदर्शित करते हैं। ‘

‘यह मॉडलिटी संरेखक के लिए मोडलिटी को प्रभावी ढंग से एन्कोड करने में अधिक कठिन बनाता है, क्योंकि सीमित टोकन प्रतिनिधित्व के भीतर समयिक परिवर्तन। परिणामस्वरूप, एफ-16 को [एलएलएवा-वीडियो-7बी] की तुलना में प्रदर्शन में एक छोटी सी गिरावट का अनुभव होता है, जो समान वीडियो डेटासेट पर प्रशिक्षित है।’

एफ-16 के उच्च-फ्रेम-दर प्रसंस्करण ने टेम्पोरलबेंच पर 13.5% की वृद्धि और मोशनबेंच पर 2.5% की वृद्धि का परिणाम दिया, मौजूदा 7बी मॉडल की तुलना में, और जीपीटी-4ओ और जेमिनी-1.5-प्रो जैसे व्यावसायिक मॉडल के समान स्तर पर प्रदर्शन किया।

उच्च गति खेल वीडियो समझ

एफ-16 का मूल्यांकन फाइनगिम, डाइविंग48, सोकเกอรनेट, और एनबीए डेटासेट पर किया गया था ताकि इसकी उच्च-गति खेल क्रियाओं को समझने की क्षमता का मूल्यांकन किया जा सके।

10,000 मैन्युअल रूप से एनोटेटेड एनबीए क्लिप का उपयोग करके, प्रशिक्षण गेंद की गति और खिलाड़ी क्रियाओं पर केंद्रित था, और मॉडल यह निर्धारित करने में सक्षम था कि क्या एक शॉट सफल था, एनएसवीए परीक्षण सेट का उपयोग करके एफ1 स्कोर के साथ मूल्यांकन किया गया था।

рдЙрдЪреНрдЪ рдЧрддрд┐ рдЦреЗрд▓ рд╡реАрдбрд┐рдпреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдкрд░рд┐рдгрд╛рдоред рдПрдл-16 рдиреЗ рдЙрдЪреНрдЪ-рдлреНрд░реЗрдо-рджрд░ рд╕рдВрд░реЗрдЦрдХ рдХреЗ рд╕рд╛рде рд╕рднреА рдЦреЗрд▓ рдХрд╛рд░реНрдпреЛрдВ рдореЗрдВ рдЕрдкрдиреЗ рдирд┐рдореНрди-рдлреНрд░реЗрдо-рджрд░ рд╕рдордХрдХреНрд╖ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛ред рдЬреАрдкреАрдЯреА-4рдУ рдФрд░ рдЬреЗрдорд┐рдиреА-1.5-рдкреНрд░реЛ рдХрд╛ рднреА рдПрдирдмреАрдП рдФрд░ рд╕реЛрдХр╣Ар╕Бр╕нр╕грдиреЗрдЯ рдХреНрдпреВрдП рдкрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рдЬрд╣рд╛рдВ рдбреЛрдореЗрди-рд╡рд┐рд╢рд┐рд╖реНрдЯ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдЬреНрдЮрд╛рди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рдереАред

उच्च गति खेल वीडियो विश्लेषण के परिणाम। एफ-16 ने उच्च-फ्रेम-दर संरेखक के साथ सभी खेल कार्यों में अपने निम्न-फ्रेम-दर समकक्ष की तुलना में बेहतर प्रदर्शन किया। जीपीटी-4ओ और जेमिनी-1.5-प्रो का भी एनबीए और सोकเกอรनेट क्यूए पर मूल्यांकन किया गया था, जहां डोमेन-विशिष्ट प्रशिक्षण ज्ञान की आवश्यकता नहीं थी।

फाइनगिम पर, जो जिमनास्टिक क्रिया मान्यता को मापता है, एफ-16 ने पिछले 7बी एसओटीए मॉडल की तुलना में 13.8% बेहतर प्रदर्शन किया, जो बारीकी से गति समझ में सुधार को प्रदर्शित करता है।

डाइविंग48 ने जटिल आंदोलन अनुक्रमों की पहचान की आवश्यकता की, जैसे कि टेकऑफ, सोमरसॉल्ट, ट्विस्ट, और फ्लाइट चरण, और एफ-16 ने इन संक्रमणों को पहचानने में उच्च सटीकता दिखाई।

सोकเกอรनेट पर, मॉडल ने 10-सेकंड क्लिप विश्लेषण किया, गेंद पास की पहचान की, और परिणामों ने मौजूदा 7बी मॉडल की तुलना में सुधार दिखाया, जो यह दर्शाता है कि उच्च फ्रेम दर छोटे और तेजी से आंदोलनों को ट्रैक करने में योगदान करता है।

एनबीए डेटासेट में, एफ-16 की शॉट परिणाम निर्धारित करने की क्षमता जीपीटी-4ओ और जेमिनी-1.5-प्रो जैसे बड़े व्यावसायिक मॉडल की सटीकता के करीब थी, जो यह सुझाव देता है कि उच्च फ्रेम दर इसकी गतिशील गति प्रसंस्करण क्षमता को बढ़ाता है।

वैरिएबल फ्रेम-रेट

एफ-16 का परीक्षण विभिन्न फ्रेम दर पर किया गया था ताकि इसकी अनुकूलन क्षमता को मापा जा सके। इसके बजाय पुनः प्रशिक्षण करने के, यह कम फ्रेम दर पर फ्रेम को दोहराकर संरेखक के इनपुट संरचना से मेल खाता है। यह दृष्टिकोण न केवल फ्रेम हटाने (जो सटीकता हानि का कारण बन सकता है) की तुलना में अधिक प्रदर्शन बनाए रखता है।

परिणामों से पता चलता है कि फ्रेम दर को कम करने से गति मान्यता पर कुछ प्रभाव पड़ा, लेकिन एफ-16 अभी भी निम्न-फ्रेम-दर मॉडल को पार करता है और कम फ्रेम दर पर भी मजबूत परिणाम बनाए रखता है।

рдмрд╛рдПрдВ, рд╡реАрдбрд┐рдпреЛ-рдПрдордПрдордИ рд▓реЙрдиреНрдЧ рд╕реЗрдЯ рдХреЗ 300 рд╡реАрдбрд┐рдпреЛ рдкрд░ рд╡рд┐рднрд┐рдиреНрди рдкрд░реАрдХреНрд╖рдг рдПрдлрдкреАрдПрд╕ рдФрд░ рдЕрдиреБрдХреНрд░рдо рд▓рдВрдмрд╛рдИ рдкрд░ рдПрдл-16 рдореЙрдбреНрдпреВрд▓ рдХреЗ рджреМрд░рд╛рди рд╕рдордп рдХреА рдЦрдкрддред рджрд╛рдПрдВ, рд╡рд┐рднрд┐рдиреНрди рдПрдлрдкреАрдПрд╕ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдФрд░ рдкрд░реАрдХреНрд╖рдг рдХрд┐рдП рдЧрдП рдореЙрдбрд▓ рдХреЗ рдмреАрдЪ рд╡реАрдбрд┐рдпреЛ-рдПрдордПрдордИ рдкреНрд░рджрд░реНрд╢рди рдХреА рддреБрд▓рдирд╛ред рдареЛрд╕ рд░реЗрдЦрд╛ рдореЙрдбрд▓ рдХреЛ рдПрдХ рд╣реА рдПрдлрдкреАрдПрд╕ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдФрд░ рдкрд░реАрдХреНрд╖рдг рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рдбреИрд╢реНрдб рд▓рд╛рдЗрди 16 рдПрдлрдкреАрдПрд╕ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓ рдХреЛ рдХрдо рдлреНрд░реЗрдо рджрд░ рдкрд░ рдкрд░реАрдХреНрд╖рдг рдХрд┐рдП рдЬрд╛рдиреЗ рдкрд░ рдкреНрд░рджрд░реНрд╢рди рдХреЛ рджрд░реНрд╢рд╛рддреА рд╣реИред

बाएं, वीडियो-एमएमई लॉन्ग सेट के 300 वीडियो पर विभिन्न परीक्षण एफपीएस और अनुक्रम लंबाई पर एफ-16 मॉड्यूल के दौरान समय की खपत। दाएं, विभिन्न एफपीएस पर प्रशिक्षित और परीक्षण किए गए मॉडल के बीच वीडियो-एमएमई प्रदर्शन की तुलना। ठोस रेखा मॉडल को एक ही एफपीएस पर प्रशिक्षित और परीक्षण किया जाता है, जबकि डैश्ड लाइन 16 एफपीएस पर प्रशिक्षित मॉडल को कम फ्रेम दर पर परीक्षण किए जाने पर प्रदर्शन को दर्शाती है।

एफ-16 के उच्च-फ्रेम-दर प्रसंस्करण ने कम्प्यूटेशनल आवश्यकताओं को बढ़ाया, हालांकि इसके संरेखक ने लागत को प्रबंधित करने में मदद की bằng विशिष्ट दृश्य टोकन को संपीड़ित करके।

मॉडल ने प्रति वीडियो कम-फ्रेम-दर मॉडल की तुलना में अधिक फ्लॉप्स की आवश्यकता थी, लेकिन यह प्रति टोकन भी बेहतर सटीकता हासिल करता था, जो यह सुझाव देता है कि इसके फ्रेम चयन और टोकन संपीड़न रणनीतियों ने जोड़े गए कम्प्यूटेशन को ऑफसेट करने में मदद की।

निष्कर्ष

यह इस शोध के इस विशिष्ट तंतु के महत्व और चुनौतियों को अतिरंजित करना मुश्किल है—विशेष रूप से इस वर्ष, जो जनरेटिव वीडियो के लिए ब्रेकथ्रू वर्ष होने वाला है, जो वीडियो डेटासेट क्यूरेशन और कैप्शनिंग गुणवत्ता की कमियों को तेजी से राहत दिला रहा है।

यह भी जोर दिया जाना चाहिए कि वीडियो के आंतरिक विवरण के सटीक विवरण प्राप्त करने में शामिल चुनौतियों को विशेष रूप से वीआरएएम, समय, या डिस्क स्थान पर फेंककर हल नहीं किया जा सकता है। घटनाओं को वीडियो के लंबे और उबाऊ ट्रैक से अलग करने और निकालने की विधि, जैसे कि गोल्फ या स्नूकर वीडियो क्लिप के साथ, सेमेंटिक दृष्टिकोण और तंत्र की पुनःसंरचना से लाभान्वित होगी जो वर्तमान में एसओटीए समाधानों को प्रभावित करती है—क्योंकि इनमें से कुछ सीमाएं अधिक संसाधन-गरीब समय में स्थापित की गई थीं।

(गौरतलब है कि 16fps, 2025 के लिए एक बहुत ही कम फ्रेम दर प्रतीत हो सकती है, यह भी ध्यान देने योग्य है कि यह वीडियो क्लिप की मूल प्रशिक्षण गति भी है जिसका उपयोग वैन 2.1 जनरेटिव वीडियो मॉडल में किया जाता है, और यह गति जिस पर यह सबसे कम समस्याओं के साथ काम करता है। आशा है कि शोध दृश्य ‘मानक एंट्रोपी’ के संभावित मुद्दे पर नजर रखेगा; कभी-कभी पुराने प्रतिबंध भविष्य के मानकों को बनाए रखने में मदद कर सकते हैं)

 

पहली बार बुधवार, 19 मार्च, 2025 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai