कृत्रिम बुद्धिमत्ता

CameraCtrl: टेक्स्ट-टू-वीडियो जेनरेशन के लिए कैमरा नियंत्रण को सक्षम करना

Published May 23, 2024

Updated April 4, 2026

Kunal Kejriwal

हाल के फ्रेमवर्क जो टेक्स्ट से वीडियो या टी2वी जेनरेशन का प्रयास करते हैं, अपनी प्रशिक्षण प्रक्रिया में स्थिरता जोड़ने के लिए डिफ्यूजन मॉडल का लाभ उठाते हैं, और वीडियो डिफ्यूजन मॉडल, टेक्स्ट से वीडियो जेनरेशन फ्रेमवर्क के पioneers में से एक, एक 2डी इमेज डिफ्यूजन आर्किटेक्चर को वीडियो डेटा को समायोजित करने के प्रयास में विस्तारित करता है, और मॉडल को वीडियो और इमेज दोनों से संयुक्त रूप से प्रशिक्षित करता है। इसी के आधार पर, और एक शक्तिशाली प्री-ट्रेन्ड इमेज जेनरेटर जैसे स्टेबल डिफ्यूजन को लागू करने के लिए, हाल के कार्यों में अपने 2डी आर्किटेक्चर को प्री-ट्रेन्ड 2डी लेयर्स के बीच समय लेयर्स को इंटरलीविंग करके बढ़ाया जाता है, और नए मॉडल को अनदेखे बड़े डेटासेट पर फाइनट्यून किया जाता है। अपने दृष्टिकोण के बावजूद, टेक्स्ट से वीडियो डिफ्यूजन मॉडल एक महत्वपूर्ण चुनौती का सामना करते हैं क्योंकि केवल टेक्स्ट विवरण का उपयोग करके वीडियो नमूने को उत्पन्न करने में अक्सर टेक्स्ट से वीडियो मॉडल में जेनरेशन पर कमजोर नियंत्रण का परिणाम होता है। इस सीमा को दूर करने के लिए, कुछ मॉडल बढ़ी हुई मार्गदर्शन प्रदान करते हैं जबकि अन्य सटीक संकेतों के साथ काम करते हैं ताकि सिंथेसाइज्ड वीडियो में दृश्य या मानव गतिविधियों को सटीक रूप से नियंत्रित किया जा सके। दूसरी ओर, टेक्स्ट से वीडियो फ्रेमवर्क की कुछ संख्या है जो वीडियो जेनरेटर के लिए नियंत्रण संकेत के रूप में छवियों को अपनाती है, जिसके परिणामस्वरूप या तो सटीक समय संबंध मॉडलिंग होती है या उच्च वीडियो गुणवत्ता होती है।

यह कहना सुरक्षित होगा कि नियंत्रणीयता छवि और वीडियो उत्पन्न करने वाले कार्यों में एक महत्वपूर्ण भूमिका निभाती है क्योंकि यह उपयोगकर्ताओं को वे सामग्री बनाने की अनुमति देती है जो वे चाहते हैं। हालांकि, मौजूदा फ्रेमवर्क अक्सर सिनेमैटिक भाषा के रूप में कैमरा पोज़ के सटीक नियंत्रण को नजरअंदाज कर देते हैं जो मॉडल को गहरे कथा सूक्ष्मताओं को बेहतर ढंग से व्यक्त करने की अनुमति देता है। वर्तमान नियंत्रणीयता सीमाओं को दूर करने के लिए, इस लेख में, हम CameraCtrl के बारे में बात करेंगे, एक नई अवधारणा जो टेक्स्ट से वीडियो मॉडल के लिए सटीक कैमरा पोज़ नियंत्रण को सक्षम करने का प्रयास करती है। कैमरा की ट्रेजेक्टори को सटीक रूप से पैरामीटर化 करने के बाद, मॉडल एक प्लग और प्ले कैमरा मॉड्यूल को एक टेक्स्ट से वीडियो मॉडल पर प्रशिक्षित करता है, और अन्य घटकों को छुआ नहीं जाता है। इसके अलावा, CameraCtrl मॉडल विभिन्न डेटासेट के प्रभाव पर एक व्यापक अध्ययन भी करता है, और सुझाव देता है कि समान उपस्थिति और विविध कैमरा वितरण वाले वीडियो मॉडल की समग्र नियंत्रणीयता और सामान्यीकरण क्षमताओं को बढ़ा सकते हैं। वास्तविक दुनिया के कार्यों पर CameraCtrl मॉडल के प्रदर्शन का विश्लेषण करने के लिए किए गए प्रयोग सटीक और डोमेन-आधारित कैमरा नियंत्रण प्राप्त करने में फ्रेमवर्क की कुशलता को इंगित करते हैं, जो कैमरा पोज़ और पाठ इनपुट से अनुकूलित और गतिशील वीडियो जेनरेशन के लिए आगे का मार्ग प्रशस्त करता है।

इस लेख का उद्देश्य CameraCtrl फ्रेमवर्क को गहराई से कवर करना है, और हम तंत्र, विधि, आर्किटेक्चर और इसकी राज्य-ऑफ-द-आर्ट फ्रेमवर्क के साथ तुलना का अन्वेषण करते हैं। तो आइए शुरू करें।

CameraCtrl : टी2वी जेनरेशन के लिए कैमरा नियंत्रण

हाल के वर्षों में, डिफ्यूजन मॉडल के विकास और उन्नति ने टेक्स्ट-निर्देशित वीडियो जेनरेशन को काफी हद तक आगे बढ़ाया है, और सामग्री डिज़ाइन कार्य प्रवाह को क्रांतिकारी बना दिया है। व्यावहारिक वीडियो जेनरेशन अनुप्रयोगों में नियंत्रणीयता एक महत्वपूर्ण भूमिका निभाती है क्योंकि यह उपयोगकर्ताओं को अपनी आवश्यकताओं और आवश्यकताओं के अनुसार उत्पन्न परिणामों को अनुकूलित करने की अनुमति देती है। उच्च नियंत्रणीयता के साथ, मॉडल वीडियो की वास्तविकता, गुणवत्ता और उपयोगिता को बढ़ा सकता है, और जबकि टेक्स्ट और इमेज इनपुट का उपयोग मॉडल द्वारा सामान्यतः नियंत्रणीयता को बढ़ाने के लिए किया जाता है, वे अक्सर गति और सामग्री पर सटीक नियंत्रण की कमी होती है। इस सीमा को दूर करने के लिए, कुछ फ्रेमवर्क ने पोज़ स्केलेटन, ऑप्टिकल फ्लो और अन्य मल्टी-मॉडल संकेतों जैसे नियंत्रण संकेतों का प्रस्ताव किया है ताकि वीडियो जेनरेशन के लिए अधिक सटीक नियंत्रण को सक्षम किया जा सके। एक और सीमा जिसका सामना मौजूदा फ्रेमवर्क करते हैं वह यह है कि वे वीडियो जेनरेशन में कैमरा बिंदुओं को उत्तेजित या समायोजित करने पर सटीक नियंत्रण की कमी है, क्योंकि कैमरा नियंत्रण की क्षमता न केवल उत्पन्न वीडियो की वास्तविकता को बढ़ाती है, बल्कि अनुकूलित दृष्टिकोणों की अनुमति देकर उपयोगकर्ता जुड़ाव को भी बढ़ाती है, जो गेम विकास, ऑगमेंटेड रियलिटी और वर्चुअल रियलिटी में एक आवश्यक सुविधा है। इसके अलावा, कैमरा आंदोलनों को कुशलता से प्रबंधित करने से रचनाकारों को पात्र संबंधों को उजागर करने, भावनाओं पर जोर देने और लक्ष्य दर्शकों के ध्यान को निर्देशित करने की अनुमति मिलती है, जो फिल्म और विज्ञापन उद्योगों में बहुत महत्वपूर्ण है।

इन सीमाओं को दूर करने और पार करने के लिए, CameraCtrl फ्रेमवर्क, एक सीखने योग्य और सटीक प्लग और प्ले कैमरा मॉड्यूल के साथ, वीडियो जेनरेशन के लिए कैमरा के दृष्टिकोण को नियंत्रित करने की क्षमता रखता है। हालांकि, एक मौजूदा टेक्स्ट से वीडियो मॉडल पाइपलाइन में एक अनुकूलित कैमरा एकीकृत करना एक कार्य है जो आसानी से कहा जा सकता है, CameraCtrl फ्रेमवर्क को मॉडल आर्किटेक्चर में कैमरा को प्रभावी ढंग से प्रस्तुत करने और इंजेक्ट करने के तरीकों की तलाश करने के लिए मजबूर करता है। इसी नोट पर, CameraCtrl फ्रेमवर्क कैमरा पैरामीटर के प्राथमिक रूप के रूप में प्लकर एम्बेडिंग को अपनाता है, और प्लकर एम्बेडिंग के लिए विकल्प का कारण कैमरा पोज़ जानकारी के ज्यामितीय विवरण को एन्कोड करने की उनकी क्षमता को श्रेय दिया जा सकता है। इसके अलावा, प्रशिक्षण के बाद मॉडल की सामान्यता और अनुप्रयोग को सुनिश्चित करने के लिए, मॉडल एक कैमरा नियंत्रण मॉडल पेश करता है जो केवल प्लकर एम्बेडिंग को इनपुट के रूप में स्वीकार करता है। कैमरा नियंत्रण मॉडल को प्रभावी ढंग से प्रशिक्षित करने के लिए, फ्रेमवर्क और इसके विकासकर्ता सिंथेटिक से वास्तविक डेटा तक विभिन्न प्रशिक्षण डेटा के प्रभाव का एक व्यापक अध्ययन करते हैं। प्रयोगात्मक परिणामों से पता चलता है कि मूल आधार मॉडल के समान उपस्थिति और विविध कैमरा वितरण वाले डेटा को लागू करने से नियंत्रणीयता और सामान्यीकरण के बीच सबसे अच्छा व्यापार होता है। CameraCtrl फ्रेमवर्क के विकासकर्ताओं ने मॉडल को AnimateDiff फ्रेमवर्क के ऊपर लागू किया है, जिससे वीडियो जेनरेशन में सटीक नियंत्रण को सक्षम किया जा सके, जो विभिन्न व्यक्तिगत वीडियो सृजन संदर्भों में इसकी बहुमुखी प्रतिभा और उपयोगिता को प्रदर्शित करता है।

AnimateDiff फ्रेमवर्क विभिन्न प्रकार के शॉट्स के लिए मॉडल के वजन प्राप्त करने के लिए LoRA फाइन-ट्यूनिंग दृष्टिकोण को अपनाता है। Direct-a-video फ्रेमवर्क वीडियो जेनरेशन प्रक्रिया के दौरान कैमरा की स्थिति को नियंत्रित करने के लिए एक कैमरा एम्बेडर लागू करने का प्रस्ताव करता है, लेकिन यह केवल तीन कैमरा पैरामीटर पर सशर्त है, जो कैमरा की नियंत्रण क्षमता को अधिक बुनियादी प्रकार तक सीमित करता है। दूसरी ओर, MotionCtrl जैसे फ्रेमवर्क एक मोशन कंट्रोलर डिज़ाइन करते हैं जो तीन से अधिक इनपुट पैरामीटर स्वीकार करता है और अधिक जटिल कैमरा पोज़ वाले वीडियो का उत्पादन कर सकता है। हालांकि, उत्पन्न वीडियो के हिस्सों को फाइन-ट्यून करने की आवश्यकता मॉडल की सामान्यता को बाधित करती है। इसके अलावा, कुछ फ्रेमवर्क छवि और पाठ जेनरेशन दोनों के लिए नियंत्रणीयता को बढ़ाने के लिए गहराई मानचित्र जैसे अतिरिक्त संरचनात्मक नियंत्रण संकेतों को एकीकृत करते हैं। आमतौर पर, मॉडल इन नियंत्रण संकेतों को एक अतिरिक्त एन्कोडर में खिलाता है, और फिर विभिन्न ऑपरेशनों का उपयोग करके जेनरेटर में संकेतों को इंजेक्ट करता है।

CameraCtrl: मॉडल आर्किटेक्चर

कैमरा एन्कोडर के लिए आर्किटेक्चर और प्रशिक्षण दृष्टिकोण को देखने से पहले, हमें विभिन्न कैमरा प्रतिनिधित्व को समझना आवश्यक है। आमतौर पर, कैमरा पोज़ से तात्पर्य अंतर्निहित और बाहरी पैरामीटर से होता है, और वीडियो जेनरेटर को कैमरा पोज़ पर सशर्त करने का एक सीधा विकल्प कैमरा पैरामीटर के कच्चे मानों को जेनरेटर में खिलाना है। हालांकि, ऐसा दृष्टिकोण लागू करने से सटीक कैमरा नियंत्रण में सुधार नहीं हो सकता है क्योंकि रोटेशन मैट्रिक्स को ऑर्थोगोनैलिटी द्वारा सीमित किया जाता है, अनुवाद वेक्टर की परिमाण में अक्सर असीमित होता है, जो सीखने की प्रक्रिया में एक मिलान का कारण बनता है जो नियंत्रण की स्थिरता को प्रभावित कर सकता है। दूसरा, कैमरा पैरामीटर का सीधे उपयोग करने से मॉडल के लिए इन मानों को छवि पिक्सेल के साथ संबंधित करना मुश्किल हो सकता है, जिससे दृश्य विवरण पर नियंत्रण में कमी आती है। इन सीमाओं से बचने के लिए, CameraCtrl फ्रेमवर्क कैमरा पोज़ के प्रतिनिधित्व के रूप में प्लकर एम्बेडिंग का चयन करता है क्योंकि प्लकर एम्बेडिंग प्रत्येक वीडियो फ्रेम के ज्यामितीय विवरण को एन्कोड करती है और कैमरा पोज़ जानकारी का एक अधिक विस्तृत विवरण प्रदान कर सकती है।

वीडियो जेनरेटर में कैमरा नियंत्रणीयता

जैसा कि मॉडल कैमरा की ट्रेजेक्टори को एक प्लकर एम्बेडिंग अनुक्रम में पैरामीटर化 करता है, अर्थात स्पेशियल मैप्स, मॉडल के पास कैमरा विशेषताओं को निकालने के लिए एक एन्कोडर मॉडल का उपयोग करने का विकल्प होता है, और फिर कैमरा विशेषताओं को वीडियो जेनरेटर में मिलाता है। टेक्स्ट से इमेज एडाप्टर के समान, CameraCtrl मॉडल विशेष रूप से वीडियो के लिए डिज़ाइन किए गए एक कैमरा एन्कोडर पेश करता है। कैमरा एन्कोडर में प्रत्येक कन्वोल्यूशनल ब्लॉक के बाद एक टेम्पोरल अटेंशन मॉडल शामिल है, जो इसे वीडियो क्लिप के माध्यम से कैमरा पोज़ के समय संबंधों को पकड़ने की अनुमति देता है। जैसा कि निम्नलिखित छवि में दिखाया गया है, कैमरा एन्कोडर केवल प्लकर एम्बेडिंग इनपुट स्वीकार करता है और मल्टी-स्केल विशेषताएं प्रदान करता है। मल्टी-स्केल कैमरा विशेषताओं को प्राप्त करने के बाद, CameraCtrl मॉडल इन विशेषताओं को टेक्स्ट से वीडियो मॉडल के यू-नेट आर्किटेक्चर में सMOOTHLY एकीकृत करने का लक्ष्य रखता है, और यह निर्धारित करता है कि कैमरा जानकारी को प्रभावी ढंग से शामिल करने के लिए कौन से लेयर्स का उपयोग किया जाना चाहिए। इसके अलावा, चूंकि अधिकांश मौजूदा फ्रेमवर्क एक यू-नेट जैसे आर्किटेक्चर को अपनाते हैं जिसमें समय और स्थान दोनों ध्यान लेयर्स शामिल हैं, CameraCtrl मॉडल कैमरा प्रतिनिधित्व को समय ध्यान ब्लॉक में इंजेक्ट करता है, जो समय ध्यान लेयर्स की क्षमता द्वारा समर्थित है जो समय संबंधों को पकड़ने के लिए, कैमरा ट्रेजेक्टори के साथ जुड़े समय और क्रमिक प्रकृति के साथ संरेखित करता है।

कैमरा वितरण सीखना

CameraCtrl फ्रेमवर्क के भीतर कैमरा एन्कोडर घटक को एक वीडियो जेनरेटर पर प्रशिक्षित करने के लिए एक बड़ी मात्रा में अच्छी तरह से लेबल और एनोटेटेड वीडियो की आवश्यकता होती है, जिसमें मॉडल संरचना से गति या एसएफएम दृष्टिकोण का उपयोग करके कैमरा ट्रेजेक्टори प्राप्त करने में सक्षम होता है। CameraCtrl फ्रेमवर्क डेटासेट का चयन करने का प्रयास करता है जो प्रशिक्षण डेटा के साथ मेल खाता है आधार टेक्स्ट से वीडियो मॉडल के करीब, और एक कैमरा पोज़ वितरण के रूप में व्यापक है। वर्चुअल इंजन का उपयोग करके उत्पन्न नमूनों वाले डेटासेट में विविध कैमरा वितरण होता है क्योंकि डेवलपर्स रेंडरिंग चरण के दौरान कैमरा पैरामीटर को नियंत्रित करने की लचीलापन रखते हैं, हालांकि यह वास्तविक दुनिया के नमूनों वाले डेटासेट की तुलना में एक वितरण अंतर से पीड़ित है। वास्तविक दुनिया के नमूनों वाले डेटासेट के साथ काम करने पर, कैमरा का वितरण आमतौर पर संकीर्ण होता है, और ऐसे मामलों में, फ्रेमवर्क को विभिन्न कैमरा ट्रेजेक्टори के बीच विविधता और व्यक्तिगत कैमरा ट्रेजेक्टори की जटिलता के बीच संतुलन खोजने की आवश्यकता होती है। व्यक्तिगत कैमरा ट्रेजेक्टори की जटिलता सुनिश्चित करती है कि मॉडल प्रशिक्षण प्रक्रिया के दौरान जटिल ट्रेजेक्टори को नियंत्रित करना सीखता है, जबकि विभिन्न कैमरा ट्रेजेक्टори के बीच विविधता सुनिश्चित करती है कि मॉडल कुछ निश्चित पैटर्न पर अधिक नहीं है। इसके अलावा, प्रशिक्षण प्रक्रिया की निगरानी के लिए, CameraCtrl फ्रेमवर्क कैमरा संरेखण मेट्रिक का प्रस्ताव करता है ताकि कैमरा की नियंत्रण गुणवत्ता को मापा जा सके और उत्पन्न नमूनों के कैमरा ट्रेजेक्टори और इनपुट कैमरा स्थितियों के बीच त्रुटि को मापा जा सके।

CameraCtrl : प्रयोग और परिणाम

CameraCtrl फ्रेमवर्क AnimateDiff मॉडल को अपने आधार टेक्स्ट से वीडियो मॉडल के रूप में लागू करता है और एक प्रमुख कारण यह है कि AnimateDiff मॉडल की प्रशिक्षण रणनीति इसके मोशन मॉड्यूल को टेक्स्ट से इमेज बेस मॉडल या टेक्स्ट से इमेज LoRAs के साथ एकीकृत करने की अनुमति देती है ताकि विभिन्न शैलियों और डोमेन में वीडियो जेनरेशन को समायोजित किया जा सके। मॉडल एडम ऑप्टिमाइज़र का उपयोग मॉडल को प्रशिक्षित करने के लिए करता है जिसमें 1e-4 की एक निरंतर सीखने की दर होती है। इसके अलावा, मूल टेक्स्ट से वीडियो मॉडल की वीडियो जेनरेशन क्षमताओं को नकारात्मक रूप से प्रभावित न करने के लिए, CameraCtrl फ्रेमवर्क FID या फ्रेचेट इन्सेप्शन दूरी मेट्रिक का उपयोग वीडियो की उपस्थिति गुणवत्ता का मूल्यांकन करने के लिए करता है और कैमरा मॉड्यूल को शामिल करने से पहले और बाद में उत्पन्न वीडियो की गुणवत्ता की तुलना करता है।

इसके प्रदर्शन का मूल्यांकन करने के लिए, CameraCtrl फ्रेमवर्क की तुलना दो मौजूदा कैमरा नियंत्रण फ्रेमवर्क, MotionCtrl और AnimateDiff के साथ की जाती है। हालांकि, चूंकि AnimateDiff फ्रेमवर्क केवल आठ बुनियादी कैमरा ट्रेजेक्टори का समर्थन करता है, CameraCtrl और AnimateDiff के बीच तुलना केवल तीन बुनियादी ट्रेजेक्टори तक सीमित है। दूसरी ओर, MotionCtrl के खिलाफ तुलना के लिए, फ्रेमवर्क मौजूदा डेटासेट से एक हजार से अधिक यादृच्छिक कैमरा ट्रेजेक्टори का चयन करता है, इन ट्रेजेक्टори का उपयोग करके वीडियो उत्पन्न करता है, और उन्हें TransErr और RotErr मेट्रिक्स का उपयोग करके मूल्यांकन करता है।

जैसा कि देखा जा सकता है, CameraCtrl फ्रेमवर्क AnimateDiff फ्रेमवर्क से बेहतर प्रदर्शन करता है और जटिल ट्रेजेक्टори मेट्रिक पर MotionCtrl फ्रेमवर्क के खिलाफ बेहतर परिणाम प्रदान करता है।

इसके अलावा, निम्नलिखित छवि कैमरा एन्कोडर आर्किटेक्चर के प्रभाव को उत्पन्न नमूनों की समग्र गुणवत्ता पर दिखाती है। पंक्ति a से पंक्ति d क्रमशः निम्नलिखित परिणामों का प्रतिनिधित्व करती हैं: ControlNet, ControlNet dengan समय ध्यान, T2I Adaptor, और T2I adaptor dengan समय ध्यान।

निम्नलिखित छवि में, पहले दो स्थानों पर SparseCtrl फ्रेमवर्क के आरजीबी एन्कोडर और CameraCtrl फ्रेमवर्क में उपयोग की जाने वाली विधि का संयोजन का उपयोग करके उत्पन्न वीडियो को प्रदर्शित किया गया है।

अंतिम विचार

इस लेख में, हमने CameraCtrl के बारे में बात की है, एक नई अवधारणा जो टेक्स्ट से वीडियो मॉडल के लिए सटीक कैमरा पोज़ नियंत्रण को सक्षम करने का प्रयास करती है। कैमरा की ट्रेजेक्टори को सटीक रूप से पैरामीटर化 करने के बाद, मॉडल एक प्लग और प्ले कैमरा मॉड्यूल को एक टेक्स्ट से वीडियो मॉडल पर प्रशिक्षित करता है, और अन्य घटकों को छुआ नहीं जाता है। इसके अलावा, CameraCtrl मॉडल विभिन्न डेटासेट के प्रभाव पर एक व्यापक अध्ययन भी करता है, और सुझाव देता है कि समान उपस्थिति और विविध कैमरा वितरण वाले वीडियो मॉडल की समग्र नियंत्रणीयता और सामान्यीकरण क्षमताओं को बढ़ा सकते हैं। वास्तविक दुनिया के कार्यों पर CameraCtrl मॉडल के प्रदर्शन का विश्लेषण करने के लिए किए गए प्रयोग सटीक और डोमेन-आधारित कैमरा नियंत्रण प्राप्त करने में फ्रेमवर्क की कुशलता को इंगित करते हैं, जो कैमरा पोज़ और पाठ इनपुट से अनुकूलित और गतिशील वीडियो जेनरेशन के लिए आगे का मार्ग प्रशस्त करता है।

Related Topics:CameraCtrl t2v models text to image text to video models text-to-video generator video diffusion

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।