Connect with us

AnimateLCM: рд╡реНрдпрдХреНрддрд┐рдЧрдд рдкреНрд░рд╕рд╛рд░ рдореЙрдбрд▓ рдХреЗ рдПрдирд┐рдореЗрд╢рди рдХреЛ рддреЗрдЬ рдХрд░рдирд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

AnimateLCM: рд╡реНрдпрдХреНрддрд┐рдЧрдд рдкреНрд░рд╕рд╛рд░ рдореЙрдбрд▓ рдХреЗ рдПрдирд┐рдореЗрд╢рди рдХреЛ рддреЗрдЬ рдХрд░рдирд╛

mm
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

पिछले कुछ वर्षों में, प्रसार मॉडल ने छवि और वीडियो जनरेशन कार्यों के लिए बड़ी सफलता और मान्यता प्राप्त की है। विशेष रूप से, वीडियो प्रसार मॉडल उच्च संगति और विश्वास्यता के साथ वीडियो उत्पन्न करने की उनकी क्षमता के कारण महत्वपूर्ण ध्यान आकर्षित कर रहे हैं। ये मॉडल अपनी वास्तुकला में एक पुनरावृत्ति शोर-मुक्त प्रक्रिया का उपयोग करके उच्च-गुणवत्ता वाले वीडियो उत्पन्न करते हैं जो धीरे-धीरे उच्च-आयामी गाउसियन शोर को वास्तविक डेटा में परिवर्तित करती है।

स्टेबल प्रसार एक छवि उत्पादक कार्यों के लिए सबसे प्रतिनिधि मॉडलों में से एक है, जो वास्तविक छवि और नमूना-लेटेंट विशेषताओं के बीच मैप करने के लिए एक वैरिएशनल ऑटोएनकोडर (VAE) पर निर्भर करता है। यह मॉडल को उत्पादक लागत को कम करने की अनुमति देता है, जबकि इसकी वास्तुकला में क्रॉस-ध्यान तंत्र पाठ-शर्त छवि उत्पादन को सुविधाजनक बनाता है। हाल ही में, स्टेबल प्रसार ढांचे ने अधिक नवाचार और प्रभावी छवि या वीडियो उत्पादन को प्राप्त करने के लिए कई प्लग-एंड-प्ले एडाप्टर्स के लिए आधार बनाया है। हालांकि, अधिकांश वीडियो प्रसार मॉडलों द्वारा नियोजित पुनरावृत्ति उत्पादक प्रक्रिया छवि उत्पादन प्रक्रिया को समय लेने वाला और तुलनात्मक रूप से महंगा बनाती है, जो इसके अनुप्रयोगों को सीमित करती है।

इस लेख में, हम AnimateLCM के बारे में बात करेंगे, जो एक व्यक्तिगत प्रसार मॉडल है जो न्यूनतम चरणों और गणना लागत के साथ उच्च-विश्वास्यता वाले वीडियो उत्पन्न करने के लिए डिज़ाइन किया गया है। AnimateLCM ढांचा संगति मॉडल से प्रेरित है, जो पूर्व-प्रशिक्षित छवि प्रसार मॉडलों को दRAIN करके न्यूनतम चरणों के साथ नमूना तेज करता है। इसके अलावा, संगति मॉडल का सफल विस्तार, लेटेंट संगति मॉडल (LCM), शर्त छवि उत्पादन को सुविधाजनक बनाता है। सीधे कच्चे वीडियो डेटासेट पर संगति सीखने के बजाय, AnimateLCM ढांचा एक डिकपल्ड संगति सीखने की रणनीति का प्रस्ताव करता है। यह रणनीति गति उत्पादन पूर्वाग्रह और छवि उत्पादन पूर्वाग्रह के संक्षेपण को डिकपल करती है, जिससे मॉडल को उत्पन्न सामग्री की दृश्य गुणवत्ता में सुधार करने और एक ही समय में प्रशिक्षण की दक्षता में सुधार करने की अनुमति मिलती है। इसके अलावा, AnimateLCM मॉडल अपने संक्षिप्त वीडियो संगति मॉडल में से एक से स्क्रैच से एडाप्टर्स को प्रशिक्षित करने या मौजूदा एडाप्टर्स को अनुकूलित करने का प्रस्ताव करता है। यह स्थिर प्रसार मॉडलों के परिवार में प्लग-एंड-प्ले एडाप्टर्स को विभिन्न कार्यों को प्राप्त करने के लिए संयोजन करने की अनुमति देता है बिना नमूना गति को नुकसान पहुंचाए।

इस लेख का उद्देश्य AnimateLCM ढांचे को गहराई से कवर करना है। हम ढांचे की तंत्र, विधि, और वास्तुकला का अन्वेषण करते हैं, साथ ही साथ राज्य-कला छवि और वीडियो उत्पादन ढांचों के साथ इसकी तुलना करते हैं। तो आइए शुरू करें।

AnimateLCM : व्यक्तिगत प्रसार मॉडल का एनिमेशन

प्रसार मॉडल छवि उत्पादन और वीडियो उत्पादन कार्यों के लिए एक लोकप्रिय ढांचा बन गए हैं क्योंकि वे उत्पादक कार्यों पर कुशल और सक्षम हैं। अधिकांश प्रसार मॉडल एक पुनरावृत्ति शोर-मुक्त प्रक्रिया पर निर्भर करते हैं जो धीरे-धीरे उच्च-आयामी गाउसियन शोर को वास्तविक डेटा में परिवर्तित करती है। हालांकि यह विधि कुछ संतोषजनक परिणाम प्रदान करती है, पुनरावृत्ति प्रक्रिया और पुनरावृत्ति नमूनों की संख्या उत्पादन प्रक्रिया को धीमा करती है और प्रसार मॉडलों के लिए गणना आवश्यकताओं को बढ़ाती है, जो अन्य उत्पादक ढांचों जैसे GAN या जनरेटिव एडवर्सेरियल नेटवर्क्स की तुलना में बहुत धीमी है।

पिछले कुछ वर्षों में, संगति मॉडल या सीएम को पुनरावृत्ति प्रसार मॉडल के विकल्प के रूप में प्रस्तावित किया गया है ताकि उत्पादन प्रक्रिया को तेज किया जा सके जबकि गणना आवश्यकताओं को स्थिर रखा जा सके। संगति मॉडल का मुख्य आकर्षण यह है कि वे संगति मैपिंग सीखते हैं जो पूर्व-प्रशिक्षित प्रसार मॉडलों द्वारा पेश की गई पथों की स्व-संगति को बनाए रखते हैं। संगति मॉडल की सीखने की प्रक्रिया उन्हें न्यूनतम चरणों के साथ उच्च-गुणवत्ता वाली छवियों को उत्पन्न करने की अनुमति देती है, और साथ ही साथ गणना-गहन पुनरावृत्तियों की आवश्यकता को समाप्त करती है। इसके अलावा, स्टेबल प्रसार ढांचे पर निर्मित लेटेंट संगति मॉडल (LCM) को मौजूदा एडाप्टर्स के साथ वेब उपयोगकर्ता इंटरफ़ेस में एकीकृत किया जा सकता है ताकि वास्तविक समय में छवि से छवि अनुवाद जैसी अतिरिक्त कार्यक्षमता प्राप्त की जा सके।

इसके अलावा, AnimateLCM ढांचा एक उच्च-विश्वास्यता वाले वीडियो उत्पादन ढांचा है जो वीडियो उत्पादन कार्यों के लिए न्यूनतम चरणों की आवश्यकता होती है। लेटेंट संगति मॉडल के अनुसरण में, AnimateLCM ढांचा उल्टा प्रसार प्रक्रिया को सीएफजी या वर्गीकरण-मुक्त मार्गदर्शन बढ़ाया संभावना प्रवाह को हल करने के रूप में मानता है, और मॉडल को सीधे लेटेंट स्थान में ऐसी संभावना प्रवाहों के समाधान की भविष्यवाणी करने के लिए प्रशिक्षित करता है। हालांकि, सीधे कच्चे वीडियो डेटासेट पर संगति सीखने के बजाय, जो उच्च प्रशिक्षण और गणना संसाधनों की आवश्यकता होती है और अक्सर खराब गुणवत्ता का परिणाम होता है, AnimateLCM ढांचा एक डिकपल्ड संगति सीखने की रणनीति का प्रस्ताव करता है।

AnimateLCM ढांचा पहले छवि आधार प्रसार मॉडल को छवि संगति मॉडल में अनुकूलित करने के लिए संगति संक्षेपण करता है, और फिर 2डी कन्वोल्यूशनल कर्नेल्स को प्सेव्डो-3डी कर्नेल्स में बढ़ाता है ताकि 3डी विशेषताओं को समायोजित किया जा सके। अंततः, AnimateLCM ढांचा वीडियो संगति मॉडल प्राप्त करने के लिए वीडियो डेटा पर संगति संक्षेपण करता है। इसके अलावा, प्रसार प्रक्रिया के परिणामस्वरूप संभावित विशेषता भ्रष्टाचार को कम करने के लिए, AnimateLCM ढांचा एक प्रारंभिकरण रणनीति का प्रस्ताव करता है। चूंकि AnimateLCM ढांचा स्टेबल प्रसार ढांचे पर निर्मित है, यह अपने संक्षिप्त वीडियो संगति मॉडल के स्थानीयकृत वजनों को सार्वजनिक रूप से उपलब्ध व्यक्तिगत छवि प्रसार वजनों से बदलकर नवाचारी उत्पादन परिणाम प्राप्त कर सकता है।

इसके अलावा, विशिष्ट एडाप्टर्स को स्क्रैच से प्रशिक्षित करने या सार्वजनिक रूप से उपलब्ध एडाप्टर्स को बेहतर ढंग से अनुकूलित करने के लिए, AnimateLCM ढांचा एक प्रभावी त्वरण रणनीति का प्रस्ताव करता है जो विशिष्ट शिक्षक मॉडलों को प्रशिक्षित करने की आवश्यकता नहीं है।

AnimateLCM ढांचे के योगदान को इस प्रकार सारांशित किया जा सकता है: प्रस्तावित AnimateLCM ढांचा उच्च-गुणवत्ता, तेज, और उच्च-विश्वास्यता वाले वीडियो उत्पादन को प्राप्त करने का उद्देश्य रखता है, और इसे प्राप्त करने के लिए, AnimateLCM ढांचा एक डिकपल्ड संक्षेपण रणनीति का प्रस्ताव करता है जो गति और छवि उत्पादन पूर्वाग्रह को डिकपल करता है, जिससे बेहतर उत्पादन गुणवत्ता और बढ़ी हुई प्रशिक्षण दक्षता होती है।

InstantID : विधि और वास्तुकला

इसके मूल में, InstantID ढांचा प्रसार मॉडल और नमूना गति रणनीतियों से भारी प्रेरणा लेता है। प्रसार मॉडल, जिन्हें स्कोर-आधारित उत्पादक मॉडल भी कहा जाता है, ने उल्लेखनीय छवि उत्पादक क्षमता प्रदर्शित की है। स्कोर दिशा के मार्गदर्शन में, प्रसार मॉडल द्वारा लागू की गई पुनरावृत्ति नमूना रणनीति धीरे-धीरे शोर-दूषित डेटा को शोर-मुक्त करती है। प्रसार मॉडलों की दक्षता एक प्रमुख कारण है कि वे अधिकांश वीडियो प्रसार मॉडलों द्वारा नियोजित किए जाते हैं जो जोड़े गए समय परतों पर प्रशिक्षित होते हैं। दूसरी ओर, नमूना गति और नमूना त्वरण रणनीतियां प्रसार मॉडलों में धीमी उत्पादन गति को संबोधित करने में मदद करती हैं। संक्षेपण-आधारित त्वरण विधि मूल प्रसार वजनों को एक परिष्कृत वास्तुकला या शेड्यूलर के साथ समायोजित करती है ताकि उत्पादन गति में सुधार हो सके।

आगे बढ़ते हुए, InstantID ढांचा स्टेबल प्रसार मॉडल पर निर्मित है जो InstantID को प्रासंगिक धारणाओं को लागू करने की अनुमति देता है। मॉडल विचारों को एक निरंतर-समय वैरिएंस-संरक्षित एसडीई के रूप में मानता है। इसके अलावा, स्टेबल प्रसार मॉडल डीडीपीएम या डीनोइसिंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल का एक विस्तार है, जिसमें प्रशिक्षण डेटा बिंदु को धीरे-धीरे एक डिस्क्रीट मार्कोव श्रृंखला द्वारा परेशान किया जाता है जो एक परेशानी कर्नेल की अनुमति देता है जो शोर-दूषित डेटा के वितरण को विभिन्न समय चरणों पर वितरित करता है।

न्यूनतम चरणों के साथ उच्च-विश्वास्यता वाले वीडियो उत्पादन को प्राप्त करने के लिए, AnimateLCM ढांचा स्टेबल प्रसार-आधारित वीडियो मॉडलों को स्व-संगति गुण का पालन करने के लिए तैयार करता है। AnimateLCM ढांचे की समग्र प्रशिक्षण संरचना में एक डिकपल्ड संगति सीखने की रणनीति शामिल है जो शिक्षक-मुक्त अनुकूलन और प्रभावी संगति सीखने की अनुमति देती है।

प्रसार मॉडल से संगति मॉडल में संक्रमण

AnimateLCM ढांचा लेटेंट संगति मॉडल (LCM) के डिज़ाइन के अनुसार स्टेबल प्रसार मॉडल (DM) को संगति मॉडल (CM) में अपना अनुकूलन प्रस्तुत करता है। यह ध्यान देने योग्य है कि स्टेबल प्रसार मॉडल आमतौर पर नमूनों में जोड़े गए शोर की भविष्यवाणी करते हैं, वे आवश्यक सिग्मा-प्रसार मॉडल हैं। यह संगति मॉडलों के विपरीत है जो सीधे पीएफ-ओडीई पथ के समाधान की भविष्यवाणी करने का लक्ष्य रखते हैं। इसके अलावा, स्टेबल प्रसार मॉडल में कertain पैरामीटर के साथ, यह आवश्यक है कि मॉडल उच्च-गुणवत्ता वाली छवियों को उत्पन्न करने के लिए एक वर्गीकरण-मुक्त मार्गदर्शन रणनीति को नियोजित करे। AnimateLCM ढांचा, हालांकि, एक वर्गीकरण-मुक्त मार्गदर्शन बढ़ाया ओडीई सॉल्वर का उपयोग करता है जो एक ही पथ में संबंधित जोड़े को नमूना करने के लिए उपयोग किया जाता है, जिससे बेहतर दक्षता और बढ़ी हुई गुणवत्ता प्राप्त होती है। इसके अलावा, मौजूदा मॉडलों ने संकेत दिया है कि उत्पादन गुणवत्ता और प्रशिक्षण दक्षता पथ में विचारों की संख्या से भारी रूप से प्रभावित होती है। विचारों की संख्या में कमी प्रशिक्षण प्रक्रिया को तेज करती है, जबकि विचारों की संख्या में वृद्धि प्रशिक्षण के दौरान कम पूर्वाग्रह का परिणाम होती है।

डिकपल्ड संगति सीखना

संगति संक्षेपण की प्रक्रिया के लिए, विकासकर्ताओं ने देखा है कि प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा संगति मॉडल के अंतिम उत्पादन की गुणवत्ता पर बहुत प्रभाव डालते हैं। हालांकि, वर्तमान में उपलब्ध डेटासेट के साथ एक प्रमुख समस्या यह है कि वे अक्सर वॉटरमार्क डेटा, या कम गुणवत्ता वाले डेटा, या अत्यधिक संक्षिप्त या अस्पष्ट कैप्शन वाले डेटा होते हैं। इसके अलावा, बड़े-रिज़ॉल्यूशन वीडियो पर सीधे मॉडल को प्रशिक्षित करना गणना-गहन और समय लेने वाला है, जो अधिकांश शोधकर्ताओं के लिए एक व्यावहारिक विकल्प नहीं है।

फ़िल्टर्ड उच्च-गुणवत्ता वाले डेटासेट की उपलब्धता को देखते हुए, AnimateLCM ढांचा गति पूर्वाग्रह और छवि उत्पादन पूर्वाग्रह के संक्षेपण को डिकपल करने का प्रस्ताव करता है। विशेष रूप से, AnimateLCM ढांचा पहले स्टेबल प्रसार मॉडल को छवि संगति मॉडल में अनुकूलित करने के लिए संक्षेपण करता है, और फिर 2डी कन्वोल्यूशनल कर्नेल्स को प्सेव्डो-3डी कर्नेल्स में बढ़ाता है ताकि 3डी विशेषताओं को समायोजित किया जा सके। अंततः, AnimateLCM ढांचा वीडियो संगति मॉडल प्राप्त करने के लिए वीडियो डेटा पर संक्षेपण करता है। इसके अलावा, प्रसार प्रक्रिया के परिणामस्वरूप संभावित विशेषता भ्रष्टाचार को कम करने के लिए, AnimateLCM ढांचा एक प्रारंभिकरण रणनीति का प्रस्ताव करता है।

इसके अलावा, विशिष्ट एडाप्टर्स को स्क्रैच से प्रशिक्षित करने या सार्वजनिक रूप से उपलब्ध एडाप्टर्स को बेहतर ढंग से अनुकूलित करने के लिए, AnimateLCM ढांचा एक प्रभावी त्वरण रणनीति का प्रस्ताव करता है जो विशिष्ट शिक्षक मॉडलों को प्रशिक्षित करने की आवश्यकता नहीं है।

शिक्षक-मुक्त अनुकूलन

स्टेबल प्रसार मॉडल और प्लग-एंड-प्ले एडाप्टर्स अक्सर एक साथ काम करते हैं। हालांकि, यह देखा गया है कि हालांकि प्लग-एंड-प्ले एडाप्टर्स कुछ हद तक काम करते हैं, वे विवरण में नियंत्रण खो देते हैं जब अधिकांश एडाप्टर्स छवि प्रसार मॉडलों के साथ प्रशिक्षित होते हैं। इस समस्या को दूर करने के लिए, AnimateLCM ढांचा शिक्षक-मुक्त अनुकूलन का विकल्प चुनता है, जो एक सरल लेकिन प्रभावी रणनीति है जो मौजूदा एडाप्टर्स को बेहतर संगतता के लिए अनुकूलित करती है या उन्हें स्क्रैच से प्रशिक्षित करती है। यह दृष्टिकोण AnimateLCM ढांचे को न्यूनतम चरणों के साथ नियंत्रित वीडियो उत्पादन और छवि-से-वीडियो उत्पादन को प्राप्त करने की अनुमति देता है बिना शिक्षक मॉडलों की आवश्यकता के।

AnimateLCM: प्रयोग और परिणाम

AnimateLCM ढांचा स्टेबल प्रसार v1-5 को आधार मॉडल के रूप में उपयोग करता है और प्रशिक्षण के उद्देश्यों के लिए डीडीआईएम ओडीई सॉल्वर लागू करता है। ढांचा स्टेबल प्रसार v1-5 को खुले स्रोत मोशन वजन के साथ शिक्षक वीडियो प्रसार मॉडल के रूप में उपयोग करता है, और प्रयोग वेबविड2एम डेटासेट पर किए जाते हैं बिना किसी अतिरिक्त या बढ़ाए गए डेटा के। इसके अलावा, ढांचा बीएलआईपी-कैप्शन्ड संक्षिप्त पाठ प्रॉम्प्ट के साथ टिक्टोक डेटासेट का उपयोग नियंत्रित वीडियो उत्पादन के लिए करता है।

गुणात्मक परिणाम

निम्नलिखित चित्र AnimateLCM ढांचे द्वारा लागू की गई चार-चरण उत्पादन विधि के परिणामों को प्रदर्शित करता है, जिसमें पाठ-से-वीडियो उत्पादन, छवि-से-वीडियो उत्पादन, और नियंत्रित वीडियो उत्पादन शामिल हैं।

जैसा कि देखा जा सकता है, प्रत्येक के परिणाम संतोषजनक हैं और AnimateLCM ढांचे की क्षमता को प्रदर्शित करते हैं कि यह संगति गुण का पालन करता है, भले ही विभिन्न अनुमान चरण हों।

मात्रात्मक परिणाम

निम्नलिखित चित्र AnimateLCM ढांचे के मात्रात्मक परिणामों और राज्य-कला डीडीआईएम और डीपीएम++ विधियों के साथ इसकी तुलना को प्रदर्शित करता है।

जैसा कि देखा जा सकता है, AnimateLCM ढांचा मौजूदा विधियों को एक महत्वपूर्ण अंतर से पार करता है, विशेष रूप से 1 से 4 चरणों के निम्न-चरण शासन में। इसके अलावा, AnimateLCM मेट्रिक्स इस तुलना में प्रदर्शित किए गए हैं जो सीएफजी या वर्गीकरण-मुक्त मार्गदर्शन का उपयोग किए बिना मूल्यांकित किए गए हैं, जो ढांचे को लगभग 50% अनुमान समय और अनुमान शिखर स्मृति लागत को बचाने की अनुमति देता है। इसके अलावा, अपने प्रदर्शन को और अधिक मान्य करने के लिए, AnimateLCM ढांचे के भीतर स्थानीयकृत वजनों को एक सार्वजनिक रूप से उपलब्ध व्यक्तिगत वास्तविक मॉडल से बदल दिया जाता है जो विश्वास्यता और विविधता के बीच एक अच्छा संतुलन बनाता है, जो इसके प्रदर्शन को और बढ़ाता है।

अंतिम विचार

इस लेख में, हमने AnimateLCM के बारे में बात की है, जो एक व्यक्तिगत प्रसार मॉडल है जो न्यूनतम चरणों और गणना लागत के साथ उच्च-विश्वास्यता वाले वीडियो उत्पन्न करने के लिए डिज़ाइन किया गया है। AnimateLCM ढांचा संगति मॉडल से प्रेरित है, जो पूर्व-प्रशिक्षित छवि प्रसार मॉडलों को दRAIN करके न्यूनतम चरणों के साथ नमूना तेज करता है, और संगति मॉडल का सफल विस्तार, लेटेंट संगति मॉडल (LCM), जो शर्त छवि उत्पादन को सुविधाजनक बनाता है। सीधे कच्चे वीडियो डेटासेट पर संगति सीखने के बजाय, AnimateLCM ढांचा एक डिकपल्ड संगति सीखने की रणनीति का प्रस्ताव करता है जो गति और छवि उत्पादन पूर्वाग्रह को डिकपल करता है, जिससे बेहतर उत्पादन गुणवत्ता और बढ़ी हुई प्रशिक्षण दक्षता प्राप्त होती है।

рдПрдХ рдЗрдВрдЬреАрдирд┐рдпрд░ рдкреЗрд╢реЗ рд╕реЗ, рдПрдХ рд▓реЗрдЦрдХ рджрд┐рд▓ рд╕реЗред рдХреБрдирд╛рд▓ рдПрдХ рддрдХрдиреАрдХреА рд▓реЗрдЦрдХ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдЖрдИ рдФрд░ рдПрдордПрд▓ рдХреЗ рдкреНрд░рддрд┐ рдЧрд╣рд░рд╛ рдкреНрдпрд╛рд░ рдФрд░ рд╕рдордЭ рд╣реИ, рдЬреЛ рдЕрдкрдиреЗ рдЖрдХрд░реНрд╖рдХ рдФрд░ рдЬрд╛рдирдХрд╛рд░реАрдкреВрд░реНрдг рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЗрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВред