कृत्रिम बुद्धिमत्ता

AnimateLCM: व्यक्तिगत प्रसार मॉडल के एनिमेशन को तेज करना

Published March 19, 2024

Updated April 4, 2026

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

पिछले कुछ वर्षों में, प्रसार मॉडल ने छवि और वीडियो जनरेशन कार्यों के लिए बड़ी सफलता और मान्यता प्राप्त की है। विशेष रूप से, वीडियो प्रसार मॉडल उच्च संगति और विश्वास्यता के साथ वीडियो उत्पन्न करने की उनकी क्षमता के कारण महत्वपूर्ण ध्यान आकर्षित कर रहे हैं। ये मॉडल अपनी वास्तुकला में एक पुनरावृत्ति शोर-मुक्त प्रक्रिया का उपयोग करके उच्च-गुणवत्ता वाले वीडियो उत्पन्न करते हैं जो धीरे-धीरे उच्च-आयामी गाउसियन शोर को वास्तविक डेटा में परिवर्तित करती है।

स्टेबल प्रसार एक छवि उत्पादक कार्यों के लिए सबसे प्रतिनिधि मॉडलों में से एक है, जो वास्तविक छवि और नमूना-लेटेंट विशेषताओं के बीच मैप करने के लिए एक वैरिएशनल ऑटोएनकोडर (VAE) पर निर्भर करता है। यह मॉडल को उत्पादक लागत को कम करने की अनुमति देता है, जबकि इसकी वास्तुकला में क्रॉस-ध्यान तंत्र पाठ-शर्त छवि उत्पादन को सुविधाजनक बनाता है। हाल ही में, स्टेबल प्रसार ढांचे ने अधिक नवाचार और प्रभावी छवि या वीडियो उत्पादन को प्राप्त करने के लिए कई प्लग-एंड-प्ले एडाप्टर्स के लिए आधार बनाया है। हालांकि, अधिकांश वीडियो प्रसार मॉडलों द्वारा नियोजित पुनरावृत्ति उत्पादक प्रक्रिया छवि उत्पादन प्रक्रिया को समय लेने वाला और तुलनात्मक रूप से महंगा बनाती है, जो इसके अनुप्रयोगों को सीमित करती है।

इस लेख में, हम AnimateLCM के बारे में बात करेंगे, जो एक व्यक्तिगत प्रसार मॉडल है जो न्यूनतम चरणों और गणना लागत के साथ उच्च-विश्वास्यता वाले वीडियो उत्पन्न करने के लिए डिज़ाइन किया गया है। AnimateLCM ढांचा संगति मॉडल से प्रेरित है, जो पूर्व-प्रशिक्षित छवि प्रसार मॉडलों को दRAIN करके न्यूनतम चरणों के साथ नमूना तेज करता है। इसके अलावा, संगति मॉडल का सफल विस्तार, लेटेंट संगति मॉडल (LCM), शर्त छवि उत्पादन को सुविधाजनक बनाता है। सीधे कच्चे वीडियो डेटासेट पर संगति सीखने के बजाय, AnimateLCM ढांचा एक डिकपल्ड संगति सीखने की रणनीति का प्रस्ताव करता है। यह रणनीति गति उत्पादन पूर्वाग्रह और छवि उत्पादन पूर्वाग्रह के संक्षेपण को डिकपल करती है, जिससे मॉडल को उत्पन्न सामग्री की दृश्य गुणवत्ता में सुधार करने और एक ही समय में प्रशिक्षण की दक्षता में सुधार करने की अनुमति मिलती है। इसके अलावा, AnimateLCM मॉडल अपने संक्षिप्त वीडियो संगति मॉडल में से एक से स्क्रैच से एडाप्टर्स को प्रशिक्षित करने या मौजूदा एडाप्टर्स को अनुकूलित करने का प्रस्ताव करता है। यह स्थिर प्रसार मॉडलों के परिवार में प्लग-एंड-प्ले एडाप्टर्स को विभिन्न कार्यों को प्राप्त करने के लिए संयोजन करने की अनुमति देता है बिना नमूना गति को नुकसान पहुंचाए।

इस लेख का उद्देश्य AnimateLCM ढांचे को गहराई से कवर करना है। हम ढांचे की तंत्र, विधि, और वास्तुकला का अन्वेषण करते हैं, साथ ही साथ राज्य-कला छवि और वीडियो उत्पादन ढांचों के साथ इसकी तुलना करते हैं। तो आइए शुरू करें।

AnimateLCM : व्यक्तिगत प्रसार मॉडल का एनिमेशन

प्रसार मॉडल छवि उत्पादन और वीडियो उत्पादन कार्यों के लिए एक लोकप्रिय ढांचा बन गए हैं क्योंकि वे उत्पादक कार्यों पर कुशल और सक्षम हैं। अधिकांश प्रसार मॉडल एक पुनरावृत्ति शोर-मुक्त प्रक्रिया पर निर्भर करते हैं जो धीरे-धीरे उच्च-आयामी गाउसियन शोर को वास्तविक डेटा में परिवर्तित करती है। हालांकि यह विधि कुछ संतोषजनक परिणाम प्रदान करती है, पुनरावृत्ति प्रक्रिया और पुनरावृत्ति नमूनों की संख्या उत्पादन प्रक्रिया को धीमा करती है और प्रसार मॉडलों के लिए गणना आवश्यकताओं को बढ़ाती है, जो अन्य उत्पादक ढांचों जैसे GAN या जनरेटिव एडवर्सेरियल नेटवर्क्स की तुलना में बहुत धीमी है।

पिछले कुछ वर्षों में, संगति मॉडल या सीएम को पुनरावृत्ति प्रसार मॉडल के विकल्प के रूप में प्रस्तावित किया गया है ताकि उत्पादन प्रक्रिया को तेज किया जा सके जबकि गणना आवश्यकताओं को स्थिर रखा जा सके। संगति मॉडल का मुख्य आकर्षण यह है कि वे संगति मैपिंग सीखते हैं जो पूर्व-प्रशिक्षित प्रसार मॉडलों द्वारा पेश की गई पथों की स्व-संगति को बनाए रखते हैं। संगति मॉडल की सीखने की प्रक्रिया उन्हें न्यूनतम चरणों के साथ उच्च-गुणवत्ता वाली छवियों को उत्पन्न करने की अनुमति देती है, और साथ ही साथ गणना-गहन पुनरावृत्तियों की आवश्यकता को समाप्त करती है। इसके अलावा, स्टेबल प्रसार ढांचे पर निर्मित लेटेंट संगति मॉडल (LCM) को मौजूदा एडाप्टर्स के साथ वेब उपयोगकर्ता इंटरफ़ेस में एकीकृत किया जा सकता है ताकि वास्तविक समय में छवि से छवि अनुवाद जैसी अतिरिक्त कार्यक्षमता प्राप्त की जा सके।

इसके अलावा, AnimateLCM ढांचा एक उच्च-विश्वास्यता वाले वीडियो उत्पादन ढांचा है जो वीडियो उत्पादन कार्यों के लिए न्यूनतम चरणों की आवश्यकता होती है। लेटेंट संगति मॉडल के अनुसरण में, AnimateLCM ढांचा उल्टा प्रसार प्रक्रिया को सीएफजी या वर्गीकरण-मुक्त मार्गदर्शन बढ़ाया संभावना प्रवाह को हल करने के रूप में मानता है, और मॉडल को सीधे लेटेंट स्थान में ऐसी संभावना प्रवाहों के समाधान की भविष्यवाणी करने के लिए प्रशिक्षित करता है। हालांकि, सीधे कच्चे वीडियो डेटासेट पर संगति सीखने के बजाय, जो उच्च प्रशिक्षण और गणना संसाधनों की आवश्यकता होती है और अक्सर खराब गुणवत्ता का परिणाम होता है, AnimateLCM ढांचा एक डिकपल्ड संगति सीखने की रणनीति का प्रस्ताव करता है।

AnimateLCM ढांचा पहले छवि आधार प्रसार मॉडल को छवि संगति मॉडल में अनुकूलित करने के लिए संगति संक्षेपण करता है, और फिर 2डी कन्वोल्यूशनल कर्नेल्स को प्सेव्डो-3डी कर्नेल्स में बढ़ाता है ताकि 3डी विशेषताओं को समायोजित किया जा सके। अंततः, AnimateLCM ढांचा वीडियो संगति मॉडल प्राप्त करने के लिए वीडियो डेटा पर संगति संक्षेपण करता है। इसके अलावा, प्रसार प्रक्रिया के परिणामस्वरूप संभावित विशेषता भ्रष्टाचार को कम करने के लिए, AnimateLCM ढांचा एक प्रारंभिकरण रणनीति का प्रस्ताव करता है। चूंकि AnimateLCM ढांचा स्टेबल प्रसार ढांचे पर निर्मित है, यह अपने संक्षिप्त वीडियो संगति मॉडल के स्थानीयकृत वजनों को सार्वजनिक रूप से उपलब्ध व्यक्तिगत छवि प्रसार वजनों से बदलकर नवाचारी उत्पादन परिणाम प्राप्त कर सकता है।

इसके अलावा, विशिष्ट एडाप्टर्स को स्क्रैच से प्रशिक्षित करने या सार्वजनिक रूप से उपलब्ध एडाप्टर्स को बेहतर ढंग से अनुकूलित करने के लिए, AnimateLCM ढांचा एक प्रभावी त्वरण रणनीति का प्रस्ताव करता है जो विशिष्ट शिक्षक मॉडलों को प्रशिक्षित करने की आवश्यकता नहीं है।

AnimateLCM ढांचे के योगदान को इस प्रकार सारांशित किया जा सकता है: प्रस्तावित AnimateLCM ढांचा उच्च-गुणवत्ता, तेज, और उच्च-विश्वास्यता वाले वीडियो उत्पादन को प्राप्त करने का उद्देश्य रखता है, और इसे प्राप्त करने के लिए, AnimateLCM ढांचा एक डिकपल्ड संक्षेपण रणनीति का प्रस्ताव करता है जो गति और छवि उत्पादन पूर्वाग्रह को डिकपल करता है, जिससे बेहतर उत्पादन गुणवत्ता और बढ़ी हुई प्रशिक्षण दक्षता होती है।

InstantID : विधि और वास्तुकला

इसके मूल में, InstantID ढांचा प्रसार मॉडल और नमूना गति रणनीतियों से भारी प्रेरणा लेता है। प्रसार मॉडल, जिन्हें स्कोर-आधारित उत्पादक मॉडल भी कहा जाता है, ने उल्लेखनीय छवि उत्पादक क्षमता प्रदर्शित की है। स्कोर दिशा के मार्गदर्शन में, प्रसार मॉडल द्वारा लागू की गई पुनरावृत्ति नमूना रणनीति धीरे-धीरे शोर-दूषित डेटा को शोर-मुक्त करती है। प्रसार मॉडलों की दक्षता एक प्रमुख कारण है कि वे अधिकांश वीडियो प्रसार मॉडलों द्वारा नियोजित किए जाते हैं जो जोड़े गए समय परतों पर प्रशिक्षित होते हैं। दूसरी ओर, नमूना गति और नमूना त्वरण रणनीतियां प्रसार मॉडलों में धीमी उत्पादन गति को संबोधित करने में मदद करती हैं। संक्षेपण-आधारित त्वरण विधि मूल प्रसार वजनों को एक परिष्कृत वास्तुकला या शेड्यूलर के साथ समायोजित करती है ताकि उत्पादन गति में सुधार हो सके।

आगे बढ़ते हुए, InstantID ढांचा स्टेबल प्रसार मॉडल पर निर्मित है जो InstantID को प्रासंगिक धारणाओं को लागू करने की अनुमति देता है। मॉडल विचारों को एक निरंतर-समय वैरिएंस-संरक्षित एसडीई के रूप में मानता है। इसके अलावा, स्टेबल प्रसार मॉडल डीडीपीएम या डीनोइसिंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल का एक विस्तार है, जिसमें प्रशिक्षण डेटा बिंदु को धीरे-धीरे एक डिस्क्रीट मार्कोव श्रृंखला द्वारा परेशान किया जाता है जो एक परेशानी कर्नेल की अनुमति देता है जो शोर-दूषित डेटा के वितरण को विभिन्न समय चरणों पर वितरित करता है।

न्यूनतम चरणों के साथ उच्च-विश्वास्यता वाले वीडियो उत्पादन को प्राप्त करने के लिए, AnimateLCM ढांचा स्टेबल प्रसार-आधारित वीडियो मॉडलों को स्व-संगति गुण का पालन करने के लिए तैयार करता है। AnimateLCM ढांचे की समग्र प्रशिक्षण संरचना में एक डिकपल्ड संगति सीखने की रणनीति शामिल है जो शिक्षक-मुक्त अनुकूलन और प्रभावी संगति सीखने की अनुमति देती है।

प्रसार मॉडल से संगति मॉडल में संक्रमण

AnimateLCM ढांचा लेटेंट संगति मॉडल (LCM) के डिज़ाइन के अनुसार स्टेबल प्रसार मॉडल (DM) को संगति मॉडल (CM) में अपना अनुकूलन प्रस्तुत करता है। यह ध्यान देने योग्य है कि स्टेबल प्रसार मॉडल आमतौर पर नमूनों में जोड़े गए शोर की भविष्यवाणी करते हैं, वे आवश्यक सिग्मा-प्रसार मॉडल हैं। यह संगति मॉडलों के विपरीत है जो सीधे पीएफ-ओडीई पथ के समाधान की भविष्यवाणी करने का लक्ष्य रखते हैं। इसके अलावा, स्टेबल प्रसार मॉडल में कertain पैरामीटर के साथ, यह आवश्यक है कि मॉडल उच्च-गुणवत्ता वाली छवियों को उत्पन्न करने के लिए एक वर्गीकरण-मुक्त मार्गदर्शन रणनीति को नियोजित करे। AnimateLCM ढांचा, हालांकि, एक वर्गीकरण-मुक्त मार्गदर्शन बढ़ाया ओडीई सॉल्वर का उपयोग करता है जो एक ही पथ में संबंधित जोड़े को नमूना करने के लिए उपयोग किया जाता है, जिससे बेहतर दक्षता और बढ़ी हुई गुणवत्ता प्राप्त होती है। इसके अलावा, मौजूदा मॉडलों ने संकेत दिया है कि उत्पादन गुणवत्ता और प्रशिक्षण दक्षता पथ में विचारों की संख्या से भारी रूप से प्रभावित होती है। विचारों की संख्या में कमी प्रशिक्षण प्रक्रिया को तेज करती है, जबकि विचारों की संख्या में वृद्धि प्रशिक्षण के दौरान कम पूर्वाग्रह का परिणाम होती है।

डिकपल्ड संगति सीखना

संगति संक्षेपण की प्रक्रिया के लिए, विकासकर्ताओं ने देखा है कि प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा संगति मॉडल के अंतिम उत्पादन की गुणवत्ता पर बहुत प्रभाव डालते हैं। हालांकि, वर्तमान में उपलब्ध डेटासेट के साथ एक प्रमुख समस्या यह है कि वे अक्सर वॉटरमार्क डेटा, या कम गुणवत्ता वाले डेटा, या अत्यधिक संक्षिप्त या अस्पष्ट कैप्शन वाले डेटा होते हैं। इसके अलावा, बड़े-रिज़ॉल्यूशन वीडियो पर सीधे मॉडल को प्रशिक्षित करना गणना-गहन और समय लेने वाला है, जो अधिकांश शोधकर्ताओं के लिए एक व्यावहारिक विकल्प नहीं है।

फ़िल्टर्ड उच्च-गुणवत्ता वाले डेटासेट की उपलब्धता को देखते हुए, AnimateLCM ढांचा गति पूर्वाग्रह और छवि उत्पादन पूर्वाग्रह के संक्षेपण को डिकपल करने का प्रस्ताव करता है। विशेष रूप से, AnimateLCM ढांचा पहले स्टेबल प्रसार मॉडल को छवि संगति मॉडल में अनुकूलित करने के लिए संक्षेपण करता है, और फिर 2डी कन्वोल्यूशनल कर्नेल्स को प्सेव्डो-3डी कर्नेल्स में बढ़ाता है ताकि 3डी विशेषताओं को समायोजित किया जा सके। अंततः, AnimateLCM ढांचा वीडियो संगति मॉडल प्राप्त करने के लिए वीडियो डेटा पर संक्षेपण करता है। इसके अलावा, प्रसार प्रक्रिया के परिणामस्वरूप संभावित विशेषता भ्रष्टाचार को कम करने के लिए, AnimateLCM ढांचा एक प्रारंभिकरण रणनीति का प्रस्ताव करता है।

शिक्षक-मुक्त अनुकूलन

स्टेबल प्रसार मॉडल और प्लग-एंड-प्ले एडाप्टर्स अक्सर एक साथ काम करते हैं। हालांकि, यह देखा गया है कि हालांकि प्लग-एंड-प्ले एडाप्टर्स कुछ हद तक काम करते हैं, वे विवरण में नियंत्रण खो देते हैं जब अधिकांश एडाप्टर्स छवि प्रसार मॉडलों के साथ प्रशिक्षित होते हैं। इस समस्या को दूर करने के लिए, AnimateLCM ढांचा शिक्षक-मुक्त अनुकूलन का विकल्प चुनता है, जो एक सरल लेकिन प्रभावी रणनीति है जो मौजूदा एडाप्टर्स को बेहतर संगतता के लिए अनुकूलित करती है या उन्हें स्क्रैच से प्रशिक्षित करती है। यह दृष्टिकोण AnimateLCM ढांचे को न्यूनतम चरणों के साथ नियंत्रित वीडियो उत्पादन और छवि-से-वीडियो उत्पादन को प्राप्त करने की अनुमति देता है बिना शिक्षक मॉडलों की आवश्यकता के।

AnimateLCM: प्रयोग और परिणाम

AnimateLCM ढांचा स्टेबल प्रसार v1-5 को आधार मॉडल के रूप में उपयोग करता है और प्रशिक्षण के उद्देश्यों के लिए डीडीआईएम ओडीई सॉल्वर लागू करता है। ढांचा स्टेबल प्रसार v1-5 को खुले स्रोत मोशन वजन के साथ शिक्षक वीडियो प्रसार मॉडल के रूप में उपयोग करता है, और प्रयोग वेबविड2एम डेटासेट पर किए जाते हैं बिना किसी अतिरिक्त या बढ़ाए गए डेटा के। इसके अलावा, ढांचा बीएलआईपी-कैप्शन्ड संक्षिप्त पाठ प्रॉम्प्ट के साथ टिक्टोक डेटासेट का उपयोग नियंत्रित वीडियो उत्पादन के लिए करता है।

गुणात्मक परिणाम

निम्नलिखित चित्र AnimateLCM ढांचे द्वारा लागू की गई चार-चरण उत्पादन विधि के परिणामों को प्रदर्शित करता है, जिसमें पाठ-से-वीडियो उत्पादन, छवि-से-वीडियो उत्पादन, और नियंत्रित वीडियो उत्पादन शामिल हैं।

जैसा कि देखा जा सकता है, प्रत्येक के परिणाम संतोषजनक हैं और AnimateLCM ढांचे की क्षमता को प्रदर्शित करते हैं कि यह संगति गुण का पालन करता है, भले ही विभिन्न अनुमान चरण हों।

मात्रात्मक परिणाम

निम्नलिखित चित्र AnimateLCM ढांचे के मात्रात्मक परिणामों और राज्य-कला डीडीआईएम और डीपीएम++ विधियों के साथ इसकी तुलना को प्रदर्शित करता है।

जैसा कि देखा जा सकता है, AnimateLCM ढांचा मौजूदा विधियों को एक महत्वपूर्ण अंतर से पार करता है, विशेष रूप से 1 से 4 चरणों के निम्न-चरण शासन में। इसके अलावा, AnimateLCM मेट्रिक्स इस तुलना में प्रदर्शित किए गए हैं जो सीएफजी या वर्गीकरण-मुक्त मार्गदर्शन का उपयोग किए बिना मूल्यांकित किए गए हैं, जो ढांचे को लगभग 50% अनुमान समय और अनुमान शिखर स्मृति लागत को बचाने की अनुमति देता है। इसके अलावा, अपने प्रदर्शन को और अधिक मान्य करने के लिए, AnimateLCM ढांचे के भीतर स्थानीयकृत वजनों को एक सार्वजनिक रूप से उपलब्ध व्यक्तिगत वास्तविक मॉडल से बदल दिया जाता है जो विश्वास्यता और विविधता के बीच एक अच्छा संतुलन बनाता है, जो इसके प्रदर्शन को और बढ़ाता है।

अंतिम विचार

इस लेख में, हमने AnimateLCM के बारे में बात की है, जो एक व्यक्तिगत प्रसार मॉडल है जो न्यूनतम चरणों और गणना लागत के साथ उच्च-विश्वास्यता वाले वीडियो उत्पन्न करने के लिए डिज़ाइन किया गया है। AnimateLCM ढांचा संगति मॉडल से प्रेरित है, जो पूर्व-प्रशिक्षित छवि प्रसार मॉडलों को दRAIN करके न्यूनतम चरणों के साथ नमूना तेज करता है, और संगति मॉडल का सफल विस्तार, लेटेंट संगति मॉडल (LCM), जो शर्त छवि उत्पादन को सुविधाजनक बनाता है। सीधे कच्चे वीडियो डेटासेट पर संगति सीखने के बजाय, AnimateLCM ढांचा एक डिकपल्ड संगति सीखने की रणनीति का प्रस्ताव करता है जो गति और छवि उत्पादन पूर्वाग्रह को डिकपल करता है, जिससे बेहतर उत्पादन गुणवत्ता और बढ़ी हुई प्रशिक्षण दक्षता प्राप्त होती है।

Related Topics:AnimateLCM diffusion models InstantID

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।