कृत्रिम बुद्धिमत्ता

एक नया सिस्टम जो स्थिर डिफ्यूजन वीडियो पात्रों के लिए समय-समय पर संगत है

Published September 25, 2024

Updated April 27, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

अलीबाबा ग्रुप की एक नई पहल स्थिर डिफ्यूजन-आधारित फाउंडेशन मॉडल से पूर्ण-शरीर मानव अवतार बनाने के लिए मैंने जो देखा है उसमें से एक सबसे अच्छा तरीका प्रदान करती है।

इसे MIMO (MIMicking with Object Interactions) नाम दिया गया है, यह सिस्टम लोकप्रिय प्रौद्योगिकियों और मॉड्यूल की एक श्रृंखला का उपयोग करता है, जिसमें सीजीआई-आधारित मानव मॉडल और AnimateDiff शामिल हैं, ताकि वीडियो में समय-समय पर संगत पात्र प्रतिस्थापन या उपयोगकर्ता-निर्धारित कंकाल मुद्रा के साथ पात्र को चलाने की अनुमति मिल सके।

यहाँ हम एकल छवि स्रोत से अंतर्पोलेटेड पात्रों को देखते हैं, और एक पूर्वनिर्धारित गति द्वारा संचालित:

[नीचे वीडियो चलाने के लिए क्लिक करें]

[वीडियो चौड़ाई=”2160″ ऊंचाई=”588″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/driving-3d-pose-site.mp4″][/वीडियो]

एकल स्रोत छवियों से, तीन विविध पात्र एक 3D मुद्रा क्रम (दूर बाएं) का उपयोग करके MIMO सिस्टम द्वारा संचालित होते हैं। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें। स्रोत: https://menyifang.github.io/projects/MIMO/index.html

जेनरेट किए गए पात्र, जो वीडियो के फ्रेम और विविध अन्य तरीकों से भी सोर्स किए जा सकते हैं, वास्तविक दुनिया की फुटेज में एकीकृत किए जा सकते हैं।

MIMO एक नई प्रणाली प्रदान करता है जो तीन विविध एन्कोडिंग पैदा करता है, प्रत्येक के लिए पात्र, दृश्य, और ऑक्लूजन (अर्थात, मैटिंग, जब कोई वस्तु या व्यक्ति पात्र के सामने से गुजरता है)। ये एन्कोडिंग्स अनुमान समय पर एकीकृत होते हैं।

[नीचे वीडियो चलाने के लिए क्लिक करें]

[वीडियो चौड़ाई=”1000″ ऊंचाई=”500″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/MIMO-SITE-EXAMPLES-AE.mp4″][/वीडियो]

MIMO मूल पात्रों को फोटोरियलिस्टिक या स्टाइलाइज्ड पात्रों से बदल सकता है जो लक्ष्य वीडियो से गति का पालन करते हैं। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें।

सिस्टम स्थिर डिफ्यूजन V1.5 मॉडल पर प्रशिक्षित किया गया है, शोधकर्ताओं द्वारा क्यूरेटेड एक कस्टम डेटासेट का उपयोग करके, और वास्तविक दुनिया और सिम्युलेटेड वीडियो के समान रूप से बना है।

डिफ्यूजन-आधारित वीडियो का बड़ा बगबियर समय-समय पर स्थिरता है, जहां वीडियो की सामग्री या तो फ्लिकर करती है या ऐसे तरीके से ‘विकसित’ होती है जो संगत पात्र प्रतिनिधित्व के लिए वांछित नहीं है।

MIMO, इसके बजाय, एक एकल छवि का उपयोग एक संगत मार्गदर्शन के लिए करता है, जो अंतर्वेशीय SMPL सीजीआई मॉडल द्वारा निर्देशित और सीमित किया जा सकता है।

चूंकि स्रोत संदर्भ संगत है, और आधार मॉडल जिस पर सिस्टम प्रशिक्षित किया गया है पर्याप्त प्रतिनिधि गति उदाहरणों के साथ बढ़ाया गया है, सिस्टम की समय-समय पर संगत आउटपुट की क्षमता सामान्य मानक से ऊपर है डिफ्यूजन-आधारित अवतार के लिए।

[नीचे वीडियो चलाने के लिए क्लिक करें]

[वीडियो चौड़ाई=”800″ ऊंचाई=”400″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/More-Mimo-examples-AE.mp4″][/वीडियो]

MIMO पात्रों के और उदाहरण। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें।

यह अधिक सामान्य होता जा रहा है कि एकल छवियों का उपयोग प्रभावी तंत्रिका प्रतिनिधित्व के लिए स्रोत के रूप में किया जाता है, या तो स्वयं या एक बहुमodal तरीके से, पाठ प्रॉम्प्ट के साथ संयुक्त। उदाहरण के लिए, लोकप्रिय LivePortrait फेसियल-ट्रांसफर सिस्टम भी एकल फेस छवियों से अत्यधिक प्लॉसिबल डीपफेक्ड चेहरे उत्पन्न कर सकता है।

शोधकर्ताओं का मानना है कि MIMO सिस्टम में उपयोग किए गए सिद्धांतों को अन्य और नए प्रकार के जेनरेटिव सिस्टम और फ्रेमवर्क में विस्तारित किया जा सकता है।

नई पेपर नया पेपर शीर्षक है MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, और यह अलीबाबा ग्रुप के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के चार शोधकर्ताओं से आता है। इस काम में एक वीडियो-लेडन प्रोजेक्ट पेज और एक साथी यूट्यूब वीडियो है, जो इस लेख के अंत में एम्बेडेड है।

विधि

MIMO स्वचालित और अनुपयोगी पृथक्करण प्राप्त करता है, जिसमें तीन स्थानीय घटकों का उल्लेख किया गया है, एक अंत-टू-एंड आर्किटेक्चर (अर्थात, सभी उप-प्रक्रियाएं सिस्टम में एकीकृत हैं, और उपयोगकर्ता को केवल इनपुट सामग्री प्रदान करने की आवश्यकता है) में।

[कैप्शन id=”attachment_206431″ align=”alignnone” width=”933″] MIMO के लिए संकल्पनात्मक योजना। स्रोत: https://arxiv.org/pdf/2409.16160 MIMO के लिए संकल्पनात्मक योजना। स्रोत: https://arxiv.org/pdf/2409.16160[/कैप्शन]

स्रोत वीडियो में वस्तुओं को 2D से 3D में अनुवादित किया जाता है, शुरू में Depth Anything मोनोकुलर गहराई अनुमानित का उपयोग करके। किसी भी फ्रेम में मानव तत्व Tune-A-Video परियोजना से अनुकूलित विधियों का उपयोग करके निकाला जाता है।

इन विशेषताओं को फिर वीडियो-आधारित वॉल्यूमेट्रिक सुविधाओं में अनुवादित किया जाता है फेसबुक रिसर्च के Segment Anything 2 आर्किटेक्चर के माध्यम से।

दृश्य परत स्वयं अन्य दो परतों में पता लगाए गए वस्तुओं को हटाकर प्राप्त की जाती है, जो प्रभावी रूप से एक रोटोस्कोप-शैली का मास्क स्वचालित रूप से प्रदान करती है।

गति के लिए, मानव तत्व के लिए निकाले गए लेटेंट कोड का एक सेट डिफ़ॉल्ट मानव सीजीआई-आधारित SMPL मॉडल से जुड़ा हुआ है, जिसकी गति मानव सामग्री के लिए संदर्भ प्रदान करती है।

मानव सामग्री के लिए एक 2D फीचर मैप एक दिफरेंशियल रैस्टराइज़र द्वारा प्राप्त किया जाता है, जो एक 2020 की पहल से NVIDIA से व्युत्पन्न है। प्राप्त 3D डेटा को SMPL से NVIDIA विधि द्वारा प्राप्त 2D डेटा के साथ संयुक्त करना, ‘न्यूरल व्यक्ति’ के लिए लेटेंट कोड एक ठोस संबंध रखते हैं।

इस बिंदु पर, यह आवश्यक है कि एक संदर्भ स्थापित किया जाए जो SMPL का उपयोग करने वाली आर्किटेक्चर में आवश्यक है – एक मानक मुद्रा। यह व्यापक रूप से Da Vinci के ‘विट्रुवियन मैन’ के समान है, जो एक शून्य-मुद्रा टेम्पलेट का प्रतिनिधित्व करता है जो सामग्री स्वीकार कर सकता है और फिर विकृत हो सकता है, जो प्रभावी रूप से टेक्सचर-मैप्ड सामग्री के साथ आता है।

इन विकृतियों, या ‘सामान्य से विचलन’, मानव गति का प्रतिनिधित्व करते हैं, जबकि SMPL मॉडल मानव पहचान के लिए लेटेंट कोड को संरक्षित करता है जो निकाला गया है, और इस प्रकार परिणामी अवतार को मुद्रा और टेक्सचर के संदर्भ में सही ढंग से प्रस्तुत करता है।

[कैप्शन id=”attachment_206432″ align=”alignnone” width=”391″] SMPL आकृति में एक मानक मुद्रा का उदाहरण। स्रोत: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264 SMPL आकृति में एक मानक मुद्रा का उदाहरण। स्रोत: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264[/कैप्शन]

entanglement (प्रशिक्षित डेटा की जितनी हद तक लचीला हो सकता है जब आप इसे अपने प्रशिक्षित सीमाओं और संबंधों से परे बढ़ाते हैं) के मुद्दे के संबंध में, लेखकों का कहना है*:

‘पोज्ड वीडियो फ्रेम से गतिशील मानव प्रतिनिधित्व सीखने के लिए एक आदर्श समाधान मोनोकुलर वीडियो से और पोज्ड स्पेस से कैनोनिकल स्पेस में परिवर्तित करना है। ‘

‘कुशलता को ध्यान में रखते हुए, हम एक सरलीकृत विधि का उपयोग करते हैं जो सीधे पोज्ड मानव छवि को मानक ए-मुद्रा में कैनोनिकल परिणाम में परिवर्तित करता है। सिंथेटिक कैनोनिकल उपस्थिति छवि को आईडी एनकोडर में फीड किया जाता है ताकि पहचान [कोड] प्राप्त की जा सके।

‘यह सरल डिज़ाइन पहचान और गति विशेषताओं का पूर्ण विच्छेदन सक्षम बनाता है। Animate Anyone के बाद, आईडी एनकोडर में एक CLIP छवि एनकोडर और एक रेफरेंस-नेट आर्किटेक्चर शामिल है ताकि वैश्विक और स्थानीय विशेषता के लिए एम्बेड किया जा सके।

दृश्य और ऑक्लूजन के लिए, एक साझा और निश्चित वेरिएशनल ऑटोएनकोडर (VAE – इस मामले में एक 2013 प्रकाशन से व्युत्पन्न) का उपयोग किया जाता है ताकि दृश्य और ऑक्लूजन तत्वों को लेटेंट स्पेस में एम्बेड किया जा सके। असंगतताओं को इनपेंटिंग विधि द्वारा संभाला जाता है 2023 ProPainter परियोजना से।

एक बार जब यह इस तरह से असेंबल और रेटच किया जाता है, तो वीडियो में पृष्ठभूमि और कोई भी ऑक्लूडिंग वस्तुएं चलती मानव अवतार के लिए एक मैटे प्रदान करेंगी।

इन विभाजित विशेषताओं को फिर एक U-Net बैकबोन में फीड किया जाता है जो स्थिर डिफ्यूजन V1.5 आर्किटेक्चर पर आधारित है। पूर्ण दृश्य कोड मेजबान प्रणाली के मूल लेटेंट शोर के साथ संकेतित है। मानव घटक को स्व-ध्यान और क्रॉस-ध्यान परतों के माध्यम से एकीकृत किया जाता है, क्रमशः।

फिर, शोर-मुक्त परिणाम VAE डिकोडर के माध्यम से आउटपुट होता है।

डेटा और परीक्षण

प्रशिक्षण के लिए, शोधकर्ताओं ने HUD-7K नामक मानव वीडियो डेटासेट बनाया, जिसमें 5,000 वास्तविक पात्र वीडियो और En3D सिस्टम द्वारा बनाए गए 2,000 सिंथेटिक एनिमेशन शामिल थे। वास्तविक वीडियो में कोई एनोटेशन की आवश्यकता नहीं थी, MIMO की आर्किटेक्चर में फिगर एक्सट्रैक्शन प्रक्रियाओं की गैर-semantic प्रकृति के कारण। सिंथेटिक डेटा पूरी तरह से एनोटेट किया गया था।

मॉडल को आठ NVIDIA A100 GPUs (हालांकि पेपर यह निर्दिष्ट नहीं करता है कि वे 40GB या 80GB VRAM मॉडल थे) पर प्रशिक्षित किया गया था, 50 पुनरावृत्तियों के लिए, 24 वीडियो फ्रेम और एक बैच आकार का उपयोग करके, जब तक संगमन नहीं हो जाता।

सिस्टम के लिए मोशन मॉड्यूल को AnimateDiff के वजन पर प्रशिक्षित किया गया था। प्रशिक्षण प्रक्रिया के दौरान, VAE एनकोडर/डिकोडर और CLIP छवि एनकोडर के वजन जमे हुए थे (पूर्ण फाइन-ट्यूनिंग के विपरीत, जिसका एक बहुत व्यापक प्रभाव एक फाउंडेशन मॉडल पर होगा)।

हालांकि MIMO का अन्य समान प्रणालियों के खिलाफ परीक्षण नहीं किया गया था, शोधकर्ताओं ने इसे कठिन आउट-ऑफ-डिस्ट्रीब्यूशन मोशन सीक्वेंस पर परीक्षण किया, जो AMASS और Mixamo से सोर्स किया गया था। इन आंदोलनों में चढ़ाई, खेलना और नृत्य शामिल थे।

उन्होंने सिस्टम का परीक्षण वाइल्ड ह्यूमन वीडियो पर भी किया। दोनों मामलों में, पेपर ‘उच्च लचीलापन’ की रिपोर्ट करता है इन अनदेखे 3D मोशन के लिए, विभिन्न दृष्टिकोण से।

हालांकि पेपर में सिस्टम की प्रभावशीलता को प्रदर्शित करने वाले कई स्थिर छवि परिणाम हैं, MIMO का वास्तविक प्रदर्शन परियोजना पृष्ठ और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (जिससे इस लेख की शुरुआत में वीडियो व्युत्पन्न हुए हैं) में प्रदान किए गए विस्तृत वीडियो परिणामों के साथ सबसे अच्छा मूल्यांकन किया जा सकता है।

लेखक निष्कर्ष निकालते हैं:

‘प्रयोगात्मक परिणाम [प्रदर्शित करते हैं] कि हमारी विधि न केवल लचीले पात्र, गति और दृश्य नियंत्रण को सक्षम बनाती है, बल्कि मनमाने पात्र, नए 3D मोशन और इंटरैक्टिव दृश्यों के लिए उन्नत स्केलेबिलिटी भी प्रदान करती है। ‘

‘हम यह भी मानते हैं कि हमारा समाधान, जो अंतर्निहित 3D प्रकृति को ध्यान में रखता है और स्वचालित रूप से 2D वीडियो को स्थानीय सुविधाओं में एन्कोड करता है, 3D-अवेयर वीडियो सिंथेसिस के लिए भविष्य के शोध को प्रेरित कर सकता है। ‘

‘इसके अलावा, हमारा फ्रेमवर्क न केवल पात्र वीडियो बनाने के लिए उपयुक्त है, बल्कि अन्य नियंत्रित वीडियो सिंथेसिस कार्यों के लिए भी संभावित रूप से अनुकूलित किया जा सकता है।’

निष्कर्ष

यह देखना ताज़ा है कि स्थिर डिफ्यूजन पर आधारित एक अवतार प्रणाली समय-समय पर स्थिरता के लिए इतनी क्षमता प्रदर्शित करती है – न कि इसलिए कि गॉसियन अवतार इस शोध क्षेत्र में उच्च जमीन हासिल कर रहे हैं।

परिणामों में प्रस्तुत स्टाइलाइज्ड अवतार प्रभावी हैं, और जबकि MIMO द्वारा उत्पादित फोटोरियलिस्टिक्स का स्तर वर्तमान में गॉसियन स्प्लैटिंग की क्षमता के बराबर नहीं है, सेमैंटिक-आधारित लेटेंट डिफ्यूजन नेटवर्क (LDM) में समय-समय पर संगत मानव बनाने के विभिन्न लाभ हैं।

* मेरे द्वारा लेखकों के इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना, और जहां आवश्यक हो, बाहरी व्याख्यात्मक हाइपरलिंक।

पहली बार बुधवार, 25 सितंबर, 2024 को प्रकाशित

Related Topics:AnimateDiff MIMO Stable Diffusion temporal stability

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai