рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдХ рдирдпрд╛ рд╕рд┐рд╕реНрдЯрдо рдЬреЛ рд╕реНрдерд┐рд░ рдбрд┐рдлреНрдпреВрдЬрди рд╡реАрдбрд┐рдпреЛ рдкрд╛рддреНрд░реЛрдВ рдХреЗ рд▓рд┐рдП рд╕рдордп-рд╕рдордп рдкрд░ рд╕рдВрдЧрдд рд╣реИ

अलीबाबा ग्रुप की एक नई पहल स्थिर डिफ्यूजन-आधारित फाउंडेशन मॉडल से पूर्ण-शरीर मानव अवतार बनाने के लिए मैंने जो देखा है उसमें से एक सबसे अच्छा तरीका प्रदान करती है।
इसे MIMO (MIMicking with Object Interactions) नाम दिया गया है, यह सिस्टम लोकप्रिय प्रौद्योगिकियों और मॉड्यूल की एक श्रृंखला का उपयोग करता है, जिसमें सीजीआई-आधारित मानव मॉडल और AnimateDiff शामिल हैं, ताकि वीडियो में समय-समय पर संगत पात्र प्रतिस्थापन या उपयोगकर्ता-निर्धारित कंकाल मुद्रा के साथ पात्र को चलाने की अनुमति मिल सके।
यहाँ हम एकल छवि स्रोत से अंतर्पोलेटेड पात्रों को देखते हैं, और एक पूर्वनिर्धारित गति द्वारा संचालित:
[नीचे वीडियो चलाने के लिए क्लिक करें]
[वीडियो चौड़ाई=”2160″ ऊंचाई=”588″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/driving-3d-pose-site.mp4″][/वीडियो]
एकल स्रोत छवियों से, तीन विविध पात्र एक 3D मुद्रा क्रम (दूर बाएं) का उपयोग करके MIMO सिस्टम द्वारा संचालित होते हैं। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें। स्रोत: https://menyifang.github.io/projects/MIMO/index.html
जेनरेट किए गए पात्र, जो वीडियो के फ्रेम और विविध अन्य तरीकों से भी सोर्स किए जा सकते हैं, वास्तविक दुनिया की फुटेज में एकीकृत किए जा सकते हैं।
MIMO एक नई प्रणाली प्रदान करता है जो तीन विविध एन्कोडिंग पैदा करता है, प्रत्येक के लिए पात्र, दृश्य, और ऑक्लूजन (अर्थात, मैटिंग, जब कोई वस्तु या व्यक्ति पात्र के सामने से गुजरता है)। ये एन्कोडिंग्स अनुमान समय पर एकीकृत होते हैं।
[नीचे वीडियो चलाने के लिए क्लिक करें]
[वीडियो चौड़ाई=”1000″ ऊंचाई=”500″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/MIMO-SITE-EXAMPLES-AE.mp4″][/वीडियो]
MIMO मूल पात्रों को फोटोरियलिस्टिक या स्टाइलाइज्ड पात्रों से बदल सकता है जो लक्ष्य वीडियो से गति का पालन करते हैं। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें।
सिस्टम स्थिर डिफ्यूजन V1.5 मॉडल पर प्रशिक्षित किया गया है, शोधकर्ताओं द्वारा क्यूरेटेड एक कस्टम डेटासेट का उपयोग करके, और वास्तविक दुनिया और सिम्युलेटेड वीडियो के समान रूप से बना है।
डिफ्यूजन-आधारित वीडियो का बड़ा बगबियर समय-समय पर स्थिरता है, जहां वीडियो की सामग्री या तो फ्लिकर करती है या ऐसे तरीके से ‘विकसित’ होती है जो संगत पात्र प्रतिनिधित्व के लिए वांछित नहीं है।
MIMO, इसके बजाय, एक एकल छवि का उपयोग एक संगत मार्गदर्शन के लिए करता है, जो अंतर्वेशीय SMPL सीजीआई मॉडल द्वारा निर्देशित और सीमित किया जा सकता है।
चूंकि स्रोत संदर्भ संगत है, और आधार मॉडल जिस पर सिस्टम प्रशिक्षित किया गया है पर्याप्त प्रतिनिधि गति उदाहरणों के साथ बढ़ाया गया है, सिस्टम की समय-समय पर संगत आउटपुट की क्षमता सामान्य मानक से ऊपर है डिफ्यूजन-आधारित अवतार के लिए।
[नीचे वीडियो चलाने के लिए क्लिक करें]
[वीडियो चौड़ाई=”800″ ऊंचाई=”400″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/More-Mimo-examples-AE.mp4″][/वीडियो]
MIMO पात्रों के और उदाहरण। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें।
यह अधिक सामान्य होता जा रहा है कि एकल छवियों का उपयोग प्रभावी तंत्रिका प्रतिनिधित्व के लिए स्रोत के रूप में किया जाता है, या तो स्वयं या एक बहुमodal तरीके से, पाठ प्रॉम्प्ट के साथ संयुक्त। उदाहरण के लिए, लोकप्रिय LivePortrait फेसियल-ट्रांसफर सिस्टम भी एकल फेस छवियों से अत्यधिक प्लॉसिबल डीपफेक्ड चेहरे उत्पन्न कर सकता है।
शोधकर्ताओं का मानना है कि MIMO सिस्टम में उपयोग किए गए सिद्धांतों को अन्य और नए प्रकार के जेनरेटिव सिस्टम और फ्रेमवर्क में विस्तारित किया जा सकता है।
नई पेपर नया पेपर शीर्षक है MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, और यह अलीबाबा ग्रुप के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के चार शोधकर्ताओं से आता है। इस काम में एक वीडियो-लेडन प्रोजेक्ट पेज और एक साथी यूट्यूब वीडियो है, जो इस लेख के अंत में एम्बेडेड है।
विधि
MIMO स्वचालित और अनुपयोगी पृथक्करण प्राप्त करता है, जिसमें तीन स्थानीय घटकों का उल्लेख किया गया है, एक अंत-टू-एंड आर्किटेक्चर (अर्थात, सभी उप-प्रक्रियाएं सिस्टम में एकीकृत हैं, और उपयोगकर्ता को केवल इनपुट सामग्री प्रदान करने की आवश्यकता है) में।
[कैप्शन id=”attachment_206431″ align=”alignnone” width=”933″]
स्रोत वीडियो में वस्तुओं को 2D से 3D में अनुवादित किया जाता है, शुरू में Depth Anything मोनोकुलर गहराई अनुमानित का उपयोग करके। किसी भी फ्रेम में मानव तत्व Tune-A-Video परियोजना से अनुकूलित विधियों का उपयोग करके निकाला जाता है।
इन विशेषताओं को फिर वीडियो-आधारित वॉल्यूमेट्रिक सुविधाओं में अनुवादित किया जाता है फेसबुक रिसर्च के Segment Anything 2 आर्किटेक्चर के माध्यम से।
दृश्य परत स्वयं अन्य दो परतों में पता लगाए गए वस्तुओं को हटाकर प्राप्त की जाती है, जो प्रभावी रूप से एक रोटोस्कोप-शैली का मास्क स्वचालित रूप से प्रदान करती है।
गति के लिए, मानव तत्व के लिए निकाले गए लेटेंट कोड का एक सेट डिफ़ॉल्ट मानव सीजीआई-आधारित SMPL मॉडल से जुड़ा हुआ है, जिसकी गति मानव सामग्री के लिए संदर्भ प्रदान करती है।
मानव सामग्री के लिए एक 2D फीचर मैप एक दिफरेंशियल रैस्टराइज़र द्वारा प्राप्त किया जाता है, जो एक 2020 की पहल से NVIDIA से व्युत्पन्न है। प्राप्त 3D डेटा को SMPL से NVIDIA विधि द्वारा प्राप्त 2D डेटा के साथ संयुक्त करना, ‘न्यूरल व्यक्ति’ के लिए लेटेंट कोड एक ठोस संबंध रखते हैं।
इस बिंदु पर, यह आवश्यक है कि एक संदर्भ स्थापित किया जाए जो SMPL का उपयोग करने वाली आर्किटेक्चर में आवश्यक है – एक मानक मुद्रा। यह व्यापक रूप से Da Vinci के ‘विट्रुवियन मैन’ के समान है, जो एक शून्य-मुद्रा टेम्पलेट का प्रतिनिधित्व करता है जो सामग्री स्वीकार कर सकता है और फिर विकृत हो सकता है, जो प्रभावी रूप से टेक्सचर-मैप्ड सामग्री के साथ आता है।
इन विकृतियों, या ‘सामान्य से विचलन’, मानव गति का प्रतिनिधित्व करते हैं, जबकि SMPL मॉडल मानव पहचान के लिए लेटेंट कोड को संरक्षित करता है जो निकाला गया है, और इस प्रकार परिणामी अवतार को मुद्रा और टेक्सचर के संदर्भ में सही ढंग से प्रस्तुत करता है।
[कैप्शन id=”attachment_206432″ align=”alignnone” width=”391″]
entanglement (प्रशिक्षित डेटा की जितनी हद तक लचीला हो सकता है जब आप इसे अपने प्रशिक्षित सीमाओं और संबंधों से परे बढ़ाते हैं) के मुद्दे के संबंध में, लेखकों का कहना है*:
‘पोज्ड वीडियो फ्रेम से गतिशील मानव प्रतिनिधित्व सीखने के लिए एक आदर्श समाधान मोनोकुलर वीडियो से और पोज्ड स्पेस से कैनोनिकल स्पेस में परिवर्तित करना है। ‘
‘कुशलता को ध्यान में रखते हुए, हम एक सरलीकृत विधि का उपयोग करते हैं जो सीधे पोज्ड मानव छवि को मानक ए-मुद्रा में कैनोनिकल परिणाम में परिवर्तित करता है। सिंथेटिक कैनोनिकल उपस्थिति छवि को आईडी एनकोडर में फीड किया जाता है ताकि पहचान [कोड] प्राप्त की जा सके।
‘यह सरल डिज़ाइन पहचान और गति विशेषताओं का पूर्ण विच्छेदन सक्षम बनाता है। Animate Anyone के बाद, आईडी एनकोडर में एक CLIP छवि एनकोडर और एक रेफरेंस-नेट आर्किटेक्चर शामिल है ताकि वैश्विक और स्थानीय विशेषता के लिए एम्बेड किया जा सके।
दृश्य और ऑक्लूजन के लिए, एक साझा और निश्चित वेरिएशनल ऑटोएनकोडर (VAE – इस मामले में एक 2013 प्रकाशन से व्युत्पन्न) का उपयोग किया जाता है ताकि दृश्य और ऑक्लूजन तत्वों को लेटेंट स्पेस में एम्बेड किया जा सके। असंगतताओं को इनपेंटिंग विधि द्वारा संभाला जाता है 2023 ProPainter परियोजना से।
एक बार जब यह इस तरह से असेंबल और रेटच किया जाता है, तो वीडियो में पृष्ठभूमि और कोई भी ऑक्लूडिंग वस्तुएं चलती मानव अवतार के लिए एक मैटे प्रदान करेंगी।
इन विभाजित विशेषताओं को फिर एक U-Net बैकबोन में फीड किया जाता है जो स्थिर डिफ्यूजन V1.5 आर्किटेक्चर पर आधारित है। पूर्ण दृश्य कोड मेजबान प्रणाली के मूल लेटेंट शोर के साथ संकेतित है। मानव घटक को स्व-ध्यान और क्रॉस-ध्यान परतों के माध्यम से एकीकृत किया जाता है, क्रमशः।
फिर, शोर-मुक्त परिणाम VAE डिकोडर के माध्यम से आउटपुट होता है।
डेटा और परीक्षण
प्रशिक्षण के लिए, शोधकर्ताओं ने HUD-7K नामक मानव वीडियो डेटासेट बनाया, जिसमें 5,000 वास्तविक पात्र वीडियो और En3D सिस्टम द्वारा बनाए गए 2,000 सिंथेटिक एनिमेशन शामिल थे। वास्तविक वीडियो में कोई एनोटेशन की आवश्यकता नहीं थी, MIMO की आर्किटेक्चर में फिगर एक्सट्रैक्शन प्रक्रियाओं की गैर-semantic प्रकृति के कारण। सिंथेटिक डेटा पूरी तरह से एनोटेट किया गया था।
मॉडल को आठ NVIDIA A100 GPUs (हालांकि पेपर यह निर्दिष्ट नहीं करता है कि वे 40GB या 80GB VRAM मॉडल थे) पर प्रशिक्षित किया गया था, 50 पुनरावृत्तियों के लिए, 24 वीडियो फ्रेम और एक बैच आकार का उपयोग करके, जब तक संगमन नहीं हो जाता।
सिस्टम के लिए मोशन मॉड्यूल को AnimateDiff के वजन पर प्रशिक्षित किया गया था। प्रशिक्षण प्रक्रिया के दौरान, VAE एनकोडर/डिकोडर और CLIP छवि एनकोडर के वजन जमे हुए थे (पूर्ण फाइन-ट्यूनिंग के विपरीत, जिसका एक बहुत व्यापक प्रभाव एक फाउंडेशन मॉडल पर होगा)।
हालांकि MIMO का अन्य समान प्रणालियों के खिलाफ परीक्षण नहीं किया गया था, शोधकर्ताओं ने इसे कठिन आउट-ऑफ-डिस्ट्रीब्यूशन मोशन सीक्वेंस पर परीक्षण किया, जो AMASS और Mixamo से सोर्स किया गया था। इन आंदोलनों में चढ़ाई, खेलना और नृत्य शामिल थे।
उन्होंने सिस्टम का परीक्षण वाइल्ड ह्यूमन वीडियो पर भी किया। दोनों मामलों में, पेपर ‘उच्च लचीलापन’ की रिपोर्ट करता है इन अनदेखे 3D मोशन के लिए, विभिन्न दृष्टिकोण से।
हालांकि पेपर में सिस्टम की प्रभावशीलता को प्रदर्शित करने वाले कई स्थिर छवि परिणाम हैं, MIMO का वास्तविक प्रदर्शन परियोजना पृष्ठ और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (जिससे इस लेख की शुरुआत में वीडियो व्युत्पन्न हुए हैं) में प्रदान किए गए विस्तृत वीडियो परिणामों के साथ सबसे अच्छा मूल्यांकन किया जा सकता है।
लेखक निष्कर्ष निकालते हैं:
‘प्रयोगात्मक परिणाम [प्रदर्शित करते हैं] कि हमारी विधि न केवल लचीले पात्र, गति और दृश्य नियंत्रण को सक्षम बनाती है, बल्कि मनमाने पात्र, नए 3D मोशन और इंटरैक्टिव दृश्यों के लिए उन्नत स्केलेबिलिटी भी प्रदान करती है। ‘
‘हम यह भी मानते हैं कि हमारा समाधान, जो अंतर्निहित 3D प्रकृति को ध्यान में रखता है और स्वचालित रूप से 2D वीडियो को स्थानीय सुविधाओं में एन्कोड करता है, 3D-अवेयर वीडियो सिंथेसिस के लिए भविष्य के शोध को प्रेरित कर सकता है। ‘
‘इसके अलावा, हमारा फ्रेमवर्क न केवल पात्र वीडियो बनाने के लिए उपयुक्त है, बल्कि अन्य नियंत्रित वीडियो सिंथेसिस कार्यों के लिए भी संभावित रूप से अनुकूलित किया जा सकता है।’
निष्कर्ष
यह देखना ताज़ा है कि स्थिर डिफ्यूजन पर आधारित एक अवतार प्रणाली समय-समय पर स्थिरता के लिए इतनी क्षमता प्रदर्शित करती है – न कि इसलिए कि गॉसियन अवतार इस शोध क्षेत्र में उच्च जमीन हासिल कर रहे हैं।
परिणामों में प्रस्तुत स्टाइलाइज्ड अवतार प्रभावी हैं, और जबकि MIMO द्वारा उत्पादित फोटोरियलिस्टिक्स का स्तर वर्तमान में गॉसियन स्प्लैटिंग की क्षमता के बराबर नहीं है, सेमैंटिक-आधारित लेटेंट डिफ्यूजन नेटवर्क (LDM) में समय-समय पर संगत मानव बनाने के विभिन्न लाभ हैं।
* मेरे द्वारा लेखकों के इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना, और जहां आवश्यक हो, बाहरी व्याख्यात्मक हाइपरलिंक।
पहली बार बुधवार, 25 सितंबर, 2024 को प्रकाशित






