Connect with us

рдПрдХ рдирдпрд╛ рд╕рд┐рд╕реНрдЯрдо рдЬреЛ рд╕реНрдерд┐рд░ рдбрд┐рдлреНрдпреВрдЬрди рд╡реАрдбрд┐рдпреЛ рдкрд╛рддреНрд░реЛрдВ рдХреЗ рд▓рд┐рдП рд╕рдордп-рд╕рдордп рдкрд░ рд╕рдВрдЧрдд рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдХ рдирдпрд╛ рд╕рд┐рд╕реНрдЯрдо рдЬреЛ рд╕реНрдерд┐рд░ рдбрд┐рдлреНрдпреВрдЬрди рд╡реАрдбрд┐рдпреЛ рдкрд╛рддреНрд░реЛрдВ рдХреЗ рд▓рд┐рдП рд╕рдордп-рд╕рдордп рдкрд░ рд╕рдВрдЧрдд рд╣реИ

mm
A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

अलीबाबा ग्रुप की एक नई पहल स्थिर डिफ्यूजन-आधारित फाउंडेशन मॉडल से पूर्ण-शरीर मानव अवतार बनाने के लिए मैंने जो देखा है उसमें से एक सबसे अच्छा तरीका प्रदान करती है।

इसे MIMO (MIMicking with Object Interactions) नाम दिया गया है, यह सिस्टम लोकप्रिय प्रौद्योगिकियों और मॉड्यूल की एक श्रृंखला का उपयोग करता है, जिसमें सीजीआई-आधारित मानव मॉडल और AnimateDiff शामिल हैं, ताकि वीडियो में समय-समय पर संगत पात्र प्रतिस्थापन या उपयोगकर्ता-निर्धारित कंकाल मुद्रा के साथ पात्र को चलाने की अनुमति मिल सके।

यहाँ हम एकल छवि स्रोत से अंतर्पोलेटेड पात्रों को देखते हैं, और एक पूर्वनिर्धारित गति द्वारा संचालित:

[नीचे वीडियो चलाने के लिए क्लिक करें]

[वीडियो चौड़ाई=”2160″ ऊंचाई=”588″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/driving-3d-pose-site.mp4″][/वीडियो]

एकल स्रोत छवियों से, तीन विविध पात्र एक 3D मुद्रा क्रम (दूर बाएं) का उपयोग करके MIMO सिस्टम द्वारा संचालित होते हैं। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें। स्रोत: https://menyifang.github.io/projects/MIMO/index.html

जेनरेट किए गए पात्र, जो वीडियो के फ्रेम और विविध अन्य तरीकों से भी सोर्स किए जा सकते हैं, वास्तविक दुनिया की फुटेज में एकीकृत किए जा सकते हैं।

MIMO एक नई प्रणाली प्रदान करता है जो तीन विविध एन्कोडिंग पैदा करता है, प्रत्येक के लिए पात्र, दृश्य, और ऑक्लूजन (अर्थात, मैटिंग, जब कोई वस्तु या व्यक्ति पात्र के सामने से गुजरता है)। ये एन्कोडिंग्स अनुमान समय पर एकीकृत होते हैं।

[नीचे वीडियो चलाने के लिए क्लिक करें]

[वीडियो चौड़ाई=”1000″ ऊंचाई=”500″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/MIMO-SITE-EXAMPLES-AE.mp4″][/वीडियो]

MIMO मूल पात्रों को फोटोरियलिस्टिक या स्टाइलाइज्ड पात्रों से बदल सकता है जो लक्ष्य वीडियो से गति का पालन करते हैं। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें।

सिस्टम स्थिर डिफ्यूजन V1.5 मॉडल पर प्रशिक्षित किया गया है, शोधकर्ताओं द्वारा क्यूरेटेड एक कस्टम डेटासेट का उपयोग करके, और वास्तविक दुनिया और सिम्युलेटेड वीडियो के समान रूप से बना है।

डिफ्यूजन-आधारित वीडियो का बड़ा बगबियर समय-समय पर स्थिरता है, जहां वीडियो की सामग्री या तो फ्लिकर करती है या ऐसे तरीके से ‘विकसित’ होती है जो संगत पात्र प्रतिनिधित्व के लिए वांछित नहीं है।

MIMO, इसके बजाय, एक एकल छवि का उपयोग एक संगत मार्गदर्शन के लिए करता है, जो अंतर्वेशीय SMPL सीजीआई मॉडल द्वारा निर्देशित और सीमित किया जा सकता है।

चूंकि स्रोत संदर्भ संगत है, और आधार मॉडल जिस पर सिस्टम प्रशिक्षित किया गया है पर्याप्त प्रतिनिधि गति उदाहरणों के साथ बढ़ाया गया है, सिस्टम की समय-समय पर संगत आउटपुट की क्षमता सामान्य मानक से ऊपर है डिफ्यूजन-आधारित अवतार के लिए।

[नीचे वीडियो चलाने के लिए क्लिक करें]

[वीडियो चौड़ाई=”800″ ऊंचाई=”400″ mp4=”https://www.unite.ai/wp-content/uploads/2024/09/More-Mimo-examples-AE.mp4″][/वीडियो]

MIMO पात्रों के और उदाहरण। परियोजना वेबसाइट और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (साथ ही साथ अधिक उदाहरण और उच्च रिज़ॉल्यूशन) के लिए अधिक उदाहरण और उच्च रिज़ॉल्यूशन देखें।

यह अधिक सामान्य होता जा रहा है कि एकल छवियों का उपयोग प्रभावी तंत्रिका प्रतिनिधित्व के लिए स्रोत के रूप में किया जाता है, या तो स्वयं या एक बहुमodal तरीके से, पाठ प्रॉम्प्ट के साथ संयुक्त। उदाहरण के लिए, लोकप्रिय LivePortrait फेसियल-ट्रांसफर सिस्टम भी एकल फेस छवियों से अत्यधिक प्लॉसिबल डीपफेक्ड चेहरे उत्पन्न कर सकता है।

शोधकर्ताओं का मानना है कि MIMO सिस्टम में उपयोग किए गए सिद्धांतों को अन्य और नए प्रकार के जेनरेटिव सिस्टम और फ्रेमवर्क में विस्तारित किया जा सकता है।

नई पेपर नया पेपर शीर्षक है MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, और यह अलीबाबा ग्रुप के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के चार शोधकर्ताओं से आता है। इस काम में एक वीडियो-लेडन प्रोजेक्ट पेज और एक साथी यूट्यूब वीडियो है, जो इस लेख के अंत में एम्बेडेड है।

विधि

MIMO स्वचालित और अनुपयोगी पृथक्करण प्राप्त करता है, जिसमें तीन स्थानीय घटकों का उल्लेख किया गया है, एक अंत-टू-एंड आर्किटेक्चर (अर्थात, सभी उप-प्रक्रियाएं सिस्टम में एकीकृत हैं, और उपयोगकर्ता को केवल इनपुट सामग्री प्रदान करने की आवश्यकता है) में।

[कैप्शन id=”attachment_206431″ align=”alignnone” width=”933″]MIMO рдХреЗ рд▓рд┐рдП рд╕рдВрдХрд▓реНрдкрдирд╛рддреНрдордХ рдпреЛрдЬрдирд╛ред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2409.16160 MIMO के लिए संकल्पनात्मक योजना। स्रोत: https://arxiv.org/pdf/2409.16160[/कैप्शन]

स्रोत वीडियो में वस्तुओं को 2D से 3D में अनुवादित किया जाता है, शुरू में Depth Anything मोनोकुलर गहराई अनुमानित का उपयोग करके। किसी भी फ्रेम में मानव तत्व Tune-A-Video परियोजना से अनुकूलित विधियों का उपयोग करके निकाला जाता है।

इन विशेषताओं को फिर वीडियो-आधारित वॉल्यूमेट्रिक सुविधाओं में अनुवादित किया जाता है फेसबुक रिसर्च के Segment Anything 2 आर्किटेक्चर के माध्यम से।

दृश्य परत स्वयं अन्य दो परतों में पता लगाए गए वस्तुओं को हटाकर प्राप्त की जाती है, जो प्रभावी रूप से एक रोटोस्कोप-शैली का मास्क स्वचालित रूप से प्रदान करती है।

गति के लिए, मानव तत्व के लिए निकाले गए लेटेंट कोड का एक सेट डिफ़ॉल्ट मानव सीजीआई-आधारित SMPL मॉडल से जुड़ा हुआ है, जिसकी गति मानव सामग्री के लिए संदर्भ प्रदान करती है।

मानव सामग्री के लिए एक 2D फीचर मैप एक दिफरेंशियल रैस्टराइज़र द्वारा प्राप्त किया जाता है, जो एक 2020 की पहल से NVIDIA से व्युत्पन्न है। प्राप्त 3D डेटा को SMPL से NVIDIA विधि द्वारा प्राप्त 2D डेटा के साथ संयुक्त करना, ‘न्यूरल व्यक्ति’ के लिए लेटेंट कोड एक ठोस संबंध रखते हैं।

इस बिंदु पर, यह आवश्यक है कि एक संदर्भ स्थापित किया जाए जो SMPL का उपयोग करने वाली आर्किटेक्चर में आवश्यक है – एक मानक मुद्रा। यह व्यापक रूप से Da Vinci के ‘विट्रुवियन मैन’ के समान है, जो एक शून्य-मुद्रा टेम्पलेट का प्रतिनिधित्व करता है जो सामग्री स्वीकार कर सकता है और फिर विकृत हो सकता है, जो प्रभावी रूप से टेक्सचर-मैप्ड सामग्री के साथ आता है।

इन विकृतियों, या ‘सामान्य से विचलन’, मानव गति का प्रतिनिधित्व करते हैं, जबकि SMPL मॉडल मानव पहचान के लिए लेटेंट कोड को संरक्षित करता है जो निकाला गया है, और इस प्रकार परिणामी अवतार को मुद्रा और टेक्सचर के संदर्भ में सही ढंग से प्रस्तुत करता है।

[कैप्शन id=”attachment_206432″ align=”alignnone” width=”391″]SMPL рдЖрдХреГрддрд┐ рдореЗрдВ рдПрдХ рдорд╛рдирдХ рдореБрджреНрд░рд╛ рдХрд╛ рдЙрджрд╛рд╣рд░рдгред рд╕реНрд░реЛрдд: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264 SMPL आकृति में एक मानक मुद्रा का उदाहरण। स्रोत: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264[/कैप्शन]

entanglement (प्रशिक्षित डेटा की जितनी हद तक लचीला हो सकता है जब आप इसे अपने प्रशिक्षित सीमाओं और संबंधों से परे बढ़ाते हैं) के मुद्दे के संबंध में, लेखकों का कहना है*:

‘पोज्ड वीडियो फ्रेम से गतिशील मानव प्रतिनिधित्व सीखने के लिए एक आदर्श समाधान मोनोकुलर वीडियो से और पोज्ड स्पेस से कैनोनिकल स्पेस में परिवर्तित करना है। ‘

‘कुशलता को ध्यान में रखते हुए, हम एक सरलीकृत विधि का उपयोग करते हैं जो सीधे पोज्ड मानव छवि को मानक ए-मुद्रा में कैनोनिकल परिणाम में परिवर्तित करता है। सिंथेटिक कैनोनिकल उपस्थिति छवि को आईडी एनकोडर में फीड किया जाता है ताकि पहचान [कोड] प्राप्त की जा सके।

‘यह सरल डिज़ाइन पहचान और गति विशेषताओं का पूर्ण विच्छेदन सक्षम बनाता है। Animate Anyone के बाद, आईडी एनकोडर में एक CLIP छवि एनकोडर और एक रेफरेंस-नेट आर्किटेक्चर शामिल है ताकि वैश्विक और स्थानीय विशेषता के लिए एम्बेड किया जा सके।

दृश्य और ऑक्लूजन के लिए, एक साझा और निश्चित वेरिएशनल ऑटोएनकोडर (VAE – इस मामले में एक 2013 प्रकाशन से व्युत्पन्न) का उपयोग किया जाता है ताकि दृश्य और ऑक्लूजन तत्वों को लेटेंट स्पेस में एम्बेड किया जा सके। असंगतताओं को इनपेंटिंग विधि द्वारा संभाला जाता है 2023 ProPainter परियोजना से।

एक बार जब यह इस तरह से असेंबल और रेटच किया जाता है, तो वीडियो में पृष्ठभूमि और कोई भी ऑक्लूडिंग वस्तुएं चलती मानव अवतार के लिए एक मैटे प्रदान करेंगी।

इन विभाजित विशेषताओं को फिर एक U-Net बैकबोन में फीड किया जाता है जो स्थिर डिफ्यूजन V1.5 आर्किटेक्चर पर आधारित है। पूर्ण दृश्य कोड मेजबान प्रणाली के मूल लेटेंट शोर के साथ संकेतित है। मानव घटक को स्व-ध्यान और क्रॉस-ध्यान परतों के माध्यम से एकीकृत किया जाता है, क्रमशः।

फिर, शोर-मुक्त परिणाम VAE डिकोडर के माध्यम से आउटपुट होता है।

डेटा और परीक्षण

प्रशिक्षण के लिए, शोधकर्ताओं ने HUD-7K नामक मानव वीडियो डेटासेट बनाया, जिसमें 5,000 वास्तविक पात्र वीडियो और En3D सिस्टम द्वारा बनाए गए 2,000 सिंथेटिक एनिमेशन शामिल थे। वास्तविक वीडियो में कोई एनोटेशन की आवश्यकता नहीं थी, MIMO की आर्किटेक्चर में फिगर एक्सट्रैक्शन प्रक्रियाओं की गैर-semantic प्रकृति के कारण। सिंथेटिक डेटा पूरी तरह से एनोटेट किया गया था।

मॉडल को आठ NVIDIA A100 GPUs (हालांकि पेपर यह निर्दिष्ट नहीं करता है कि वे 40GB या 80GB VRAM मॉडल थे) पर प्रशिक्षित किया गया था, 50 पुनरावृत्तियों के लिए, 24 वीडियो फ्रेम और एक बैच आकार का उपयोग करके, जब तक संगमन नहीं हो जाता।

सिस्टम के लिए मोशन मॉड्यूल को AnimateDiff के वजन पर प्रशिक्षित किया गया था। प्रशिक्षण प्रक्रिया के दौरान, VAE एनकोडर/डिकोडर और CLIP छवि एनकोडर के वजन जमे हुए थे (पूर्ण फाइन-ट्यूनिंग के विपरीत, जिसका एक बहुत व्यापक प्रभाव एक फाउंडेशन मॉडल पर होगा)।

हालांकि MIMO का अन्य समान प्रणालियों के खिलाफ परीक्षण नहीं किया गया था, शोधकर्ताओं ने इसे कठिन आउट-ऑफ-डिस्ट्रीब्यूशन मोशन सीक्वेंस पर परीक्षण किया, जो AMASS और Mixamo से सोर्स किया गया था। इन आंदोलनों में चढ़ाई, खेलना और नृत्य शामिल थे।

उन्होंने सिस्टम का परीक्षण वाइल्ड ह्यूमन वीडियो पर भी किया। दोनों मामलों में, पेपर ‘उच्च लचीलापन’ की रिपोर्ट करता है इन अनदेखे 3D मोशन के लिए, विभिन्न दृष्टिकोण से।

हालांकि पेपर में सिस्टम की प्रभावशीलता को प्रदर्शित करने वाले कई स्थिर छवि परिणाम हैं, MIMO का वास्तविक प्रदर्शन परियोजना पृष्ठ और इस लेख के अंत में एम्बेडेड यूट्यूब वीडियो (जिससे इस लेख की शुरुआत में वीडियो व्युत्पन्न हुए हैं) में प्रदान किए गए विस्तृत वीडियो परिणामों के साथ सबसे अच्छा मूल्यांकन किया जा सकता है।

लेखक निष्कर्ष निकालते हैं:

‘प्रयोगात्मक परिणाम [प्रदर्शित करते हैं] कि हमारी विधि न केवल लचीले पात्र, गति और दृश्य नियंत्रण को सक्षम बनाती है, बल्कि मनमाने पात्र, नए 3D मोशन और इंटरैक्टिव दृश्यों के लिए उन्नत स्केलेबिलिटी भी प्रदान करती है। ‘

‘हम यह भी मानते हैं कि हमारा समाधान, जो अंतर्निहित 3D प्रकृति को ध्यान में रखता है और स्वचालित रूप से 2D वीडियो को स्थानीय सुविधाओं में एन्कोड करता है, 3D-अवेयर वीडियो सिंथेसिस के लिए भविष्य के शोध को प्रेरित कर सकता है। ‘

‘इसके अलावा, हमारा फ्रेमवर्क न केवल पात्र वीडियो बनाने के लिए उपयुक्त है, बल्कि अन्य नियंत्रित वीडियो सिंथेसिस कार्यों के लिए भी संभावित रूप से अनुकूलित किया जा सकता है।’

निष्कर्ष

यह देखना ताज़ा है कि स्थिर डिफ्यूजन पर आधारित एक अवतार प्रणाली समय-समय पर स्थिरता के लिए इतनी क्षमता प्रदर्शित करती है – न कि इसलिए कि गॉसियन अवतार इस शोध क्षेत्र में उच्च जमीन हासिल कर रहे हैं

परिणामों में प्रस्तुत स्टाइलाइज्ड अवतार प्रभावी हैं, और जबकि MIMO द्वारा उत्पादित फोटोरियलिस्टिक्स का स्तर वर्तमान में गॉसियन स्प्लैटिंग की क्षमता के बराबर नहीं है, सेमैंटिक-आधारित लेटेंट डिफ्यूजन नेटवर्क (LDM) में समय-समय पर संगत मानव बनाने के विभिन्न लाभ हैं।

 

* मेरे द्वारा लेखकों के इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना, और जहां आवश्यक हो, बाहरी व्याख्यात्मक हाइपरलिंक।

पहली बार बुधवार, 25 सितंबर, 2024 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред