Artificial Intelligence

InstantID: सेकंड में शून्य-शॉट पहचान-संरक्षण पीढ़ी

प्रकाशित

2 महीने पहले

मार्च २०,२०२१

एआई-पावर्ड इमेज जेनरेशन तकनीक में पिछले कुछ वर्षों में उल्लेखनीय वृद्धि देखी गई है, जब से बड़े टेक्स्ट टू इमेज डिफ्यूजन मॉडल जैसे DALL-E, GLIDE, स्टेबल डिफ्यूजन, इमेजेन और अन्य दृश्य सामने आए हैं। इस तथ्य के बावजूद कि छवि निर्माण एआई मॉडल में अद्वितीय वास्तुकला और प्रशिक्षण विधियां हैं, वे सभी एक सामान्य केंद्र बिंदु साझा करते हैं: अनुकूलित और वैयक्तिकृत छवि पीढ़ी जिसका उद्देश्य संदर्भ छवियों के आधार पर सुसंगत चरित्र आईडी, विषय और शैली के साथ छवियां बनाना है। अपनी उल्लेखनीय उत्पादक क्षमताओं के कारण, आधुनिक छवि निर्माण एआई फ्रेमवर्क को छवि एनीमेशन, आभासी वास्तविकता, ई-कॉमर्स, एआई पोर्ट्रेट और अन्य क्षेत्रों में अनुप्रयोग मिला है। हालाँकि, उनकी उल्लेखनीय उत्पादक क्षमताओं के बावजूद, ये सभी ढाँचे एक समान बाधा साझा करते हैं, उनमें से अधिकांश मानव वस्तुओं के नाजुक पहचान विवरण को संरक्षित करते हुए अनुकूलित छवियां उत्पन्न करने में असमर्थ हैं।

जटिल विवरणों को संरक्षित करते हुए अनुकूलित छवियां उत्पन्न करना विशेष रूप से मानव चेहरे की पहचान के कार्यों में महत्वपूर्ण महत्व है, जिसमें सामान्य वस्तु छवि निर्माण कार्यों की तुलना में उच्च मानक की निष्ठा और विवरण और सूक्ष्म शब्दार्थ की आवश्यकता होती है, जो मुख्य रूप से मोटे-दानेदार बनावट और रंगों पर ध्यान केंद्रित करते हैं। इसके अलावा, हाल के वर्षों में लोआरए, ड्रीमबूथ, टेक्स्टुअल इनवर्जन और अन्य जैसे वैयक्तिकृत छवि संश्लेषण ढांचे में काफी प्रगति हुई है। हालाँकि, व्यक्तिगत छवि जेनरेटर एआई मॉडल अभी भी वास्तविक दुनिया के परिदृश्यों में तैनाती के लिए बिल्कुल सही नहीं हैं क्योंकि उनके पास उच्च भंडारण आवश्यकता है, उन्हें कई संदर्भ छवियों की आवश्यकता होती है, और उनके पास अक्सर एक लंबी फाइन-ट्यूनिंग प्रक्रिया होती है। दूसरी ओर, हालांकि मौजूदा आईडी-एम्बेडिंग आधारित तरीकों को केवल एक फॉरवर्ड संदर्भ की आवश्यकता होती है, उनमें या तो सार्वजनिक रूप से उपलब्ध पूर्व-प्रशिक्षित मॉडल के साथ संगतता की कमी होती है, या उन्हें कई मापदंडों में अत्यधिक फाइन-ट्यूनिंग प्रक्रिया की आवश्यकता होती है, या वे उच्च बनाए रखने में विफल रहते हैं निष्ठा का सामना करें.

इन चुनौतियों का समाधान करने और छवि निर्माण क्षमताओं को और बढ़ाने के लिए, इस लेख में, हम छवि निर्माण के लिए एक प्रसार मॉडल आधारित समाधान, इंस्टेंटआईडी के बारे में बात करेंगे। इंस्टेंटआईडी एक प्लग एंड प्ले मॉड्यूल है जो केवल एक ही संदर्भ छवि के साथ विभिन्न शैलियों में छवि निर्माण और वैयक्तिकरण को कुशलता से संभालता है और उच्च निष्ठा भी सुनिश्चित करता है। इस लेख का प्राथमिक उद्देश्य हमारे पाठकों को इंस्टेंटआईडी ढांचे के तकनीकी आधारों और घटकों की गहन समझ प्रदान करना है क्योंकि हमारे पास मॉडल की वास्तुकला, प्रशिक्षण प्रक्रिया और अनुप्रयोग परिदृश्यों का विस्तृत विवरण होगा। तो चलो शुरू हो जाओ।

InstantID: शून्य-शॉट पहचान-संरक्षित छवि निर्माण

पाठ से छवि प्रसार मॉडल के उद्भव ने छवि निर्माण प्रौद्योगिकी की प्रगति में महत्वपूर्ण योगदान दिया है। इन मॉडलों का प्राथमिक उद्देश्य अनुकूलित और व्यक्तिगत निर्माण है, और एक या अधिक संदर्भ छवियों का उपयोग करके सुसंगत विषय, शैली और चरित्र आईडी के साथ छवियां बनाना है। सुसंगत छवियां बनाने की इन रूपरेखाओं की क्षमता ने छवि एनीमेशन, एआई पोर्ट्रेट जेनरेशन, ई-कॉमर्स, आभासी और संवर्धित वास्तविकता और बहुत कुछ सहित विभिन्न उद्योगों में संभावित अनुप्रयोग तैयार किए हैं।

हालाँकि, उनकी उल्लेखनीय क्षमताओं के बावजूद, इन ढाँचों को एक बुनियादी चुनौती का सामना करना पड़ता है: वे अक्सर अनुकूलित छवियां उत्पन्न करने के लिए संघर्ष करते हैं जो मानव विषयों के जटिल विवरणों को सटीक रूप से संरक्षित करते हैं। यह ध्यान देने योग्य है कि आंतरिक विवरण के साथ अनुकूलित छवियां बनाना एक चुनौतीपूर्ण कार्य है क्योंकि सामान्य वस्तुओं या शैलियों की तुलना में मानव चेहरे की पहचान के लिए अधिक उन्नत शब्दार्थ के साथ-साथ उच्च स्तर की निष्ठा और विवरण की आवश्यकता होती है जो मुख्य रूप से रंगों या मोटे अनाज वाली बनावट पर ध्यान केंद्रित करते हैं। मौजूदा पाठ से छवि मॉडल विस्तृत पाठ्य विवरण पर निर्भर करते हैं, और वे अनुकूलित छवि निर्माण के लिए मजबूत अर्थ प्रासंगिकता प्राप्त करने में संघर्ष करते हैं। इसके अलावा, छवि ढांचे में कुछ बड़े पूर्व-प्रशिक्षित पाठ नियंत्रण क्षमता को बढ़ाने के लिए स्थानिक कंडीशनिंग नियंत्रण जोड़ते हैं, जिससे बॉडी पोज़, गहराई मानचित्र, उपयोगकर्ता द्वारा तैयार किए गए रेखाचित्र, सिमेंटिक सेगमेंटेशन मानचित्र और बहुत कुछ जैसे तत्वों का उपयोग करके बारीक संरचनात्मक नियंत्रण की सुविधा मिलती है। हालाँकि, इन परिवर्धन और संवर्द्धन के बावजूद, ये ढाँचे संदर्भ छवि के लिए उत्पन्न छवि की केवल आंशिक निष्ठा प्राप्त करने में सक्षम हैं।

इन बाधाओं को दूर करने के लिए, इंस्टेंटआईडी फ्रेमवर्क तत्काल पहचान-संरक्षण छवि संश्लेषण पर ध्यान केंद्रित करता है, और एक सरल प्लग एंड प्ले मॉड्यूल पेश करके दक्षता और उच्च निष्ठा के बीच अंतर को पाटने का प्रयास करता है जो फ्रेमवर्क को केवल एक चेहरे की छवि का उपयोग करके छवि वैयक्तिकरण को संभालने की अनुमति देता है। उच्च निष्ठा बनाए रखते हुए। इसके अलावा, संदर्भ छवि से चेहरे की पहचान को संरक्षित करने के लिए, इंस्टेंटआईडी फ्रेमवर्क एक उपन्यास फेस एनकोडर को लागू करता है जो कमजोर स्थानिक और मजबूत अर्थ संबंधी स्थितियों को जोड़कर जटिल छवि विवरण को बरकरार रखता है जो पाठ्य संकेतों, ऐतिहासिक छवि और चेहरे की छवि को शामिल करके छवि निर्माण प्रक्रिया का मार्गदर्शन करता है। .

तीन विशिष्ट विशेषताएं हैं जो इंस्टेंटआईडी फ्रेमवर्क को मौजूदा टेक्स्ट से इमेज जेनरेशन फ्रेमवर्क में अलग करती हैं।

अनुकूलता और प्लगेबिलिटी: यूनेट फ्रेमवर्क के पूर्ण मापदंडों पर प्रशिक्षण के बजाय, इंस्टेंटआईडी फ्रेमवर्क एक हल्के एडाप्टर को प्रशिक्षित करने पर केंद्रित है। परिणामस्वरूप, इंस्टेंटआईडी ढांचा मौजूदा पूर्व-प्रशिक्षित मॉडल के साथ संगत और प्लग करने योग्य है।

ट्यूनिंग-मुक्त: इंस्टेंटआईडी फ्रेमवर्क की कार्यप्रणाली फाइन-ट्यूनिंग की आवश्यकता को समाप्त कर देती है क्योंकि इसमें अनुमान के लिए केवल एक ही फॉरवर्ड प्रसार की आवश्यकता होती है, जिससे मॉडल फाइन-ट्यूनिंग के लिए अत्यधिक व्यावहारिक और किफायती हो जाता है।
श्रेष्ठ प्रदर्शन: इंस्टेंटआईडी ढांचा उच्च लचीलेपन और निष्ठा को प्रदर्शित करता है क्योंकि यह केवल एक संदर्भ छवि का उपयोग करके अत्याधुनिक प्रदर्शन प्रदान करने में सक्षम है, जो कि कई संदर्भ छवियों पर निर्भर प्रशिक्षण आधारित तरीकों की तुलना में है।

कुल मिलाकर, InstantID ढाँचे के योगदान को निम्नलिखित बिंदुओं में वर्गीकृत किया जा सकता है।

InstantID फ्रेमवर्क दक्षता और निष्ठा के बीच अंतर को पाटने के उद्देश्य से छवि प्रसार मॉडल के लिए पूर्व-प्रशिक्षित पाठ के लिए एक अभिनव, आईडी-संरक्षण अनुकूलन विधि है।
इंस्टेंटआईडी फ्रेमवर्क अपने आर्किटेक्चर में समान प्रसार मॉडल का उपयोग करके कस्टम फाइन-ट्यून किए गए मॉडल के साथ संगत और प्लग करने योग्य है, जो बिना किसी अतिरिक्त लागत के पूर्व-प्रशिक्षित मॉडल में आईडी संरक्षण की अनुमति देता है।

इंस्टेंटआईडी: कार्यप्रणाली और वास्तुकला

जैसा कि पहले उल्लेख किया गया है, इंस्टेंटआईडी फ्रेमवर्क एक कुशल हल्का एडाप्टर है जो आईडी संरक्षण क्षमताओं के साथ छवि प्रसार मॉडल को पूर्व-प्रशिक्षित पाठ को सहजता से प्रदान करता है।

आर्किटेक्चर की बात करें तो InstantID फ्रेमवर्क इसके ऊपर बनाया गया है स्थिर प्रसार मॉडल, एक ऑटो एनकोडर के साथ पिक्सेल स्थान के बजाय कम-आयामी अव्यक्त स्थान में उच्च कम्प्यूटेशनल दक्षता के साथ प्रसार प्रक्रिया को निष्पादित करने की अपनी क्षमता के लिए प्रसिद्ध है। एक इनपुट छवि के लिए, एनकोडर पहले छवि को डाउनसैंपलिंग कारक और अव्यक्त आयामों के साथ एक अव्यक्त प्रतिनिधित्व में मैप करता है। इसके अलावा, सामान्य रूप से वितरित शोर को शोर अव्यक्त, स्थिति और वर्तमान टाइमस्टेप के साथ निरूपित करने के लिए, प्रसार प्रक्रिया एक निरूपित यूनेट घटक को अपनाती है। शर्त पाठ्य संकेतों का एक एम्बेडिंग है जो पूर्व-प्रशिक्षित सीएलआईपी पाठ एनकोडर घटक का उपयोग करके उत्पन्न होता है।

इसके अलावा, इंस्टेंटआईडी फ्रेमवर्क एक कंट्रोलनेट घटक का भी उपयोग करता है जो पाठ्य संकेतों की पारंपरिक क्षमताओं से कहीं अधिक विस्तार करते हुए, इसकी स्थिति के रूप में पूर्व-प्रशिक्षित प्रसार मॉडल में स्थानिक नियंत्रण जोड़ने में सक्षम है। कंट्रोलनेट घटक यूनेट घटक की प्रशिक्षित प्रतिकृति का उपयोग करके स्थिर प्रसार ढांचे से यूनेट आर्किटेक्चर को भी एकीकृत करता है। यूनेट घटक की प्रतिकृति में मध्य ब्लॉक और एनकोडर ब्लॉक के भीतर शून्य कनवल्शन परतें हैं। उनकी समानताओं के बावजूद, कंट्रोलनेट घटक खुद को स्थिर प्रसार मॉडल से अलग करता है; वे दोनों बाद के अवशिष्ट आइटम में भिन्न हैं। कंट्रोलनेट घटक यूनेट ब्लॉक में अवशेषों को जोड़कर स्थानिक स्थिति की जानकारी जैसे पोज़, गहराई के नक्शे, रेखाचित्र और बहुत कुछ को एन्कोड करता है, और फिर इन अवशेषों को मूल नेटवर्क में एम्बेड करता है।

इंस्टेंटआईडी ढांचा आईपी-एडाप्टर या इमेज प्रॉम्प्ट एडाप्टर से भी प्रेरणा लेता है जो मूल पाठ को छवि मॉडल में संशोधित करने की आवश्यकता के बिना पाठ्य संकेतों के साथ समानांतर चलने वाली छवि शीघ्र क्षमताओं को प्राप्त करने के लिए एक उपन्यास दृष्टिकोण पेश करता है। आईपी-एडाप्टर घटक एक अद्वितीय डिकॉउल्ड क्रॉस-अटेंशन रणनीति को भी नियोजित करता है जो अन्य मापदंडों को अपरिवर्तित छोड़ते हुए छवि सुविधाओं को एम्बेड करने के लिए अतिरिक्त क्रॉस-अटेंशन परतों का उपयोग करता है।

क्रियाविधि

आपको एक संक्षिप्त अवलोकन देने के लिए, इंस्टेंटआईडी ढांचे का लक्ष्य उच्च निष्ठा के साथ केवल एक संदर्भ आईडी छवि का उपयोग करके विभिन्न शैलियों या मुद्राओं के साथ अनुकूलित छवियां उत्पन्न करना है। निम्नलिखित आंकड़ा संक्षेप में InstantID ढांचे का अवलोकन प्रदान करता है।

जैसा कि देखा जा सकता है, इंस्टेंटआईडी ढांचे में तीन आवश्यक घटक हैं:

एक आईडी एम्बेडिंग घटक जो छवि में चेहरे की विशेषताओं की मजबूत अर्थ संबंधी जानकारी कैप्चर करता है।
विज़ुअल प्रॉम्प्ट के रूप में एक छवि के उपयोग को सुविधाजनक बनाने के लिए डिकूपल्ड क्रॉस-अटेंशन घटक के साथ एक हल्का अपनाया गया मॉड्यूल।
एक आइडेंटिटीनेट घटक जो अतिरिक्त स्थानिक नियंत्रण का उपयोग करके संदर्भ छवि से विस्तृत सुविधाओं को एन्कोड करता है।

आईडी एंबेडिंग

फेसस्टूडियो, फोटोमेकर, आईपी-एडाप्टर और अधिक जैसे मौजूदा तरीकों के विपरीत, जो दृश्य संकेतों को निकालने के लिए पूर्व-प्रशिक्षित सीएलआईपी छवि एनकोडर पर निर्भर करते हैं, इंस्टेंटआईडी ढांचा आईडी संरक्षण कार्य में बढ़ी हुई निष्ठा और मजबूत अर्थ संबंधी विवरणों पर ध्यान केंद्रित करता है। यह ध्यान देने योग्य है कि सीएलआईपी घटक की अंतर्निहित सीमाएं मुख्य रूप से कमजोर संरेखित डेटा पर इसकी प्रशिक्षण प्रक्रिया में निहित हैं, जिसका अर्थ है कि सीएलआईपी एनकोडर की एन्कोडेड विशेषताएं मुख्य रूप से रंग, शैली और संरचना जैसी व्यापक और अस्पष्ट अर्थ संबंधी जानकारी को कैप्चर करती हैं। हालाँकि ये सुविधाएँ टेक्स्ट एम्बेडिंग के सामान्य पूरक के रूप में कार्य कर सकती हैं, लेकिन वे सटीक आईडी संरक्षण कार्यों के लिए उपयुक्त नहीं हैं जो मजबूत शब्दार्थ और उच्च निष्ठा पर भारी जोर देते हैं। इसके अलावा, चेहरे के प्रतिनिधित्व मॉडल में विशेष रूप से चेहरे की पहचान के आसपास के हालिया शोध ने चेहरे के पुनर्निर्माण और पहचान सहित जटिल कार्यों में चेहरे के प्रतिनिधित्व की दक्षता का प्रदर्शन किया है। उसी पर आधारित, इंस्टेंटआईडी फ्रेमवर्क का लक्ष्य छवि निर्माण के लिए मॉडल का मार्गदर्शन करते हुए, संदर्भ छवि से फेस आईडी एम्बेडिंग का पता लगाने और निकालने के लिए पूर्व-प्रशिक्षित फेस मॉडल का लाभ उठाना है।

छवि एडाप्टर

की क्षमता छवि प्रसार मॉडल के लिए पूर्व-प्रशिक्षित पाठ इमेज प्रॉम्प्टिंग कार्यों में टेक्स्ट प्रॉम्प्ट को महत्वपूर्ण रूप से बढ़ाया जाता है, विशेष रूप से उन परिदृश्यों के लिए जिन्हें टेक्स्ट प्रॉम्प्ट द्वारा पर्याप्त रूप से वर्णित नहीं किया जा सकता है। इंस्टेंटआईडी फ्रेमवर्क इमेज प्रॉम्प्टिंग के लिए आईपी-एडाप्टर मॉडल द्वारा उपयोग की जाने वाली एक रणनीति को अपनाता है, जो इनपुट प्रॉम्प्ट के रूप में छवियों का समर्थन करने के लिए एक डिकॉउल्ड क्रॉस-अटेंशन घटक के साथ जोड़ा गया एक हल्का अनुकूली मॉड्यूल पेश करता है। हालाँकि, मोटे-संरेखित सीएलआईपी एम्बेडिंग के विपरीत, इंस्टेंटआईडी फ्रेमवर्क शब्दार्थ रूप से समृद्ध और अधिक सूक्ष्म त्वरित एकीकरण प्राप्त करने के प्रयास में छवि संकेत के रूप में आईडी एम्बेडिंग को नियोजित करके अलग हो जाता है।

आइडेंटिटीनेट

हालाँकि मौजूदा विधियाँ छवि संकेतों को पाठ संकेतों के साथ एकीकृत करने में सक्षम हैं, लेकिन इंस्टेंटआईडी फ्रेमवर्क का तर्क है कि ये विधियाँ केवल एकीकरण के स्तर के साथ मोटे-दाने वाले फीचर्स को बढ़ाती हैं जो आईडी-संरक्षित छवि निर्माण के लिए अपर्याप्त है। इसके अलावा, क्रॉस-अटेंशन परतों में छवि और टेक्स्ट टोकन जोड़ने से सीधे टेक्स्ट टोकन का नियंत्रण कमजोर हो जाता है, और छवि टोकन की ताकत बढ़ाने के प्रयास के परिणामस्वरूप संपादन कार्यों पर टेक्स्ट टोकन की क्षमताएं ख़राब हो सकती हैं। इन चुनौतियों का मुकाबला करने के लिए, इंस्टेंटआईडी फ्रेमवर्क कंट्रोलनेट का विकल्प चुनता है, जो एक वैकल्पिक सुविधा एम्बेडिंग विधि है जो नियंत्रणीय मॉड्यूल के लिए इनपुट के रूप में स्थानिक जानकारी का उपयोग करती है, जिससे इसे प्रसार मॉडल में यूनेट सेटिंग्स के साथ स्थिरता बनाए रखने की अनुमति मिलती है।

इंस्टेंटआईडी फ्रेमवर्क पारंपरिक कंट्रोलनेट आर्किटेक्चर में दो बदलाव करता है: सशर्त इनपुट के लिए, इंस्टेंटआईडी फ्रेमवर्क बारीक-बारीक ओपनपोज़ फेशियल कीपॉइंट्स के बजाय 5 फेशियल कीपॉइंट्स का विकल्प चुनता है। दूसरा, इंस्टेंटआईडी फ्रेमवर्क कंट्रोलनेट आर्किटेक्चर में क्रॉस-अटेंशन लेयर्स के लिए शर्तों के रूप में टेक्स्ट प्रॉम्प्ट के बजाय आईडी एम्बेडिंग का उपयोग करता है।

प्रशिक्षण और अनुमान

प्रशिक्षण चरण के दौरान, इंस्टेंटआईडी फ्रेमवर्क पूर्व-प्रशिक्षित प्रसार मॉडल के मापदंडों को फ्रीज करते हुए आइडेंटिटीनेट और इमेज एडॉप्टर के मापदंडों को अनुकूलित करता है। संपूर्ण इंस्टेंटआईडी पाइपलाइन को छवि-पाठ जोड़े पर प्रशिक्षित किया जाता है जो मानव विषयों को प्रदर्शित करता है, और कार्य विशिष्ट छवि स्थितियों के साथ स्थिर प्रसार ढांचे में उपयोग किए गए एक के समान एक प्रशिक्षण उद्देश्य को नियोजित करता है। इंस्टेंटआईडी प्रशिक्षण विधि का मुख्य आकर्षण इमेज प्रॉम्प्ट एडाप्टर के भीतर छवि और टेक्स्ट क्रॉस-अटेंशन परतों के बीच अलगाव है, एक विकल्प जो इंस्टेंटआईडी ढांचे को इन छवि स्थितियों के वजन को लचीले ढंग से और स्वतंत्र रूप से समायोजित करने की अनुमति देता है, इस प्रकार अधिक लक्षित और नियंत्रित सुनिश्चित करता है अनुमान और प्रशिक्षण प्रक्रिया.

InstantID: प्रयोग और परिणाम

इंस्टेंटआईडी फ्रेमवर्क स्टेबल डिफ्यूजन को लागू करता है और इसे LAION-Face पर प्रशिक्षित करता है, जो एक बड़े पैमाने पर ओपन-सोर्स डेटासेट है जिसमें 50 मिलियन से अधिक छवि-पाठ जोड़े शामिल हैं। इसके अतिरिक्त, इंस्टेंटआईडी फ्रेमवर्क छवि निर्माण की गुणवत्ता को और बढ़ाने के लिए BLIP10 मॉडल द्वारा स्वचालित रूप से उत्पन्न ऑटोमेशन के साथ 2 मिलियन से अधिक मानव छवियों को एकत्र करता है। इंस्टेंटआईडी ढांचा मुख्य रूप से एकल-व्यक्ति छवियों पर ध्यान केंद्रित करता है, और मानव छवियों से फेस आईडी एम्बेडिंग का पता लगाने और निकालने के लिए एक पूर्व-प्रशिक्षित फेस मॉडल को नियोजित करता है, और क्रॉप किए गए फेस डेटासेट को प्रशिक्षित करने के बजाय, मूल मानव छवियों को प्रशिक्षित करता है। इसके अलावा, प्रशिक्षण के दौरान, इंस्टेंटआईडी फ्रेमवर्क पूर्व-प्रशिक्षित टेक्स्ट को इमेज मॉडल में फ्रीज कर देता है, और केवल आइडेंटिटीनेट और इमेज एडॉप्टर के मापदंडों को अपडेट करता है।

केवल छवि पीढ़ी

इंस्टेंटआईडी मॉडल केवल संदर्भ छवि का उपयोग करके छवि निर्माण प्रक्रिया को निर्देशित करने के लिए एक खाली संकेत का उपयोग करता है, और संकेतों के बिना परिणाम निम्नलिखित छवि में प्रदर्शित होते हैं।

उपरोक्त छवि में प्रदर्शित 'एम्प्टी प्रॉम्प्ट' पीढ़ी, पहचान, उम्र और अभिव्यक्ति जैसी समृद्ध अर्थ संबंधी चेहरे की विशेषताओं को मजबूती से बनाए रखने के लिए इंस्टेंटआईडी ढांचे की क्षमता को प्रदर्शित करती है। हालाँकि, यह ध्यान देने योग्य है कि खाली संकेतों का उपयोग लिंग जैसे अन्य शब्दार्थों पर परिणामों को सटीक रूप से दोहराने में सक्षम नहीं हो सकता है। इसके अलावा, उपरोक्त छवि में, कॉलम 2 से 4 एक छवि और एक संकेत का उपयोग करते हैं, और जैसा कि देखा जा सकता है, उत्पन्न छवि पाठ नियंत्रण क्षमताओं में कोई गिरावट प्रदर्शित नहीं करती है, और पहचान स्थिरता भी सुनिश्चित करती है। अंत में, कॉलम 5 से 9 एक छवि, एक त्वरित और स्थानिक नियंत्रण का उपयोग करते हैं, जो पूर्व-प्रशिक्षित स्थानिक नियंत्रण मॉडल के साथ मॉडल की अनुकूलता को प्रदर्शित करता है, जिससे इंस्टेंटआईडी मॉडल पूर्व-प्रशिक्षित कंट्रोलनेट घटक का उपयोग करके लचीले ढंग से स्थानिक नियंत्रण पेश कर सकता है।

यह भी ध्यान देने योग्य है कि संदर्भ छवियों की संख्या उत्पन्न छवि पर महत्वपूर्ण प्रभाव डालती है, जैसा कि उपरोक्त छवि में दिखाया गया है। हालाँकि InstantID ढाँचा एकल संदर्भ छवि का उपयोग करके अच्छे परिणाम देने में सक्षम है, एकाधिक संदर्भ छवियाँ बेहतर गुणवत्ता वाली छवि उत्पन्न करती हैं क्योंकि InstantID ढाँचा आईडी एम्बेडिंग के औसत माध्य को छवि संकेत के रूप में लेता है। आगे बढ़ते हुए, InstantID फ्रेमवर्क की तुलना पिछले तरीकों से करना आवश्यक है जो एकल संदर्भ छवि का उपयोग करके वैयक्तिकृत छवियां उत्पन्न करते हैं। निम्नलिखित आंकड़ा एकल संदर्भ अनुकूलित छवि निर्माण के लिए इंस्टेंटआईडी ढांचे और मौजूदा अत्याधुनिक मॉडल द्वारा उत्पन्न परिणामों की तुलना करता है।

जैसा कि देखा जा सकता है, इंस्टेंटआईडी ढांचा चेहरे की विशेषताओं को संरक्षित करने में सक्षम है, आईडी एम्बेडिंग के कारण इसमें पहचान, उम्र और लिंग जैसी समृद्ध अर्थ संबंधी जानकारी होती है। यह कहना सुरक्षित होगा कि इंस्टेंटआईडी ढांचा अनुकूलित छवि निर्माण में मौजूदा ढांचे से बेहतर प्रदर्शन करता है क्योंकि यह नियंत्रण और शैलीगत लचीलेपन को बनाए रखते हुए मानव पहचान को संरक्षित करने में सक्षम है।

निष्कर्ष

इस लेख में, हमने InstantID के बारे में बात की है, जो छवि निर्माण के लिए एक प्रसार मॉडल आधारित समाधान है। इंस्टेंटआईडी एक प्लग एंड प्ले मॉड्यूल है जो केवल एक ही संदर्भ छवि के साथ विभिन्न शैलियों में छवि निर्माण और वैयक्तिकरण को कुशलता से संभालता है और उच्च निष्ठा भी सुनिश्चित करता है। इंस्टेंटआईडी फ्रेमवर्क तत्काल पहचान-संरक्षण छवि संश्लेषण पर केंद्रित है, और एक सरल प्लग एंड प्ले मॉड्यूल पेश करके दक्षता और उच्च निष्ठा के बीच अंतर को पाटने का प्रयास करता है जो फ्रेमवर्क को उच्च निष्ठा बनाए रखते हुए केवल एक चेहरे की छवि का उपयोग करके छवि वैयक्तिकरण को संभालने की अनुमति देता है।

अगला

एक डिजिटल लीजेंड को पुनर्जीवित करना: लाइमवायर का एक जेनरेटिव एआई पावरहाउस में परिवर्तन

मिस न करें

एआई में एक मूक विकास: पारंपरिक एआई मॉडल से परे मिश्रित एआई सिस्टम का उदय

कुणाल केजरीवाल

"पेशे से एक इंजीनियर, दिल से एक लेखक"। कुणाल एआई और एमएल के प्रति गहरा प्रेम और समझ रखने वाले एक तकनीकी लेखक हैं, जो अपने आकर्षक और सूचनात्मक दस्तावेज़ीकरण के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।