ठूंठ एआई में डिफ्यूजन मॉडल - वह सब कुछ जो आपको जानना आवश्यक है - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

Artificial Intelligence

एआई में डिफ्यूजन मॉडल - वह सब कुछ जो आपको जानना आवश्यक है

mm

प्रकाशित

 on

एआई छवि जनरेटर का उपयोग करके मानव चेहरों का एक कोलाज बनाया गया

एआई पारिस्थितिकी तंत्र में, प्रसार मॉडल तकनीकी प्रगति की दिशा और गति निर्धारित कर रहे हैं। वे हमारे जटिल दृष्टिकोण के तरीके में क्रांतिकारी बदलाव ला रहे हैं जनरेटिव ए.आई. कार्य. ये मॉडल गाऊसी सिद्धांतों, विचरण, विभेदक समीकरणों और जनरेटिव अनुक्रमों के गणित पर आधारित हैं। (हम नीचे तकनीकी शब्दजाल समझाएंगे)

एनवीडिया, गूगल, एडोब और ओपनएआई द्वारा विकसित आधुनिक एआई-केंद्रित उत्पादों और समाधानों ने प्रसार मॉडल को सुर्खियों के केंद्र में ला दिया है। डीएएलई 2, स्थिर प्रसार, तथा मध्य यात्रा प्रसार मॉडल के प्रमुख उदाहरण हैं जो हाल ही में इंटरनेट पर घूम रहे हैं। उपयोगकर्ता इनपुट के रूप में एक सरल टेक्स्ट प्रॉम्प्ट प्रदान करते हैं, और ये मॉडल उन्हें यथार्थवादी छवियों में परिवर्तित कर सकते हैं, जैसे कि नीचे दिखाया गया है।

इनपुट प्रॉम्प्ट का उपयोग करके मिडजर्नी v5 के साथ बनाई गई एक छवि: जीवंत कैलिफ़ोर्निया पॉपपीज़।

इनपुट प्रॉम्प्ट का उपयोग करके मिडजर्नी v5 के साथ बनाई गई एक छवि: जीवंत कैलिफ़ोर्निया पॉपपीज़। स्रोत: मध्य यात्रा

आइए प्रसार मॉडल के मूलभूत कार्य सिद्धांतों का पता लगाएं और वे दुनिया की दिशाओं और मानदंडों को कैसे बदल रहे हैं जैसा कि हम आज देखते हैं।

प्रसार मॉडल क्या हैं?

शोध प्रकाशन के अनुसार "डिनोइज़िंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल," प्रसार मॉडल को इस प्रकार परिभाषित किया गया है:

"एक प्रसार मॉडल या संभाव्य प्रसार मॉडल एक पैरामीटरयुक्त मार्कोव श्रृंखला है जिसे सीमित समय के बाद डेटा से मेल खाने वाले नमूने तैयार करने के लिए परिवर्तनीय अनुमान का उपयोग करके प्रशिक्षित किया जाता है"

सीधे शब्दों में कहें तो, प्रसार मॉडल उसी तरह का डेटा उत्पन्न कर सकते हैं जिस पर उन्हें प्रशिक्षित किया गया है। यदि मॉडल बिल्लियों की छवियों पर प्रशिक्षण लेता है, तो यह बिल्लियों की समान यथार्थवादी छवियां उत्पन्न कर सकता है।

अब आइए ऊपर उल्लिखित तकनीकी परिभाषा को तोड़ने का प्रयास करें। प्रसार मॉडल एक संभाव्य मॉडल के कार्य सिद्धांत और गणितीय आधार से प्रेरणा लेते हैं जो समय के साथ बदलते सिस्टम के व्यवहार का विश्लेषण और भविष्यवाणी कर सकता है, जैसे कि शेयर बाजार में वापसी या महामारी के प्रसार की भविष्यवाणी करना।

परिभाषा में कहा गया है कि वे परिवर्तनशील अनुमान के साथ प्रशिक्षित पैरामीटरयुक्त मार्कोव श्रृंखलाएं हैं। मार्कोव श्रृंखलाएं गणितीय मॉडल हैं जो एक ऐसी प्रणाली को परिभाषित करती हैं जो समय के साथ विभिन्न राज्यों के बीच स्विच करती है। सिस्टम की मौजूदा स्थिति ही किसी विशिष्ट स्थिति में संक्रमण की संभावना निर्धारित कर सकती है। दूसरे शब्दों में, किसी सिस्टम की वर्तमान स्थिति उन संभावित स्थितियों को रखती है जिनका सिस्टम किसी भी समय अनुसरण या अधिग्रहण कर सकता है।

परिवर्तनशील अनुमान का उपयोग करके मॉडल को प्रशिक्षित करने में संभाव्यता वितरण के लिए जटिल गणना शामिल है। इसका लक्ष्य मार्कोव श्रृंखला के सटीक मापदंडों को ढूंढना है जो एक विशिष्ट समय के बाद देखे गए (ज्ञात या वास्तविक) डेटा से मेल खाते हैं। यह प्रक्रिया मॉडल के हानि फ़ंक्शन के मूल्य को कम करती है, जो अनुमानित (अज्ञात) और देखी गई (ज्ञात) स्थिति के बीच का अंतर है।

एक बार प्रशिक्षित होने के बाद, मॉडल देखे गए डेटा से मेल खाने वाले नमूने उत्पन्न कर सकता है। ये नमूने संभावित प्रक्षेप पथों का प्रतिनिधित्व करते हैं या बताते हैं कि सिस्टम समय के साथ अनुसरण कर सकता है या प्राप्त कर सकता है, और प्रत्येक प्रक्षेप पथ के घटित होने की एक अलग संभावना होती है। इसलिए, मॉडल नमूनों की एक श्रृंखला उत्पन्न करके और उनकी संबंधित संभावनाओं (इन घटनाओं के घटित होने की संभावना) का पता लगाकर सिस्टम के भविष्य के व्यवहार की भविष्यवाणी कर सकता है।

एआई में डिफ्यूजन मॉडल की व्याख्या कैसे करें?

डिफ्यूजन मॉडल गहरे जनरेटिव मॉडल हैं जो उपलब्ध प्रशिक्षण डेटा (जिसे फॉरवर्ड डिफ्यूजन प्रक्रिया के रूप में भी जाना जाता है) में शोर (गॉसियन शोर) जोड़कर काम करते हैं और फिर डेटा को पुनर्प्राप्त करने के लिए प्रक्रिया को उलट देते हैं (जिसे डीनोइजिंग या रिवर्स डिफ्यूजन प्रक्रिया के रूप में जाना जाता है)। मॉडल धीरे-धीरे शोर को दूर करना सीखता है। यह सीखी गई डीनोइज़िंग प्रक्रिया यादृच्छिक बीजों (यादृच्छिक शोर वाली छवियों) से नई, उच्च-गुणवत्ता वाली छवियां उत्पन्न करती है, जैसा कि नीचे दिए गए चित्रण में दिखाया गया है।

रिवर्स प्रसार प्रक्रिया: एक शोर वाली छवि को एक प्रशिक्षित प्रसार मॉडल के माध्यम से मूल छवि को पुनर्प्राप्त करने (या इसकी विविधताएं उत्पन्न करने) के लिए निरूपित किया जाता है।

रिवर्स प्रसार प्रक्रिया: एक शोर वाली छवि को एक प्रशिक्षित प्रसार मॉडल के माध्यम से मूल छवि को पुनर्प्राप्त करने (या इसकी विविधताएं उत्पन्न करने) के लिए निरूपित किया जाता है। स्रोत: डिनोइज़िंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल

3 प्रसार मॉडल श्रेणियाँ

वहां तीन मौलिक गणितीय ढाँचे जो प्रसार मॉडल के पीछे के विज्ञान को रेखांकित करता है। ये तीनों शोर जोड़ने और फिर नए नमूने उत्पन्न करने के लिए इसे हटाने के समान सिद्धांतों पर काम करते हैं। आइए नीचे उन पर चर्चा करें।

एक प्रसार मॉडल एक छवि से शोर जोड़ता और हटाता है।

एक प्रसार मॉडल एक छवि से शोर जोड़ता और हटाता है। स्रोत: विजन में प्रसार मॉडल: एक सर्वेक्षण

1. डिनोइजिंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल (डीडीपीएम)

जैसा कि ऊपर बताया गया है, डीडीपीएम जेनरेटिव मॉडल हैं जिनका उपयोग मुख्य रूप से दृश्य या ऑडियो डेटा से शोर को हटाने के लिए किया जाता है। उन्होंने विभिन्न छवि और ऑडियो निरूपण कार्यों पर प्रभावशाली परिणाम दिखाए हैं। उदाहरण के लिए, फिल्म निर्माण उद्योग उत्पादन की गुणवत्ता में सुधार के लिए आधुनिक छवि और वीडियो प्रसंस्करण उपकरणों का उपयोग करता है।

2. शोर-वातानुकूलित स्कोर-आधारित जेनरेटिव मॉडल (एसजीएम)

एसजीएम किसी दिए गए वितरण से नए नमूने उत्पन्न कर सकते हैं। वे एक अनुमान स्कोर फ़ंक्शन सीखकर काम करते हैं जो लक्ष्य वितरण के लॉग घनत्व का अनुमान लगा सकता है। लॉग घनत्व अनुमान उपलब्ध डेटा बिंदुओं के लिए यह धारणा बनाता है कि यह एक अज्ञात डेटासेट (परीक्षण सेट) का एक हिस्सा है। यह स्कोर फ़ंक्शन वितरण से नए डेटा बिंदु उत्पन्न कर सकता है।

उदाहरण के लिए: गहरे फेक मशहूर हस्तियों के फर्जी वीडियो और ऑडियो बनाने के लिए कुख्यात हैं। लेकिन अधिकतर उन्हें ही जिम्मेदार ठहराया जाता है जनरेशनल एडवरसियरी नेटवर्क (GANs). हालाँकि, एसजीएम के पास है समान क्षमताएँ प्रदर्शित कीं - कई बार बेहतर प्रदर्शन किया - उच्च गुणवत्ता वाले सेलिब्रिटी चेहरे तैयार करने में। इसके अलावा, एसजीएम स्वास्थ्य देखभाल डेटासेट का विस्तार करने में मदद कर सकते हैं, जो सख्त नियमों और उद्योग मानकों के कारण बड़ी मात्रा में आसानी से उपलब्ध नहीं हैं।

3. स्टोकेस्टिक विभेदक समीकरण (एसडीई)

एसडीई समय से संबंधित यादृच्छिक प्रक्रियाओं में परिवर्तन का वर्णन करते हैं। इनका व्यापक रूप से भौतिकी और वित्तीय बाजारों में उपयोग किया जाता है जिसमें यादृच्छिक कारक शामिल होते हैं जो बाजार के परिणामों को महत्वपूर्ण रूप से प्रभावित करते हैं।

उदाहरण के लिए, वस्तुओं की कीमतें अत्यधिक गतिशील होती हैं और कई यादृच्छिक कारकों से प्रभावित होती हैं। एसडीई वायदा अनुबंध (जैसे कच्चे तेल अनुबंध) जैसे वित्तीय डेरिवेटिव की गणना करते हैं। वे सुरक्षा की भावना देने के लिए उतार-चढ़ाव का मॉडल बना सकते हैं और अनुकूल कीमतों की सटीक गणना कर सकते हैं।

एआई में डिफ्यूजन मॉडल के प्रमुख अनुप्रयोग

आइए एआई में प्रसार मॉडल की कुछ व्यापक रूप से अनुकूलित प्रथाओं और उपयोगों को देखें।

उच्च गुणवत्ता वाली वीडियो पीढ़ी

का उपयोग करके उच्च-स्तरीय वीडियो बनाना ध्यान लगा के पढ़ना या सीखना चुनौतीपूर्ण है क्योंकि इसमें वीडियो फ्रेम की उच्च निरंतरता की आवश्यकता होती है। यह वह जगह है जहां प्रसार मॉडल काम में आते हैं क्योंकि वे लापता फ़्रेमों के बीच भरने के लिए वीडियो फ़्रेमों का एक सबसेट उत्पन्न कर सकते हैं, जिसके परिणामस्वरूप बिना किसी विलंबता के उच्च गुणवत्ता वाले और सुचारू वीडियो प्राप्त होते हैं।

शोधकर्ताओं ने विकसित किया है लचीला प्रसार मॉडल और अवशिष्ट वीडियो प्रसार इस उद्देश्य की पूर्ति के लिए तकनीकें। ये मॉडल वास्तविक फ़्रेमों के बीच एआई-जनरेटेड फ़्रेमों को जोड़कर यथार्थवादी वीडियो भी बना सकते हैं।

ये मॉडल उपलब्ध फ्रेम से पैटर्न सीखने के बाद डमी फ्रेम जोड़कर कम एफपीएस वीडियो के एफपीएस (फ्रेम प्रति सेकंड) को आसानी से बढ़ा सकते हैं। लगभग बिना किसी फ्रेम हानि के, ये फ्रेमवर्क स्क्रैच से एआई-आधारित वीडियो उत्पन्न करने के लिए गहन शिक्षण-आधारित मॉडल की सहायता कर सकते हैं जो हाई-एंड कैम सेटअप से प्राकृतिक शॉट्स की तरह दिखते हैं।

उल्लेखनीय की एक विस्तृत श्रृंखला एआई वीडियो जनरेटर वीडियो सामग्री उत्पादन और संपादन को त्वरित और सरल बनाने के लिए 2023 में उपलब्ध है।

टेक्स्ट-टू-इमेज जेनरेशन

टेक्स्ट-टू-इमेज मॉडल उच्च गुणवत्ता वाली छवियां उत्पन्न करने के लिए इनपुट संकेतों का उपयोग करते हैं। उदाहरण के लिए, "प्लेट पर लाल सेब" इनपुट देना और प्लेट पर सेब की फोटोरिअलिस्टिक छवि बनाना। मिश्रित प्रसार और अनक्लिप करें ऐसे मॉडलों के दो प्रमुख उदाहरण हैं जो उपयोगकर्ता इनपुट के आधार पर अत्यधिक प्रासंगिक और सटीक छवियां उत्पन्न कर सकते हैं।

इसके अलावा, OpenAI द्वारा ग्लाइड 2021 में जारी किया गया एक और व्यापक रूप से ज्ञात समाधान है जो उपयोगकर्ता इनपुट का उपयोग करके फोटोयथार्थवादी छवियां तैयार करता है। बाद में, OpenAI ने DALL.E-2 जारी किया, जो इसका अब तक का सबसे उन्नत छवि निर्माण मॉडल है।

इसी तरह, Google ने एक इमेज जेनरेशन मॉडल भी विकसित किया है जिसे कहा जाता है छवि, जो इनपुट टेक्स्ट की गहरी पाठ्य समझ विकसित करने के लिए एक बड़े भाषा मॉडल का उपयोग करता है और फिर फोटोरिअलिस्टिक छवियां उत्पन्न करता है।

हमने अन्य लोकप्रिय छवि-निर्माण टूल जैसे मिडजॉर्नी और स्टेबल डिफ्यूजन का उल्लेख किया है (ड्रीमस्टूडियो) ऊपर। नीचे स्थिर प्रसार का उपयोग करके बनाई गई छवि पर एक नज़र डालें।

स्टेबल डिफ्यूजन 1.5 के साथ बनाया गया मानवीय चेहरों का एक कोलाज

निम्नलिखित प्रॉम्प्ट का उपयोग करके स्टेबल डिफ्यूजन 1.5 के साथ बनाई गई एक छवि: "कोलाज, हाइपर-यथार्थवादी, बहुत पुराने थॉम यॉर्क के कई रूप चित्र, चेहरे की विविधताएं, गायक-गीतकार, (साइड) प्रोफ़ाइल, विभिन्न आयु, मैक्रो लेंस, लिमिनल स्पेस, द्वारा ली बरमेजो, अल्फोंस मुचा और ग्रेग रुटकोव्स्की, ग्रेबर्ड, चिकना चेहरा, चीकबोन्स"

एआई में प्रसार मॉडल - भविष्य में क्या उम्मीद करें?

डिफ्यूजन मॉडल ने जटिल छवि और वीडियो डेटासेट से उच्च गुणवत्ता वाले नमूने तैयार करने के लिए एक मजबूत दृष्टिकोण के रूप में आशाजनक क्षमता का खुलासा किया है। डेटा का उपयोग और हेरफेर करने की मानवीय क्षमता में सुधार करके, प्रसार मॉडल संभावित रूप से दुनिया में क्रांति ला सकते हैं जैसा कि हम आज देखते हैं। हम उम्मीद कर सकते हैं कि प्रसार मॉडल के और भी अधिक अनुप्रयोग हमारे दैनिक जीवन का अभिन्न अंग बन जाएंगे।

ऐसा कहने के बाद, प्रसार मॉडल एकमात्र जेनरेटिव एआई तकनीक नहीं हैं। शोधकर्ता जेनरेटिव एडवरसैरियल नेटवर्क (जीएएन), वेरिएशनल का भी उपयोग करते हैं आटो चालक, और एआई सामग्री उत्पन्न करने के लिए प्रवाह-आधारित गहन जेनरेटर मॉडल। उन मूलभूत विशेषताओं को समझना जो प्रसार मॉडल को अन्य जेनरेटर मॉडल से अलग करती हैं, आने वाले दिनों में अधिक प्रभावी समाधान तैयार करने में मदद कर सकती हैं।

एआई-आधारित प्रौद्योगिकियों के बारे में अधिक जानने के लिए, यहां जाएं यूनाइट.एआई. नीचे जेनरेटिव एआई टूल्स पर हमारे क्यूरेटेड संसाधन देखें।