AI 101

рдбрд┐рдлреНрдпреВрдЬрди рдореЙрдбрд▓реНрд╕ рдЗрди рдПрдЖрдИ – рд╕рдм рдХреБрдЫ рдЬреЛ рдЖрдкрдХреЛ рдЬрд╛рдирдирд╛ рдЪрд╛рд╣рд┐рдП

mm
A collage of human faces created using AI image generator

एआई इकोसिस्टम में, डिफ्यूजन मॉडल तकनीकी प्रगति की दिशा और गति निर्धारित कर रहे हैं। वे जटिल जनरेटिव एआई कार्यों के तरीके को क्रांतिकारी बना रहे हैं। ये मॉडल गाउसियन सिद्धांत, विचलन, अवकल समीकरण, और जनरेटिव अनुक्रमों के गणित पर आधारित हैं। (हम नीचे तकनीकी शब्दों की व्याख्या करेंगे)

नवीनतम एआई-केंद्रित उत्पादों और समाधानों में, जिन्हें न्वीडिया, गूगल, एडोबे, और ओपनएआई द्वारा विकसित किया गया है, डिफ्यूजन मॉडल्स को केंद्र में रखा गया है। डीएलएल.ई 2, स्टेबल डिफ्यूजन, और मिडजॉर्नी डिफ्यूजन मॉडल्स के प्रमुख उदाहरण हैं जो हाल ही में इंटरनेट पर चर्चा में हैं। उपयोगकर्ता एक सरल टेक्स्ट प्रॉम्प्ट को इनपुट के रूप में देते हैं, और ये मॉडल उन्हें वास्तविक छवियों में परिवर्तित कर सकते हैं, जैसा कि नीचे दिखाया गया है。

рдорд┐рдбрдЬреЙрд░реНрдиреА рд╡реА5 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдмрдирд╛рдИ рдЧрдИ рдЫрд╡рд┐, рдЬрд┐рд╕рдореЗрдВ рдЗрдирдкреБрдЯ рдкреНрд░реЙрдореНрдкреНрдЯ рд╣реИ: рд╡рд╛рдЗрдмреНрд░реЗрдВрдЯ рдХреИрд▓рд┐рдлреЛрд░реНрдирд┐рдпрд╛ рдкреЙрдкреАрдЬрд╝ред

मिडजॉर्नी वी5 का उपयोग करके बनाई गई छवि, जिसमें इनपुट प्रॉम्प्ट है: वाइब्रेंट कैलिफोर्निया पॉपीज़। स्रोत: मिडजॉर्नी

आइए डिफ्यूजन मॉडल्स के मूलभूत कार्य सिद्धांतों और उनके द्वारा आज के विश्व को कैसे प्रभावित किया जा रहा है, इस पर गहराई से चर्चा करें।

डिफ्यूजन मॉडल्स क्या हैं?

शोध प्रकाशन “डीनोइज़िंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल्स” के अनुसार, डिफ्यूजन मॉडल्स को इस प्रकार परिभाषित किया जा सकता है:

“एक डिफ्यूजन मॉडल या प्रोबेबिलिस्टिक डिफ्यूजन मॉडल एक पैरामीटराइज्ड मार्कोव चेन है जो वेरिएशनल इन्फरेंस का उपयोग करके प्रशिक्षित किया जाता है ताकि नमूने डेटा के अनुरूप हों।”

सरल शब्दों में, डिफ्यूजन मॉडल्स डेटा को जनरेट कर सकते हैं जो उनके प्रशिक्षण डेटा के समान होता है। यदि मॉडल छवियों के प्रशिक्षण डेटा पर प्रशिक्षित किया जाता है, तो यह समान वास्तविक छवियों को जनरेट कर सकता है।

अब आइए ऊपर दी गई तकनीकी परिभाषा को तोड़कर समझने की कोशिश करें। डिफ्यूजन मॉडल्स एक प्रोबेबिलिस्टिक मॉडल से प्रेरित होते हैं जो समय के साथ बदलते सिस्टम का विश्लेषण और भविष्यवाणी कर सकते हैं, जैसे कि स्टॉक मार्केट रिटर्न या महामारी के प्रसार की भविष्यवाणी करना।

परिभाषा में कहा गया है कि वे पैरामीटराइज्ड मार्कोव चेन हैं जो वेरिएशनल इन्फरेंस का उपयोग करके प्रशिक्षित किए जाते हैं। मार्कोव चेन गणितीय मॉडल हैं जो एक सिस्टम को समय के साथ बदलते राज्यों के बीच संक्रमण को परिभाषित करते हैं। सिस्टम की वर्तमान स्थिति ही भविष्य में संभावित राज्यों की संभावना को निर्धारित करती है।

वेरिएशनल इन्फरेंस का उपयोग करके मॉडल को प्रशिक्षित करने में जटिल गणनाएं शामिल होती हैं जो संभाव्यता वितरण के लिए की जाती हैं। इसका उद्देश्य मार्कोव चेन के पैरामीटर्स को खोजना होता है जो विशिष्ट समय के बाद देखे गए (ज्ञात या वास्तविक) डेटा से मेल खाते हैं। यह प्रक्रिया मॉडल के नुकसान फंक्शन को कम करती है, जो पूर्वानुमानित (अज्ञात) और देखे गए (ज्ञात) राज्य के बीच का अंतर है।

एक बार प्रशिक्षित होने के बाद, मॉडल देखे गए डेटा के अनुरूप नमूने जनरेट कर सकता है। ये नमूने सिस्टम द्वारा समय के साथ अपनाए जा सकने वाले संभावित मार्गों या राज्यों का प्रतिनिधित्व करते हैं, और प्रत्येक मार्ग की अपनी संभावना होती है। इसलिए, मॉडल सिस्टम के भविष्य के व्यवहार की भविष्यवाणी कर सकता है bằng नमूनों की एक श्रृंखला को जनरेट करके और उनकी संबंधित संभावनाओं को खोजकर।

एआई में डिफ्यूजन मॉडल्स की व्याख्या कैसे करें?

डिफ्यूजन मॉडल्स गहरे जनरेटिव मॉडल हैं जो उपलब्ध प्रशिक्षण डेटा (जिसे फॉरवर्ड डिफ्यूजन प्रोसेस कहा जाता है) में शोर (गाउसियन शोर) जोड़कर और फिर इस प्रक्रिया को उलटकर (जिसे डीनोइज़िंग या रिवर्स डिफ्यूजन प्रोसेस कहा जाता है) डेटा को पुनर्प्राप्त करने का काम करते हैं। मॉडल धीरे-धीरे शोर को हटाना सीखता है। यह सीखा हुआ डीनोइज़िंग प्रक्रिया यादृच्छिक शोर वाली छवियों से उच्च गुणवत्ता वाली नई छवियों को जनरेट कर सकती है, जैसा कि नीचे दिए गए चित्र में दिखाया गया है।

рд░рд┐рд╡рд░реНрд╕ рдбрд┐рдлреНрдпреВрдЬрди рдкреНрд░реЛрд╕реЗрд╕: рдПрдХ рд╢реЛрд░ рд╡рд╛рд▓реА рдЫрд╡рд┐ рдХреЛ рдбреАрдиреЛрдЗрдЬрд╝ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рддрд╛рдХрд┐ рдореВрд▓ рдЫрд╡рд┐ (рдпрд╛ рдЗрд╕рдХреЗ рд╡ARIATIONS) рдХреЛ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗ рдпрд╛ рдЬрдирд░реЗрдЯ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗ рдПрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдбрд┐рдлреНрдпреВрдЬрди рдореЙрдбрд▓ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗред

रिवर्स डिफ्यूजन प्रोसेस: एक शोर वाली छवि को डीनोइज़ किया जाता है ताकि मूल छवि (या इसके वARIATIONS) को पुनर्प्राप्त किया जा सके या जनरेट किया जा सके एक प्रशिक्षित डिफ्यूजन मॉडल के माध्यम से। स्रोत: डीनोइज़िंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल्स

3 डिफ्यूजन मॉडल श्रेणियाँ

डिफ्यूजन मॉडल्स के पीछे विज्ञान को समझने के लिए तीन मूलभूत गणितीय फ्रेमवर्क हैं। सभी तीन शोर जोड़ने और फिर हटाने के सिद्धांतों पर काम करते हैं ताकि नए नमूने जनरेट किए जा सकें। आइए उन्हें नीचे चर्चा करें।

1. डीनोइज़िंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल्स (डीडीपीएम्स)

जैसा कि ऊपर बताया गया है, डीडीपीएम्स मुख्य रूप से दृश्य या ऑडियो डेटा से शोर हटाने के लिए उपयोग किए जाने वाले जनरेटिव मॉडल हैं। उन्होंने विभिन्न छवि और ऑडियो शोर हटाने के कार्यों पर प्रभावशाली परिणाम दिखाए हैं। उदाहरण के लिए, फिल्म निर्माण उद्योग आधुनिक छवि और वीडियो प्रोसेसिंग टूल्स का उपयोग उत्पादन की गुणवत्ता में सुधार के लिए करता है।

2. नॉइज़-कंडीशंड स्कोर-आधारित जनरेटिव मॉडल्स (एसजीएम्स)

एसजीएम्स नए नमूने जनरेट कर सकते हैं जो एक दिए गए वितरण से मेल खाते हैं। वे एक स्कोर फंक्शन का अनुमान लगाने के द्वारा काम करते हैं जो लक्ष्य वितरण के लॉग घनत्व का अनुमान लगा सकता है। लॉग घनत्व अनुमान यह मानता है कि उपलब्ध डेटा बिंदु एक अज्ञात डेटासेट (परीक्षण सेट) का हिस्सा हैं। यह स्कोर फंक्शन तब नए डेटा बिंदुओं को वितरण से जनरेट कर सकता है।

उदाहरण के लिए, डीपफेक प्रसिद्ध हैं क्योंकि वे प्रसिद्ध व्यक्तियों के नकली वीडियो और ऑडियो बनाते हैं। लेकिन वे मुख्य रूप से जनरेटिव एडवर्सेरियल नेटवर्क्स (जीएएन्स) से जुड़े हुए हैं। हालांकि, एसजीएम्स ने समान क्षमता दिखाई है – कभी-कभी बेहतर प्रदर्शन – उच्च गुणवत्ता वाले सेलिब्रिटी चेहरे बनाने में। इसके अलावा, एसजीएम्स स्वास्थ्य देखभाल डेटासेट का विस्तार करने में मदद कर सकते हैं, जो बड़ी मात्रा में उपलब्ध नहीं होते हैं क्योंकि सख्त नियमों और उद्योग मानकों के कारण।

3. स्टोकास्टिक डिफरेंशियल समीकरण (एसडीई)

एसडीई समय के संबंध में यादृच्छिक प्रक्रियाओं में परिवर्तनों का वर्णन करते हैं। वे भौतिकी और वित्तीय बाजारों में व्यापक रूप से उपयोग किए जाते हैं जिनमें यादृच्छिक कारक शामिल होते हैं जो बाजार के परिणामों को महत्वपूर्ण रूप से प्रभावित करते हैं।

उदाहरण के लिए, वस्तुओं की कीमतें अत्यधिक गतिशील होती हैं और विभिन्न यादृच्छिक कारकों से प्रभावित होती हैं। एसडीई वित्तीय डेरिवेटिव्स जैसे फ्यूचर्स कॉन्ट्रैक्ट्स (जैसे कच्चे तेल कॉन्ट्रैक्ट्स) की गणना करते हैं। वे उतार-चढ़ाव की गणना कर सकते हैं और सुरक्षा की भावना देने के लिए सटीक रूप से अनुकूल कीमतों की गणना कर सकते हैं।

एआई में डिफ्यूजन मॉडल्स के प्रमुख अनुप्रयोग

आइए एआई में डिफ्यूजन मॉडल्स के कुछ व्यापक रूप से अपनाए गए अभ्यासों और उपयोगों पर नज़र डालें।

उच्च गुणवत्ता वाला वीडियो जनरेशन

गहरे शिक्षण का उपयोग करके उच्च-अंत वीडियो बनाना चुनौतीपूर्ण होता है क्योंकि यह वीडियो फ्रेम्स की उच्च निरंतरता की आवश्यकता होती है। यहीं पर डिफ्यूजन मॉडल्स काम आते हैं क्योंकि वे लापता फ्रेम्स को भरने के लिए वीडियो फ्रेम्स का एक उपसेट जनरेट कर सकते हैं, जिससे उच्च गुणवत्ता वाले और चिकने वीडियो बनते हैं जिनमें कोई विलंब नहीं होता।

शोधकर्ताओं ने फ्लेक्सिबल डिफ्यूजन मॉडल और रेसिडुअल वीडियो डिफ्यूजन तकनीकों को इस उद्देश्य के लिए विकसित किया है। ये मॉडल वास्तविक फ्रेम्स के बीच में एआई-जनरेटेड फ्रेम्स जोड़कर वास्तविक वीडियो भी बना सकते हैं।

ये मॉडल कम फ्रेम प्रति सेकंड (एफपीएस) वाले वीडियो को उपलब्ध फ्रेम्स से पैटर्न सीखकर डमी फ्रेम्स जोड़कर बढ़ा सकते हैं। लगभग कोई फ्रेम नुकसान के साथ, ये फ्रेमवर्क गहरे शिक्षण-आधारित मॉडल्स को मदद कर सकते हैं ताकि वे उच्च-अंत कैमरा सेटअप से ली गई प्राकृतिक शॉट्स जैसे दिखने वाले एआई-आधारित वीडियो से स्क्रैच बना सकें।

2023 में वीडियो सामग्री उत्पादन और संपादन को तेज़ और सरल बनाने के लिए कई उल्लेखनीय एआई वीडियो जनरेटर उपलब्ध हैं।

टेक्स्ट-टू-इमेज जनरेशन

टेक्स्ट-टू-इमेज मॉडल्स इनपुट प्रॉम्प्ट का उपयोग करके उच्च गुणवत्ता वाली छवियों को जनरेट कर सकते हैं। उदाहरण के लिए, “लाल सेब एक प्लेट पर” जैसे इनपुट देने पर एक फोटोरियलिस्टिक छवि बनाई जा सकती है। ब्लेंडेड डिफ्यूजन और अनक्लिप ऐसे मॉडल्स के दो प्रमुख उदाहरण हैं जो उपयोगकर्ता इनपुट के आधार पर उच्च गुणवत्ता वाली और सटीक छवियां बना सकते हैं।

इसके अलावा, ओपनएआई द्वारा जीएलआईडीई एक और व्यापक रूप से ज्ञात समाधान है जो 2021 में जारी किया गया था और उपयोगकर्ता इनपुट का उपयोग करके फोटोरियलिस्टिक छवियां बनाता है। बाद में, ओपनएआई ने अपना सबसे उन्नत छवि जनरेशन मॉडल, डीएलएल.ई-2 जारी किया।

इसी तरह, गूगल ने भी एक छवि जनरेशन मॉडल विकसित किया है जिसे इमेज़न कहा जाता है, जो एक बड़े भाषा मॉडल का उपयोग करके इनपुट टेक्स्ट की गहरी समझ विकसित करता है और फिर फोटोरियलिस्टिक छवियां बनाता है।

हमने ऊपर मिडजॉर्नी और स्टेबल डिफ्यूजन (ड्रीमस्टूडियो) जैसे अन्य लोकप्रिय इमेज-जनरेशन टूल्स का उल्लेख किया है। नीचे स्टेबल डिफ्यूजन का उपयोग करके बनाई गई एक छवि देखें।

рд╕реНрдЯреЗрдмрд▓ рдбрд┐рдлреНрдпреВрдЬрди 1.5 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдмрдирд╛рдИ рдЧрдИ рдПрдХ рдХреЛрд▓рд╛рдЬ, рдЬрд┐рд╕рдореЗрдВ рдкреНрд░реЙрдореНрдкреНрдЯ рд╣реИ: рдХреЛрд▓рд╛рдЬ, рд╣рд╛рдЗрдкрд░-рд░рд┐рдпрд▓рд┐рд╕реНрдЯрд┐рдХ, рдХрдИ рднрд┐рдиреНрдирддрд╛рдПрдВ рдкреБрд░рд╛рдиреЗ рдереЙрдо рдпреЙрд░реНрдХ рдХрд╛ рдЪреЗрд╣рд░рд╛, рдЪреЗрд╣рд░реЗ рдХреА рднрд┐рдиреНрдирддрд╛рдПрдВ, рдЧрд╛рдпрдХ-рдЧреАрддрдХрд╛рд░, (рдкрд╛рд░реНрд╢реНрд╡) рдкреНрд░реЛрдлрд╛рдЗрд▓, рд╡рд┐рднрд┐рдиреНрди рдЖрдпреБ, рдореИрдХреНрд░реЛ рд▓реЗрдВрд╕, рд▓рд┐рдорд┐рдирд▓ рд╕реНрдкреЗрд╕, рд▓реА рдмрд░реНрдореЗрдЬреЛ, рдЕрд▓реНрдлреЛрдВрд╕ рдореБрдЪрд╛ рдФрд░ рдЧреНрд░реЗрдЧ рд░реБрдЯрдХреЛрд╡рд╕реНрдХреА рджреНрд╡рд╛рд░рд╛ред

स्टेबल डिफ्यूजन 1.5 का उपयोग करके बनाई गई एक कोलाज, जिसमें प्रॉम्प्ट है: कोलाज, हाइपर-रियलिस्टिक, कई भिन्नताएं पुराने थॉम यॉर्क का चेहरा, चेहरे की भिन्नताएं, गायक-गीतकार, (पार्श्व) प्रोफाइल, विभिन्न आयु, मैक्रो लेंस, लिमिनल स्पेस, ली बर्मेजो, अल्फोंस मुचा और ग्रेग रुटकोवस्की द्वारा।

एआई में डिफ्यूजन मॉडल्स – भविष्य में क्या अपेक्षा करें?

डिफ्यूजन मॉडल्स ने जटिल छवि और वीडियो डेटासेट से उच्च गुणवत्ता वाले नमूने जनरेट करने के लिए एक मजबूत दृष्टिकोण के रूप में आशाजनक क्षमता दिखाई है। डेटा का उपयोग और मैनिपुलेशन करने की मानव क्षमता में सुधार करके, डिफ्यूजन मॉडल्स आज के विश्व को क्रांतिकारी बना सकते हैं। हम डिफ्यूजन मॉडल्स के और भी अधिक अनुप्रयोगों को अपने दैनिक जीवन का हिस्सा बनते हुए देख सकते हैं।

यह कहा जा रहा है, डिफ्यूजन मॉडल्स एकमात्र जनरेटिव एआई तकनीक नहीं हैं। शोधकर्ता जनरेटिव एडवर्सेरियल नेटवर्क्स (जीएएन्स), वेरिएशनल ऑटोएनकोडर्स, और फ्लो-आधारित गहरे जनरेटिव मॉडल्स का भी उपयोग एआई सामग्री जनरेट करने के लिए करते हैं। डिफ्यूजन मॉडल्स और अन्य जनरेटिव मॉडल्स के बीच मूलभूत विशेषताओं को समझना भविष्य में अधिक प्रभावी समाधानों का उत्पादन करने में मदद कर सकता है।

एआई-आधारित प्रौद्योगिकियों के बारे में अधिक जानने के लिए यूनाइट.एआई पर जाएं। नीचे जनरेटिव एआई टूल्स पर हमारे क्यूरेटेड संसाधन देखें:

рд╣рд╛рдЬрд╝рд┐рдХрд╛ рдПрдХ рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрдЯрд┐рд╕реНрдЯ рд╣реИрдВ рдЬрд┐рдирдХреЗ рдкрд╛рд╕ рдПрдЖрдИ рдФрд░ рд╕рд╛рд╕ рдХрдВрдкрдирд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рддрдХрдиреАрдХреА рд╕рд╛рдордЧреНрд░реА рд▓рд┐рдЦрдиреЗ рдХрд╛ рд╡реНрдпрд╛рдкрдХ рдЕрдиреБрднрд╡ рд╣реИред