कृत्रिम बुद्धिमत्ता
डिफ्यूजन मॉडल्स को समझना: जेनरेटिव एआई की गहन पड़ताल
डिफ्यूजन मॉडल्स जेनरेटिव एआई में एक शक्तिशाली दृष्टिकोण के रूप में उभरे हैं, जो छवि, ऑडियो और वीडियो जनरेशन में अत्याधुनिक परिणाम देते हैं। इस गहन तकनीकी लेख में, हम जानेंगे कि डिफ्यूजन मॉडल कैसे काम करते हैं, उनकी प्रमुख नवाचार क्या हैं, और वे इतने सफल क्यों हो गए हैं। हम इस रोमांचक नई तकनीक की गणितीय नींव, प्रशिक्षण प्रक्रिया, सैंपलिंग एल्गोरिदम और अत्याधुनिक अनुप्रयोगों को कवर करेंगे।
डिफ्यूजन मॉडल्स का परिचय
डिफ्यूजन मॉडल्स जेनरेटिव मॉडल्स का एक वर्ग है जो डिफ्यूजन प्रक्रिया को उलट कर डेटा को धीरे-धीरे डीनॉइज़ करना सीखते हैं। मूल विचार शुद्ध शोर से शुरू करके और इसे लक्ष्य वितरण से एक उच्च-गुणवत्ता वाले नमूने में पुनरावृत्त रूप से परिष्कृत करना है।
यह दृष्टिकोण गैर-संतुलन थर्मोडायनामिक्स – विशेष रूप से, संरचना को पुनर्प्राप्त करने के लिए डिफ्यूजन को उलटने की प्रक्रिया – से प्रेरित था। मशीन लर्निंग के संदर्भ में, हम इसे डेटा में शोर के क्रमिक जोड़ को उलटना सीखने के रूप में सोच सकते हैं।
डिफ्यूजन मॉडल्स के कुछ प्रमुख लाभों में शामिल हैं:
- अत्याधुनिक छवि गुणवत्ता, कई मामलों में GANs को पीछे छोड़ते हुए
- प्रतिकूल गतिशीलता के बिना स्थिर प्रशिक्षण
- अत्यधिक समानांतर योग्य
- लचीला आर्किटेक्चर – कोई भी मॉडल जो इनपुट को समान आयामीता के आउटपुट में मैप करता है, उपयोग किया जा सकता है
- मजबूत सैद्धांतिक आधार
आइए गहराई से जानें कि डिफ्यूजन मॉडल कैसे काम करते हैं।

स्रोत: सॉन्ग एट अल।
स्टोकेस्टिक डिफरेंशियल इक्वेशन्स डिफ्यूजन मॉडल्स में फॉरवर्ड और रिवर्स प्रक्रियाओं को नियंत्रित करती हैं। फॉरवर्ड एसडीई डेटा में शोर जोड़ती है, इसे धीरे-धीरे एक शोर वितरण में बदल देती है। रिवर्स एसडीई, एक सीखे गए स्कोर फ़ंक्शन द्वारा निर्देशित, प्रगतिशील रूप से शोर को हटाती है, जिससे यादृच्छिक शोर से यथार्थवादी छवियों का जनन होता है। यह दृष्टिकोण निरंतर अवस्था स्थानों में उच्च-गुणवत्ता वाली जेनरेटिव प्रदर्शन प्राप्त करने के लिए महत्वपूर्ण है।
फॉरवर्ड डिफ्यूजन प्रक्रिया
फॉरवर्ड डिफ्यूजन प्रक्रिया वास्तविक डेटा वितरण से नमूना लिए गए डेटा पॉइंट x₀ से शुरू होती है, और T टाइमस्टेप्स पर गॉसियन शोर को धीरे-धीरे जोड़कर तेजी से शोर वाले संस्करण x₁, x₂, …, xT उत्पन्न करती है।
प्रत्येक टाइमस्टेप t पर, हम निम्नानुसार थोड़ी मात्रा में शोर जोड़ते हैं:
x_t = √(1 - β_t) * x_{t-1} + √(β_t) * ε
जहां:
- β_t एक वेरिएंस शेड्यूल है जो नियंत्रित करता है कि प्रत्येक चरण में कितना शोर जोड़ा जाता है
- ε यादृच्छिक गॉसियन शोर है
यह प्रक्रिया तब तक जारी रहती है जब तक कि xT लगभग शुद्ध गॉसियन शोर नहीं हो जाता।
गणितीय रूप से, हम इसे एक मार्कोव चेन के रूप में वर्णित कर सकते हैं:
q(x_t | x_{t-1}) = N(x_t; √(1 - β_t) * x_{t-1}, β_t * I)
जहां N एक गॉसियन वितरण को दर्शाता है।
β_t शेड्यूल आमतौर पर शुरुआती टाइमस्टेप्स के लिए छोटा और समय के साथ बढ़ने के लिए चुना जाता है। सामान्य विकल्पों में रैखिक, कोसाइन, या सिग्मॉइड शेड्यूल शामिल हैं।
रिवर्स डिफ्यूजन प्रक्रिया
डिफ्यूजन मॉडल का लक्ष्य इस प्रक्रिया के विपरीत सीखना है – शुद्ध शोर xT से शुरू करके और इसे एक स्वच्छ नमूना x₀ पुनर्प्राप्त करने के लिए प्रगतिशील रूप से डीनॉइज़ करना।
हम इस रिवर्स प्रक्रिया को इस प्रकार मॉडल करते हैं:
p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), σ_θ^2(x_t, t))
जहां μ_θ और σ_θ^2 सीखे गए फ़ंक्शन (आमतौर पर न्यूरल नेटवर्क) हैं जो θ द्वारा पैरामीटराइज़्ड हैं।
मुख्य नवाचार यह है कि हमें पूर्ण रिवर्स वितरण को स्पष्ट रूप से मॉडल करने की आवश्यकता नहीं है। इसके बजाय, हम इसे फॉरवर्ड प्रक्रिया के संदर्भ में पैरामीटराइज़ कर सकते हैं, जिसे हम जानते हैं।
विशेष रूप से, हम दिखा सकते हैं कि इष्टतम रिवर्स प्रक्रिया माध्य μ* है:
μ* = 1/√(1 - β_t) * (x_t - β_t/√(1 - α_t) * ε_θ(x_t, t))
जहां:
- α_t = 1 – β_t
- ε_θ एक सीखा हुआ शोर पूर्वानुमान नेटवर्क है
यह हमें एक सरल उद्देश्य देता है – एक न्यूरल नेटवर्क ε_θ को प्रत्येक चरण में जोड़े गए शोर की भविष्यवाणी करने के लिए प्रशिक्षित करें।
प्रशिक्षण उद्देश्य
डिफ्यूजन मॉडल्स के लिए प्रशिक्षण उद्देश्य वेरिएशनल इनफेरेंस से प्राप्त किया जा सकता है। कुछ सरलीकरण के बाद, हम एक सरल L2 हानि पर पहुंचते हैं:
L = E_t,x₀,ε [ ||ε - ε_θ(x_t, t)||² ]
जहां:
- t को 1 से T तक समान रूप से नमूना लिया जाता है
- x₀ को प्रशिक्षण डेटा से नमूना लिया जाता है
- ε को गॉसियन शोर से नमूना लिया जाता है
- x_t को फॉरवर्ड प्रक्रिया के अनुसार x₀ में शोर जोड़कर निर्मित किया जाता है
दूसरे शब्दों में, हम मॉडल को प्रत्येक टाइमस्टेप में जोड़े गए शोर की भविष्यवाणी करने के लिए प्रशिक्षित कर रहे हैं।
मॉडल आर्किटेक्चर

स्रोत: रोन्नेबर्गर एट अल।
यू-नेट आर्किटेक्चर डिफ्यूजन मॉडल में डीनॉइज़िंग चरण के लिए केंद्रीय है। इसमें स्किप कनेक्शन के साथ एक एनकोडर-डिकोडर संरचना है जो पुनर्निर्माण प्रक्रिया के दौरान बारीक विवरणों को संरक्षित करने में मदद करती है। एनकोडर इनपुट छवि को प्रगतिशील रूप से डाउनसैंपल करते हुए उच्च-स्तरीय विशेषताओं को कैप्चर करता है, और डिकोडर एनकोडेड विशेषताओं को छवि को पुनर्निर्मित करने के लिए अप-सैंपल करता है। यह आर्किटेक्चर उन कार्यों में विशेष रूप से प्रभावी है जिनमें सटीक स्थानीयकरण की आवश्यकता होती है, जैसे कि छवि विभाजन।
शोर पूर्वानुमान नेटवर्क ε_θ किसी भी आर्किटेक्चर का उपयोग कर सकता है जो इनपुट को समान आयामीता के आउटपुट में मैप करता है। यू-नेट शैली के आर्किटेक्चर एक लोकप्रिय विकल्प हैं, विशेष रूप से छवि जनरेशन कार्यों के लिए।
एक विशिष्ट आर्किटेक्चर इस तरह दिख सकता है:
[code language












