कृत्रिम बुद्धिमत्ता

डिफ्यूजन मॉडल्स को समझना: जेनरेटिव एआई की गहन पड़ताल

Published August 30, 2024

Updated March 17, 2026

Aayush Mittal Mittal

Understanding Diffusion Models: A Deep Dive into Generative AI

डिफ्यूजन मॉडल्स जेनरेटिव एआई में एक शक्तिशाली दृष्टिकोण के रूप में उभरे हैं, जो छवि, ऑडियो और वीडियो जनरेशन में अत्याधुनिक परिणाम देते हैं। इस गहन तकनीकी लेख में, हम जानेंगे कि डिफ्यूजन मॉडल कैसे काम करते हैं, उनकी प्रमुख नवाचार क्या हैं, और वे इतने सफल क्यों हो गए हैं। हम इस रोमांचक नई तकनीक की गणितीय नींव, प्रशिक्षण प्रक्रिया, सैंपलिंग एल्गोरिदम और अत्याधुनिक अनुप्रयोगों को कवर करेंगे।

डिफ्यूजन मॉडल्स का परिचय

डिफ्यूजन मॉडल्स जेनरेटिव मॉडल्स का एक वर्ग है जो डिफ्यूजन प्रक्रिया को उलट कर डेटा को धीरे-धीरे डीनॉइज़ करना सीखते हैं। मूल विचार शुद्ध शोर से शुरू करके और इसे लक्ष्य वितरण से एक उच्च-गुणवत्ता वाले नमूने में पुनरावृत्त रूप से परिष्कृत करना है।

यह दृष्टिकोण गैर-संतुलन थर्मोडायनामिक्स – विशेष रूप से, संरचना को पुनर्प्राप्त करने के लिए डिफ्यूजन को उलटने की प्रक्रिया – से प्रेरित था। मशीन लर्निंग के संदर्भ में, हम इसे डेटा में शोर के क्रमिक जोड़ को उलटना सीखने के रूप में सोच सकते हैं।

डिफ्यूजन मॉडल्स के कुछ प्रमुख लाभों में शामिल हैं:

अत्याधुनिक छवि गुणवत्ता, कई मामलों में GANs को पीछे छोड़ते हुए
प्रतिकूल गतिशीलता के बिना स्थिर प्रशिक्षण
अत्यधिक समानांतर योग्य
लचीला आर्किटेक्चर – कोई भी मॉडल जो इनपुट को समान आयामीता के आउटपुट में मैप करता है, उपयोग किया जा सकता है
मजबूत सैद्धांतिक आधार

आइए गहराई से जानें कि डिफ्यूजन मॉडल कैसे काम करते हैं।

स्रोत: सॉन्ग एट अल।

स्टोकेस्टिक डिफरेंशियल इक्वेशन्स डिफ्यूजन मॉडल्स में फॉरवर्ड और रिवर्स प्रक्रियाओं को नियंत्रित करती हैं। फॉरवर्ड एसडीई डेटा में शोर जोड़ती है, इसे धीरे-धीरे एक शोर वितरण में बदल देती है। रिवर्स एसडीई, एक सीखे गए स्कोर फ़ंक्शन द्वारा निर्देशित, प्रगतिशील रूप से शोर को हटाती है, जिससे यादृच्छिक शोर से यथार्थवादी छवियों का जनन होता है। यह दृष्टिकोण निरंतर अवस्था स्थानों में उच्च-गुणवत्ता वाली जेनरेटिव प्रदर्शन प्राप्त करने के लिए महत्वपूर्ण है।

फॉरवर्ड डिफ्यूजन प्रक्रिया

फॉरवर्ड डिफ्यूजन प्रक्रिया वास्तविक डेटा वितरण से नमूना लिए गए डेटा पॉइंट x₀ से शुरू होती है, और T टाइमस्टेप्स पर गॉसियन शोर को धीरे-धीरे जोड़कर तेजी से शोर वाले संस्करण x₁, x₂, …, xT उत्पन्न करती है।

प्रत्येक टाइमस्टेप t पर, हम निम्नानुसार थोड़ी मात्रा में शोर जोड़ते हैं:

x_t = √(1 - β_t) * x_{t-1} + √(β_t) * ε

जहां:

β_t एक वेरिएंस शेड्यूल है जो नियंत्रित करता है कि प्रत्येक चरण में कितना शोर जोड़ा जाता है
ε यादृच्छिक गॉसियन शोर है

यह प्रक्रिया तब तक जारी रहती है जब तक कि xT लगभग शुद्ध गॉसियन शोर नहीं हो जाता।

गणितीय रूप से, हम इसे एक मार्कोव चेन के रूप में वर्णित कर सकते हैं:

q(x_t | x_{t-1}) = N(x_t; √(1 - β_t) * x_{t-1}, β_t * I)

जहां N एक गॉसियन वितरण को दर्शाता है।

β_t शेड्यूल आमतौर पर शुरुआती टाइमस्टेप्स के लिए छोटा और समय के साथ बढ़ने के लिए चुना जाता है। सामान्य विकल्पों में रैखिक, कोसाइन, या सिग्मॉइड शेड्यूल शामिल हैं।

रिवर्स डिफ्यूजन प्रक्रिया

डिफ्यूजन मॉडल का लक्ष्य इस प्रक्रिया के विपरीत सीखना है – शुद्ध शोर xT से शुरू करके और इसे एक स्वच्छ नमूना x₀ पुनर्प्राप्त करने के लिए प्रगतिशील रूप से डीनॉइज़ करना।

हम इस रिवर्स प्रक्रिया को इस प्रकार मॉडल करते हैं:

p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), σ_θ^2(x_t, t))

जहां μ_θ और σ_θ^2 सीखे गए फ़ंक्शन (आमतौर पर न्यूरल नेटवर्क) हैं जो θ द्वारा पैरामीटराइज़्ड हैं।

मुख्य नवाचार यह है कि हमें पूर्ण रिवर्स वितरण को स्पष्ट रूप से मॉडल करने की आवश्यकता नहीं है। इसके बजाय, हम इसे फॉरवर्ड प्रक्रिया के संदर्भ में पैरामीटराइज़ कर सकते हैं, जिसे हम जानते हैं।

विशेष रूप से, हम दिखा सकते हैं कि इष्टतम रिवर्स प्रक्रिया माध्य μ* है:

μ* = 1/√(1 - β_t) * (x_t - β_t/√(1 - α_t) * ε_θ(x_t, t))

जहां:

α_t = 1 – β_t
ε_θ एक सीखा हुआ शोर पूर्वानुमान नेटवर्क है

यह हमें एक सरल उद्देश्य देता है – एक न्यूरल नेटवर्क ε_θ को प्रत्येक चरण में जोड़े गए शोर की भविष्यवाणी करने के लिए प्रशिक्षित करें।

प्रशिक्षण उद्देश्य

डिफ्यूजन मॉडल्स के लिए प्रशिक्षण उद्देश्य वेरिएशनल इनफेरेंस से प्राप्त किया जा सकता है। कुछ सरलीकरण के बाद, हम एक सरल L2 हानि पर पहुंचते हैं:

L = E_t,x₀,ε [ ||ε - ε_θ(x_t, t)||² ]

जहां:

t को 1 से T तक समान रूप से नमूना लिया जाता है
x₀ को प्रशिक्षण डेटा से नमूना लिया जाता है
ε को गॉसियन शोर से नमूना लिया जाता है
x_t को फॉरवर्ड प्रक्रिया के अनुसार x₀ में शोर जोड़कर निर्मित किया जाता है

दूसरे शब्दों में, हम मॉडल को प्रत्येक टाइमस्टेप में जोड़े गए शोर की भविष्यवाणी करने के लिए प्रशिक्षित कर रहे हैं।

मॉडल आर्किटेक्चर

स्रोत: रोन्नेबर्गर एट अल।

यू-नेट आर्किटेक्चर डिफ्यूजन मॉडल में डीनॉइज़िंग चरण के लिए केंद्रीय है। इसमें स्किप कनेक्शन के साथ एक एनकोडर-डिकोडर संरचना है जो पुनर्निर्माण प्रक्रिया के दौरान बारीक विवरणों को संरक्षित करने में मदद करती है। एनकोडर इनपुट छवि को प्रगतिशील रूप से डाउनसैंपल करते हुए उच्च-स्तरीय विशेषताओं को कैप्चर करता है, और डिकोडर एनकोडेड विशेषताओं को छवि को पुनर्निर्मित करने के लिए अप-सैंपल करता है। यह आर्किटेक्चर उन कार्यों में विशेष रूप से प्रभावी है जिनमें सटीक स्थानीयकरण की आवश्यकता होती है, जैसे कि छवि विभाजन।

शोर पूर्वानुमान नेटवर्क ε_θ किसी भी आर्किटेक्चर का उपयोग कर सकता है जो इनपुट को समान आयामीता के आउटपुट में मैप करता है। यू-नेट शैली के आर्किटेक्चर एक लोकप्रिय विकल्प हैं, विशेष रूप से छवि जनरेशन कार्यों के लिए।

एक विशिष्ट आर्किटेक्चर इस तरह दिख सकता है:

[code language

Aayush Mittal

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.