कृत्रिम बुद्धिमत्ता

StreamDiffusion: एक पाइपलाइन-स्तरीय समाधान वास्तविक समय इंटरैक्टिव जेनरेशन के लिए

Published January 4, 2024

Updated April 28, 2026

Kunal Kejriwal

StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

अपनी विशाल संभावना और व्यावसायीकरण के अवसरों के कारण, विशेष रूप से गेमिंग, प्रसारण और वीडियो स्ट्रीमिंग में, मेटावर्स वर्तमान में सबसे तेजी से बढ़ती प्रौद्योगिकियों में से एक है। आधुनिक मेटावर्स अनुप्रयोग अपनी वास्तविकता को बढ़ाने के लिए कंप्यूटर विजन और डिफ्यूजन मॉडल सहित एआई फ्रेमवर्क का उपयोग करते हैं। मेटावर्स अनुप्रयोगों के लिए एक महत्वपूर्ण चुनौती विभिन्न डिफ्यूजन पाइपलाइनों को एकीकृत करना है जो कम विलंबता और उच्च थ्रूपुट प्रदान करते हैं, मानवों और इन अनुप्रयोगों के बीच प्रभावी इंटरैक्शन सुनिश्चित करते हैं।

आज के डिफ्यूजन-आधारित एआई फ्रेमवर्क छवियों को पाठ या छवि प्रॉम्प्ट से बनाने में उत्कृष्ट हैं, लेकिन वास्तविक समय की इंटरैक्शन में कमी है। यह सीमा विशेष रूप से उन कार्यों में स्पष्ट है जिनमें निरंतर इनपुट और उच्च थ्रूपुट की आवश्यकता होती है, जैसे कि वीडियो गेम ग्राफिक्स, मेटावर्स अनुप्रयोग, प्रसारण और लाइव वीडियो स्ट्रीमिंग।

इस लेख में, हम StreamDiffusion पर चर्चा करेंगे, एक वास्तविक समय डिफ्यूजन पाइपलाइन जो निरंतर इनपुट वाले कार्यों में डिफ्यूजन-आधारित फ्रेमवर्क की वर्तमान सीमाओं को संबोधित करते हुए इंटरैक्टिव और वास्तविक छवियों को जनरेट करने के लिए विकसित की गई है। StreamDiffusion एक नवाचारी दृष्टिकोण है जो मूल छवि के क्रमिक शोर को बैच डीनोइज़िंग में परिवर्तित करता है, उच्च थ्रूपुट और तरल धाराओं को सक्षम करने का लक्ष्य रखता है। यह दृष्टिकोण मौजूदा डिफ्यूजन-आधारित फ्रेमवर्क द्वारा उपयोग किए जाने वाले पारंपरिक प्रतीक्षा और इंटरैक्ट तरीके से दूर ले जाता है। आगामी अनुभागों में, हम StreamDiffusion फ्रेमवर्क को विस्तार से देखेंगे, इसके कार्य, वास्तुकला और वर्तमान राज्य-ऑफ-द-आर्ट फ्रेमवर्क के खिलाफ तुलनात्मक परिणामों का अन्वेषण करेंगे। आइए शुरू करें।

StreamDiffusion : वास्तविक समय इंटरैक्टिव जेनरेशन का परिचय

मेटावर्स प्रदर्शन गहन अनुप्रयोग हैं क्योंकि वे अपने उपयोगकर्ताओं को अपने ट्रेडमार्क इंटरैक्टिव इंटरफेस और अनुभव प्रदान करने के लिए वास्तविक समय में बड़ी मात्रा में डेटा को संसाधित करते हैं, जिसमें पाठ, एनिमेशन, वीडियो और छवियां शामिल हैं। आधुनिक मेटावर्स अनुप्रयोग कम विलंबता और उच्च थ्रूपुट प्राप्त करने के लिए कंप्यूटर विजन, इमेज प्रोसेसिंग और डिफ्यूजन मॉडल सहित एआई-आधारित फ्रेमवर्क पर निर्भर करते हैं ताकि एक सहज उपयोगकर्ता अनुभव सुनिश्चित किया जा सके। वर्तमान में, अधिकांश मेटावर्स अनुप्रयोग वास्तविक समय में अपनी इंटरैक्टिव क्षमताओं को बढ़ाने और उच्च थ्रूपुट सुनिश्चित करने के लिए डीनोइज़िंग पुनरावृत्तियों की घटना को कम करने पर निर्भर करते हैं। ये फ्रेमवर्क एक सामान्य रणनीति का विकल्प चुनते हैं जिसमें डिफ्यूजन प्रक्रिया को न्यूरल ओडीई (साधारण डिफरेंशियल समीकरण) के साथ पुनः फ्रेम करना या मल्टी-स्टेप डिफ्यूजन मॉडल को कुछ चरणों या यहां तक कि एक चरण में कम करना शामिल है। हालांकि यह दृष्टिकोण संतोषजनक परिणाम प्रदान करता है, इसकी सीमाएं हैं, जिनमें सीमित लचीलापन और उच्च गणना लागत शामिल हैं।

दूसरी ओर, StreamDiffusion एक पाइपलाइन-स्तरीय समाधान है जो एक ऑर्थोगोनल दिशा से शुरू होता है और वास्तविक समय में इंटरैक्टिव छवियों को जनरेट करने की फ्रेमवर्क की क्षमताओं को बढ़ाता है, साथ ही उच्च थ्रूपुट सुनिश्चित करता है। StreamDiffusion एक सरल रणनीति का उपयोग करता है जिसमें मूल इनपुट को डीनोइज़ करने के बजाय, फ्रेमवर्क डीनोइज़िंग चरण को बैच करता है। यह रणनीति एसिंक्रोनस प्रोसेसिंग से प्रेरित है, क्योंकि फ्रेमवर्क को पहले डीनोइज़िंग चरण के पूरा होने की प्रतीक्षा करने की आवश्यकता नहीं है trước कि यह दूसरे चरण में आगे बढ़ सके, जैसा कि निम्नलिखित छवि में दिखाया गया है। यू-नेट प्रोसेसिंग फ्रीक्वेंसी और इनपुट फ्रीक्वेंसी के बीच सिंक्रोनाइज़ करने के लिए, StreamDiffusion फ्रेमवर्क एक क्यू रणनीति को लागू करता है जो इनपुट और आउटपुट को कैश करता है।

हालांकि StreamDiffusion पाइपलाइन एसिंक्रोनस प्रोसेसिंग से प्रेरित है, यह अपने तरीके से अद्वितीय है क्योंकि यह जीपीयू समांतरता को लागू करता है जो फ्रेमवर्क को एक एकल यूएनेट घटक का उपयोग करके बैच्ड नॉइज़ लेटेंट फीचर को डीनोइज़ करने की अनुमति देता है। इसके अलावा, मौजूदा डिफ्यूजन-आधारित पाइपलाइन जेनरेट की गई छवियों में दिए गए प्रॉम्प्ट पर जोर देने के लिए क्लासिफायर-फ्री गाइडेंस को शामिल करती हैं, जिसके परिणामस्वरूप वर्तमान पाइपलाइनों में अतिरिक्त और अत्यधिक गणना ओवरहेड्स होते हैं। StreamDiffusion पाइपलाइन को समान मुद्दों का सामना न करने के लिए, यह एक नवाचारी आरसीएफजी या रेसिडुअल क्लासिफायर-फ्री गाइडेंस दृष्टिकोण को लागू करता है जो नकारात्मक स्थितियों को अनुमानित करने के लिए एक आभासी रेसिडुअल नॉइज़ का उपयोग करता है, जिससे फ्रेमवर्क को प्रक्रिया के प्रारंभिक चरणों में ही नकारात्मक नॉइज़ स्थितियों की गणना करने की अनुमति मिलती है। इसके अलावा, StreamDiffusion पाइपलाइन एक स्टोकास्टिक समानता फिल्टर रणनीति को लागू करके पारंपरिक डिफ्यूजन-पाइपलाइन की गणना आवश्यकताओं को कम करता है जो निरंतर इनपुट के बीच समानता की गणना करके यह निर्धारित करता है कि पाइपलाइन को इनपुट छवियों को संसाधित करना चाहिए या नहीं।

StreamDiffusion फ्रेमवर्क डिफ्यूजन मॉडल और त्वरण डिफ्यूजन मॉडल के ज्ञान पर आधारित है।

डिफ्यूजन मॉडल अपनी असाधारण छवि जनरेशन क्षमताओं और प्रदान किए गए नियंत्रण के लिए जाने जाते हैं। उनकी क्षमताओं के कारण, डिफ्यूजन मॉडल छवि संपादन, पाठ से छवि जनरेशन और वीडियो जनरेशन में अपने अनुप्रयोग पाए हैं। इसके अलावा, सुसंगत मॉडलों के विकास ने नमूना प्रोसेसिंग दक्षता को बढ़ाने की क्षमता को प्रदर्शित किया है जो छवि की गुणवत्ता को समझौता किए बिना डिफ्यूजन मॉडल की लागूकरण और दक्षता को बढ़ाने के लिए नए दरवाजे खोलता है। हालांकि बहुत ही कुशल, डिफ्यूजन मॉडल में एक प्रमुख सीमा है: धीमी छवि जनरेशन। इस सीमा को दूर करने के लिए, विकासकों ने त्वरित डिफ्यूजन मॉडल पेश किए, जो डिफ्यूजन-आधारित फ्रेमवर्क हैं जिन्हें अतिरिक्त प्रशिक्षण चरणों की आवश्यकता नहीं होती है या पूर्वानुमान-करेक्टर रणनीतियों और अनुकूली चरण-आकार सॉल्वर को लागू करते हैं ताकि आउटपुट गति बढ़ाई जा सके।

StreamDiffusion और पारंपरिक डिफ्यूजन-आधारित फ्रेमवर्क के बीच अंतर यह है कि जबकि बाद वाला मुख्य रूप से व्यक्तिगत मॉडल की कम विलंबता पर केंद्रित है, पहला एक पाइपलाइन-स्तरीय दृष्टिकोण पेश करता है जो उच्च थ्रूपुट प्राप्त करने के लिए डिज़ाइन किया गया है जो कुशल इंटरैक्टिव डिफ्यूजन को सक्षम बनाता है।

StreamDiffusion : कार्य और वास्तुकला

StreamDiffusion पाइपलाइन एक वास्तविक समय डिफ्यूजन पाइपलाइन है जो इंटरैक्टिव और वास्तविक छवियों को जनरेट करने के लिए विकसित की गई है, और इसमें 6 प्रमुख घटक हैं: आरसीएफजी या रेसिडुअल क्लासिफायर फ्री गाइडेंस, स्ट्रीम बैच रणनीति, स्टोकास्टिक समानता फिल्टर, एक इनपुट-आउटपुट क्यू, मॉडल त्वरण टूल्स के साथ ऑटोएनकोडर, और एक पूर्व-गणना प्रक्रिया। आइए इन घटकों पर विस्तार से चर्चा करें।

स्ट्रीम बैच रणनीति

पारंपरिक रूप से, डिफ्यूजन मॉडल में डीनोइज़िंग चरण क्रमिक रूप से किए जाते हैं, जिसके परिणामस्वरूप यू-नेट प्रोसेसिंग समय में एक महत्वपूर्ण वृद्धि होती है जो प्रोसेसिंग चरणों की संख्या से संबंधित है। हालांकि, उच्च-विश्वसनीयता वाली छवियों को जनरेट करने के लिए प्रोसेसिंग चरणों की संख्या बढ़ाना आवश्यक है, और StreamDiffusion फ्रेमवर्क इंटरैक्टिव डिफ्यूजन फ्रेमवर्क में उच्च-विलंबता संकल्प को दूर करने के लिए स्ट्रीम बैच रणनीति पेश करता है।

स्ट्रीम बैच रणनीति में, क्रमिक डीनोइज़िंग ऑपरेशन बैच्ड प्रोसेस में पुनर्गठित किए जाते हैं, जिसमें प्रत्येक बैच एक निर्धारित संख्या में डीनोइज़िंग चरणों के अनुरूप होता है, और इन डीनोइज़िंग चरणों की संख्या प्रत्येक बैच के आकार द्वारा निर्धारित की जाती है। इस दृष्टिकोण के कारण, बैच में प्रत्येक तत्व एकल पासथ्रू यूएनेट का उपयोग करके डीनोइज़िंग क्रम में एक चरण आगे बढ़ सकता है। स्ट्रीम बैच रणनीति को पुनरावृत्ति द्वारा लागू करने से, टाइमस्टेप “t” पर एन्कोडेड इनपुट छवियां टाइमस्टेप “t+n” पर अपने संबंधित छवि-से-छवि परिणामों में परिवर्तित हो जाती हैं, जिससे डीनोइज़िंग प्रक्रिया को सुव्यवस्थित किया जाता है।

रेसिडुअल क्लासिफायर फ्री गाइडेंस

सीएफजी या क्लासिफायर फ्री गाइडेंस एक एआई अल्गोरिथ्म है जो मूल स्थिति शब्द और एक नकारात्मक स्थिति या अस्थिति शब्द के बीच एक मेजबान वेक्टर गणना करता है ताकि मूल स्थिति को बढ़ाया जा सके। अल्गोरिथ्म मूल प्रॉम्प्ट के प्रभाव को मजबूत करता है, हालांकि नकारात्मक स्थिति के लिए रेसिडुअल नॉइज़ की गणना करने के लिए, यह आवश्यक है कि व्यक्तिगत इनपुट लेटेंट वेरिएबल को नकारात्मक स्थिति एम्बेडिंग के साथ जोड़ा जाए, जिसके बाद एम्बेडिंग को यूएनेट के माध्यम से रेफरेंस समय पर पारित किया जाता है।

इस मुद्दे को दूर करने के लिए जो क्लासिफायर फ्री गाइडेंस अल्गोरिथ्म द्वारा उत्पन्न होता है, StreamDiffusion फ्रेमवर्क रेसिडुअल क्लासिफायर फ्री गाइडेंस अल्गोरिथ्म पेश करता है जिसका उद्देश्य नकारात्मक स्थिति एम्बेडिंग के लिए अतिरिक्त यूएनेट हस्तक्षेप के लिए गणना लागत को कम करना है। सबसे पहले, एन्कोडेड लेटेंट इनपुट को नॉइज़ शेड्यूलर द्वारा निर्धारित मान का उपयोग करके नॉइज़ वितरण में स्थानांतरित किया जाता है। एक बार लेटेंट संगतता मॉडल लागू हो जाने के बाद, अल्गोरिथ्म डेटा वितरण की भविष्यवाणी कर सकता है और अगले चरण के नॉइज़ वितरण को जनरेट करने के लिए सीएफजी रेसिडुअल नॉइज़ का उपयोग कर सकता है।

इनपुट आउटपुट क्यू

उच्च गति छवि जनरेशन फ्रेमवर्क के साथ एक प्रमुख मुद्दा उनके न्यूरल नेटवर्क मॉड्यूल हैं, जिनमें यूएनेट और वीएई घटक शामिल हैं। आउटपुट गति को अधिकतम करने के लिए, छवि जनरेशन फ्रेमवर्क न्यूरल नेटवर्क मॉड्यूल द्वारा अतिरिक्त हैंडलिंग की आवश्यकता वाली प्रोसेसिंग जैसे प्री और पोस्ट प्रोसेसिंग छवियों को पाइपलाइन के बाहर ले जाते हैं, जिसके बाद वे समांतर में संसाधित होते हैं। इसके अलावा, इनपुट छवि को संभालने के संदर्भ में, विशिष्ट ऑपरेशन जैसे कि टेंसर प्रारूप में रूपांतरण, इनपुट छवियों को पुनः आकार देना और सामान्यीकरण पाइपलाइन द्वारा कठोरता से किया जाता है।

मॉडल थ्रूपुट और मानव इनपुट के बीच प्रोसेसिंग फ्रीक्वेंसी में असमानता को दूर करने के लिए, पाइपलाइन एक इनपुट-आउटपुट क्यूइंग सिस्टम को एकीकृत करती है जो कुशल समांतरीकरण को सक्षम बनाता है, जैसा कि निम्नलिखित छवि में दिखाया गया है।

संसाधित इनपुट टेंसर को पहले डिफ्यूजन मॉडल के लिए व्यवस्थित रूप से क्यू किया जाता है, और प्रत्येक फ्रेम के दौरान, मॉडल इनपुट क्यू से सबसे हाल के टेंसर को पुनर्प्राप्त करता है और इसे वीएई एन्कोडर को आगे बढ़ाता है, जिससे छवि जनरेशन प्रक्रिया शुरू होती है। 同 समय, वीएई डिकोडर से आउटपुट टेंसर को आउटपुट क्यू में फीड किया जाता है। अंत में, संसाधित छवि डेटा रेंडरिंग क्लाइंट को प्रेषित किया जाता है।

स्टोकास्टिक समानता फिल्टर

उन परिदृश्यों में जहां छवियां या तो अपरिवर्तित रहती हैं या न्यूनतम परिवर्तन दिखाती हैं बिना स्थिर वातावरण या सक्रिय उपयोगकर्ता इंटरैक्शन के, एक ही प्रकार की छवियां बार-बार यूएनेट और वीएई घटकों में फीड की जाती हैं। बार-बार फीडिंग के परिणामस्वरूप लगभग समान छवियों का जनरेशन होता है और अतिरिक्त जीपीयू संसाधनों की खपत होती है। इसके अलावा, निरंतर इनपुट वाले परिदृश्यों में, अप्रभावित इनपुट छवियां कभी-कभी दिखाई दे सकती हैं। इस मुद्दे को दूर करने और संसाधनों के अनावश्यक उपयोग को रोकने के लिए, StreamDiffusion पाइपलाइन अपने पाइपलाइन में स्टोकास्टिक समानता फिल्टर घटक को लागू करती है। स्टोकास्टिक समानता फिल्टर सबसे पहले रेफरेंस छवि और इनपुट छवि के बीच कोसाइन समानता की गणना करता है, और कोसाइन समानता स्कोर का उपयोग करके यह决定 करता है कि क्या आगे के यूएनेट और वीएई प्रोसेस को छोड़ दिया जाना चाहिए या नहीं।

संभावना स्कोर के आधार पर, पाइपलाइन तय करती है कि क्या वीएई एन्कोडिंग, वीएई डिकोडिंग और यूएनेट जैसे प्रोसेस को छोड़ दिया जाना चाहिए या नहीं। यदि इन प्रोसेस को छोड़ दिया जाता है, तो पाइपलाइन उस समय इनपुट छवि को बचाती है और साथ ही रेफरेंस छवि को भविष्य में उपयोग के लिए अपडेट करती है। यह संभावना-आधारित छोड़ने की प्रणाली StreamDiffusion पाइपलाइन को गतिशील परिदृश्यों में कम इंटर-फ्रेम समानता के साथ पूरी तरह से संचालित करने की अनुमति देती है, जबकि स्थिर परिदृश्यों में, पाइपलाइन उच्च इंटर-फ्रेम समानता के साथ संचालित होती है। यह दृष्टिकोण गणना संसाधनों को संरक्षित करने में मदद करता है और इनपुट छवियों की समानता के आधार पर ऑप्टिमल जीपीयू उपयोग सुनिश्चित करता है।

पूर्व-गणना

यूएनेट आर्किटेक्चर को दोनों स्थिति एम्बेडिंग और इनपुट लेटेंट वेरिएबल की आवश्यकता होती है। पारंपरिक रूप से, स्थिति एम्बेडिंग प्रॉम्प्ट एम्बेडिंग से प्राप्त की जाती है जो फ्रेमों में स्थिर रहती है। प्रॉम्प्ट एम्बेडिंग से व्युत्पन्न करने को अनुकूलित करने के लिए, StreamDiffusion पाइपलाइन इन प्रॉम्प्ट एम्बेडिंग को पूर्व-गणना करती है और उन्हें एक कैश में संग्रहीत करती है, जो स्ट्रीमिंग या इंटरैक्टिव मोड में बुलाई जा सकती हैं। यूएनेट फ्रेमवर्क के भीतर, प्रत्येक फ्रेम के लिए प्री-कंप्यूटेड प्रॉम्प्ट एम्बेडिंग के आधार पर की-वैल्यू जोड़ा जाता है, और यूएनेट में थोड़े से संशोधन के साथ, इन की-वैल्यू जोड़े को पुन: उपयोग किया जा सकता है।

मॉडल त्वरण और टिनी ऑटोएनकोडर

StreamDiffusion पाइपलाइन न्वीडिया के टेंसरआरटी का उपयोग करती है, जो गहरे शिक्षण इंटरफेस के लिए एक अनुकूलन टूलकिट है, वीएई और यूएनेट इंजन का निर्माण करने के लिए त्वरण स्पीड को बढ़ाने के लिए। इसे प्राप्त करने के लिए, टेंसरआरटी घटक गहरे शिक्षण फ्रेमवर्क और अनुप्रयोगों के लिए दक्षता और थ्रूपुट को बढ़ाने के लिए न्यूरल नेटवर्क पर कई अनुकूलन करता है।

गति को अनुकूलित करने के लिए, StreamDiffusion फ्रेमवर्क को निर्धारित इनपुट आयाम और स्थिर बैच आकार का उपयोग करने के लिए कॉन्फ़िगर किया जाता है ताकि एक विशिष्ट इनपुट आकार के लिए ऑप्टिमल मेमोरी आवंटन और गणना ग्राफ़ सुनिश्चित किया जा सके, जिससे विशिष्ट इनपुट आकार के लिए तेजी से प्रोसेसिंग समय प्राप्त किया जा सके।

उपरोक्त छवि अनुमान पाइपलाइन का एक अवलोकन प्रदान करती है। कोर डिफ्यूजन पाइपलाइन में यूएनेट और वीएई घटक शामिल हैं। पाइपलाइन में डीनोइज़िंग बैच, नमूना नॉइज़ कैश, पूर्व-गणना प्रॉम्प्ट एम्बेडिंग कैश और शेड्यूलर मान कैश शामिल हैं ताकि गति में सुधार किया जा सके और पाइपलाइन की वास्तविक समय में छवियों को जनरेट करने की क्षमता बढ़ाई जा सके। स्टोकास्टिक समानता फिल्टर या एसएसएफ को डिफ्यूजन मॉडल के पास को गतिशील रूप से गेट करने और जीपीयू उपयोग को अनुकूलित करने के लिए तैनात किया जाता है।

StreamDiffusion : प्रयोग और परिणाम

इसकी क्षमताओं का मूल्यांकन करने के लिए, StreamDiffusion पाइपलाइन को एलसीएम और एसडी-टर्बो फ्रेमवर्क पर लागू किया जाता है। टेंसरआरटी द्वारा न्वीडिया को मॉडल त्वरण के रूप में उपयोग किया जाता है, और हल्के कार्य को सक्षम करने वाले वीएई के लिए, पाइपलाइन टीएईएसडी घटक को नियोजित करती है। आइए अब देखें कि StreamDiffusion पाइपलाइन वर्तमान राज्य-ऑफ-द-आर्ट फ्रेमवर्क के खिलाफ कैसा प्रदर्शन करती है।

मात्रात्मक मूल्यांकन

निम्नलिखित छवि में दिखाया गया है कि मूल क्रमिक यूएनेट और पाइपलाइन में डीनोइज़िंग बैच घटक के बीच की दक्षता तुलना, और जैसा कि देखा जा सकता है, डीनोइज़िंग बैच दृष्टिकोण को लागू करने से प्रोसेसिंग समय में महत्वपूर्ण कमी आती है, जो पारंपरिक यूएनेट लूप की तुलना में लगभग 50% कम हो जाती है।

इसके अलावा, विभिन्न डीनोइज़िंग चरणों पर औसत अनुमान समय में भी विभिन्न गति कारकों के साथ एक महत्वपूर्ण वृद्धि देखी जाती है जब इसे वर्तमान राज्य-ऑफ-द-आर्ट पाइपलाइन के खिलाफ तुलना की जाती है, और परिणाम निम्नलिखित छवि में दिखाए गए हैं।

आगे बढ़ते हुए, आरसीएफजी घटक के साथ StreamDiffusion पाइपलाइन पारंपरिक सीएफजी घटक वाली पाइपलाइन की तुलना में कम अनुमान समय दिखाती है।

इसके अलावा, आरसीएफजी घटक का उपयोग करने का प्रभाव निम्नलिखित छवियों में सीएफजी घटक का उपयोग करने की तुलना में स्पष्ट है।

जैसा कि देखा जा सकता है, सीएफजी का उपयोग छवि जनरेशन में पाठ प्रॉम्प्ट के प्रभाव को तेज करता है, और जनरेट की गई छवि सीएफजी घटक का उपयोग किए बिना जनरेट की गई छवि की तुलना में इनपुट प्रॉम्प्ट के बहुत करीब है। परिणाम आरसीएफजी घटक का उपयोग करने पर और भी बेहतर हो जाते हैं क्योंकि प्रॉम्प्ट का प्रभाव जनरेट की गई छवियों पर बहुत महत्वपूर्ण है, जो मूल सीएफजी घटक की तुलना में अधिक है।

अंतिम विचार

इस लेख में, हमने StreamDiffusion पर चर्चा की, एक वास्तविक समय डिफ्यूजन पाइपलाइन जो निरंतर इनपुट वाले कार्यों में डिफ्यूजन-आधारित फ्रेमवर्क की वर्तमान सीमाओं को संबोधित करते हुए इंटरैक्टिव और वास्तविक छवियों को जनरेट करने के लिए विकसित की गई है। StreamDiffusion एक सरल और नवाचारी दृष्टिकोण है जो मूल छवि के क्रमिक शोर को बैच डीनोइज़िंग में परिवर्तित करने का लक्ष्य रखता है। StreamDiffusion उच्च थ्रूपुट और तरल धाराओं को सक्षम करने के लिए पारंपरिक प्रतीक्षा और इंटरैक्ट दृष्टिकोण को समाप्त करने का लक्ष्य रखता है जो वर्तमान डिफ्यूजन-आधारित फ्रेमवर्क द्वारा अपनाया जाता है। क्षमता लाभ के संभावित लाभ StreamDiffusion पाइपलाइन के व्यावसायिक अनुप्रयोगों के लिए उच्च प्रदर्शन कंप्यूटिंग और जेनरेटिव एआई के लिए आकर्षक समाधानों को रेखांकित करते हैं।

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।