Anderson का एंगल

एआई मॉडल्स को सेंसर करना अच्छी तरह से काम नहीं करता, अध्ययन से पता चलता है

Published August 22, 2025

Updated April 2, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

एआई इमेज जेनरेटर्स को सेंसर करने के प्रयास, जैसे कि प्रशिक्षित मॉडल्स से प्रतिबंधित सामग्री (जैसे कि पोर्न, हिंसा, या कॉपीराइटेड शैली) को मिटाना, कम पड़ रहे हैं: एक नए अध्ययन से पता चलता है कि वर्तमान कॉन्सेप्ट इरेज़र विधियाँ ‘प्रतिबंधित’ विशेषताओं को असंबंधित छवियों में फैलने देती हैं, और कथित तौर पर ‘मिटाए गए’ सामग्री के密ली संबंधित संस्करणों को दिखने से रोकने में विफल रहती हैं।

यदि फाउंडेशन एआई मॉडल्स का उत्पादन करने वाली कंपनियाँ उन्हें आपत्तिजनक या अवैध सामग्री का उत्पादन करने के लिए गलत उपयोग से रोक नहीं सकती हैं, तो उन्हें मुकदमा चलाने और/या बंद करने का जोखिम होता है। इसके विपरीत, विक्रेता जो केवल अपने मॉडल्स को एपीआई के माध्यम से उपलब्ध कराते हैं, जैसे कि एडोब के फायरफ्लाई जेनरेटिव इंजन, अपने मॉडल्स के बारे में चिंतित नहीं होने की स्थिति में हैं, क्योंकि दोनों उपयोगकर्ता के प्रॉम्प्ट और परिणामी आउटपुट का निरीक्षण और स्वच्छता किया जाता है:

<img class=" wp-image-222044" src="https://www.unite.ai/wp-content/uploads/2025/08/adobe-firefly-refusal.jpg" alt="एडोब का फायरफ्लाई सिस्टम, जो टूल्स जैसे फोटोशॉप में उपयोग किया जाता है, कभी-कभी तुरंत एक जेनरेटिव अनुरोध को अस्वीकार कर देता है जो कुछ भी बनाने से पहले प्रॉम्प्ट को ब्लॉक करता है। अन्य समय में, यह छवि को बनाता है लेकिन फिर समीक्षा के बाद परिणाम को ब्लॉक कर देता है। इस तरह का मिड-प्रोसेस रिफ्यूजल चैटजीपीटी में भी हो सकता है, जब मॉडल एक प्रतिक्रिया शुरू करता है लेकिन नीति उल्लंघन को पहचानने के बाद इसे काट देता है – और कभी-कभी इस प्रक्रिया के दौरान अस्थायी रूप से छवि देखी जा सकती है।

हालांकि, इस तरह के एपीआई-शैली के फिल्टर्स को आमतौर पर स्थानीय रूप से स्थापित मॉडल्स पर उपयोगकर्ताओं द्वारा निष्क्रिय किया जा सकता है, जिसमें विजन-लैंग्वेज मॉडल्स (वीएलएम्स) शामिल हैं जिन्हें उपयोगकर्ता स्थानीय रूप से स्थापित करना चाहते हैं और स्थानीय डेटा पर प्रशिक्षण के माध्यम से अनुकूलित करना चाहते हैं।

अधिकांश मामलों में, ऐसे ऑपरेशन को अक्षम करना आसान है, जिसमें पाइथन में एक फ़ंक्शन कॉल (हालांकि इस तरह के हैक्स को आमतौर पर फ्रेमवर्क अपडेट के बाद दोहराया या फिर से आविष्कार किया जाना चाहिए) को टिप्पणी करना शामिल है।

व्यवसायिक दृष्टिकोण से, यह समझना मुश्किल है कि यह एक समस्या कैसे हो सकती है, क्योंकि एक एपीआई दृष्टिकोण उपयोगकर्ता के कार्य प्रवाह पर निगम के नियंत्रण को अधिकतम करता है। हालांकि, उपयोगकर्ता के दृष्टिकोण से, दोनों एपीआई-ओनली मॉडल्स की लागत और गलत या अत्यधिक सेंसरशिप का जोखिम उन्हें खुले स्रोत विकल्पों को डाउनलोड करने और स्थानीय स्थापना को अनुकूलित करने के लिए प्रेरित करेगा – कम से कम, जहां एफओएसएस लाइसेंसिंग अनुकूल है।

पिछला महत्वपूर्ण मॉडल जिसे किसी भी प्रयास के बिना स्व-सेंसरशिप के साथ जारी किया गया था, स्टेबल डिफ्यूजन वी1.5 था, लगभग तीन साल पहले। बाद में, इसके प्रशिक्षण निगमों में सीएसएएम डेटा शामिल होने का खुलासा होने से इसकी उपलब्धता पर प्रतिबंध लगाने के लिए बढ़ती मांगें हुईं, और इसका हगिंग फेस रिपॉजिटरी से 2024 में हटा दिया गया था।

काट दें!

सिनिक्स का दावा है कि एक कंपनी की स्थानीय रूप से स्थापित जेनरेटिव एआई मॉडल्स को सेंसर करने में रुचि कानूनी जोखिम के बारे में चिंताओं पर आधारित है, यदि उनके फ्रेमवर्क अवैध या आपत्तिजनक सामग्री को सुविधा प्रदान करने के लिए सार्वजनिक हो जाते हैं।

वास्तव में, कुछ ‘स्थानीय-अनुकूल’ खुले स्रोत मॉडल्स को डी-सेंसर करना आसान नहीं है (जैसे कि स्टेबल डिफ्यूजन 1.5 और डीपसीक आर1).

इसके विपरीत, ब्लैक फॉरेस्ट लैब के फ्लक्स कॉन्टेक्स्ट मॉडल श्रृंखला की हालिया रिलीज़ कंपनी की नोटेबल प्रतिबद्धता के साथ चिह्नित की गई थी पूरे कॉन्टेक्स्ट रेंज को बोल्डराइज करने के लिए, जो देखभालपूर्वक डेटा क्यूरेशन और लक्षित फाइन-ट्यूनिंग के माध्यम से प्राप्त किया गया था, जो अवशिष्ट प्रवृत्ति को हटाने के लिए डिज़ाइन किया गया था जो एनएसएफडब्ल्यू या प्रतिबंधित सामग्री की ओर था।

यह वह स्थान है जहां शोध दृश्य में कार्रवाई का केंद्र रहा है पिछले 2-3 वर्षों में: मॉडल्स के बाद के तथ्य के साथ-साथ कम-देखभाल वाले डेटा के साथ मॉडल्स की मरम्मत पर जोर दिया गया है। इस तरह की पेशकश में यूनिफाइड कॉन्सेप्ट एडिटिंग इन डिफ्यूजन मॉडल्स (यूसीई); रिलायबल एंड एफिशिएंट कॉन्सेप्ट इरेज़र ऑफ टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल्स (आरईसीई); मास कॉन्सेप्ट इरेज़र इन डिफ्यूजन मॉडल्स (एमएसई); और कॉन्सेप्ट-सेमी-परमेबल स्ट्रक्चर इज इन्जेक्टेड एज ए मेम्ब्रेन (एसपीएम):

2024 के पेपर ‘यूनिफाइड कॉन्सेप्ट एडिटिंग इन डिफ्यूजन मॉडल्स’ ने टेक्स्ट-टू-इमेज मॉडल्स में कई कॉन्सेप्ट्स को कुशलता से संपादित करने के लिए ध्यान भार को संपादित करने के लिए बंद-रूप संपादित किए। लेकिन क्या यह विधि जांच को सहन करती है? स्रोत: https://arxiv.org/pdf/2308.14761

हालांकि, यह दृष्टिकोण कुशल है, लेकिन आवश्यक रूप से प्रभावी नहीं है: एक नए अमेरिकी अध्ययन के अनुसार, इनमें से कोई भी संपादन प्रक्रिया, जो एआई मॉडल संशोधन में राज्य की कला का प्रतिनिधित्व करती है, वास्तव में बहुत अच्छी तरह से काम नहीं करती है।

लेखकों ने पाया कि ये कॉन्सेप्ट इरेज़र टेक्निक्स (सीईटी) आमतौर पर आसानी से परिहार किया जा सकता है, और जहां वे प्रभावी होते हैं, वे महत्वपूर्ण दुष्प्रभाव होते हैं:

टेक्स्ट-टू-इमेज मॉडल्स पर कॉन्सेप्ट इरेज़र के प्रभाव। प्रत्येक कॉलम एक प्रॉम्प्ट और मिटाने के लिए चिह्नित कॉन्सेप्ट को दिखाता है, साथ ही संपादन से पहले और बाद में उत्पन्न आउटपुट के साथ। पदानुक्रम कॉन्सेप्ट्स के बीच माता-पिता और बच्चे के संबंधों को इंगित करते हैं। उदाहरण दुष्प्रभावों को उजागर करते हैं, जिनमें बच्चे की कॉन्सेप्ट्स को मिटाने में विफलता, पड़ोसी कॉन्सेप्ट्स का दमन, पुनर्लेखन के माध्यम से बचाव, और मिटाई गई विशेषताओं को असंबंधित वस्तुओं में स्थानांतरित करना शामिल है। स्रोत: https://arxiv.org/pdf/2508.15124

लेखकों ने पाया कि अग्रणी वर्तमान कॉन्सेप्ट इरेज़र तकनीकें कंपोज़िशनल प्रॉम्प्ट्स (जैसे कि लाल कार या छोटी लकड़ी की कुर्सी) को ब्लॉक करने में विफल रहती हैं; अक्सर माता-पिता श्रेणी को मिटाने के बाद भी उप-वर्गों को फिसलने देती हैं (जैसे कि कार या बस वाहन को हटाने के बाद भी दिखाई देती हैं); और नए समस्याएं पेश करती हैं जैसे कि विशेषता रिसाव (जहां, उदाहरण के लिए, नीली कouch को हटाने से मॉडल को एक नीली कुर्सी उत्पन्न करने का कारण बन सकता है)।

80% से अधिक परीक्षण मामलों में, एक व्यापक कॉन्सेप्ट जैसे वाहन को मिटाने से मॉडल को विशिष्ट वाहन उदाहरणों जैसे कारों या बसों को उत्पन्न करने से नहीं रोका जा सका।

संपादन, पेपर का अवलोकन, भी ध्यान मानचित्रों (मॉडल के उन हिस्सों को जो छवि में ध्यान केंद्रित करने का निर्णय लेते हैं) को बिखेर देता है, जो आउटपुट की गुणवत्ता को कमजोर करता है।

दिलचस्प बात यह है कि पेपर यह पाता है कि संबंधित प्रशिक्षित कॉन्सेप्ट्स को एक-एक करके मिटाना उन्हें एक साथ मिटाने की कोशिश करने से बेहतर काम करता है – हालांकि यह अध्ययन में शोधित संपादन विधियों की सभी कमियों को दूर नहीं करता है:

प्रगतिशील और एक-साथ मिटाने की रणनीतियों की तुलना। जब ‘टेडी बियर’ के सभी रूपांतरों को एक साथ मिटा दिया जाता है, तो मॉडल अभी भी भालू जैसी वस्तुओं को उत्पन्न करता है। उन्हें कदम से कदम मिटाना अधिक प्रभावी है, जो मॉडल को लक्ष्य कॉन्सेप्ट को अधिक विश्वसनीय रूप से दबाने का कारण बनता है।

हालांकि शोधकर्ता वर्तमान में जो समस्याएं पेपर में रेखांकित करते हैं उन्हें हल करने का कोई समाधान प्रदान नहीं कर सकते हैं, उन्होंने एक नई डेटासेट और बेंचमार्क विकसित किया है जो बाद के शोध परियोजनाओं को यह समझने में मदद कर सकता है कि क्या उनके स्वयं के ‘सेंसर्ड’ मॉडल्स अपेक्षित रूप से काम कर रहे हैं या नहीं।

पेपर में कहा गया है:

‘पिछले मूल्यांकन केवल एक छोटे सेट लक्ष्य और संरक्षित वर्गों पर निर्भर करते हैं; उदाहरण के लिए, जब ‘कार’ को मिटाना, तो केवल मॉडल की कारों को उत्पन्न करने की क्षमता का परीक्षण किया जाता है। हम दिखाते हैं कि यह दृष्टिकोण मौलिक रूप से अपर्याप्त है और कॉन्सेप्ट इरेज़र मूल्यांकन अधिक व्यापक होना चाहिए ताकि सभी संबंधित उप-कॉन्सेप्ट्स जैसे ‘लाल कार’ को शामिल किया जा सके। ‘

‘हम एक विविध डेटासेट की शुरुआत करते हैं जिसमें संरचनात्मक भिन्नताएं हैं और सिस्टमatically विश्लेषण करते हैं जैसे पड़ोसी कॉन्सेप्ट्स पर प्रभाव, कॉन्सेप्ट बचाव, और विशेषता रिसाव, हम मौजूदा सीईटी की महत्वपूर्ण सीमाओं और दुष्प्रभावों का खुलासा करते हैं। ‘

‘हमारा बेंचमार्क मॉडल-एज्नोस्टिक है और आसानी से एकीकृत है और नए कॉन्सेप्ट इरेज़र तकनीकों (सीईटी) के विकास में मदद के लिए उपयुक्त है।’

जब ‘पक्षी’ को मिटा दिया जाता है, तो सीईटी ‘लाल पक्षी’ (ऊपर) जैसे संरचनात्मक विविधताओं को मिटाने में विफल रहते हैं। ‘नीली कouch’ को मिटाने के बाद, सभी तरीकों से ‘नीली कुर्सी’ को उत्पन्न करने की क्षमता खो जाती है (नीचे)। सफल परिणाम हरे टिक चिह्न के साथ चिह्नित हैं, और विफलताएं लाल ‘एक्स’ चिह्न के साथ।

अध्ययन एक दिलचस्प अंतर्दृष्टि प्रदान करता है कि मॉडल के लेटेंट स्पेस में कॉन्सेप्ट्स कितनी गहराई से जुड़े हुए हैं, और कॉन्सेप्ट इरेज़र को वास्तव में कठिन बनाने वाले जुड़ाव की सीमा को कितनी आसानी से अनुमति देता है।

नई पेपर का शीर्षक डिफ्यूजन मॉडल्स से कॉन्सेप्ट्स को मिटाने के दुष्प्रभाव है, और मेरीलैंड विश्वविद्यालय के चार शोधकर्ताओं से आता है।

विधि और डेटा

लेखकों का मानना है कि पिछले कार्य जो दावा करते हैं कि वे डिफ्यूजन मॉडल्स से कॉन्सेप्ट्स को मिटा देते हैं, उनके दावे को पर्याप्त रूप से साबित नहीं करते हैं, कहते हैं*:

‘क्लेम्स ऑफ इरेज़र को अधिक मजबूत और व्यापक मूल्यांकन की आवश्यकता है। उदाहरण के लिए, यदि मिटाने के लिए कॉन्सेप्ट ‘वाहन’ है, तो उप-कॉन्सेप्ट्स जैसे ‘कार’ और संरचनात्मक कॉन्सेप्ट्स जैसे ‘लाल कार’ या ‘छोटी कार’ को भी मिटा दिया जाना चाहिए। ‘

‘हालांकि, यह कॉन्सेप्ट हायरार्की और संरचनात्मकता का पहलू मौजूदा मूल्यांकन प्रोटोकॉल में नहीं माना जाता है, क्योंकि वे केवल एकल मिटाए गए कॉन्सेप्ट की सटीकता पर ध्यान केंद्रित करते हैं। [ एरेज़बेंच ] के लेखक यह मूल्यांकन करते हैं कि सीईटी दृश्य रूप से समान और परिभाषित कॉन्सेप्ट्स (जैसे ‘बिल्ली’ और ‘किटन’) पर कैसे प्रभाव डालते हैं; हालांकि, वे कॉन्सेप्ट हायरार्की और संरचनात्मकता को पूरी तरह से नहीं जांचते हैं। ‘

अध्ययन के लिए, लेखकों ने साइड इफेक्ट इवैल्यूएशन (एसईई) डेटासेट बनाया – एक बड़ा संग्रह जो कॉन्सेप्ट इरेज़र विधियों का परीक्षण करने के लिए डिज़ाइन किए गए टेक्स्ट प्रॉम्प्ट्स का संग्रह है।

प्रॉम्प्ट्स एक सरल टेम्पलेट का पालन करते हैं जिसमें एक वस्तु को आकार, रंग, और सामग्री जैसे विशेषताओं के साथ वर्णित किया जाता है – जैसे कि एक छोटी लाल लकड़ी की कार की छवि।

वस्तुएं एमएस-सीओसीओ डेटासेट से ली गई थीं, और एक हायरार्की में व्यवस्थित की गई थीं जिसमें सुपरक्लासेस जैसे वाहन शामिल थीं, और उप-वर्ग जैसे कार या बस, जिनके विशेषता संयोजनों ने हायरार्की के पत्ते नोड्स (सबसे विशिष्ट स्तर) का गठन किया।

यह संरचना यह जांचने की अनुमति देती है कि इरेज़र विभिन्न सेमेंटिक स्तरों पर, व्यापक श्रेणियों से विशिष्ट विविधताओं तक, कैसे काम करता है।

प्रत्येक प्रॉम्प्ट को एक हां-ना प्रश्न के साथ जोड़ा गया था, जैसे कि क्या छवि में एक कार है?, और छवि वर्गीकरण मॉडल्स के लिए एक वर्ग लेबल के रूप में भी उपयोग किया गया था:

एसईई डेटासेट में आकार, रंग, और सामग्री विशेषताओं को बदलकर उत्पन्न प्रॉम्प्ट संयोजन।

प्रत्येक कॉन्सेप्ट इरेज़र विधि के प्रदर्शन को मापने के लिए, लेखकों ने दो स्कोरिंग विधियों का आविष्कार किया: टार्गेट एक्यूरेसी, जो ट्रैक करता है कि मिटाए गए कॉन्सेप्ट्स कितनी बार अभी भी उत्पन्न छवियों में दिखाई देते हैं; और प्रिजर्व एक्यूरेसी, जो ट्रैक करता है कि क्या मॉडल उन सामग्रियों को बनाना जारी रखता है जिन्हें मिटाने का उद्देश्य नहीं था।

दोनों स्कोरों के बीच संतुलन यह प्रकट करने का इरादा है कि क्या विधि सफलतापूर्वक प्रतिबंधित कॉन्सेप्ट को हटा देती है या नहीं, बिना मॉडल के व्यापक आउटपुट को नुकसान पहुंचाए।

परीक्षण

पूर्व फ्रेमवर्क जिन्हें परीक्षण किया गया था वे पहले सूचीबद्ध थे – यूसीई, आरईसीई, एमएसई, और एसपीएम। शोधकर्ताओं ने मूल परियोजनाओं से डिफ़ॉल्ट सेटिंग्स को अपनाया, और सभी मॉडल्स को 48GB वीआरएएम के साथ एनवीडिया आरटीएक्स 6000 जीपीयू पर फाइन-ट्यून किया।

स्टेबल डिफ्यूजन 1.4, साहित्य में सबसे पुराने मॉडल्स में से एक, सभी परीक्षणों के लिए उपयोग किया गया था – शायद इसलिए कि सबसे पुराने एसडी मॉडल्स में बहुत कम या कोई概念ात्मक प्रतिबंध नहीं थे, और इसलिए इस विशिष्ट शोध संदर्भ में एक खाली स्लेट प्रदान करते हैं।

प्रत्येक एसईई डेटासेट के 5056 प्रॉम्प्ट्स को असंपादित और संपादित दोनों मॉडल्स के माध्यम से चलाया गया, प्रति प्रॉम्प्ट चार छवियां उत्पन्न करते हुए, निर्धारित रैंडम सीड्स का उपयोग करके, यह जांचने की अनुमति देते हुए कि क्या इरेज़र प्रभाव कई आउटपुट्स में संगत रहते हैं। प्रत्येक संपादित मॉडल ने कुल 20,224 छवियां उत्पन्न कीं।

संरक्षित कॉन्सेप्ट्स की उपस्थिति का मूल्यांकन पूर्व विधियों के अनुसार किया गया था जो टेक्स्ट-टू-इमेज इरेज़र प्रक्रियाओं के लिए थीं, बीएलआईपी, क्यूवेन 2.5 वीएल, और फ्लोरेंस-2बेस वीक्यूए मॉडल्स का उपयोग करके:

पड़ोसी कॉन्सेप्ट्स पर प्रभाव

पहला परीक्षण यह मापता है कि क्या एक कॉन्सेप्ट को मिटाने से आसपास के कॉन्सेप्ट्स पर अनजाने में प्रभाव पड़ता है। उदाहरण के लिए, ‘कार’ को हटाने के बाद, मॉडल को ‘लाल कार’ या ‘बड़ी कार’ जैसे कॉन्सेप्ट्स को उत्पन्न करना बंद कर देना चाहिए, लेकिन संबंधित कॉन्सेप्ट्स जैसे ‘बस’ या ‘ट्रक’ को अभी भी उत्पन्न करने में सक्षम होना चाहिए, और असंबंधित कॉन्सेप्ट्स जैसे ‘फोर्क’ को भी उत्पन्न करना चाहिए।

विश्लेषण में सीएलआईपी एम्बेडिंग समानता और विशेषता-आधारित संपादन दूरी का उपयोग यह अनुमान लगाने के लिए किया गया था कि प्रत्येक कॉन्सेप्ट मिटाए गए लक्ष्य से कितना करीब है, जो अध्ययन को यह मापने की अनुमति देता है कि कितना व्यवधान फैलता है:

सेमेंटिक समानता (ऊपर) और संरचनात्मक दूरी (नीचे) के खिलाफ लक्ष्य सटीकता (बाएं) और संरक्षित सटीकता (दाएं) के संयुक्त परिणाम। एक आदर्श कॉन्सेप्ट इरेज़र विधि सभी दूरियों पर निम्न लक्ष्य सटीकता और उच्च संरक्षित सटीकता दिखाएगी, लेकिन परिणाम दिखाते हैं कि वर्तमान तकनीकें साफ़ नहीं हैं, जिसमें निकट कॉन्सेप्ट्स या तो पर्याप्त रूप से मिटाए नहीं जाते हैं या असमानुपातिक रूप से बाधित होते हैं।

इन परिणामों में, लेखकों का कहना है:

‘सभी सीईटी अभी भी मिटाए गए लक्ष्य के संरचनात्मक या सेमेंटिक रूप से दूर विविधताओं को उत्पन्न करते हैं, जो आदर्श रूप से नहीं होना चाहिए। यह स्पष्ट है कि यूसीई अन्य सीईटी विधियों की तुलना में [ संरक्षित सेट ] पर उच्च सटीकता प्राप्त करता है, जो सेमेंटिक रूप से संबंधित कॉन्सेप्ट्स पर न्यूनतम अनजाने प्रभाव को इंगित करता है। ‘

‘इसके विपरीत, एसपीएम सबसे कम सटीकता प्राप्त करता है, जो यह सुझाव देता है कि इसकी संपादन रणनीति कॉन्सेप्ट समानता के प्रति अधिक संवेदनशील है।’

परीक्षण किए गए चार विधियों में, आरईसीई लक्ष्य कॉन्सेप्ट को ब्लॉक करने में सबसे प्रभावी था। हालांकि, जैसा कि ऊपर दिए गए छवि के बाएं हिस्से में दिखाया गया है, सभी विधियां संरचनात्मक विविधताओं को दबाने में विफल रहती हैं। ‘पक्षी’ को मिटाने के बाद, मॉडल अभी भी ‘लाल पक्षी’ जैसी छवियां उत्पन्न करता है, जो यह सुझाव देता है कि कॉन्सेप्ट आंशिक रूप से बरकरार है।

‘नीली कouch’ को हटाने से मॉडल को ‘नीली कुर्सी’ जैसी वस्तुओं को उत्पन्न करने से रोकने में भी विफल रहता है, जो पड़ोसी कॉन्सेप्ट्स को नुकसान पहुंचाता है।

आरईसीई संरचनात्मक विविधताओं को बेहतर ढंग से संभालता है, जबकि यूसीई संबंधित कॉन्सेप्ट्स को संरक्षित करने में बेहतर काम करता है।

इरेज़र आक्रमण

इरेज़र आक्रमण परीक्षण यह मूल्यांकन करता है कि क्या मॉडल अभी भी उप-वर्ग कॉन्सेप्ट्स को उत्पन्न कर सकता है जब उनका सुपरक्लास मिटा दिया जाता है। उदाहरण के लिए, यदि ‘वाहन’ को हटा दिया जाता है, तो परीक्षण यह जांचता है कि क्या मॉडल अभी भी ‘साइकिल’ या ‘लाल कार’ जैसे आउटपुट उत्पन्न कर सकता है।

प्रॉम्प्ट्स ने सीधे उप-वर्गों और संरचनात्मक विविधताओं दोनों को लक्षित किया, यह निर्धारित करने के लिए कि क्या कॉन्सेप्ट इरेज़र ऑपरेशन वास्तव में पूरे हायरार्की को हटा दिया था या क्या यह अधिक विशिष्ट विवरण के माध्यम से परिहार किया जा सकता था:

स्टेबल डिफ्यूजन वी1.4 पर मिटाए गए सुपरक्लास के माध्यम से उनके उप-वर्गों और संरचनात्मक विविधताओं के माध्यम से इरेज़र का परिहार, उच्च सटीकता के साथ अधिक परिहार को इंगित करता है।

असंपादित मॉडल ने सभी सुपरक्लास में उच्च सटीकता बनाए रखी, जो यह पुष्टि करता है कि यह किसी भी लक्ष्य कॉन्सेप्ट को हटाने में विफल रहा था। सीईटी में, एमएसई ने सबसे कम परिहार दिखाया, जो अधिकांश परीक्षण श्रेणियों में सबसे कम उप-वर्ग सटीकता प्राप्त की। आरईसीई ने भी अच्छा प्रदर्शन किया, विशेष रूप से ‘एक्सेसरी’, ‘खेल’, और ‘इलेक्ट्रॉनिक’ समूहों में।

इसके विपरीत, यूसीई और एसपीएम ने उच्च उप-वर्ग सटीकता दिखाई, जो यह सुझाव देता है कि मिटाए गए कॉन्सेप्ट्स को संबंधित या नेस्टेड प्रॉम्प्ट्स के माध्यम से आसानी से परिहार किया जा सकता है।

लेखकों का कहना है:

‘सभी सीईटी लक्ष्य सुपरक्लास कॉन्सेप्ट को दबाने में सफल होते हैं (‘भोजन’)। हालांकि, जब उन्हें विशेषता-आधारित बच्चों के साथ प्रॉम्प्ट किया जाता है (जैसे ‘बड़ा पिज़्ज़ा’), तो सभी विधियां खाद्य वस्तुओं को उत्पन्न करती हैं। ‘

‘इसी तरह, ‘वाहन’ श्रेणी में, सभी मॉडल साइकिल का उत्पादन करते हैं, ‘वाहन’ को मिटाने के बावजूद।’

विशेषता रिसाव

तीसरा परीक्षण, विशेषता रिसाव, यह जांचता है कि क्या मिटाए गए कॉन्सेप्ट से जुड़ी विशेषताएं अन्य वस्तुओं में दिखाई देती हैं।

उदाहरण के लिए, ‘कouch’ को मिटाने के बाद, मॉडल को न केवल कोच को उत्पन्न करने से रोकना चाहिए, बल्कि इसकी विशेषताओं (जैसे कि रंग या सामग्री) को भी अन्य वस्तुओं में स्थानांतरित नहीं करना चाहिए:

विशेषता टोकन के लिए ध्यान मानचित्र इरेज़र के बाद। बाएं: जब ‘बेंच’ को मिटा दिया जाता है, तो ‘वुडन’ टोकन पक्षी में स्थानांतरित हो जाता है, जिससे लकड़ी के पक्षी बनते हैं। दाएं: ‘कouch’ को मिटाने से कOUCH उत्पादन को दबाने में विफल रहता है, जबकि ‘बड़ा’ टोकन गलती से डोनट में सौंपा जाता है।

आरईसीई लक्ष्य विशेषताओं को मिटाने में सबसे प्रभावी था, लेकिन संरक्षित प्रॉम्प्ट्स में सबसे अधिक विशेषता रिसाव भी पेश किया, जो यहां तक कि असंपादित मॉडल से भी आगे निकल गया।

परिणाम, लेखकों का सुझाव देते हैं, एक आंतरिक व्यापार-बंद की आवश्यकता को इंगित करते हैं, जिसमें मजबूत इरेज़र विशेषता हस्तांतरण के जोखिम को बढ़ाता है।

निष्कर्ष

मॉडल का लेटेंट स्पेस किसी भी तरह से भरा नहीं जाता है, जिसमें व्युत्पन्न कॉन्सेप्ट्स को शेल्फ या फाइलिंग कैबिनेट में जमा किया जाता है; बल्कि प्रशिक्षित एम्बेडिंग्स सामग्री और उनके कंटेनर दोनों हैं: किसी भी तेज सीमाओं द्वारा अलग नहीं किया गया, बल्कि एक दूसरे में मिलकर एक ऐसा तरीका बनाते हैं जो हटाने को मुश्किल बना देता है – जैसे कि एक पाउंड मांस को निकालने की कोशिश करना बिना किसी रक्त की हानि के।

बुद्धिमान और विकसित प्रणालियों में, मूल घटनाएं – जैसे कि अपनी उंगलियों को जलाना और उसके बाद आग के साथ सम्मान के साथ व्यवहार करना – बाद में वे जो व्यवहार और संबंध बनाते हैं उनमें जुड़े हुए हैं, जो एक मॉडल का निर्माण करना मुश्किल बना देता है जो एक केंद्रीय, संभावित रूप से ‘प्रतिबंधित’ कॉन्सेप्ट के परिणामों के साथ छोड़ दिया जाता है, लेकिन स्वयं कॉन्सेप्ट के बिना।

* मैंने लेखकों के इनलाइन संदर्भ को हाइपरलिंक में परिवर्तित किया है।

पहली बार शुक्रवार, 22 अगस्त, 2025 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai