Artificial Intelligence
डीपफेक और छवि संश्लेषण प्रणालियों में उपयोग के विरुद्ध छवियों को एन्कोड करना
बढ़ते एंटी-डीपफेक अनुसंधान क्षेत्र में जांच की सबसे प्रसिद्ध लाइन में ऐसे सिस्टम शामिल हैं जो वीडियो और छवि सामग्री में डीपफेक, संश्लेषित, या अन्यथा गलत तरीके से या 'संपादित' चेहरों की कलाकृतियों या अन्य कथित विशिष्ट विशेषताओं को पहचान सकते हैं।
इस तरह के दृष्टिकोण में विभिन्न प्रकार की युक्तियों का उपयोग किया जाता है, जिनमें शामिल हैं गहराई का पता लगाना, वीडियो नियमितता व्यवधान, मॉनिटर रोशनी में भिन्नता (संभावित रूप से डीपफेक लाइव वीडियो कॉल में), बायोमेट्रिक लक्षण, बाहरी चेहरे के क्षेत्र, और यहां तक कि छुपी हुई शक्तियां मानव अवचेतन तंत्र का.
इनमें और समान तरीकों में जो समानता है वह यह है कि जब तक उन्हें तैनात किया जाता है, तब तक वे जिन केंद्रीय तंत्रों से लड़ रहे हैं उन्हें वेब से निकाली गई हजारों, या सैकड़ों-हजारों छवियों पर सफलतापूर्वक प्रशिक्षित किया जा चुका होता है - वे छवियां जिनसे ऑटोएनकोडर सिस्टम कर सकते हैं आसानी से मुख्य विशेषताएं प्राप्त करें, और ऐसे मॉडल बनाएं जो वीडियो फ़ुटेज या संश्लेषित छवियों में भी सटीक रूप से झूठी पहचान लागू कर सकें वास्तविक समय में.
संक्षेप में, जब तक ऐसी प्रणालियाँ सक्रिय होती हैं, तब तक घोड़ा दौड़ चुका होता है।
छवियाँ जो डीपफेक/सिंथेसिस आर्किटेक्चर के प्रतिकूल हैं
एक और तरीके से preventative डीपफेक और छवि संश्लेषण के खतरे के प्रति रवैया, इस क्षेत्र में अनुसंधान के एक कम प्रसिद्ध पहलू में उन सभी स्रोत फ़ोटो को बनाने में निहित संभावनाएं शामिल हैं अमित्र एआई छवि संश्लेषण प्रणालियों की ओर, आमतौर पर अगोचर, या बमुश्किल बोधगम्य तरीकों से।
उदाहरणों में शामिल नकलीटैगर, अमेरिका और एशिया के विभिन्न संस्थानों का 2021 का प्रस्ताव, जो संदेशों को छवियों में एन्कोड करता है; ये एन्कोडिंग सामान्यीकरण की प्रक्रिया के लिए प्रतिरोधी हैं, और बाद में छवियों को वेब से स्क्रैप किए जाने और इसपर्सनडोएसनोटेक्सिस्ट.कॉम द्वारा सन्निहित प्रकार के जेनरेटिव एडवरसैरियल नेटवर्क (जीएएन) में प्रशिक्षित होने के बाद भी पुनर्प्राप्त किया जा सकता है, और इसके असंख्य व्युत्पन्न.
ICCV 2021 के लिए, एक और अंतर्राष्ट्रीय प्रयास भी शुरू किया गया जनरेटिव मॉडलों के लिए कृत्रिम फिंगरप्रिंट, (नीचे छवि देखें) जो स्टाइलजीएएन2 जैसे छवि संश्लेषण जीएएन के आउटपुट से फिर से पुनर्प्राप्त करने योग्य 'फिंगरप्रिंट' उत्पन्न करता है।
इस अवधारणा के अन्य पुनरावृत्तियों में शामिल हैं a 2018 परियोजना आईबीएम से और ए डिजिटल वॉटरमार्किंग योजना उसी वर्ष, जापान से।
अधिक नवोन्वेषी, 2021 पहल नानजिंग यूनिवर्सिटी ऑफ एरोनॉटिक्स एंड एस्ट्रोनॉटिक्स ने प्रशिक्षण छवियों को इस तरह से 'एन्क्रिप्ट' करने की कोशिश की कि वे केवल अधिकृत सिस्टम पर ही प्रभावी ढंग से प्रशिक्षित हो सकें, लेकिन यदि सामान्य छवि संश्लेषण प्रशिक्षण पाइपलाइन में स्रोत डेटा के रूप में उपयोग किया जाता है तो वे विनाशकारी रूप से विफल हो जाएंगे।
प्रभावी रूप से ये सभी विधियाँ स्टेग्नोग्राफ़ी की श्रेणी में आती हैं, लेकिन सभी मामलों में छवियों में विशिष्ट पहचान वाली जानकारी को एक छवि की ऐसी आवश्यक 'विशेषता' के रूप में एन्कोड करने की आवश्यकता होती है कि कोई संभावना नहीं है कि एक ऑटोएन्कोडर या जीएएन आर्किटेक्चर इसे त्याग देगा। उंगलियों के निशान को 'शोर' या बाहरी और अनावश्यक डेटा के रूप में, बल्कि इसे अन्य चेहरे की विशेषताओं के साथ एनकोड किया जाएगा।
साथ ही, इस प्रक्रिया को छवि को इतना विकृत करने या अन्यथा दृष्टिगत रूप से प्रभावित करने की अनुमति नहीं दी जा सकती है कि आकस्मिक दर्शकों को यह लगे कि इसमें दोष हैं या यह निम्न गुणवत्ता का है।
ताफ़ीम
अब, एक नए जर्मन शोध प्रयास (म्यूनिख के तकनीकी विश्वविद्यालय और सोनी यूरोप आरडीसी स्टटगार्ट से) ने एक छवि-एन्कोडिंग तकनीक का प्रस्ताव दिया है जिसके तहत संसाधित छवियों पर प्रशिक्षित डीपफेक मॉडल या स्टाइलगैन-प्रकार के ढांचे क्रमशः अनुपयोगी नीले या सफेद आउटपुट का उत्पादन करेंगे। .
RSI काग़ज़, शीर्षक TAFIM: चेहरे की छवि में हेरफेर के खिलाफ लक्षित प्रतिकूल हमले, बमुश्किल बोधगम्य गड़बड़ी को छवियों में एन्कोड करने के लिए एक तंत्रिका नेटवर्क का उपयोग करता है। छवियों को एक संश्लेषण वास्तुकला में प्रशिक्षित और सामान्यीकृत करने के बाद, परिणामी मॉडल इनपुट पहचान के लिए फीका आउटपुट उत्पन्न करेगा यदि स्टाइल मिश्रण या सीधे फेस-स्वैपिंग में उपयोग किया जाता है।
वेब को पुनः एन्कोडिंग करें..?
हालाँकि, इस मामले में, हम यहां इस लोकप्रिय अवधारणा के नवीनतम संस्करण की बारीकियों और वास्तुकला की जांच करने के लिए नहीं हैं, बल्कि पूरे विचार की व्यावहारिकता पर विचार करने के लिए हैं - विशेष रूप से सार्वजनिक रूप से उपयोग के बारे में बढ़ते विवाद के प्रकाश में- छवि संश्लेषण ढांचे को शक्ति प्रदान करने के लिए स्क्रैप की गई छवियां स्थिर प्रसार, और उसके बाद के डाउनस्ट्रीम कानूनी निहितार्थ वाणिज्यिक सॉफ्टवेयर प्राप्त करना ऐसी सामग्री से जो (कम से कम कुछ न्यायालयों में) अंततः एआई संश्लेषण आर्किटेक्चर में अंतर्ग्रहण के खिलाफ कानूनी सुरक्षा साबित हो सकती है।
ऊपर वर्णित प्रकार के प्रोएक्टिव, एन्कोडिंग-आधारित दृष्टिकोण बिना किसी छोटी लागत के आते हैं। कम से कम, उनमें मानक वेब-आधारित प्रसंस्करण पुस्तकालयों में नए और विस्तारित संपीड़न रूटीन स्थापित करना शामिल होगा जैसे कि ImageMagick, जो बड़ी संख्या में अपलोड प्रक्रियाओं को शक्ति प्रदान करता है, जिसमें कई सोशल मीडिया अपलोड इंटरफेस भी शामिल हैं, जिसका काम बड़े आकार की मूल उपयोगकर्ता छवियों को अनुकूलित संस्करणों में परिवर्तित करना है जो हल्के साझाकरण और नेटवर्क वितरण के लिए अधिक उपयुक्त हैं, और फसलों जैसे प्रभावशाली परिवर्तनों के लिए भी हैं, और अन्य संवर्द्धन.
इससे जो प्राथमिक प्रश्न उठता है वह यह है: क्या ऐसी योजना 'आगे बढ़ते हुए' लागू की जाएगी, या कुछ व्यापक और पूर्वव्यापी तैनाती का इरादा होगा, जो ऐतिहासिक मीडिया को संबोधित करता है जो दशकों से 'अदूषित' रूप से उपलब्ध हो सकता है?
नेटफ्लिक्स जैसे प्लेटफॉर्म हैं विरोध नहीं नए कोडेक्स के साथ बैक कैटलॉग को फिर से एन्कोड करने की कीमत पर जो अधिक कुशल हो सकता है, या अन्यथा उपयोगकर्ता या प्रदाता को लाभ प्रदान कर सकता है; इसी प्रकार, YouTube द्वारा अपनी ऐतिहासिक सामग्री को H.264 कोडेक में परिवर्तित करना, जाहिरा तौर पर एप्पल टीवी को समायोजित करने के लिए, एक तार्किक रूप से महत्वपूर्ण कार्य, पैमाने के बावजूद, निषेधात्मक रूप से कठिन नहीं माना जाता था।
विडंबना यह है कि, भले ही इंटरनेट पर मीडिया सामग्री का बड़ा हिस्सा प्रशिक्षण का विरोध करने वाले प्रारूप में पुन: एन्कोडिंग के अधीन हो गया हो, प्रभावशाली कंप्यूटर विज़न डेटासेट का सीमित कैडर अप्रभावित रहेगा. हालाँकि, संभवतः, सिस्टम जो उन्हें अपस्ट्रीम डेटा के रूप में उपयोग करते हैं, आउटपुट की गुणवत्ता में कमी आने लगेगी, क्योंकि वॉटरमार्क वाली सामग्री आर्किटेक्चर की परिवर्तनकारी प्रक्रियाओं में हस्तक्षेप करेगी।
राजनीतिक संघर्ष
राजनीतिक दृष्टि से, एआई विकास में पीछे न रहने के सरकारों के दृढ़ संकल्प और प्रचुर संसाधन के रूप में इंटरनेट पर खुले तौर पर उपलब्ध ऑडियो, वीडियो और छवि सामग्री के तदर्थ उपयोग के बारे में सार्वजनिक चिंता को रियायत देने के बीच एक स्पष्ट तनाव है। परिवर्तनकारी एआई सिस्टम के लिए।
आधिकारिक तौर पर, पश्चिमी सरकारें सार्वजनिक रूप से उपलब्ध मीडिया का उपयोग करने के लिए कंप्यूटर विज़न अनुसंधान क्षेत्र की क्षमता के संबंध में उदारता बरतने की इच्छुक हैं, कम से कम इसलिए नहीं कि कुछ अधिक निरंकुश एशियाई देशों के पास अपने विकास वर्कफ़्लो को इस तरह से आकार देने के लिए कहीं अधिक छूट है उनके स्वयं के अनुसंधान प्रयासों को लाभ पहुँचाता है - बस उन कारकों में से एक जो सुझाव है कि चीन एआई में वैश्विक नेता बन रहा है.
अप्रैल 2022 में, अमेरिकी अपील न्यायालय पुष्टि लिंक्डइन के चल रहे विरोध के बावजूद, सार्वजनिक-सामना वाला वेब डेटा अनुसंधान उद्देश्यों के लिए उचित खेल है इच्छाओं इसके उपयोगकर्ता प्रोफाइल को ऐसी प्रक्रियाओं से सुरक्षित रखा जाएगा।
यदि एआई-प्रतिरोधी इमेजरी को सिस्टम-व्यापी मानक नहीं बनना है, तो प्रशिक्षण डेटा के कुछ प्रमुख स्रोतों को ऐसी प्रणालियों को लागू करने से रोकने के लिए कुछ भी नहीं है, ताकि उनका अपना आउटपुट अव्यक्त स्थान में अनुत्पादक हो जाए।
ऐसी कंपनी-विशिष्ट तैनाती में आवश्यक कारक यह है कि छवियां होनी चाहिए स्वाभाविक रूप से प्रतिरोधी प्रशिक्षण के लिए। ब्लॉकचेन-आधारित उद्गम तकनीकें, और आंदोलन जैसे सामग्री प्रामाणिकता पहल, ऐसे परिवर्तनों को संभव बनाने वाले तंत्र को रोकने के बजाय, यह साबित करने में अधिक चिंतित हैं कि छवि नकली या 'स्टाइलगैनड' है।
आकस्मिक निरीक्षण
जबकि स्रोत छवि की वास्तविक उत्पत्ति और उपस्थिति को प्रमाणित करने के लिए ब्लॉकचेन विधियों का उपयोग करने के प्रस्ताव सामने रखे गए हैं, जिन्हें बाद में प्रशिक्षण डेटासेट में शामिल किया जा सकता है, यह अपने आप में छवियों के प्रशिक्षण को नहीं रोकता है, या साबित करने का कोई तरीका प्रदान नहीं करता है, ऐसी प्रणालियों के आउटपुट से, छवियों को प्रशिक्षण डेटासेट में शामिल किया गया था।
प्रशिक्षण से छवियों को बाहर करने के वॉटरमार्किंग दृष्टिकोण में, निरीक्षण के लिए सार्वजनिक रूप से उपलब्ध प्रभावशाली डेटासेट की स्रोत छवियों पर भरोसा नहीं करना महत्वपूर्ण होगा। के जवाब में कलाकारों का आक्रोश स्टेबल डिफ्यूजन के अपने काम के उदार अंतर्ग्रहण के बारे में, वेबसाइट hasibeentrained.com उपयोगकर्ताओं को छवियां अपलोड करने और जांचने की अनुमति देता है कि क्या उन्हें इसमें शामिल किए जाने की संभावना है LAION5B डेटासेट जो स्थिर प्रसार को शक्ति प्रदान करता है:
हालाँकि, उदाहरण के लिए, लगभग सभी पारंपरिक डीपफेक डेटासेट, इंटरनेट पर निकाले गए वीडियो और छवियों से गैर-सार्वजनिक डेटाबेस में खींचे जाते हैं, जहां केवल कुछ प्रकार के तंत्रिका-प्रतिरोधी वॉटरमार्किंग संभवतः व्युत्पन्न छवियों को बनाने के लिए विशिष्ट छवियों के उपयोग को उजागर कर सकते हैं। और वीडियो.
इसके अलावा, स्टेबल डिफ्यूजन उपयोगकर्ता सामग्री जोड़ना शुरू कर रहे हैं - या तो फाइन-ट्यूनिंग के माध्यम से (अतिरिक्त छवि/पाठ जोड़े के साथ आधिकारिक मॉडल चेकपॉइंट का प्रशिक्षण जारी रखना) या टेक्स्टुअल इनवर्जन, जो एक विशिष्ट तत्व या व्यक्ति जोड़ता है - जो किसी में दिखाई नहीं देगा LAION की अरबों छवियों को खोजें।
स्रोत पर वॉटरमार्क एम्बेड करना
स्रोत छवि वॉटरमार्किंग का एक और भी अधिक संभावित अनुप्रयोग वाणिज्यिक कैमरों के कच्चे कैप्चर आउटपुट, वीडियो या छवियों में अस्पष्ट और गैर-स्पष्ट जानकारी को शामिल करना है। हालाँकि मल्टीमीडिया पाइरेसी के उभरते 'खतरे' की प्रतिक्रिया के रूप में, 2000 के दशक की शुरुआत में इस अवधारणा का प्रयोग किया गया था और इसे कुछ सख्ती के साथ लागू भी किया गया था, यह सिद्धांत तकनीकी रूप से मीडिया सामग्री को मशीन लर्निंग प्रशिक्षण के लिए प्रतिरोधी या विकर्षक बनाने के उद्देश्य से भी लागू है। सिस्टम.
एक कार्यान्वयन, जिसे 1990 के दशक के उत्तरार्ध से एक पेटेंट आवेदन में प्रस्तावित किया गया था असतत कोसाइन रूपांतरण वीडियो और स्थिर छवियों में स्टेग्नोग्राफ़िक 'उप छवियों' को एम्बेड करने के लिए, यह सुझाव देते हुए कि रूटीन को 'स्टिल और वीडियो कैमरों जैसे डिजिटल रिकॉर्डिंग उपकरणों के लिए एक अंतर्निहित सुविधा के रूप में शामिल किया जा सकता है।'
एक कम परिष्कृत दृष्टिकोण डिवाइस-स्तर पर छवियों पर स्पष्ट रूप से दिखाई देने वाले वॉटरमार्क लगाना है - एक ऐसी सुविधा जो अधिकांश उपयोगकर्ताओं के लिए अरुचिकर है, और कलाकारों और पेशेवर मीडिया चिकित्सकों के मामले में अनावश्यक है, जो स्रोत डेटा की सुरक्षा करने और ऐसी ब्रांडिंग जोड़ने में सक्षम हैं या जैसा कि वे उचित समझें निषेध (कम से कम, स्टॉक छवि कंपनियां)।
यद्यपि कम से कम एक कैमरा वर्तमान में वैकल्पिक लोगो-आधारित वॉटरमार्क लगाने की अनुमति है जो हो सकता है अनधिकृत उपयोग का संकेत व्युत्पन्न एआई मॉडल में, एआई के माध्यम से लोगो हटाना बनता जा रहा है काफी तुच्छऔर भी आकस्मिक रूप से व्यवसायीकरण किया गया.
पहली बार 25 सितंबर 2022 को प्रकाशित।