Artificial Intelligence

डीपफेक और छवि संश्लेषण प्रणालियों में उपयोग के विरुद्ध छवियों को एन्कोड करना

Updated on दिसम्बर 9/2022

बढ़ते एंटी-डीपफेक अनुसंधान क्षेत्र में जांच की सबसे प्रसिद्ध लाइन में ऐसे सिस्टम शामिल हैं जो वीडियो और छवि सामग्री में डीपफेक, संश्लेषित, या अन्यथा गलत तरीके से या 'संपादित' चेहरों की कलाकृतियों या अन्य कथित विशिष्ट विशेषताओं को पहचान सकते हैं।

इस तरह के दृष्टिकोण में विभिन्न प्रकार की युक्तियों का उपयोग किया जाता है, जिनमें शामिल हैं गहराई का पता लगाना, वीडियो नियमितता व्यवधान, मॉनिटर रोशनी में भिन्नता (संभावित रूप से डीपफेक लाइव वीडियो कॉल में), बायोमेट्रिक लक्षण, बाहरी चेहरे के क्षेत्र, और यहां तक कि छुपी हुई शक्तियां मानव अवचेतन तंत्र का.

इनमें और समान तरीकों में जो समानता है वह यह है कि जब तक उन्हें तैनात किया जाता है, तब तक वे जिन केंद्रीय तंत्रों से लड़ रहे हैं उन्हें वेब से निकाली गई हजारों, या सैकड़ों-हजारों छवियों पर सफलतापूर्वक प्रशिक्षित किया जा चुका होता है - वे छवियां जिनसे ऑटोएनकोडर सिस्टम कर सकते हैं आसानी से मुख्य विशेषताएं प्राप्त करें, और ऐसे मॉडल बनाएं जो वीडियो फ़ुटेज या संश्लेषित छवियों में भी सटीक रूप से झूठी पहचान लागू कर सकें वास्तविक समय में.

संक्षेप में, जब तक ऐसी प्रणालियाँ सक्रिय होती हैं, तब तक घोड़ा दौड़ चुका होता है।

छवियाँ जो डीपफेक/सिंथेसिस आर्किटेक्चर के प्रतिकूल हैं

एक और तरीके से preventative डीपफेक और छवि संश्लेषण के खतरे के प्रति रवैया, इस क्षेत्र में अनुसंधान के एक कम प्रसिद्ध पहलू में उन सभी स्रोत फ़ोटो को बनाने में निहित संभावनाएं शामिल हैं अमित्र एआई छवि संश्लेषण प्रणालियों की ओर, आमतौर पर अगोचर, या बमुश्किल बोधगम्य तरीकों से।

उदाहरणों में शामिल नकलीटैगर, अमेरिका और एशिया के विभिन्न संस्थानों का 2021 का प्रस्ताव, जो संदेशों को छवियों में एन्कोड करता है; ये एन्कोडिंग सामान्यीकरण की प्रक्रिया के लिए प्रतिरोधी हैं, और बाद में छवियों को वेब से स्क्रैप किए जाने और इसपर्सनडोएसनोटेक्सिस्ट.कॉम द्वारा सन्निहित प्रकार के जेनरेटिव एडवरसैरियल नेटवर्क (जीएएन) में प्रशिक्षित होने के बाद भी पुनर्प्राप्त किया जा सकता है, और इसके असंख्य व्युत्पन्न.

FakeTagger ऐसी जानकारी को एन्कोड करता है जो GAN को प्रशिक्षित करते समय सामान्यीकरण की प्रक्रिया से बच सकती है, जिससे यह जानना संभव हो जाता है कि क्या किसी विशेष छवि ने सिस्टम की जेनरेटिव क्षमताओं में योगदान दिया है। स्रोत: https://arxiv.org/pdf/2009.09869.pdf

ICCV 2021 के लिए, एक और अंतर्राष्ट्रीय प्रयास भी शुरू किया गया जनरेटिव मॉडलों के लिए कृत्रिम फिंगरप्रिंट, (नीचे छवि देखें) जो स्टाइलजीएएन2 जैसे छवि संश्लेषण जीएएन के आउटपुट से फिर से पुनर्प्राप्त करने योग्य 'फिंगरप्रिंट' उत्पन्न करता है।

यहां तक कि विभिन्न प्रकार के अत्यधिक हेरफेर, क्रॉपिंग और चेहरे की अदला-बदली के तहत भी, प्रोगैन के माध्यम से पारित उंगलियों के निशान पुनर्प्राप्त करने योग्य रहते हैं। स्रोत: https://arxiv.org/pdf/2007.08457.pdf

इस अवधारणा के अन्य पुनरावृत्तियों में शामिल हैं a 2018 परियोजना आईबीएम से और ए डिजिटल वॉटरमार्किंग योजना उसी वर्ष, जापान से।

अधिक नवोन्वेषी, 2021 पहल नानजिंग यूनिवर्सिटी ऑफ एरोनॉटिक्स एंड एस्ट्रोनॉटिक्स ने प्रशिक्षण छवियों को इस तरह से 'एन्क्रिप्ट' करने की कोशिश की कि वे केवल अधिकृत सिस्टम पर ही प्रभावी ढंग से प्रशिक्षित हो सकें, लेकिन यदि सामान्य छवि संश्लेषण प्रशिक्षण पाइपलाइन में स्रोत डेटा के रूप में उपयोग किया जाता है तो वे विनाशकारी रूप से विफल हो जाएंगे।

प्रभावी रूप से ये सभी विधियाँ स्टेग्नोग्राफ़ी की श्रेणी में आती हैं, लेकिन सभी मामलों में छवियों में विशिष्ट पहचान वाली जानकारी को एक छवि की ऐसी आवश्यक 'विशेषता' के रूप में एन्कोड करने की आवश्यकता होती है कि कोई संभावना नहीं है कि एक ऑटोएन्कोडर या जीएएन आर्किटेक्चर इसे त्याग देगा। उंगलियों के निशान को 'शोर' या बाहरी और अनावश्यक डेटा के रूप में, बल्कि इसे अन्य चेहरे की विशेषताओं के साथ एनकोड किया जाएगा।

साथ ही, इस प्रक्रिया को छवि को इतना विकृत करने या अन्यथा दृष्टिगत रूप से प्रभावित करने की अनुमति नहीं दी जा सकती है कि आकस्मिक दर्शकों को यह लगे कि इसमें दोष हैं या यह निम्न गुणवत्ता का है।

ताफ़ीम

अब, एक नए जर्मन शोध प्रयास (म्यूनिख के तकनीकी विश्वविद्यालय और सोनी यूरोप आरडीसी स्टटगार्ट से) ने एक छवि-एन्कोडिंग तकनीक का प्रस्ताव दिया है जिसके तहत संसाधित छवियों पर प्रशिक्षित डीपफेक मॉडल या स्टाइलगैन-प्रकार के ढांचे क्रमशः अनुपयोगी नीले या सफेद आउटपुट का उत्पादन करेंगे। .

TAFIM की निम्न-स्तरीय छवि गड़बड़ी कई संभावित प्रकार के चेहरे के विरूपण/प्रतिस्थापन को संबोधित करती है, जो छवियों पर प्रशिक्षित मॉडलों को विकृत आउटपुट उत्पन्न करने के लिए मजबूर करती है, और लेखकों द्वारा रिपोर्ट की गई है कि यह वास्तविक समय के परिदृश्यों में भी लागू होता है जैसे कि DeepFaceLive की वास्तविक समय की डीपफेक स्ट्रीमिंग . स्रोत: https://arxiv.org/pdf/2112.09151.pdf

RSI काग़ज़, शीर्षक TAFIM: चेहरे की छवि में हेरफेर के खिलाफ लक्षित प्रतिकूल हमले, बमुश्किल बोधगम्य गड़बड़ी को छवियों में एन्कोड करने के लिए एक तंत्रिका नेटवर्क का उपयोग करता है। छवियों को एक संश्लेषण वास्तुकला में प्रशिक्षित और सामान्यीकृत करने के बाद, परिणामी मॉडल इनपुट पहचान के लिए फीका आउटपुट उत्पन्न करेगा यदि स्टाइल मिश्रण या सीधे फेस-स्वैपिंग में उपयोग किया जाता है।

TAFIM: चेहरे की छवि में हेराफेरी के विरुद्ध लक्षित प्रतिकूल हमले (ECCV'22)

TAFIM: Targeted Adversarial Attacks against Face Image Manipulations (ECCV'22)

Watch this video on YouTube

वेब को पुनः एन्कोडिंग करें..?

हालाँकि, इस मामले में, हम यहां इस लोकप्रिय अवधारणा के नवीनतम संस्करण की बारीकियों और वास्तुकला की जांच करने के लिए नहीं हैं, बल्कि पूरे विचार की व्यावहारिकता पर विचार करने के लिए हैं - विशेष रूप से सार्वजनिक रूप से उपयोग के बारे में बढ़ते विवाद के प्रकाश में- छवि संश्लेषण ढांचे को शक्ति प्रदान करने के लिए स्क्रैप की गई छवियां स्थिर प्रसार, और उसके बाद के डाउनस्ट्रीम कानूनी निहितार्थ वाणिज्यिक सॉफ्टवेयर प्राप्त करना ऐसी सामग्री से जो (कम से कम कुछ न्यायालयों में) अंततः एआई संश्लेषण आर्किटेक्चर में अंतर्ग्रहण के खिलाफ कानूनी सुरक्षा साबित हो सकती है।

ऊपर वर्णित प्रकार के प्रोएक्टिव, एन्कोडिंग-आधारित दृष्टिकोण बिना किसी छोटी लागत के आते हैं। कम से कम, उनमें मानक वेब-आधारित प्रसंस्करण पुस्तकालयों में नए और विस्तारित संपीड़न रूटीन स्थापित करना शामिल होगा जैसे कि ImageMagick, जो बड़ी संख्या में अपलोड प्रक्रियाओं को शक्ति प्रदान करता है, जिसमें कई सोशल मीडिया अपलोड इंटरफेस भी शामिल हैं, जिसका काम बड़े आकार की मूल उपयोगकर्ता छवियों को अनुकूलित संस्करणों में परिवर्तित करना है जो हल्के साझाकरण और नेटवर्क वितरण के लिए अधिक उपयुक्त हैं, और फसलों जैसे प्रभावशाली परिवर्तनों के लिए भी हैं, और अन्य संवर्द्धन.

इससे जो प्राथमिक प्रश्न उठता है वह यह है: क्या ऐसी योजना 'आगे बढ़ते हुए' लागू की जाएगी, या कुछ व्यापक और पूर्वव्यापी तैनाती का इरादा होगा, जो ऐतिहासिक मीडिया को संबोधित करता है जो दशकों से 'अदूषित' रूप से उपलब्ध हो सकता है?

नेटफ्लिक्स जैसे प्लेटफॉर्म हैं विरोध नहीं नए कोडेक्स के साथ बैक कैटलॉग को फिर से एन्कोड करने की कीमत पर जो अधिक कुशल हो सकता है, या अन्यथा उपयोगकर्ता या प्रदाता को लाभ प्रदान कर सकता है; इसी प्रकार, YouTube द्वारा अपनी ऐतिहासिक सामग्री को H.264 कोडेक में परिवर्तित करना, जाहिरा तौर पर एप्पल टीवी को समायोजित करने के लिए, एक तार्किक रूप से महत्वपूर्ण कार्य, पैमाने के बावजूद, निषेधात्मक रूप से कठिन नहीं माना जाता था।

विडंबना यह है कि, भले ही इंटरनेट पर मीडिया सामग्री का बड़ा हिस्सा प्रशिक्षण का विरोध करने वाले प्रारूप में पुन: एन्कोडिंग के अधीन हो गया हो, प्रभावशाली कंप्यूटर विज़न डेटासेट का सीमित कैडर अप्रभावित रहेगा. हालाँकि, संभवतः, सिस्टम जो उन्हें अपस्ट्रीम डेटा के रूप में उपयोग करते हैं, आउटपुट की गुणवत्ता में कमी आने लगेगी, क्योंकि वॉटरमार्क वाली सामग्री आर्किटेक्चर की परिवर्तनकारी प्रक्रियाओं में हस्तक्षेप करेगी।

राजनीतिक संघर्ष

राजनीतिक दृष्टि से, एआई विकास में पीछे न रहने के सरकारों के दृढ़ संकल्प और प्रचुर संसाधन के रूप में इंटरनेट पर खुले तौर पर उपलब्ध ऑडियो, वीडियो और छवि सामग्री के तदर्थ उपयोग के बारे में सार्वजनिक चिंता को रियायत देने के बीच एक स्पष्ट तनाव है। परिवर्तनकारी एआई सिस्टम के लिए।

आधिकारिक तौर पर, पश्चिमी सरकारें सार्वजनिक रूप से उपलब्ध मीडिया का उपयोग करने के लिए कंप्यूटर विज़न अनुसंधान क्षेत्र की क्षमता के संबंध में उदारता बरतने की इच्छुक हैं, कम से कम इसलिए नहीं कि कुछ अधिक निरंकुश एशियाई देशों के पास अपने विकास वर्कफ़्लो को इस तरह से आकार देने के लिए कहीं अधिक छूट है उनके स्वयं के अनुसंधान प्रयासों को लाभ पहुँचाता है - बस उन कारकों में से एक जो सुझाव है कि चीन एआई में वैश्विक नेता बन रहा है.

अप्रैल 2022 में, अमेरिकी अपील न्यायालय पुष्टि लिंक्डइन के चल रहे विरोध के बावजूद, सार्वजनिक-सामना वाला वेब डेटा अनुसंधान उद्देश्यों के लिए उचित खेल है इच्छाओं इसके उपयोगकर्ता प्रोफाइल को ऐसी प्रक्रियाओं से सुरक्षित रखा जाएगा।

यदि एआई-प्रतिरोधी इमेजरी को सिस्टम-व्यापी मानक नहीं बनना है, तो प्रशिक्षण डेटा के कुछ प्रमुख स्रोतों को ऐसी प्रणालियों को लागू करने से रोकने के लिए कुछ भी नहीं है, ताकि उनका अपना आउटपुट अव्यक्त स्थान में अनुत्पादक हो जाए।

ऐसी कंपनी-विशिष्ट तैनाती में आवश्यक कारक यह है कि छवियां होनी चाहिए स्वाभाविक रूप से प्रतिरोधी प्रशिक्षण के लिए। ब्लॉकचेन-आधारित उद्गम तकनीकें, और आंदोलन जैसे सामग्री प्रामाणिकता पहल, ऐसे परिवर्तनों को संभव बनाने वाले तंत्र को रोकने के बजाय, यह साबित करने में अधिक चिंतित हैं कि छवि नकली या 'स्टाइलगैनड' है।

आकस्मिक निरीक्षण

जबकि स्रोत छवि की वास्तविक उत्पत्ति और उपस्थिति को प्रमाणित करने के लिए ब्लॉकचेन विधियों का उपयोग करने के प्रस्ताव सामने रखे गए हैं, जिन्हें बाद में प्रशिक्षण डेटासेट में शामिल किया जा सकता है, यह अपने आप में छवियों के प्रशिक्षण को नहीं रोकता है, या साबित करने का कोई तरीका प्रदान नहीं करता है, ऐसी प्रणालियों के आउटपुट से, छवियों को प्रशिक्षण डेटासेट में शामिल किया गया था।

प्रशिक्षण से छवियों को बाहर करने के वॉटरमार्किंग दृष्टिकोण में, निरीक्षण के लिए सार्वजनिक रूप से उपलब्ध प्रभावशाली डेटासेट की स्रोत छवियों पर भरोसा नहीं करना महत्वपूर्ण होगा। के जवाब में कलाकारों का आक्रोश स्टेबल डिफ्यूजन के अपने काम के उदार अंतर्ग्रहण के बारे में, वेबसाइट hasibeentrained.com उपयोगकर्ताओं को छवियां अपलोड करने और जांचने की अनुमति देता है कि क्या उन्हें इसमें शामिल किए जाने की संभावना है LAION5B डेटासेट जो स्थिर प्रसार को शक्ति प्रदान करता है:

'लेना', वस्तुतः हाल तक कंप्यूटर विज़न अनुसंधान के लिए पोस्टर गर्ल, निश्चित रूप से स्थिर प्रसार में योगदानकर्ता है। स्रोत: https://haveibeentrained.com/

हालाँकि, उदाहरण के लिए, लगभग सभी पारंपरिक डीपफेक डेटासेट, इंटरनेट पर निकाले गए वीडियो और छवियों से गैर-सार्वजनिक डेटाबेस में खींचे जाते हैं, जहां केवल कुछ प्रकार के तंत्रिका-प्रतिरोधी वॉटरमार्किंग संभवतः व्युत्पन्न छवियों को बनाने के लिए विशिष्ट छवियों के उपयोग को उजागर कर सकते हैं। और वीडियो.

इसके अलावा, स्टेबल डिफ्यूजन उपयोगकर्ता सामग्री जोड़ना शुरू कर रहे हैं - या तो फाइन-ट्यूनिंग के माध्यम से (अतिरिक्त छवि/पाठ जोड़े के साथ आधिकारिक मॉडल चेकपॉइंट का प्रशिक्षण जारी रखना) या टेक्स्टुअल इनवर्जन, जो एक विशिष्ट तत्व या व्यक्ति जोड़ता है - जो किसी में दिखाई नहीं देगा LAION की अरबों छवियों को खोजें।

स्रोत पर वॉटरमार्क एम्बेड करना

स्रोत छवि वॉटरमार्किंग का एक और भी अधिक संभावित अनुप्रयोग वाणिज्यिक कैमरों के कच्चे कैप्चर आउटपुट, वीडियो या छवियों में अस्पष्ट और गैर-स्पष्ट जानकारी को शामिल करना है। हालाँकि मल्टीमीडिया पाइरेसी के उभरते 'खतरे' की प्रतिक्रिया के रूप में, 2000 के दशक की शुरुआत में इस अवधारणा का प्रयोग किया गया था और इसे कुछ सख्ती के साथ लागू भी किया गया था, यह सिद्धांत तकनीकी रूप से मीडिया सामग्री को मशीन लर्निंग प्रशिक्षण के लिए प्रतिरोधी या विकर्षक बनाने के उद्देश्य से भी लागू है। सिस्टम.

एक कार्यान्वयन, जिसे 1990 के दशक के उत्तरार्ध से एक पेटेंट आवेदन में प्रस्तावित किया गया था असतत कोसाइन रूपांतरण वीडियो और स्थिर छवियों में स्टेग्नोग्राफ़िक 'उप छवियों' को एम्बेड करने के लिए, यह सुझाव देते हुए कि रूटीन को 'स्टिल और वीडियो कैमरों जैसे डिजिटल रिकॉर्डिंग उपकरणों के लिए एक अंतर्निहित सुविधा के रूप में शामिल किया जा सकता है।'

1990 के दशक के उत्तरार्ध के एक पेटेंट आवेदन में, लेनना को गुप्त वॉटरमार्क से भर दिया गया है जिन्हें आवश्यकतानुसार पुनर्प्राप्त किया जा सकता है। स्रोत: https://www.freepatentsonline.com/6983057.pdf

1990 के दशक के उत्तरार्ध के एक पेटेंट आवेदन में, लेनना को गुप्त वॉटरमार्क से भर दिया गया है जिसे आवश्यकतानुसार पुनर्प्राप्त किया जा सकता है। स्रोत: https://www.freepatentsonline.com/6983057.pdf

एक कम परिष्कृत दृष्टिकोण डिवाइस-स्तर पर छवियों पर स्पष्ट रूप से दिखाई देने वाले वॉटरमार्क लगाना है - एक ऐसी सुविधा जो अधिकांश उपयोगकर्ताओं के लिए अरुचिकर है, और कलाकारों और पेशेवर मीडिया चिकित्सकों के मामले में अनावश्यक है, जो स्रोत डेटा की सुरक्षा करने और ऐसी ब्रांडिंग जोड़ने में सक्षम हैं या जैसा कि वे उचित समझें निषेध (कम से कम, स्टॉक छवि कंपनियां)।

यद्यपि कम से कम एक कैमरा वर्तमान में वैकल्पिक लोगो-आधारित वॉटरमार्क लगाने की अनुमति है जो हो सकता है अनधिकृत उपयोग का संकेत व्युत्पन्न एआई मॉडल में, एआई के माध्यम से लोगो हटाना बनता जा रहा है काफी तुच्छऔर भी आकस्मिक रूप से व्यवसायीकरण किया गया.

पहली बार 25 सितंबर 2022 को प्रकाशित।