कृत्रिम बुद्धिमत्ता

25 वर्षों की गोपनीयता नीतियों का मशीन लर्निंग के साथ विश्लेषण

Published January 31, 2022

Updated April 28, 2026

Martin Anderson

एक हालिया अध्ययन ने मशीन लर्निंग विश्लेषण तकनीकों का उपयोग करके 1996 से 2021 तक की अवधि में लोकप्रिय वेबसाइटों पर 50,000 से अधिक गोपनीयता नीतियों की पठनीयता, उपयोगिता, लंबाई और जटिलता का मानचित्र तैयार किया है। शोध के अनुसार, औसत पाठक को उन बढ़ते शब्द गणना, अस्पष्ट भाषा और अस्पष्ट भाषा का उपयोग करने वाली आधुनिक गोपनीयता नीतियों में प्रवेश करने के लिए ‘वार्षिक पढ़ने का समय’ में 400 घंटे का योगदान करने की आवश्यकता होगी (प्रतिदिन एक घंटे से अधिक)।

रिपोर्ट में कहा गया है:

‘औसत नीति की लंबाई पिछले दस वर्षों में लगभग दोगुनी हो गई है, मार्च 2011 में 2159 शब्द और मार्च 2021 में 4191 शब्द, और 2000 (1146 शब्द) से लगभग चौगुनी हो गई है।’

अध्ययन किए गए कॉर्पस में शब्द गणना और वाक्य गणना का औसत, 25 वर्षों की अवधि में। स्रोत: https://arxiv.org/pdf/2201.08739.pdf

हालांकि लंबाई में वृद्धि की दर में वृद्धि तब हुई जब जीडीपीआर और कैलिफोर्निया कंज्यूमर प्राइवेसी एक्ट (सीसीपीए) संरक्षण लागू हुए, लेकिन पत्र इन भिन्नताओं को ‘छोटे प्रभाव आकार’ के रूप में छूट देता है जो व्यापक दीर्घकालिक रुझान के खिलाफ महत्वहीन लगते हैं। हालांकि, जीडीपीआर को नीतियों में बढ़ती ‘अस्पष्ट’ भाषा का एक संभावित कारण माना जाता है।

मान लें कि प्रति मिनट 250 शब्दों की पढ़ने की गति है, तो पत्र का तर्क है कि औसत गोपनीयता नीति अब 17 मिनट में पढ़ी जा सकती है, जबकि अधिक लोकप्रिय नीतियों (अर्थात उच्च संख्या में उपयोगकर्ताओं से जुड़ी नीतियों) को पूरा करने में 23 मिनट लगते हैं।

डेटा में से सबसे लंबी नीति, माइक्रोसॉफ्ट से, शोध के अनुसार 152 मिनट में उपभोग की जा सकती है, जो गूगल के बीईआरटी भाषा मॉडल पर कई प्रकार के वेरिएंट का लाभ उठाती है।

आधुनिक गोपनीयता नीतियों को पढ़ने के लिए वार्षिक घंटों की दर में वृद्धि, यह मानते हुए कि पाठक प्रति वर्ष 1462 अद्वितीय वेबसाइटों पर जाता है।

गोपनीयता नीतियों में हाल के वर्षों में वाक्पटुता और अस्पष्टता में वृद्धि को पत्र द्वारा पिछले दो दशकों में नियमों को लागू करने के प्रयासों के प्रतिक्रियास्वरूप और नियामक अनुपालन आवश्यकताओं का उपयोग गोपनीयता नीतियों के दायरे और अस्पष्टता को गुप्त रूप से बढ़ाने के बहाने के रूप में किया जाता है।

‘कुल मिलाकर, हमारे परिणाम दिखाते हैं कि हाल के गोपनीयता नियमों ने ऑनलाइन उपयोगकर्ताओं की गोपनीयता में काफी सुधार नहीं किया है, बल्कि अधिक फुली हुई गोपनीयता नीतियों को जन्म दिया है जो अधिक और अधिक आक्रामक डेटा अभ्यासों का वर्णन करती हैं।’

हाल के वर्षों में, कई प्राकृतिक भाषा प्रसंस्करण (एनएलपी) पत्रों ने गोपनीयता नीतियों की पठनीयता और अन्य पहलुओं को संबोधित किया है, लेखक का मानना है कि यह परियोजना अपनी तरह की पहली परियोजना है जो हाल के दशकों में नीति विकास का इतना व्यापक अवलोकन प्रदान करती है।

पत्र शीर्षक है युगों के माध्यम से गोपनीयता नीतियां: गोपनीयता नीतियों की सामग्री और पठनीयता 1996–2021, और यह यूके में डी मोंटफोर्ट विश्वविद्यालय के साइबर टेक्नोलॉजी संस्थान में इसाबेल वैगनर से आता है।

वक्री भाषा

रिपोर्ट यह भी सुझाव देती है कि गोपनीयता नीतियों में ‘अस्पष्ट शब्दों’ (अर्थात स्वीकार्य, महत्वपूर्ण, मुख्य रूप से, और अन्य शब्द जो निश्चित अर्थ प्रदान नहीं करते हैं) की औसत संख्या में 2018 तक लगातार वृद्धि हुई, लेकिन फिर मार्च 2018 में 227 के मध्य से जून 2020 में 304 तक बढ़ गई।

लेखक का तर्क है कि यह वृद्धि जीडीपीआर के प्रभाव के कारण है, और पत्र में पाया गया है कि अध्ययन की गई गोपनीयता नीतियों में से अधिकांश (72%) वाक्यों में कम से कम एक अस्पष्ट शब्द है।

पठनीयता

तीन सामान्य पढ़ने में कठिनाई के उपायों के माध्यम से, अध्ययन में पाया गया कि ‘गोपनीयता नीतियां वर्षों से पढ़ने में कठिन होती जा रही हैं’. लेखकों का अनुमान है कि 2021 में उपलब्ध वर्तमान लागू नीतियों में से 41% का मध्य फ्लेश रीडिंग ईज (एफआरई, जितना अधिक बेहतर) केवल 31.8 था, जिसमें लेखक ने ‘यह स्कोर एक बहुत ही कठिन पाठ को दर्शाता है जो विश्वविद्यालय के स्नातकों द्वारा सबसे अच्छी तरह से समझा जाता है’ कहा।

इसी समय, केवल 6.7% नीतियों ने 45 से अधिक एफआरई स्कोर प्राप्त किया (जो रिपोर्ट के अनुसार फ्लोरिडा राज्य में बीमा नीतियों के लिए आवश्यक पढ़ने का मानक है)।

नीति परिवर्तन जागरूकता

कार्य नीतियों में विवरण की程度 को भी संबोधित करता है जिसमें संभावित सहमति देने वाले को बाद के अद्यतनों के बारे में सूचित किया जाएगा, जो उपयोगकर्ता की सहमति बनाए रखने की इच्छा को प्रभावित कर सकता है।

लेखक ने कहा:

‘2021 में, 73% नीतियों में नीति परिवर्तन के बारे में एक बयान शामिल है। इनमें से, 34% बयान देते हैं कि परिवर्तन गोपनीयता नीति में एक नोटिस द्वारा घोषित किए जाएंगे, 37% एक नोटिस वेबसाइट पर पोस्ट करेंगे, और 22% एक व्यक्तिगत नोटिस भेजेंगे (शेष नीतियां नोटिफिकेशन प्रकार को अस्पष्ट छोड़ देती हैं)।’

‘परिणामस्वरूप, अधिकांश उपयोगकर्ता गोपनीयता नीतियों में परिवर्तनों से अवगत नहीं होंगे। ‘

‘इसके अलावा, उपयोगकर्ताओं को नीतियों में परिवर्तन के समय लगभग कोई अर्थपूर्ण विकल्प नहीं दिया जाता है। उन नीतियों में से जो उपयोगकर्ता को परिवर्तनों के बारे में सूचित करती हैं, केवल 12% एक नई सहमति प्रदान करती हैं, जबकि 34% कोई विकल्प नहीं देती हैं और 54% इसे अस्पष्ट छोड़ देती हैं। ‘

पत्र के निष्कर्ष नीति परिवर्तनों के बारे में उपयोगकर्ताओं को सूचित करने के वर्णित तरीकों पर।

ट्रैकिंग पर सीमित विकल्प

अध्ययन के अनुसार, उपयोगकर्ता-प्रोफ़ाइल डेटा के लिए उपयोगकर्ता-खाता जानकारी तक पहुंचने के लिए गोपनीयता नीतियों में बहुत अधिक तंत्र प्रदान किए जाते हैं। प्रोफ़ाइल डेटा स्वचालित और अस्पष्ट तंत्र के माध्यम से बनाया और अद्यतन किया जा सकता है, जबकि उपयोगकर्ता खाता डेटा न केवल उपयोगकर्ता द्वारा स्पष्ट रूप से दिया जाता है, बल्कि विभिन्न क्षेत्राधिकारों के नियमों के तहत संपादन के लिए भी बाध्य होता है।

गोपनीयता नीतियों में कुकी सहमति पर उपभोक्ता विकल्प (जो जीडीपीआर के आगमन के बाद से अंतर्राष्ट्रीय और यूरोपीय वेबसाइटों के लिए सैकड़ों हजारों कुकी सहमति पॉपअप को जन्म देने वाले एक विषय के रूप में गरमा रहा है) आमतौर पर नीतियों में संबोधित किया जाता है, लेकिन एक कम पहुंच योग्य डेटा परत को छुपाता है:

‘[कुकी के बारे में] विकल्प उपयोगकर्ताओं को सभी ट्रैकिंग से बचाने के लिए पर्याप्त नहीं हैं क्योंकि विकल्प या नियंत्रण तंत्र दुर्लभ हैं कंप्यूटर जानकारी, डिवाइस पहचानकर्ता, और व्यक्तिगत पहचानकर्ता, जो फिंगरप्रिंटिंग के माध्यम से उपयोगकर्ताओं की ट्रैकिंग की अनुमति देते हैं। ‘

प्रोफ़ाइल डेटा (जो अंतर्निहित या गुप्त साधनों से प्राप्त की जा सकती है) और उपयोगकर्ता खाता डेटा (जिसमें जीडीपीआर, सीसीपीए और समान राष्ट्रीय और क्षेत्रीय तंत्र द्वारा कुछ नियंत्रण की आवश्यकता होती है) के बीच नियंत्रण के स्तर में एक तीव्र विपरीतता।

डेटा

अध्ययन के लिए डेटा प्राप्त करने के लिए, लेखक ने वेबसाइटों को उनकी गोपनीयता नीतियों के लिंक के लिए क्रॉल किया, अक्सर प्रारंभिक परिणाम से परे दायरे को बढ़ाने की आवश्यकता होती है, क्योंकि कई गैर-एकीकृत नीतियां होती हैं जो आगे की नीतियों को लिंक करती हैं (प्रत्येक की संभावना होती है कि वह मूल या संबंधित नीति के साथ या उसके स्वतंत्र रूप से बदल जाए)।

वेबसाइट वेबैक मशीन का उपयोग करके ऐतिहासिक नीतियों को प्राप्त किया गया था, हालांकि परिणामों पर विचार करते समय यह आवश्यक था कि उन नीतियों के लिए जो रोबोट्स.टेक्सट कॉन्फ़िगरेशन फ़ाइल के माध्यम से क्रॉलिंग या आर्काइविंग से अवरुद्ध हो गई थीं।

प्रति माह एक स्नैपशॉट वेबैक मशीन के सीडीएक्स एपीआई द्वारा प्रत्येक पहचानने योग्य और निरंतर लागू नीति के लिए प्राप्त किया गया था, फ़ायरफ़ॉक्स के तहत सेलेनियम का उपयोग करते हुए। केवल एचटीएमएल नीतियों के लिए सीमित रहते हुए, पीडीएफ प्रारूप में उपलब्ध नीतियों पर ऑप्टिकल कैरेक्टर रिकग्निशन करने पर विचार नहीं किया गया था।

परियोजना का एक दिलचस्प परिणाम यह है कि अश्लील वेबसाइटों की स्पष्टता और पठनीयता वास्तव में अध्ययन किए गए अंतराल में सुधरी है – संभावित रूप से बढ़ती विनियमन और स्पष्टता की मांग की प्रत्याशा में। इन दस्तावेजों को इकट्ठा करने के लिए, यह आवश्यक था कि उन्हें आवासीय आईपी पते से अतिरिक्त क्रॉल के साथ प्राप्त किया जाए, क्योंकि विश्वविद्यालय के सामग्री-ब्लॉकिंग प्रोटोकॉल के कारण।

प्रारंभ में 1,068,683 दस्तावेज़ प्राप्त किए गए, जो 120,265 अद्वितीय दस्तावेजों के बराबर थे, जिनमें प्रति लिंक 39.1 नीति लेख या खंड और 4.4 अद्वितीय नीति पाठ थे।

केवल अंग्रेजी

इसी तरह के हाल के अध्ययनों में आम तौर पर, परियोजना गैर-अंग्रेजी गोपनीयता नीतियों को संबोधित करने में सक्षम नहीं थी, जिन्हें डेटा-क्लीनिंग चरण के दौरान पाइकेलडी2 पैकेज का उपयोग करके छोड़ दिया गया था।

गोपनीयता नीतियों को अन्य प्रकार की सामग्री से अलग करने के लिए, परियोजना ने 2019 में विस्कॉन्सिन विश्वविद्यालय और École Polytechnique Fédérale de Lausanne की संयुक्त पहल के रूप में विकसित वर्गीकारक का उपयोग किया।

आईएस-नीति वर्गीकारक का आर्किटेक्चर। स्रोत: https://arxiv.org/pdf/1809.08396.pdf

हालांकि आईएस-नीति वर्गीकारक को मूल पत्र में उसी 1,000-दस्तावेज़ कॉर्पस पर प्रशिक्षित किया गया था, लेखक को नए गैर-नीति दस्तावेज़ प्रशिक्षण के लिए प्राप्त करने थे, क्योंकि मूल स्रोत उपलब्ध नहीं थे।

फिल्टरिंग के बाद, डेटा 56,416 अद्वितीय गोपनीयता नीतियों में कम हो गया था।

* पत्र के इनलाइन उद्धरण को यहां हाइपरलिंक में परिवर्तित किया गया है, इटैलिक टॉगल पत्र से है।

31 जनवरी 2022 को पहली बार प्रकाशित।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai