ხელოვნური ინტელექტი

25 წლიანი კონფიდენციალურობის პოლიტიკის ანალიზი მანქანური სწავლით

განახლებულია on დეკემბერი 9, 2022

უახლესმა კვლევამ გამოიყენა მანქანური სწავლების ანალიზის ტექნიკები პოპულარულ ვებსაიტებზე 50,000-ზე მეტი კონფიდენციალურობის პოლიტიკის წაკითხვის, სარგებლობის, სიგრძისა და სირთულის გამოსათვლელად 25 წლის განმავლობაში 1996 წლიდან 2021 წლამდე. კვლევა ასკვნის, რომ საშუალო მკითხველს უნდა დაუთმოს 400 საათი „წლიური კითხვის დრო“ (დღეში საათზე მეტი), რათა შეაღწიოთ მზარდი სიტყვების რაოდენობას, ბუნდოვან ენას და ბუნდოვან ენას, რაც ახასიათებს ზოგიერთი ყველაზე ხშირად გავრცელებული ვებსაიტების კონფიდენციალურობის თანამედროვე პოლიტიკას.

მოხსენებაში ნათქვამია:

„პოლიტიკის საშუალო ხანგრძლივობა თითქმის გაორმაგდა ბოლო ათი წლის განმავლობაში, 2159 სიტყვით 2011 წლის მარტში და 4191 სიტყვით 2021 წლის მარტში და თითქმის ოთხჯერ გაიზარდა 2000 წლის შემდეგ (1146 სიტყვა).

სიტყვების საშუალო რაოდენობა და წინადადებების რაოდენობა შესწავლილ კორპუსს შორის, 25 წლის განმავლობაში. წყარო: https://arxiv.org/pdf/2201.08739.pdf

მიუხედავად იმისა, რომ სიგრძის ზრდის ტემპი გაიზარდა, როდესაც GDPR და კალიფორნიის მომხმარებელთა კონფიდენციალურობის აქტი (CCPA) ამოქმედდა, ქაღალდი ამ ვარიაციებს აფასებს, როგორც „მცირე ეფექტის ზომებს“, რომლებიც, როგორც ჩანს, უმნიშვნელოა ფართო გრძელვადიანი ტენდენციის მიმართ. თუმცა, GDPR იდენტიფიცირებულია, როგორც პოლიტიკაში „ბუნდოვანი“ ენის მზარდი შესაძლო მიზეზი (იხ. ქვემოთ).

თუ ვივარაუდებთ, რომ კითხვის სიჩქარე წუთში 250 სიტყვაა, ნაშრომი ამტკიცებს, რომ საშუალო კონფიდენციალურობის პოლიტიკის წაკითხვას 17 წუთი სჭირდება, ხოლო უფრო პოპულარულ პოლიტიკას (მაგ. მომხმარებელთა დიდ რაოდენობასთან დაკავშირებული პოლიტიკა) 23 წუთი სჭირდება.

მონაცემთა ნაკრების ყველაზე გრძელი პოლიტიკა, Microsoft-ისგან, მოითხოვს 152 წუთს მოხმარებას, კვლევის თანახმად, რომელიც გამოიყენა რამდენიმე ვარიანტები Google-ზე BERT ენის მოდელი.

თანამედროვე კონფიდენციალურობის პოლიტიკის წასაკითხად საჭირო წლიური საათების ტემპის ზრდა, იმ ვარაუდით, რომ მკითხველი წელიწადში 1462 უნიკალურ ვებსაიტს სტუმრობს.

წლიური საათების ზრდა, რომელიც საჭიროა თანამედროვე კონფიდენციალურობის პოლიტიკის წასაკითხად, იმ ვარაუდით, რომ მკითხველი სტუმრობს წელიწადში 1462 უნიკალური ვებსაიტი.

კონფიდენციალურობის პოლიტიკაში სიტყვიერებისა და გაურკვევლობის ბოლოდროინდელი მატების დიდი ნაწილი ნაშრომს მიაწერს, როგორც რეაქციას ბოლო ორი ათწლეულის განმავლობაში რეგულაციების დაწესების მცდელობებზე, მაგრამ ასევე მარეგულირებელი მოთხოვნების არაგულწრფელ გამოყენებაზე, როგორც საბაბი ფარულად გაზრდის ფარგლებს და კონფიდენციალურობის პოლიტიკის გაუმჭვირვალობა.

„საერთოდ, ჩვენი შედეგები აჩვენებს, რომ კონფიდენციალურობის შესახებ ბოლოდროინდელმა რეგულაციები არსებითად არ გააუმჯობესა ონლაინ მომხმარებელთა კონფიდენციალურობა, არამედ გამოიწვია კონფიდენციალურობის უფრო დაბერებული პოლიტიკა, რომელიც აღწერს მონაცემთა უფრო და უფრო ინვაზიურ პრაქტიკას.

მიუხედავად იმისა, რომ მრავალი ბუნებრივი ენის დამუშავების (NLP) ნაშრომი ეხებოდა კონფიდენციალურობის პოლიტიკის წაკითხვის საკითხს და სხვა ასპექტებს ბოლო წლებში, ავტორი თვლის, რომ ეს არის პირველი ასეთი პროექტი, რომელიც უზრუნველყოფს პოლიტიკის განვითარების ასეთ ფართო მიმოხილვას ბოლო ათწლეულების განმავლობაში.

ის ქაღალდი სახელდება კონფიდენციალურობის პოლიტიკა საუკუნეების მანძილზე: კონფიდენციალურობის პოლიტიკის შინაარსი და კითხვადობა 1996–2021 წწ., და მოდის იზაბელ ვაგნერისგან დიდი ბრიტანეთის დე მონფორტის უნივერსიტეტის კიბერტექნოლოგიური ინსტიტუტიდან.

ელიფსური ენა

ანგარიში ასევე ვარაუდობს, რომ საშუალო რაოდენობის „დაბნეული სიტყვები“ (ე.ი მისაღები, მნიშვნელოვანი, ძირითადადდა სხვა სიტყვები, რომლებიც არ იძლევა საბოლოო მნიშვნელობას) კონფიდენციალურობის პოლიტიკა სტაბილურად გაიზარდა 2018 წლამდე, მაგრამ შემდეგ გაიზარდა 227-დან 2018 წლის მარტში 304-მდე 2020 წლის ივნისში.

ავტორი ამტკიცებს, რომ ეს ზრდა განპირობებულია GDPR-ის ეფექტებით და ნაშრომი აღმოაჩენს, რომ შესწავლილ კონფიდენციალურობის პოლიტიკაში წინადადებების ორ მესამედზე მეტი (72%) შეიცავდა მინიმუმ ერთ დამაბნეველ სიტყვას.

Readability

კითხვის სირთულის სამი საერთო საზომის მიხედვით, კვლევამ დაადგინა, რომ "კონფიდენციალურობის პოლიტიკა წლების განმავლობაში სულ უფრო რთულად იკითხება". ავტორების შეფასებით, 41 წელს არსებული მოქმედი პოლიტიკის 2021%-ს ჰქონდა მედიანა Flesch კითხვის სიმარტივე (უფასო, უმაღლესი უკეთესია) სულ რაღაც 31.8, ავტორი აკვირდება "ეს ქულა მიუთითებს ძალიან რთულ ტექსტზე, რომელიც ყველაზე კარგად ესმით უნივერსიტეტის კურსდამთავრებულებს".

ამავე დროს, მხოლოდ 6.7% პოლისებიდან მიღწეული იქნა უფასო ქულა 45-ზე მეტი (რაც, ანგარიში აღნიშნავს, არის კითხვის სტანდარტი, რომელიც საჭიროა სადაზღვევო პოლისებისთვის ფლორიდის შტატში).

პოლიტიკის ცვლილების ცნობიერება

ნაშრომი ასევე ეხება კონფიდენციალურობის პოლიტიკაში დეტალებს იმის შესახებ, თუ როგორ მიიღებს პოტენციური თანხმობის შესახებ შეტყობინებას შემდგომი განახლებების შემთხვევაში, რამაც შეიძლება გავლენა მოახდინოს მომხმარებლის სურვილზე, შეინარჩუნოს შეთანხმება.

ავტორი შენიშნავს:

„2021 წელს პოლიტიკის 73% შეიცავს განცხადებას პოლიტიკის ცვლილების შესახებ. მათგან 34% აცხადებს, რომ ცვლილებები გამოცხადდება კონფიდენციალურობის პოლიტიკაში შეტყობინებით, 37% განათავსებს შეტყობინებას ვებსაიტზე, ხოლო 22% გამოგიგზავნით პირად შეტყობინებას (დანარჩენი პოლიტიკა ტოვებს შეტყობინების ტიპს დაუზუსტებელს).

„შედეგად, მომხმარებელთა უმეტესობამ ნაკლებად სავარაუდოა, რომ გაიგოს კონფიდენციალურობის პოლიტიკაში ცვლილებების შესახებ.

„გარდა ამისა, პოლიტიკის შეცვლისას მომხმარებლებს თითქმის არ სთავაზობენ მნიშვნელოვან არჩევანს. პოლიტიკიდან, რომელიც აცნობებს მომხმარებელს ცვლილებების შესახებ, მხოლოდ 12% გვთავაზობს ახალ არჩევანს, ხოლო 34% არ აძლევს არჩევანს და 54% ტოვებს დაუზუსტებელს.'

სტატიის დასკვნები პოლიტიკის ცვლილებების შესახებ მომხმარებლების ინფორმირების აღწერილი მეთოდების შესახებ.

შეზღუდული არჩევანი თვალთვალის შესახებ

კვლევის მიხედვით, კონფიდენციალურობის პოლიტიკაში გაცილებით მეტი მექანიზმია შემოთავაზებული მომხმარებლის ანგარიშის ინფორმაციაზე წვდომისთვის, ვიდრე მომხმარებლის პროფილის მონაცემებზე წვდომისთვის. პროფილის მონაცემები შეიძლება შეიქმნას და განახლდეს ავტომატური და არა აშკარა მექანიზმებით, მაშინ როცა მომხმარებლის ანგარიშის მონაცემები არა მხოლოდ მკაფიოდ არის მინიჭებული მომხმარებლის მიერ, არამედ ვალდებულია იყოს რედაქტირებადი სხვადასხვა იურისდიქციის რეგულაციების შესაბამისად.

მომხმარებელთა არჩევანი ქუქიების თანხმობაზე კონფიდენციალურობის პოლიტიკაში (თემა, რომელიც მიიპყრო მწვავე დებატები მას შემდეგ, რაც GDPR-მა გამოაქვეყნა ასობით ათასი ქუქი-ფაილების თანხმობის ამომხტარი ფანჯარა ევროკავშირის საერთაშორისო და ევროპული ვებსაიტების მაგალითებისთვის) ზოგადად გათვალისწინებულია პოლიტიკაში, მაგრამ მალავს ნაკლებად ხელმისაწვდომი მონაცემების უფრო მნიშვნელოვან ფენას*:

„ქუქი ფაილებთან დაკავშირებული არჩევანი არასაკმარისია მომხმარებლების ყველა თვალთვალისგან დასაცავად, რადგან არჩევანის ან კონტროლის მექანიზმები იშვიათად არის შემოთავაზებული კომპიუტერული ინფორმაცია, მოწყობილობის იდენტიფიკატორებიდა პირადი იდენტიფიკატორები, რომელიც საშუალებას აძლევს მომხმარებლებს თვალყური ადევნოთ თითის ანაბეჭდის საშუალებით.'

კონფიდენციალურობის პოლიტიკით მინიჭებული კონტროლის ხელმისაწვდომ დონეს მკვეთრი კონტრასტი აქვს პროფილის მონაცემებს (რომლებიც შეიძლება მიღებულ იქნეს ფარულად ან ფარულად) და მომხმარებლის ანგარიშის მონაცემებს შორის (სადაც კონტროლის გარკვეული ზომები ხშირად არის დადგენილი GDPR-ით, კალიფორნიის მომხმარებელთა კონფიდენციალურობის კანონით (CCPA). ) და მსგავსი ეროვნული და რეგიონული მექანიზმები).

თარიღი

კვლევის მონაცემების მოსაპოვებლად, ავტორმა დაათვალიერა ვებსაიტები მათი კონფიდენციალურობის პოლიტიკის ბმულების სანახავად, ხშირად საჭიროდ თვლიდა გაფართოვდეს საწყის შედეგს მიღმა, არაინტელექტუალური პოლიტიკის რაოდენობის გამო, რომელიც უკავშირდება შემდგომ პოლიტიკას (თითოეული რომელსაც აქვს პოტენციალი შეიცვალოს მშობელთან ან მასთან დაკავშირებულ პოლიტიკასთან ერთად ან დამოუკიდებლად).

ის Wayback Machine გამოიყენებოდა ისტორიული პოლიტიკის მოსაპოვებლად, თუმცა შედეგების განხილვისას აუცილებელი იყო პოლიტიკის გათვალისწინება, რომელიც დაბლოკილი იყო ცოცვის ან არქივისგან robots.txt კონფიგურაციის ფაილის მეშვეობით (მცირე ტექსტური ფაილი, რომელიც შეიცავს ინსტრუქციებს ვებ მცოცავი ინდექსირების აგენტებისთვის გვერდებზე და სხვა სუბიექტები, რომლებიც მათ არ უნდა შეიტანონ საჯარო ინდექსში).

თვეში ერთი სნეფშოტი მიღებულ იქნა Wayback Machine-დან მისი საშუალებით CDX API თითოეული იდენტიფიცირებადი და უწყვეტი მოქმედი პოლიტიკისთვის, გამოყენებით Firefox სელენის ქვეშ. ოპტიკური სიმბოლოების ამოცნობის შესრულება მხოლოდ PDF ფორმატში ხელმისაწვდომ პოლიტიკაზე არ იყო გათვალისწინებული პროექტისთვის, რომელიც შემოიფარგლებოდა ხელმისაწვდომი HTML პოლიტიკის (ბევრად მეტი) რაოდენობით.

პროექტის ერთ-ერთი საინტერესო შედეგია ის, რომ პორნოგრაფიული ვებსაიტების სიცხადე და წაკითხვადი ფაქტობრივად გაუმჯობესდა შესწავლილ ინტერვალში - შესაძლოა გაზრდილი რეგულირებისა და სიცხადეზე მზარდი მოწოდების მოლოდინში. ამ დოკუმენტების შეგროვების მიზნით, საჭირო იყო მათი მიღება დამატებითი კრეალებით საცხოვრებელი IP მისამართებიდან, უნივერსიტეტის კონტენტის დაბლოკვის პროტოკოლების გამო.

თავდაპირველად მოპოვებული იქნა 1,068,683 დოკუმენტი, რაც უდრის 120,265 უნიკალურ დოკუმენტს, რომელიც შეიცავს საშუალოდ 39.1 პოლიტიკის სტატიას ან პუნქტს და 4.4 უნიკალური პოლიტიკის ტექსტს თითოეული ბმულისთვის.

Მხოლოდ ინგლისური

როგორც ეს ჩვეულებრივ მსგავს ბოლო კვლევებშია, პროექტმა ვერ შეასრულა კონფიდენციალურობის არაინგლისური პოლიტიკა, რომელიც გაუქმდა მონაცემთა გაწმენდის ეტაპზე. PYCLD2 პაკეტი.

კონფიდენციალურობის პოლიტიკის სხვა სახის მასალისგან განსხვავების მიზნით, პროექტმა გამოიყენა კლასიფიკატორი განვითარებული 2019 ვისკონსინის უნივერსიტეტისა და ლოზანის პოლიტექნიკური სკოლის ერთობლივი ინიციატივით.

IS-POLICY კლასიფიკატორის არქიტექტურა. წყარო: https://arxiv.org/pdf/1809.08396.pdf

მიუხედავად იმისა, რომ IS-POLICY კლასიფიკატორი იყო მომზადებული იმავე 1,000-დოკუმენტიან კორპუსზე, როგორც საწყის ნაშრომში, ავტორს უნდა მიეღო ახალი არაპოლიტიკის დოკუმენტები ტრენინგისთვის, რადგან ორიგინალური წყაროები არ იყო ხელმისაწვდომი.

გაფილტვრის შემდეგ მონაცემები შემცირდა 56,416 უნიკალურ კონფიდენციალურობის პოლიტიკამდე.

* ქაღალდის ინლაინ ციტირება აქ გადაყვანილია ჰიპერბმულად, დახრილი გადართვა არის ქაღალდიდან.

პირველად გამოქვეყნდა 31 წლის 2022 იანვარს.

შემდეგი

მიმოხილვების გამოყენება სარეკომენდაციო სისტემის შესაქმნელად, რომელიც მუშაობს

არ გამოტოვოთ

ახალი სისტემა მიზნად ისახავს AI ენერგიის მოხმარების პრობლემის გადაჭრას

მარტინ ანდერსონი

მწერალი მანქანათმცოდნეობის, ხელოვნური ინტელექტისა და დიდი მონაცემების შესახებ.
პირადი საიტი: მარტინადერსონი.აი
კონტაქტი: [ელ.ფოსტით დაცულია]
Twitter: @manders_ai