ต้นขั้ว การวิเคราะห์นโยบายความเป็นส่วนตัวตลอด 25 ปีด้วยการเรียนรู้ของเครื่อง - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

การวิเคราะห์นโยบายความเป็นส่วนตัวตลอด 25 ปีด้วยการเรียนรู้ของเครื่อง

mm
วันที่อัพเดท on

การศึกษาล่าสุดได้ใช้เทคนิคการวิเคราะห์การเรียนรู้ของเครื่องเพื่อจัดทำแผนภูมิความสามารถในการอ่าน ความมีประโยชน์ ความยาว และความซับซ้อนของนโยบายความเป็นส่วนตัวมากกว่า 50,000 นโยบายบนเว็บไซต์ยอดนิยมในช่วงเวลาครอบคลุม 25 ปี ตั้งแต่ปี 1996 ถึง 2021 ผลการวิจัยสรุปว่าผู้อ่านโดยเฉลี่ยจะต้องอุทิศเวลา 'เวลาอ่านต่อปี' 400 ชั่วโมง (มากกว่าหนึ่งชั่วโมงต่อวัน) เพื่อเจาะลึกจำนวนคำที่เพิ่มขึ้น ภาษาที่สับสน และการใช้ภาษาที่คลุมเครือ ซึ่งเป็นลักษณะเฉพาะของนโยบายความเป็นส่วนตัวสมัยใหม่ของเว็บไซต์บางแห่งที่มีผู้เข้าชมบ่อยที่สุด

รายงานระบุว่า:

'ระยะเวลาเฉลี่ยของนโยบายเพิ่มขึ้นเกือบสองเท่าในช่วงสิบปีที่ผ่านมา โดยมี 2159 คำในเดือนมีนาคม 2011 และ 4191 คำในเดือนมีนาคม 2021 และเพิ่มขึ้นเกือบสี่เท่าตั้งแต่ปี 2000 (1146 คำ)'

ค่าเฉลี่ยจำนวนคำและจำนวนประโยคในคลังข้อมูลที่ศึกษาในช่วงระยะเวลา 25 ปี ที่มา: https://arxiv.org/pdf/2201.08739.pdf

ค่าเฉลี่ยจำนวนคำและจำนวนประโยคในคลังข้อมูลที่ศึกษาในช่วงระยะเวลา 25 ปี ที่มา: https://arxiv.org/pdf/2201.08739.pdf

แม้ว่าอัตราความยาวที่เพิ่มขึ้นจะพุ่งสูงขึ้นเมื่อ GDPR และกฎหมายคุ้มครองความเป็นส่วนตัวของผู้บริโภคในแคลิฟอร์เนีย (CCPA) มีผลบังคับใช้ กระดาษจะลดราคารูปแบบเหล่านี้เป็น "ขนาดเอฟเฟกต์เล็ก" ซึ่งดูเหมือนจะไม่มีนัยสำคัญเมื่อเทียบกับแนวโน้มระยะยาวที่กว้างขึ้น อย่างไรก็ตาม GDPR ถูกระบุว่าเป็นสาเหตุที่เป็นไปได้ของภาษาที่ 'คลุมเครือ' เพิ่มมากขึ้นในนโยบาย (ดูด้านล่าง)

สมมติว่าความเร็วในการอ่าน 250 คำต่อนาที เอกสารระบุว่านโยบายความเป็นส่วนตัวโดยเฉลี่ยใช้เวลาอ่าน 17 นาที ในขณะที่นโยบายที่ได้รับความนิยมมากกว่า (เช่น นโยบายที่เกี่ยวข้องกับผู้ใช้จำนวนมาก) ใช้เวลาอ่าน 23 นาที

นโยบายที่ยาวที่สุดในชุดข้อมูลจาก Microsoft ต้องใช้เวลา 152 นาทีในการบริโภค ตามการวิจัยซึ่งใช้ประโยชน์จากจำนวน สายพันธุ์ ใน Google แบบจำลองภาษา BERT.

การเติบโตของอัตราชั่วโมงต่อปีที่จำเป็นในการอ่านนโยบายความเป็นส่วนตัวสมัยใหม่ สมมติว่าผู้อ่านเยี่ยมชมเว็บไซต์ที่ไม่ซ้ำกัน 1462 แห่งต่อปี

การเติบโตในอัตราชั่วโมงต่อปีที่จำเป็นในการอ่านนโยบายส่วนบุคคลสมัยใหม่ โดยสมมติว่าผู้อ่านเข้ามาเยี่ยมชม 1462 เว็บไซต์ที่ไม่ซ้ำกันต่อปี.

การใช้คำฟุ่มเฟือยและความกำกวมในนโยบายความเป็นส่วนตัวที่เพิ่มขึ้นส่วนใหญ่เป็นผลมาจากการตอบสนองต่อความพยายามในช่วงสองทศวรรษที่ผ่านมาในการกำหนดกฎระเบียบ แต่ยังรวมถึงการใช้ข้อกำหนดการปฏิบัติตามกฎระเบียบอย่างไม่เหมาะสมเป็นข้ออ้างในการเพิ่มขอบเขตอย่างลับ ๆ และ ความทึบของนโยบายความเป็นส่วนตัว

'โดยรวมแล้ว ผลลัพธ์ของเราแสดงให้เห็นว่ากฎระเบียบด้านความเป็นส่วนตัวล่าสุดไม่ได้ปรับปรุงความเป็นส่วนตัวของผู้ใช้ทางออนไลน์มากนัก แต่นำไปสู่นโยบายความเป็นส่วนตัวที่ขยายขอบเขตมากขึ้นซึ่งอธิบายแนวทางปฏิบัติเกี่ยวกับข้อมูลที่ล่วงล้ำมากขึ้นเรื่อยๆ'

แม้ว่าเอกสารการประมวลผลภาษาธรรมชาติ (NLP) จำนวนหนึ่งได้กล่าวถึงความสามารถในการอ่านและแง่มุมอื่นๆ ของนโยบายความเป็นส่วนตัวในช่วงไม่กี่ปีที่ผ่านมา ผู้เขียนเชื่อว่านี่เป็นโครงการแรกของประเภทที่ให้ภาพรวมกว้างๆ ของการพัฒนานโยบายในทศวรรษที่ผ่านมา

พื้นที่ กระดาษ มีบรรดาศักดิ์ นโยบายความเป็นส่วนตัวในยุคต่างๆ: เนื้อหาและการอ่านนโยบายความเป็นส่วนตัวปี 1996–2021และมาจาก Isabel Wagner จาก Cyber ​​Technology Institute of De Montfort University ในสหราชอาณาจักร

ภาษาวงรี

รายงานยังชี้ให้เห็นว่าจำนวนเฉลี่ยของ 'คำที่ทำให้สับสน' (เช่น ยอมรับได้, สำคัญ, ส่วนใหญ่และคำอื่นๆ ที่ไม่ได้ให้ความหมายที่ชัดเจน) ในนโยบายความเป็นส่วนตัวเพิ่มขึ้นอย่างต่อเนื่องจนถึงปี 2018 แต่จากนั้นก็พุ่งขึ้นจากค่ามัธยฐานที่ 227 ในช่วงเดือนมีนาคม 2018 เป็น 304 ในเดือนมิถุนายน 2020

ผู้เขียนเชื่อว่าการเพิ่มขึ้นนี้เป็นผลมาจากผลกระทบของ GDPR และรายงานพบว่ามากกว่าสองในสาม (72%) ของประโยคในนโยบายความเป็นส่วนตัวที่ศึกษามีคำที่ทำให้สับสนอย่างน้อยหนึ่งคำ

การอ่าน

จากการวัดความยากในการอ่านทั่วไปสามแบบ การศึกษาพบว่า 'นโยบายความเป็นส่วนตัวเริ่มอ่านยากขึ้นเรื่อย ๆ ในช่วงหลายปีที่ผ่านมา'. ผู้เขียนประเมินว่า 41% ของนโยบายที่บังคับใช้ในปัจจุบันซึ่งมีอยู่ในปี 2021 มีค่ามัธยฐาน Flesch อ่านง่าย (FRE ยิ่งสูงยิ่งดี) เพียง 31.8 โดยที่ผู้เขียนสังเกต 'คะแนนนี้บ่งชี้ถึงข้อความที่ยากมากซึ่งผู้สำเร็จการศึกษาระดับมหาวิทยาลัยเข้าใจได้ดีที่สุด'.

ในเวลาเดียวกันเท่านั้น 6.7% ของนโยบายได้รับคะแนน FRE สูงกว่า 45 (ซึ่งบันทึกรายงานเป็นมาตรฐานการอ่านที่จำเป็นสำหรับกรมธรรม์ประกันภัยในรัฐฟลอริดา)

ความตระหนักในการเปลี่ยนแปลงนโยบาย

งานนี้ยังระบุถึงขอบเขตที่นโยบายความเป็นส่วนตัวรวมถึงรายละเอียดเกี่ยวกับวิธีที่ผู้ยินยอมอาจได้รับแจ้งในที่สุดในกรณีที่มีการอัปเดตในภายหลัง ซึ่งอาจส่งผลต่อความตั้งใจของผู้ใช้ในการรักษาข้อตกลง

ผู้เขียนสังเกต:

'ในปี 2021 73% ของนโยบายมีข้อความเกี่ยวกับการเปลี่ยนแปลงนโยบาย ในจำนวนนี้ 34% ระบุว่าการเปลี่ยนแปลงจะมีการประกาศในนโยบายความเป็นส่วนตัว 37% จะโพสต์ประกาศบนเว็บไซต์ และ 22% จะส่งประกาศส่วนตัว (นโยบายที่เหลือไม่ได้ระบุประเภทการแจ้งเตือน)

'ด้วยเหตุนี้ ผู้ใช้ส่วนใหญ่จึงไม่น่าจะรับรู้ถึงการเปลี่ยนแปลงในนโยบายความเป็นส่วนตัว

'นอกจากนี้ ผู้ใช้แทบจะไม่มีทางเลือกที่มีความหมายเลยเมื่อนโยบายมีการเปลี่ยนแปลง จากนโยบายที่แจ้งให้ผู้ใช้ทราบถึงการเปลี่ยนแปลง มีเพียง 12% เท่านั้นที่เสนอทางเลือกใหม่ ในขณะที่ 34% ไม่มีทางเลือก และ 54% ปล่อยให้ไม่ระบุ'

การค้นพบของเอกสารเกี่ยวกับวิธีการที่อธิบายไว้สำหรับการแจ้งผู้ใช้เกี่ยวกับการเปลี่ยนแปลงนโยบาย

การค้นพบของเอกสารเกี่ยวกับวิธีการที่อธิบายไว้สำหรับการแจ้งผู้ใช้เกี่ยวกับการเปลี่ยนแปลงนโยบาย

ทางเลือกที่จำกัดเกี่ยวกับการติดตาม

จากการศึกษาพบว่านโยบายความเป็นส่วนตัวมีการนำเสนอกลไกที่หลากหลายมากขึ้นสำหรับการเข้าถึงข้อมูลบัญชีผู้ใช้มากกว่าการเข้าถึงข้อมูลโปรไฟล์ผู้ใช้ ข้อมูลโปรไฟล์สามารถสร้างและอัปเดตผ่านกลไกอัตโนมัติที่ไม่ชัดเจน ในขณะที่ข้อมูลบัญชีผู้ใช้นั้นไม่เพียงแต่ได้รับอนุญาตจากผู้ใช้อย่างชัดแจ้งเท่านั้น แต่ยังจำเป็นต้องแก้ไขได้ภายใต้ข้อบังคับของเขตอำนาจศาลต่างๆ

ทางเลือกของผู้บริโภคเหนือความยินยอมคุกกี้ในนโยบายความเป็นส่วนตัว (หัวข้อที่ดึงดูด การถกเถียงกันอย่างดุเดือด เนื่องจากการกำเนิดของ GDPR ทำให้มีป๊อปอัปความยินยอมคุกกี้หลายแสนรายการสำหรับอินสแตนซ์ของเว็บไซต์ต่างประเทศและยุโรปในสหภาพยุโรป) โดยทั่วไปมีการระบุไว้ในนโยบาย แต่ซ่อนชั้นข้อมูลที่เข้าถึงได้น้อยกว่าที่สำคัญกว่า*:

'[The] ตัวเลือกเกี่ยวกับคุกกี้ไม่เพียงพอที่จะปกป้องผู้ใช้จากการติดตามทั้งหมด เนื่องจากตัวเลือกหรือกลไกการควบคุมไม่ค่อยมีให้ ข้อมูลคอมพิวเตอร์, ตัวระบุอุปกรณ์และ ตัวระบุส่วนบุคคลซึ่งอนุญาตให้ติดตามผู้ใช้ผ่านลายนิ้วมือ'

ความแตกต่างอย่างสิ้นเชิงในระดับการควบคุมที่มีอยู่ซึ่งได้รับจากนโยบายความเป็นส่วนตัวระหว่างข้อมูลโปรไฟล์ (ซึ่งอาจได้มาโดยนัยหรือวิธีการแอบแฝง) และข้อมูลบัญชีผู้ใช้ (ซึ่งมาตรการควบคุมบางอย่างมักได้รับคำสั่งจาก GDPR, California Consumer Privacy Act (CCPA) ) และกลไกระดับชาติและระดับภูมิภาคที่คล้ายคลึงกัน)

ความแตกต่างอย่างสิ้นเชิงในระดับการควบคุมที่มีอยู่ซึ่งได้รับจากนโยบายความเป็นส่วนตัวระหว่างข้อมูลโปรไฟล์ (ซึ่งอาจได้มาโดยนัยหรือวิธีการแอบแฝง) และข้อมูลบัญชีผู้ใช้ (ซึ่งมาตรการควบคุมบางอย่างมักได้รับคำสั่งจาก GDPR, California Consumer Privacy Act (CCPA) ) และกลไกระดับชาติและระดับภูมิภาคที่คล้ายคลึงกัน)

ข้อมูล

ในการรับข้อมูลสำหรับการศึกษา ผู้เขียนรวบรวมข้อมูลจากเว็บไซต์เพื่อหาลิงก์ไปยังนโยบายความเป็นส่วนตัวของตน และบ่อยครั้งพบว่าจำเป็นต้องขยายขอบเขตให้กว้างขึ้นนอกเหนือจากผลลัพธ์เริ่มต้น เนื่องจากจำนวนของนโยบายที่ไม่ใช่ส่วนรวมที่เชื่อมโยงไปยังนโยบายเพิ่มเติม (แต่ละนโยบาย ซึ่งมีศักยภาพในการเปลี่ยนแปลงทั้งแบบควบคู่หรือเป็นอิสระจากผู้ปกครองหรือนโยบายที่เกี่ยวข้อง)

พื้นที่ เครื่องบิน ถูกใช้เพื่อรับนโยบายที่ผ่านมา แม้ว่าจำเป็นเมื่อพิจารณาผลลัพธ์เพื่อพิจารณานโยบายที่ถูกบล็อกไม่ให้รวบรวมข้อมูลหรือเก็บถาวรผ่านไฟล์การกำหนดค่า robots.txt (ไฟล์ข้อความขนาดเล็กที่มีคำแนะนำไปยังตัวแทนจัดทำดัชนีการรวบรวมข้อมูลเว็บเกี่ยวกับหน้าเว็บและอื่นๆ หน่วยงานที่ไม่ควรรวมอยู่ในดัชนีสาธารณะ)

ได้สแนปช็อตหนึ่งภาพต่อเดือนจาก Wayback Machine โดยมัน CDX API สำหรับแต่ละนโยบายที่สามารถระบุได้และต่อเนื่องโดยใช้ Firefox ภายใต้ซีลีเนียม. การดำเนินการรู้จำอักขระด้วยแสงบนนโยบายที่มีเฉพาะในรูปแบบ PDF ไม่ได้รับการพิจารณาสำหรับโครงการ ซึ่งจำกัดตัวเองตามจำนวน (ที่มากกว่า) ของนโยบาย HTML ที่ใช้ได้

ผลลัพธ์ที่น่าสนใจประการหนึ่งจากโครงการนี้คือความชัดเจนและความสามารถในการอ่านของเว็บไซต์ลามกอนาจารได้รับการปรับปรุงให้ดีขึ้นจริง ๆ ในช่วงเวลาที่ทำการศึกษา – อาจเป็นไปได้ว่าจะมีการเรียกร้องมากขึ้นสำหรับการควบคุมและความชัดเจนที่เพิ่มขึ้น เพื่อรวบรวมเอกสารเหล่านี้ จำเป็นต้องมีการรวบรวมข้อมูลเพิ่มเติมจากที่อยู่ IP ที่อยู่อาศัย เนื่องจากโปรโตคอลการบล็อกเนื้อหาของมหาวิทยาลัย

เริ่มแรกได้รับเอกสาร 1,068,683 ฉบับ เท่ากับ 120,265 เอกสารที่ไม่ซ้ำกันซึ่งมีบทความนโยบายหรืออนุประโยคโดยเฉลี่ย 39.1 รายการ และข้อความนโยบายที่ไม่ซ้ำกัน 4.4 รายการสำหรับแต่ละลิงก์

ภาษาอังกฤษเท่านั้น

ตามปกติในการศึกษาเมื่อเร็วๆ นี้ที่คล้ายคลึงกัน โครงการไม่สามารถระบุนโยบายความเป็นส่วนตัวที่ไม่ใช่ภาษาอังกฤษ ซึ่งถูกยกเลิกในระหว่างขั้นตอนการล้างข้อมูลโดยใช้ PYCLD2 บรรจุภัณฑ์

เพื่อแยกความแตกต่างของนโยบายความเป็นส่วนตัวจากเนื้อหาประเภทอื่น โครงการใช้ตัวแยกประเภท พัฒนาใน 2019 เป็นความคิดริเริ่มร่วมกันจากมหาวิทยาลัยวิสคอนซินและÉcole Polytechnique Fédérale de Lausanne

สถาปัตยกรรมของตัวจำแนกประเภท IS-POLICY ที่มา: https://arxiv.org/pdf/1809.08396.pdf

สถาปัตยกรรมของตัวจำแนกประเภท IS-POLICY ที่มา: https://arxiv.org/pdf/1809.08396.pdf

แม้ว่าตัวแยกประเภท IS-POLICY จะได้รับการฝึกอบรมในคลังเอกสาร 1,000 ฉบับเช่นเดียวกับในเอกสารต้นทาง ผู้เขียนต้องได้รับเอกสารใหม่ที่ไม่ใช่นโยบายสำหรับการฝึกอบรม เนื่องจากไม่มีแหล่งข้อมูลต้นฉบับ

หลังจากการกรอง ข้อมูลจะลดลงเหลือ 56,416 นโยบายความเป็นส่วนตัวที่ไม่ซ้ำกัน

 

* การอ้างอิงในบรรทัดของกระดาษจะถูกแปลงเป็นไฮเปอร์ลิงก์ที่นี่ การสลับตัวเอียงมาจากกระดาษ

เผยแพร่ครั้งแรก 31 มกราคม 2022