부본 기계 학습을 통한 25년 간의 개인 정보 보호 정책 분석 - Unite.AI
Rescale 미팅 예약

인공 지능

기계 학습으로 25년 간의 개인 정보 보호 정책 분석

mm
업데이트 on

최근 연구에서는 기계 학습 분석 기술을 사용하여 50,000년부터 25년까지 1996년 동안 인기 웹사이트에 게시된 2021개 이상의 개인 정보 보호 정책에 대한 가독성, 유용성, 길이 및 복잡성을 차트로 표시했습니다. 이 연구에서는 일반 독자가 시간을 투자해야 한다고 결론지었습니다. 가장 자주 사용되는 일부 웹사이트의 현대 개인 정보 보호 정책을 특징으로 하는 단어 수 증가, 난해한 언어 및 모호한 언어 사용을 파악하기 위해 400시간의 '연간 읽기 시간'(하루 XNUMX시간 이상)이 필요합니다.

보고서 내용 :

'평균 정책 기간은 2159년 2011월 4191단어, 2021년 2000월 1146단어로 지난 XNUMX년 동안 거의 두 배가 되었으며 XNUMX년(XNUMX단어) 이후 거의 XNUMX배가 되었습니다.'

25년 동안 연구된 말뭉치의 평균 단어 수와 문장 수. 출처: https://arxiv.org/pdf/2201.08739.pdf

25년 동안 연구된 말뭉치의 평균 단어 수와 문장 수. 출처 : https://arxiv.org/pdf/2201.08739.pdf

GDPR과 CCPA(California Consumer Privacy Act) 보호가 발효되었을 때 기간 증가율이 급증했지만, 이 논문은 이러한 변화를 더 광범위한 장기적 추세에 비해 중요하지 않은 것으로 보이는 '작은 효과 크기'로 할인합니다. 그러나 GDPR은 정책에서 '모호한' 언어가 증가하는 가능한 원인으로 식별됩니다(아래 참조).

분당 250단어의 읽기 속도를 가정할 때, 이 논문은 현재 평균 개인 정보 보호 정책을 읽는 데 17분이 걸리는 반면 더 인기 있는 정책(예: 많은 사용자와 관련된 정책)을 완료하는 데 23분이 걸린다고 주장합니다.

연구에 따르면 Microsoft의 데이터 세트에서 가장 긴 정책은 소비하는 데 152분이 필요합니다. 변종 구글에서 BERT 언어 모델.

독자가 연간 1462개의 고유한 웹사이트를 방문한다고 가정할 때 최신 개인 정보 보호 정책을 읽는 데 필요한 연간 시간 증가율.

독자가 방문한다고 가정할 때 최신 개인 정보 보호 정책을 읽는 데 필요한 연간 시간 증가율 연간 1462개의 고유 웹사이트.

개인 정보 보호 정책의 장황함과 모호함의 최근 증가는 지난 XNUMX년 동안 규제를 부과하려는 시도에 대한 반응으로, 또한 규제 준수 요구 사항을 은밀하게 범위를 늘리고 개인 정보 보호 정책의 불투명성.

'전반적으로, 우리의 결과는 최근의 개인 정보 보호 규정이 온라인 사용자의 개인 정보를 실질적으로 개선하지 못했고 오히려 점점 더 침습적인 데이터 관행을 설명하는 더 부풀려진 개인 정보 보호 정책으로 이어졌음을 보여줍니다.'

최근 몇 년간 수많은 자연어 처리(NLP) 논문에서 개인 정보 보호 정책의 가독성 및 기타 측면을 다루었지만, 저자는 이것이 최근 수십 년 동안 정책 개발에 대한 광범위한 개요를 제공하는 해당 유형의 첫 번째 프로젝트라고 믿습니다.

XNUMXD덴탈의 종이 제목이 시대에 따른 개인정보 보호정책: 개인정보 보호정책의 내용 및 가독성 1996–2021, 영국 De Montfort University 사이버 기술 연구소의 Isabel Wagner에서 왔습니다.

타원형 언어

보고서는 또한 '난독화 단어'(예: 허용, 상당한, 주로, 기타 명확한 의미를 부여하지 않는 단어) 개인정보처리방침에서 2018년까지 꾸준히 증가하다가 227년 2018월경 중앙값 304건에서 2020년 XNUMX월 XNUMX건으로 급증했습니다.

저자는 이러한 증가가 GDPR의 영향에 기인한다고 주장하며 연구된 개인 정보 보호 정책 문장의 72/XNUMX 이상(XNUMX%)에 난독화 단어가 최소 하나 포함되어 있음을 발견했습니다.

가독성

읽기 어려움에 대한 세 가지 일반적인 측정에서 연구는 다음과 같은 사실을 발견했습니다. '개인 정보 보호 정책은 수년에 걸쳐 점점 더 읽기 어려워졌습니다.'. 저자는 41년에 현재 적용 가능한 정책의 2021%가 중앙값을 가지고 있다고 추정합니다. Flesch 읽기 용이성 (FRE, 높을수록 좋음) 31.8, 저자 관찰 '이 점수는 대학 졸업생이 가장 잘 이해하는 매우 어려운 텍스트를 나타냅니다.'.

동시에, 만 6.7% 의 정책이 45 이상의 FRE 점수를 달성했습니다(보고서에 따르면 플로리다 주의 보험 정책에 필요한 읽기 표준임).

정책 변경 인식

이 작업은 또한 사용자의 계약 유지 의지에 영향을 미칠 수 있는 후속 업데이트의 경우 잠재적인 동의자에게 궁극적으로 통지되는 방법에 대한 세부 정보를 포함하는 개인 정보 보호 정책의 범위를 다룹니다.

저자는 다음과 같이 관찰합니다.

'2021년에는 정책의 73%가 정책 변경에 대한 진술을 포함합니다. 이 중 34%는 개인정보취급방침의 공지사항을 통해 공지할 예정이며, 37%는 홈페이지 공지사항을 통해 공지할 예정이며, 22%는 개별 공지(나머지 정책은 공지 유형을 명시하지 않음)라고 답했습니다.

'결과적으로 대부분의 사용자는 개인 정보 보호 정책의 변경 사항을 인식하지 못할 것입니다.

또한 정책이 변경되면 사용자에게 의미 있는 선택이 거의 제공되지 않습니다. 사용자에게 변경 사항을 알리는 정책 중 12%만이 새로운 옵트인을 제공하는 반면 34%는 선택권을 주지 않고 54%는 지정되지 않은 상태로 둡니다.'

정책 변경에 대해 사용자에게 알리는 설명된 방법에 대한 논문의 결과입니다.

정책 변경에 대해 사용자에게 알리는 설명된 방법에 대한 논문의 결과입니다.

추적에 관한 제한된 선택

연구에 따르면 사용자 프로필 데이터에 액세스하는 것보다 사용자 계정 정보에 액세스하기 위한 훨씬 더 광범위한 메커니즘이 개인 정보 보호 정책에서 제공됩니다. 프로필 데이터는 자동화되고 명확하지 않은 메커니즘을 통해 생성 및 업데이트될 수 있는 반면, 사용자 계정 데이터는 사용자가 명시적으로 부여할 뿐만 아니라 다양한 관할권의 규정에 따라 편집할 수 있어야 합니다.

개인 정보 보호 정책에서 쿠키 동의에 대한 소비자 선택(매력적인 주제 격렬한 논쟁 GDPR의 출현 이후 국제 및 유럽 웹사이트의 EU 사례에 대해 수십만 개의 쿠키 동의 팝업이 공포됨)는 일반적으로 정책에서 다루어지지만 접근하기 어려운 데이터의 더 중요한 계층을 숨깁니다*:

'[The] 쿠키에 대한 선택은 선택 또는 제어 메커니즘이 거의 제공되지 않기 때문에 모든 추적으로부터 사용자를 보호하기에는 불충분합니다. 컴퓨터 정보, 장치 식별자개인 식별자지문을 통해 사용자를 추적할 수 있습니다.'

프로필 데이터(암시적 또는 은밀한 수단으로 얻을 수 있음)와 사용자 계정 데이터(GDPR, 캘리포니아 소비자 개인 정보 보호법(CCPA)에 의해 일부 제어 조치가 자주 요구되는 경우) 사이의 개인 정보 보호 정책에 의해 부여된 제어 수준의 극명한 대조 ), 유사한 국가 및 지역 메커니즘).

프로필 데이터(암시적 또는 은밀한 수단으로 얻을 수 있음)와 사용자 계정 데이터(GDPR, 캘리포니아 소비자 개인 정보 보호법(CCPA)에 의해 일부 제어 조치가 자주 요구되는 경우) 사이의 개인 정보 보호 정책에 의해 부여된 제어 수준의 극명한 대조 ), 유사한 국가 및 지역 메커니즘).

Data

연구 데이터를 얻기 위해 저자는 개인 정보 보호 정책에 대한 링크를 찾기 위해 웹 사이트를 크롤링했으며, 추가 정책으로 연결되는 비통합 정책의 수(각각의 모회사 또는 관련 정책과 함께 또는 독립적으로 변경될 가능성이 있음).

XNUMXD덴탈의 뒤로 기계 robots.txt 구성 파일(페이지 및 기타 정보에 대해 웹 크롤링 인덱싱 에이전트에 대한 지침이 포함된 작은 텍스트 파일)을 통해 크롤링 또는 보관이 차단된 정책을 설명하기 위해 결과를 고려할 때 필요했지만 기록 정책을 가져오는 데 사용되었습니다. 공개 색인에 포함하면 안 되는 항목).

한 달에 하나의 스냅샷은 Wayback Machine에서 획득했습니다. CDX API 식별 가능하고 지속적으로 적용 가능한 각 정책에 대해 다음을 사용합니다. 셀레늄 아래의 파이어폭스. PDF 형식으로만 제공되는 정책에 대해 광학 문자 인식을 수행하는 것은 프로젝트에서 고려되지 않았으며, 이는 사용 가능한 HTML 정책의 (훨씬 더 많은) 수로 제한되었습니다.

이 프로젝트의 흥미로운 결과 중 하나는 음란물 웹사이트의 선명도와 가독성이 연구 기간 동안 실제로 개선되었다는 것입니다. 아마도 규제와 명확성에 대한 요구가 증가할 것이라는 예상 때문일 것입니다. 이러한 문서를 수집하려면 대학의 콘텐츠 차단 프로토콜로 인해 거주지 IP 주소에서 추가 크롤링을 통해 문서를 가져와야 했습니다.

처음에 1,068,683개의 문서를 얻었고, 이는 평균 120,265개의 정책 조항 또는 조항을 포함하는 39.1개의 고유한 문서와 각 링크에 대해 4.4개의 고유한 정책 텍스트와 같습니다.

영어 만

유사한 최근 연구에서 흔히 볼 수 있듯이 이 프로젝트는 영어가 아닌 개인 정보 보호 정책을 처리할 수 없었습니다. PYCLD2 패키지.

개인 정보 보호 정책을 다른 유형의 자료와 구별하기 위해 프로젝트는 분류자를 사용했습니다. 2019에서 개발 됨 University of Wisconsin과 École Polytechnique Fédérale de Lausanne의 공동 이니셔티브로.

IS-POLICY 분류기의 아키텍처. 출처: https://arxiv.org/pdf/1809.08396.pdf

IS-POLICY 분류기의 아키텍처. 출처 : https://arxiv.org/pdf/1809.08396.pdf

IS-POLICY 분류기는 원본 논문과 동일한 1,000개 문서 코퍼스에서 훈련되었지만 원본 소스를 사용할 수 없었기 때문에 저자는 훈련을 위해 새로운 비정책 문서를 가져와야 했습니다.

필터링 후 데이터는 56,416개의 고유한 개인 정보 보호 정책으로 축소되었습니다.

 

* 논문의 인라인 인용은 여기에서 하이퍼링크로 변환되며 기울임꼴 토글은 논문에서 가져온 것입니다.

31년 2022월 XNUMX일에 처음 게시되었습니다.