인공지능

25년간의 개인정보 보호정책을 기계학습으로 분석하기

Published January 31, 2022

Updated April 28, 2026

Martin Anderson

최근 연구에서는 기계학습 분석 기술을 사용하여 1996년부터 2021년까지 25년 동안 인기 있는 웹사이트에서 50,000개 이상의 개인정보 보호정책의 가독성, 유용성, 길이 및 복잡성을 그래프화했습니다. 연구 결과에 따르면 평균 사용자는 현대의 일부 인기 웹사이트에서 개인정보 보호정책의 증가하는 단어 수, 모호한 언어 및 모호한 언어 사용을 이해하기 위해 매년 400시간의 ‘연간 읽기 시간'(하루에 1시간 이상)을 할애해야 합니다.

보고서에 따르면:

‘평균 정책 길이는 지난 10년 동안 거의 두 배로 증가했으며, 2011년 3월에는 2,159단어, 2021년 3월에는 4,191단어로, 2000년 이후 거의 4배 증가했습니다(1,146단어).’

연구에서 분석한 25년 동안의 평균 단어 수 및 문장 수. Source: https://arxiv.org/pdf/2201.08739.pdf

GDPR 및 캘리포니아 소비자 개인정보 보호법(CCPA) 보호가 시행된 후 길이 증가 속도가 급격히 증가했지만, 논문은 이러한 변동을 ‘작은 효과 크기’로 할인하며, 이는 더 넓은 장기적 추세에 비해 중요하지 않습니다. 그러나 GDPR는 정책에서 모호한 언어의 증가를 일으킬 수 있는 원인으로 식별됩니다.

250단어/분의 읽기 속도를 가정할 때, 논문은 평균 개인정보 보호정책이 현재 17분이 걸리며, 더 인기 있는 정책(즉, 많은 사용자와 관련된 정책)은 23분이 걸린다고 주장합니다.

데이터 세트에서 가장 긴 정책은 마이크로소프트에서 제공하며, 연구에 따르면 152분이 소요됩니다. 이 연구는 Google의 BERT 언어 모델의 여러 변형을 활용했습니다.

개인정보 보호정책을 읽기 위한 연간 시간의 증가, 1년에 1,462개의 고유한 웹사이트를 방문하는 것으로 가정합니다.

개인정보 보호정책의 최근 증가하는冗長性 및 모호성은 지난 20년 동안 규제를 강화하려는 시도에 대한 반응으로 논문에서 설명되며, 또한 규제 준수 요구사항을 개인정보 보호정책의 범위와 불투명성을 은밀하게 증가시키는 구실로 사용됩니다.

‘전반적으로, 우리의 결과는 최근의 개인정보 보호 규정들이 온라인 사용자의 개인정보를 크게 개선하지 못했지만, 오히려 더 많은 개인정보 보호정책이 더 침습적인 데이터 관행을 설명한다는 것을 보여줍니다.’

過去 몇 년 동안 여러 자연어 처리(NLP) 논문이 개인정보 보호정책의 가독성 및 기타 측면을 다루었지만, 저자는 이 프로젝트가 최근 몇 десяти년 동안 정책 개발에 대한如此 광범위한 개요를 제공하는 첫 번째 프로젝트라고 믿습니다.

논문은 논문이 1996-2021년 개인정보 보호정책: 내용 및 가독성으로 제목이 붙여졌으며, 영국 데 몬트포드 대학교의 사이버 기술 연구소(Isabel Wagner)의 연구입니다.

타원형 언어

보고서에 따르면, 개인정보 보호정책에서 ‘모호한 단어'(즉, 적합한, 중요한, 주로 및 다른 명확한 의미를 제공하지 않는 단어)의 평균 수가 2018년까지 꾸준히 증가했지만, 2018년 3월에는 227개, 2020년 6월에는 304개로 급격히 증가했습니다.

저자는 이 증가가 GDPR의 영향에 기인한다고 주장하며, 논문은 연구된 개인정보 보호정책의 72% 이상의 문장이 최소 한 개의 모호한 단어가 포함되어 있다고 발견했습니다.

가독성

가독성의 세 가지 일반적인 측정 항목을 통해, 연구는 개인정보 보호정책이 시간이 지남에 따라 점점 더 어려워졌다는 것을 발견했습니다. 저자는 현재 적용되는 정책의 41%가 2021년에 중위 Flesch 가독성 점수(FRE, 높은 점수가 좋음)를 31.8로 가지고 있다고 추정하며, 저자는 이 점수는 대학 졸업생이 이해하기에 매우 어려운 텍스트를 나타낸다고 관찰합니다.

동시에, 정책의 6.7%만이 45 이상의 FRE 점수를 달성했으며, 보고서는 플로리다 주에서 보험 정책에 필요한 읽기 표준이라고 언급합니다.

정책 변경 알림

이 연구는 또한 사용자가 정책 변경에 대한 세부 정보를 포함하는 개인정보 보호정책의 범위에 대해 다룹니다. 사용자가 동의를 유지할 의향이 있는지에 영향을 미치는 경우에 대한 알림.
저자는 다음과 같이 관찰합니다:

‘2021년에, 정책의 73%는 정책 변경에 대한 진술을 포함합니다. 이 중 34%는 개인정보 보호정책에 공지가 게시될 것이라고 말하고, 37%는 웹사이트에 공지가 게시될 것이라고 말하며, 22%는 개인 공지가 보낼 것이라고 말합니다(나머지 정책은 알림 유형을 지정하지 않습니다).’

‘결과적으로, 대부분의 사용자는 개인정보 보호정책의 변경에 대해 알지 못할 것입니다. ‘

‘또한, 정책이 변경될 때 사용자는 거의 의미 있는 선택을 제공받지 못합니다. 사용자에게 변경에 대한 알림을 제공하는 정책 중 12%만 새로운 동의를 제공하며, 34%는 선택을 제공하지 않으며, 54%는 지정하지 않습니다.’

사용자에게 정책 변경에 대한 알림 방법에 대한 논문의 발견.

추적에 대한 제한된 선택

연구에 따르면, 개인정보 보호정책에서 사용자 프로필 데이터에 대한 접근을 위한 메커니즘은 사용자 계정 정보에 대한 접근을 위한 메커니즘보다 훨씬 더 다양합니다. 프로필 데이터는 자동화된 메커니즘을 통해 생성 및 업데이트될 수 있으며, 사용자 계정 데이터는 사용자에게 명시적으로 제공되며, 다양한 관할권의 규정에 따라 편집해야 합니다.

개인정보 보호정책에서 쿠키 동의에 대한 소비자 선택(이 주제는 GDPR가 시행된 이후 국제 및 유럽 웹사이트의 EU 인스턴스에서 수백만 개의 쿠키 동의 팝업이 나타난 이후로 뜨거운 논쟁을 불러일으켰음)은 일반적으로 다루어지지만, 덜 접근 가능한 데이터의 더 중요한 계층을 숨깁니다:

‘[쿠키에 대한] 선택은 컴퓨터 정보, 장치 식별자 및 개인 식별자로 사용자를 추적할 수 있는 지문과 같은 모든 추적에서 사용자를 보호하기에 충분하지 않습니다.’

개인정보 보호정책에서 사용자 계정 데이터와 프로필 데이터에 대한 제어 수준의鲜明한 대조.

데이터

연구를 위한 데이터를 얻기 위해, 저자는 웹사이트를 크롤링하여 개인정보 보호정책에 대한 링크를 찾고, 종종 초기 결과를 넘어서서 정책을 찾는 것이 필요했습니다. 각 정책은 부모 또는 관련 정책과 독립적으로 변경될 수 있기 때문에 추가 정책으로 연결되는 많은 비본질적인 정책이 있었습니다.

Wayback Machine은 역사적인 정책을 얻기 위해 사용되었지만, 결과를 고려할 때 robots.txt 구성 파일을 통해 크롤링 또는 아카이빙에서 차단된 정책을 고려해야 했습니다(웹 크롤링 색인 에이전트에 대한 지침을 포함하는 작은 텍스트 파일).

월별 스냅샷 하나는 각 식별 가능하고 연속적인 적용 가능한 정책에 대해 Wayback Machine의 CDX API를 사용하여 얻었습니다. Firefox under Selenium을 사용했습니다. PDF 형식으로만 제공되는 정책에 대한 광학 문자 인식을 수행하는 것은 프로젝트에서 고려되지 않았으며, 더 많은 HTML 정책이 사용되었습니다.

이 프로젝트에서 흥미로운 결과 중 하나는 성인 웹사이트의 명확성 및 가독성이 실제로 연구된 간격 동안 개선되었다는 것입니다. 이는 규제 및 명확성의 증가에 대한 요구가 증가할 것으로 예상되기 때문일 수 있습니다. 이러한 문서를 수집하기 위해, 추가 크롤링을 통해 住居 IP 주소에서 얻는 것이 필요했습니다. 대학의 콘텐츠 차단 프로토콜 때문에.

초기에는 1,068,683개의 문서가 얻어졌으며, 이는 120,265개의 고유한 문서로 평균 39.1개의 정책 조항 또는 조건 및 각 링크당 4.4개의 고유한 정책 텍스트를 포함했습니다.