인공지능

AI 연구자들, EU 웹사이트의 97%가 GDPR 개인 정보 보호 요구 사항에 실패 – 특히 사용자 프로파일링

Published November 26, 2021

Updated April 28, 2026

Martin Anderson

미국의 연구자들은 기계 학습 기술을 사용하여 EU 기반의 1,000개 이상의 대표적인 웹사이트의 GDPR 개인 정보 보호 정책을 연구했다. 그들은 조사된 사이트 중 97%가 EU의 2018년 규제 프레임워크의 최소한 하나의 요구 사항을 준수하지 않는다는 것을 발견했으며, 사용자 프로파일링을 중심으로 하는 규제 요구 사항을 가장 적게 준수한다는 것을 발견했다.

연구 논문은 다음과 같이 말한다:

‘개인 정보 보호 정책은 사용자가 자신의 개인 정보를 이해하고 통제하는 데 필요한 통신 채널이기 때문에 많은 회사들이 GDPR가 시행된 후에 개인 정보 보호 정책을 업데이트했다. 그러나 대부분의 개인 정보 보호 정책은冗長하고, 전문 용어가 많고, 회사들의 데이터 관행과 사용자 권리를 모호하게 설명한다. 따라서 GDPR를 준수하는지 여부가 불분명하다.’

그것은 계속한다:

‘我们的 결과는 GDPR가 시행된 후에도 97%의 웹사이트가 여전히 GDPR의 최소한 하나의 요구 사항을 준수하지 않는다는 것을 보여준다.’

연구는 Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning이라는 제목을 가지고 있으며, 버지니아 대학교 샬럿츠빌의 세 명의 연구자에 의해 수행되었다.

개인 정보 보호 마지막

연구에 따르면, 가장 준수도가 낮은 분야는 GDPR의 지정에 관한 사용자 프로파일링으로, 저자들은 이 특정 규칙에 대한 완전한 준수율이 15.3%에 불과하다고 밝혔다.

연구를 위해 조사된 웹사이트의 GDPR 정책 준수 그래프. 출처: https://arxiv.org/pdf/2111.04224.pdf

사용자 프로파일링(사용자의 웹사이트 상호 작용을 기록하고 종종 다른 온라인 컨텍스트에서 사용자에게 ‘타겟’을 설정하는 것)은 캠브리지 애널리티카 스캔들 이후 기술 분야에서 가장 논란이 많은 문제 중 하나가 되었다.

화요일, 유럽 의회 의 한 주요 위원회는 첫 번째 단계를 통과했다. 새로운 디지털 시장 법률(DMA) 법안은, 소아를 대상으로 하는 행동 타겟팅을 금지하며, 위반 회사에 대해 최대 20%의 전세계 연간 매출액의 벌금을 부과한다.

법안은 페이스북과 구글 같은 기술 거대 기업의 영향력이 증가하는 것에 대한 직접적인 반응으로 받아들여지고 있지만, 새로운 연구가 나타낸 비준수율의 엄청난 규모는 대부분의 EU 회사(유럽에 영업하는 미국 회사 포함)가 GDPR 벌금에 법적으로 노출되어 있음을 시사한다.

또한, 이탈리아는 이번 주에 애플과 구글에 대해 사용자 프로파일링을 포함한 다른 위반 사항으로 최대 10억 유로(11억 2,000만 달러)의 벌금을 부과했다.

데이터

새로운 연구에서 조사된 웹사이트는 Quantcast의 상위 10,000개 웹사이트에서 샘플링되었으며, 그들의 영어 개인 정보 보호 정책은 Yandex 검색을 통해 영국 기반 VPN을 통해 추출되었다.

EU 웹사이트는 2018년 5월에 시행된 일반 데이터 보호 규정(GDPR) 법률에 따라 18개의 중심 요구 사항을 다루는 규정된 개인 정보 보호 정책을 제공해야 한다.

연구자들은 2018년 8월 이후의 기간으로 개인 정보 보호 정책 추출을 제한했으며, 도메인이 필요한 정책을 게시할 수 있는 합리적인 시간을 허용했다(그들은 GDPR 개발 단계의 최소 1년 동안 미리 알 수 있었다).

필터링 과정은 9,761개의 정책을 포함하는 개인 정보 보호 корпус를 생성했으며, 연구자들은 1,080개의 정책을 무작위로 선택했다.

전처리

팀은 두 명의 법률 전문가를 고용하여 18개의 가능한 개인 정보 보호 정책을 레이블링하기 위해 네 명의 인간 어노테이터를 훈련시켰다.

일부 정책은 18개의 요구 사항 중 하나 이상을 다루고 있었기 때문에, 각 정책과 관련된 언어 특징을 감지하기 위해 Convolutional Neural Network(CNN)를 사용해야 했다.

언어를 기반으로 준수를 식별하는 모델을 훈련하는 초기 시도는 80.5%의 성공을 달성했다. 결과를 개선하기 위해 연구자들은 모델의 성능을 향상시키기 위해 적은 레이블된 데이터를 사용하여 Active Learning을 적용했다. 이러한 수단을 통해 분류기 CNN을 89.2%의 정확도로 훈련할 수 있었으며, F1 점수는 0.88(완전한 성공을 나타내는 ‘1’)이었다.

개인 정보 보호 정책에 특화된 단어 임베딩을 보장하기 위해 연구자들은 페이스북의 FastText 파이썬 라이브러리를 사용하여 무감독 단어 임베딩 모델을 훈련시켰다.

표준 관행에 따라 최종 데이터는 훈련 데이터와 테스트 데이터(즉, 알고리즘의 정확성을 평가하기 위한 무작위로 선택된 데이터)로 80/20으로 분할되었다. 결과의 품질을 평가하기 위해 아키텍처에 인간-인-루프 측정 연구가 추가되었다.

분류기 시스템의 아키텍처.

워크플로우 과정에서 11,271개의 인간-어노테이션된 개인 정보 보호 정책 세그먼트가 생성되었으며, 각 세그먼트는 두 명의 법률 전문가가 훈련시킨 네 명의 인간 어노테이터에 의해 검토되었다. 동의가 필요할 때는 75%의 동의 비율이 필요했다.

인간-인-루프 – 정책 데이터의 레이블링을 완전히 자동화하는 것은 불가능했지만, Active Learning은 프로젝트를 실행 가능한 풀-기반 워크플로우를 가능하게 했다.

이미 언급된 결과 외에도, 사용자들은 이동성(회사에서 보유한 데이터를 전송하거나 내보내기 위한 GDPR下的 권리)을 거의 프로파일링만큼 나쁘게 제공한다는 것을 발견했다.

연구자들은 다음과 같이 결론을 내린다:

‘사용자의 이송권, 데이터 보호 책임자(DPO) 연락처 정보 제공 등과 같은 요구 사항은 각각 15.5%, 16.4%의 웹사이트에서 다루어지고 있다. 사용자의 불만 제기, 동의 철회, 이의 제기, 적정성 결정 등과 같은 다른 주요 요구 사항은 17-20%의 웹사이트에서 다루어지고 있다.’

…그리고 계속한다:

‘3%의 웹사이트만이 18개의 요구 사항을 모두 준수한다는 것으로 나타났다. 이러한 결과는 많은 웹사이트가 여전히 GDPR의 요구 사항을 준수하지 않는다는 것을 나타낸다.’

7pm 26/11/2021 – 첫 번째 그래프 캡션을 명확히 함. – MA