人工知能

AI 研究者は、EU のウェブサイトの 97% が GDPR のプライバシー要件に違反していることを推定 – 特にユーザープロファイリング

Published November 26, 2021

Updated April 28, 2026

Martin Anderson

米国の研究者は、機械学習技術を使用して、EU に基づく 1,000 を超える代表的なウェブサイトの GDPR プライバシーポリシーを調査しました。研究者は、調査対象のサイトの 97% が、少なくとも 1 つの GDPR の要件に準拠していないことを発見し、特にユーザープロファイリングの実践に関する規制要件に準拠していないことを発見しました。

本論文には以下の記載があります：

‘[GDPR が施行されたため] プライバシーポリシーは、ユーザーがプライバシーを理解および制御するための基本的なコミュニケーションチャネルであるため、多くの企業は GDPR が施行された後にプライバシーポリシーを更新しました。ただし、ほとんどのプライバシーポリシーは冗長で、専門用語が多く、企業のデータ処理とユーザーの権利について漠然と記載されているため、GDPR に準拠しているかどうかは不明です。’

さらに以下の記載があります：

‘私たちの結果は、GDPR が施行された後でも、ウェブサイトの 97% がまだ GDPR の少なくとも 1 つの要件に準拠していないことを示しています。’

研究は、Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning というタイトルで、バージニア大学チャールズビル校の 3 人の研究者によって行われました。

プライバシーラスト

研究によると、GDPR のユーザープロファイリングに関する規定に準拠していないウェブサイトが最も多く、著者は、この特定のルールに完全に準拠しているサイトは 15.3% であると述べています。

研究のために調査されたウェブサイトの GDPR ポリシーに関するグラフ。 ソース: https://arxiv.org/pdf/2111.04224.pdf

ユーザープロファイリング (ウェブサイトとのユーザーのやり取りを記録し、他のオンラインコンテキストでターゲットとすることが多い) は、ケンブリッジ・アナリティカのスキャンダル以来、テクノロジー業界で最も論争の多いトピックの 1 つになりました。

火曜日、欧州議会の重要な委員会は、デジタル・マーケット・アクト (DMA) という新しい法案の最初の段階を通過させました。この法案では、未成年者に対する行動ターゲティングを禁止し、違反した企業に対して最大で年間売上の 20% の罰金を課します。

この法案は、Facebook や Google などのテクノロジー・ジャイアントの影響力に対する直接的な対応とみなされているが、新しい研究の結果は、EU の会社の大多数 (アメリカの会社の欧州駐在事務所を含む) が GDPR 罰金の対象になっていることを示しています。

さらに、イタリアは今週、ユーザープロファイリングを含む他の違反のため、Apple と Google に対して最大 1,000 万ユーロ (1,120 万ドル) の罰金を課しました。

データ

新しい研究で調査されたウェブサイトは、Quantcast にリストされている上位 10,000 のウェブサイトからサンプリングされました。英語のプライバシーポリシーは、Yandex 検索を使用して UK ベースの VPN で抽出されました (これにより、ポリシーが geo ブロックされていないことが保証されました)。

EU のウェブサイトは、GDPR が 2018 年 5 月に完全に施行されて以来、18 の主要な要件 (上記のグラフを参照) をカバーする指定されたプライバシーポリシーを提供することが義務付けられています。

研究者は、プライバシーポリシーの抽出を 2018 年 8 月以降に制限しました。これにより、ドメインが必要なポリシーを公開するための十分な時間が与えられました (これは、GDPR の 2 年間の開発段階である 2016 年から既に知られていた要件でした)。

フィルタリングプロセスにより、9,761 のポリシーからなるプライバシー・コーパスが生成され、研究者はランダムに 1,080 のポリシーを選択しました。

前処理

チームは、2 人の法務専門家を雇用して、4 人の人間アノテーターを訓練し、GDPR によって義務付けられている 18 のプライバシーポリシーをそれぞれラベル付けしました。

ポリシーの中には、18 の要件のうち 1 つ以上をカバーするものがあり、Convolutional Neural Network (CNN) を使用して各ポリシーに関連する言語特徴を検出する必要がありました。

言語に基づいて準拠を識別するモデルを訓練する最初の試みは、80.5% の成功率を達成しました。結果を改善するために、研究者はアクティブ・ラーニングを適用して、ラベル付けされたデータを少なくしてモデルのパフォーマンスを向上させました。こうすることで、分類器 CNN を 89.2% の精度まで訓練でき、F1 スコアは 0.88 (完全な成功は 1) でした。

プライバシーポリシーに特有のワード・エンベディングを確保するために、研究者は Facebook の FastText Python ライブラリを使用して、無监督ワード・エンベディング・モデルを訓練しました。

通常の実践に従って、最終的なデータは、アルゴリズムの精度を判断するためのランダムに選択されたデータとともに、トレーニングデータとテストデータの 80/20 に分割されました。アーキテクチャに人間が関与する測定研究が追加され、結果の品質を評価しました。

プライバシークラスファイアーのアーキテクチャ

ワークフローの中で、11,271 個の人間アノテーションされたプライバシーポリシーのセグメントが生成され、それぞれが研究に関与した 2 人の法務専門家によって訓練された 4 人の人間アノテーターによってレビューされました。意見の相違が生じた場合、データが除外されないために、75% の同意率が必要でした。

人間が関与 – ポリシーデータのラベル付けを完全に自動化することはできませんでしたが、アクティブ・ラーニングにより、プールベースのワークフローが可能になり、プロジェクトが実行可能になりました。

すでに述べた結果に加えて、ユーザーは、ポータビリティ (企業が保持するデータを移転またはエクスポートする権利) が、プロファイリングと同様にほとんどサポートされていないことを発見しました。

研究者は以下の結論を述べています：

‘ユーザーのポータビリティ権やデータ保護責任者 (DPO) の連絡先情報を提供するなどの要件は、それぞれ 15.5% および 16.4% のウェブサイトでカバーされています。他の主要な要件として、ユーザーの苦情を申し立てる権利、同意を撤回する権利、異議を申し立てる権利、適切性の決定などは、17-20% のウェブサイトでカバーされています。’

そして以下の記載があります：

‘ウェブサイトの 3% だけが 18 の要件すべてに完全に準拠しているようです。これらの結果は、多くのウェブサイトがまだ GDPR の要件に従っていないことを示しています。’

7pm 26/11/2021 – 最初のグラフのキャプションを明確にしました。 – MA