заглушки Анализ политик конфиденциальности за 25 лет с помощью машинного обучения — Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Анализ 25-летней политики конфиденциальности с помощью машинного обучения

mm
обновленный on

В недавнем исследовании использовались методы анализа машинного обучения, чтобы определить читабельность, полезность, объем и сложность более чем 50,000 25 политик конфиденциальности на популярных веб-сайтах за период, охватывающий 1996 лет с 2021 по 400 год. Исследование пришло к выводу, что среднестатистическому читателю придется посвятить XNUMX часов «ежегодного чтения» (более часа в день), чтобы разобраться в растущем количестве слов, запутанной лексике и неясном использовании языка, которые характеризуют современную политику конфиденциальности некоторых из наиболее посещаемых веб-сайтов.

В докладе говорится:

«Средняя длина полиса почти удвоилась за последние десять лет: 2159 слов в марте 2011 года и 4191 слово в марте 2021 года, а с 2000 года — почти в четыре раза (1146 слов)».

Среднее количество слов и предложений в изученном корпусе за 25-летний период. Источник: https://arxiv.org/pdf/2201.08739.pdf

Среднее количество слов и предложений в изученном корпусе за 25-летний период. Источник: https://arxiv.org/pdf/2201.08739.pdf

Хотя темпы увеличения длины резко возросли, когда вступили в силу GDPR и Калифорнийский закон о конфиденциальности потребителей (CCPA), в документе эти изменения не учитываются как «незначительные размеры эффекта», которые кажутся незначительными по сравнению с более широкой долгосрочной тенденцией. Тем не менее, GDPR определяется как возможная причина растущей «расплывчатости» формулировок в политиках (см. ниже).

Если предположить, что скорость чтения составляет 250 слов в минуту, в документе утверждается, что в среднем политика конфиденциальности теперь читается за 17 минут, в то время как более популярные политики (т.е. политики, связанные с большим количеством пользователей) занимают 23 минуты.

Самая длинная политика в наборе данных от Microsoft требует 152 минуты для использования, согласно исследованию, в котором использовался ряд варианты в Google языковая модель BERT.

Рост количества часов в год, необходимых для ознакомления с современными политиками конфиденциальности, при условии, что читатель посещает 1462 уникальных веб-сайта в год.

Рост количества часов в год, необходимых для ознакомления с современными политиками конфиденциальности, при условии, что читатель посещает 1462 уникальных сайта в год.

Большая часть недавнего увеличения многословия и двусмысленности в политиках конфиденциальности в документе объясняется реакцией на попытки навязать правила в течение последних двух десятилетий, а также на неискреннее использование требований соответствия нормативным требованиям в качестве предлога для тайного увеличения масштабов и непрозрачность политик конфиденциальности.

«В целом, наши результаты показывают, что недавние правила конфиденциальности не улучшили конфиденциальность пользователей в Интернете существенно, а скорее привели к более раздутым политикам конфиденциальности, которые описывают все более и более инвазивные методы работы с данными».

Хотя в последние годы в ряде статей по обработке естественного языка (NLP) рассматривались читабельность и другие аспекты политики конфиденциальности, автор считает, что это первый проект такого типа, в котором представлен такой широкий обзор развития политики за последние десятилетия.

Ассоциация бумаги называется Политики конфиденциальности на протяжении веков: содержание и удобочитаемость политик конфиденциальности 1996–2021 гг., исходит от Изабель Вагнер из Института кибертехнологий Университета Де Монфор в Великобритании.

Эллиптический язык

В отчете также предполагается, что среднее количество «запутанных слов» (т.е. приемлемый, значительный, в основном, и другие слова, не имеющие точного значения) в политиках конфиденциальности неуклонно росли вплоть до 2018 года, но затем резко подскочили с медианы 227 в марте 2018 года до 304 в июне 2020 года.

Автор утверждает, что это увеличение связано с влиянием GDPR, и в документе обнаружено, что более двух третей (72%) предложений в изученных политиках конфиденциальности содержали как минимум одно запутывающее слово.

читабельность

По трем распространенным показателям трудности чтения исследование показало, что «Политика конфиденциальности с годами становится все труднее читать». По оценкам авторов, 41% действующих в настоящее время полисов, доступных в 2021 г., имели медианное значение. Легкость чтения Флеша (FRE, чем выше, тем лучше) всего 31.8, при этом автор отмечает «Эта оценка указывает на очень сложный текст, который лучше всего понимают выпускники вузов».

При этом только 6.7% из полисов получили оценку FRE выше 45 (что, как отмечается в отчете, является стандартом чтения, необходимым для страховых полисов в штате Флорида).

Осведомленность об изменении политики

В работе также рассматривается вопрос о том, в какой степени политика конфиденциальности включает сведения о том, как потенциальный согласившийся будет в конечном итоге уведомлен в случае последующих обновлений, что может повлиять на готовность пользователя поддерживать соглашение.

Автор замечает:

«В 2021 году 73% политик включают заявление об изменении политики. Из них 34% заявляют, что об изменениях будет объявлено уведомлением в политике конфиденциальности, 37% опубликуют уведомление на веб-сайте, а 22% отправят личное уведомление (в остальных политиках тип уведомления не указан).

«В результате большинство пользователей вряд ли узнают об изменениях в политике конфиденциальности.

«Кроме того, при изменении политик пользователям почти не предлагается осмысленный выбор. Из политик, которые уведомляют пользователя об изменениях, только 12 % предлагают новый выбор, в то время как 34 % не дают выбора, а 54 % не указывают его».

Выводы документа об описанных методах уведомления пользователей об изменениях политики.

Выводы документа об описанных методах уведомления пользователей об изменениях политики.

Ограниченный выбор в отношении отслеживания

Согласно исследованию, в политиках конфиденциальности предлагается гораздо больший набор механизмов для доступа к информации об учетной записи пользователя, чем для доступа к данным профиля пользователя. Данные профиля могут создаваться и обновляться с помощью автоматизированных и неочевидных механизмов, в то время как данные учетной записи пользователя не только явно предоставляются пользователем, но и подлежат редактированию в соответствии с правилами различных юрисдикций.

Выбор потребителя вместо согласия на использование файлов cookie в политике конфиденциальности (тема, которая привлекла жаркие споры с момента появления GDPR, обнародовавшего сотни тысяч всплывающих окон с согласием на использование файлов cookie для экземпляров международных и европейских веб-сайтов ЕС), обычно рассматривается в политиках, но скрывает более важный слой менее доступных данных*:

«[Варианты] выбора файлов cookie недостаточны для защиты пользователей от любого отслеживания, потому что механизмы выбора или контроля редко предлагаются для информация о компьютере, идентификаторы устройстви персональные идентификаторы, которые позволяют отслеживать пользователей с помощью снятия отпечатков пальцев.

Резкий контраст в доступном уровне контроля, предоставляемом политиками конфиденциальности, между данными профиля (которые могут быть получены неявными или скрытыми способами) и данными учетной записи пользователя (где некоторая мера контроля часто предписывается GDPR, Калифорнийским законом о конфиденциальности потребителей (CCPA). ) и аналогичные национальные и региональные механизмы).

Резкий контраст в доступном уровне контроля, предоставляемом политиками конфиденциальности, между данными профиля (которые могут быть получены неявными или скрытыми способами) и данными учетной записи пользователя (где некоторая мера контроля часто предписывается GDPR, Калифорнийским законом о конфиденциальности потребителей (CCPA). ) и аналогичные национальные и региональные механизмы).

Данные

Чтобы получить данные для исследования, автор просканировал веб-сайты в поисках ссылок на их политики конфиденциальности, часто обнаруживая необходимость расширить область действия за пределы первоначального результата из-за количества нецелостных политик, которые ссылаются на дополнительные политики (каждая из которая потенциально может измениться либо в тандеме, либо независимо от родительской или связанной с ней политики).

Ассоциация Wayback Machine использовался для получения исторических политик, хотя при рассмотрении результатов было необходимо учитывать политики, которые были заблокированы от сканирования или архивирования с помощью файла конфигурации robots.txt (небольшой текстовый файл, содержащий инструкции для агентов индексирования веб-сканеров в отношении страниц и других данных). объекты, которые они не должны включать в общедоступный индекс).

Один снимок в месяц был получен с Wayback Machine его CDX-API для каждой идентифицируемой и непрерывно применимой политики, используя Firefox под Selenium. Выполнение оптического распознавания символов в политиках, доступных только в формате PDF, не рассматривалось для проекта, который ограничился (гораздо большим) количеством доступных политик HTML.

Одним из интересных результатов проекта является то, что ясность и читабельность порнографических веб-сайтов фактически улучшились за исследуемый интервал — возможно, в ожидании растущих призывов к усилению регулирования и ясности. Чтобы собрать эти документы, необходимо было получить их с помощью дополнительных обходов с жилых IP-адресов из-за университетских протоколов блокировки контента.

Первоначально было получено 1,068,683 120,265 39.1 документа, что составляет 4.4 XNUMX уникальных документов, содержащих в среднем XNUMX статей или положений политики и XNUMX уникальных текста политики для каждой ссылки.

Только английский

Как это обычно бывает в подобных недавних исследованиях, проект не смог решить политику конфиденциальности не на английском языке, которая была отброшена на этапе очистки данных с использованием ПИКЛД2 пакет.

Чтобы отличить политику конфиденциальности от других типов материалов, в проекте использовался классификатор разработанный в 2019 как совместная инициатива Университета Висконсина и Федеральной политехнической школы Лозанны.

Архитектура классификатора IS-POLICY. Источник: https://arxiv.org/pdf/1809.08396.pdf

Архитектура классификатора IS-POLICY. Источник: https://arxiv.org/pdf/1809.08396.pdf

Хотя классификатор IS-POLICY был обучен на том же корпусе из 1,000 документов, что и в исходной статье, автору пришлось получить для обучения новые документы, не относящиеся к политике, поскольку первоисточники были недоступны.

После фильтрации данные сократились до 56,416 XNUMX уникальных политик конфиденциальности.

 

* Встроенное цитирование статьи преобразуется здесь в гиперссылку, переключение курсивом происходит из статьи.

Впервые опубликовано 31 января 2022 года.