Штучний Інтелект

Аналіз 25 років політики конфіденційності за допомогою машинного навчання

оновлений on 9 Грудня, 2022

У нещодавньому дослідженні використовувалися методи аналізу машинного навчання, щоб визначити читабельність, корисність, довжину та складність понад 50,000 25 політик конфіденційності на популярних веб-сайтах за період, що охоплює 1996 років з 2021 по 400 рік. Дослідження прийшло до висновку, що середньому читачеві потрібно присвятити XNUMX годин «щорічного часу на читання» (більше години на день), щоб проникнути в зростаючу кількість слів, заплутану мову та нечітке використання мови, які характеризують сучасну політику конфіденційності деяких із найбільш відвідуваних веб-сайтів.

У доповіді говориться:

«Середня довжина політики майже подвоїлася за останні десять років, з 2159 слів у березні 2011 року та 4191 словом у березні 2021 року, і майже в чотири рази з 2000 року (1146 слів).»

Середня кількість слів і речень у вивченому корпусі за 25-річний період. Джерело: https://arxiv.org/pdf/2201.08739.pdf

Незважаючи на те, що швидкість збільшення довжини різко зросла, коли набули чинності GDPR і Каліфорнійський закон про конфіденційність споживачів (CCPA), у документі відкидають ці варіації як «невеликі розміри ефекту», які здаються незначними порівняно з ширшою довгостроковою тенденцією. Однак GDPR визначено як можливу причину зростання «розпливчастих» формулювань у політиках (див. нижче).

Припускаючи, що швидкість читання становить 250 слів на хвилину, документ стверджує, що середня політика конфіденційності тепер займає 17 хвилин для читання, тоді як більш популярні політики (тобто політики, пов’язані з великою кількістю користувачів) займають 23 хвилини.

Найдовша політика в наборі даних від Microsoft вимагає 152 хвилини, згідно з дослідженням, яке використовувало низку варіанти у Google Модель мови BERT.

Зростання щорічної кількості годин, необхідних для читання сучасних політик конфіденційності, припускаючи, що читач відвідує 1462 унікальних веб-сайти на рік.

Зростання щорічної кількості годин, необхідних для читання сучасних політик конфіденційності, за умови, що читач відвідає 1462 унікальні сайти на рік.

Значна частина нещодавнього збільшення багатослівності та двозначності в політиці конфіденційності в документі пояснюється реакцією на спроби нав’язати правила протягом останніх двох десятиліть, а також на нещире використання нормативних вимог як виправдання для непомітного розширення масштабів і непрозорість політики конфіденційності.

«Загалом наші результати показують, що нещодавні правила конфіденційності не покращили суттєво конфіденційність користувачів в Інтернеті, а радше призвели до більш роздутої політики конфіденційності, яка описує все більш агресивні методи використання даних».

Незважаючи на те, що протягом останніх років низка документів із обробки природної мови (NLP) розглядала читабельність та інші аспекти політики конфіденційності, автор вважає, що це перший проект такого типу, який надає такий широкий огляд розробки політики за останні десятиліття.

Команда папір має титул Політика конфіденційності протягом століть: зміст і читабельність політик конфіденційності 1996–2021, і походить від Ізабель Вагнер з Інституту кібертехнологій Університету Де Монфорта у Великобританії.

Еліптична мова

У звіті також зазначено, що середня кількість «заплутуючих слів» (тобто прийнятний, значний, головним чиномта інші слова, які не мають чіткого значення) у політиках конфіденційності постійно збільшувалися до 2018 року, але потім підскочили з медіани 227 у березні 2018 року до 304 у червні 2020 року.

Автор стверджує, що це зростання пов’язане з наслідками GDPR, і в статті встановлено, що понад дві третини (72%) речень у досліджуваних політиках конфіденційності містили принаймні одне заплутане слово.

читабельність

Дослідження показало, що за трьома поширеними показниками труднощів читання «протягом років політику конфіденційності стає все важче читати». За оцінками авторів, 41% чинних полісів, доступних у 2021 році, мали середнє значення Легкість читання Флеша (FRE, що вище, то краще) лише 31.8, за спостереженням автора «Ця оцінка вказує на дуже складний текст, який найкраще розуміють випускники університетів».

При цьому тільки 6.7% полісів досягли оцінки FRE вище 45 (що, як зазначається у звіті, є стандартом читання, необхідним для страхових полісів у штаті Флорида).

Поінформованість про зміну політики

Робота також стосується того, якою мірою політики конфіденційності включають деталі про те, як потенційний учасник згоди буде в кінцевому підсумку сповіщений у разі наступних оновлень, що може вплинути на готовність користувача дотримуватися угоди.

Автор зауважує:

«У 2021 році 73% полісів містять заяву про зміну політики. З них 34% стверджують, що про зміни буде оголошено повідомленням у політиці конфіденційності, 37% опублікують повідомлення на веб-сайті, а 22% надішлють особисте повідомлення (у решті політик тип сповіщення не визначено).

«Як результат, більшість користувачів навряд чи дізнаються про зміни в політиці конфіденційності.

«Крім того, користувачі не пропонують майже жодного значущого вибору, коли політика змінюється. З політик, які сповіщають користувача про зміни, лише 12% пропонують нову згоду, тоді як 34% не дають вибору, а 54% залишають його невизначеним».

Висновки статті щодо описаних методів сповіщення користувачів про зміни політики.

Обмежений вибір щодо відстеження

Згідно з дослідженням, у політиках конфіденційності пропонується набагато більше механізмів для доступу до інформації про обліковий запис користувача, ніж для доступу до даних профілю користувача. Дані профілю можна створювати й оновлювати за допомогою автоматизованих і неочевидних механізмів, тоді як дані облікового запису користувача не лише явно надаються користувачем, але також мають бути доступними для редагування відповідно до нормативних актів різних юрисдикцій.

Вибір споживача замість згоди на файли cookie в політиці конфіденційності (тема, яка привернула увагу гарячі дебати з моменту появи GDPR, який оприлюднив сотні тисяч спливаючих вікон із згодою на файли cookie для екземплярів міжнародних та європейських веб-сайтів у ЄС), як правило, розглядається в політиках, але приховує більш важливий рівень менш доступних даних*:

«[Вибору] файлів cookie недостатньо для захисту користувачів від будь-якого відстеження, оскільки механізми вибору або контролю рідко пропонуються для комп'ютерна інформація, ідентифікатори пристроїв та персональні ідентифікатори, які дозволяють відстежувати користувачів за допомогою відбитків пальців.'

Різкий контраст доступного рівня контролю, наданого політиками конфіденційності, між даними профілів (які можуть бути отримані неявним або прихованим способом) і даними облікових записів користувачів (де певний контроль часто вимагається GDPR, Законом Каліфорнії про конфіденційність споживачів (CCPA) ), а також аналогічні національні та регіональні механізми).

дані

Щоб отримати дані для дослідження, автор сканував веб-сайти в пошуках посилань на їхні політики конфіденційності, часто вважаючи за необхідне розширити сферу застосування за межі початкового результату через кількість неінтегральних політик, які посилаються на подальші політики (кожна з яка може змінюватися одночасно з материнською чи пов’язаною політикою або незалежно від неї).

Команда Wayback Machine використовувався для отримання історичних політик, хоча під час розгляду результатів необхідно було враховувати політики, сканування чи архівування яких було заблоковано за допомогою файлу конфігурації robots.txt (невеликий текстовий файл, що містить інструкції для агентів індексації веб-сканування щодо сторінок та інших сутності, які вони не повинні включати до загальнодоступного індексу).

Один знімок на місяць отримував від Wayback Machine API CDX для кожної ідентифікованої та безперервної застосовної політики, використовуючи Firefox під Selenium. Виконання оптичного розпізнавання символів на політиках, доступних лише у форматі PDF, не розглядалося в проекті, який обмежився (значно більшою) кількістю доступних політик HTML.

Одним із цікавих результатів проекту є те, що чіткість і читабельність порнографічних веб-сайтів фактично покращилися протягом досліджуваного інтервалу – можливо, в очікуванні зростаючих закликів до посилення регулювання та ясності. Щоб зібрати ці документи, необхідно було отримати їх за допомогою додаткових сканувань із локальних IP-адрес через протоколи блокування контенту університету.

Спочатку було отримано 1,068,683 120,265 39.1 документів, що дорівнювало 4.4 XNUMX унікальним документам, які містили в середньому XNUMX статей або пунктів політики та XNUMX унікальних тексту політики для кожного посилання.

Тільки англійська

Як це зазвичай буває в подібних останніх дослідженнях, проект не зміг розглянути неанглійські політики конфіденційності, які були відкинуті на етапі очищення даних за допомогою PYCLD2 пакет.

Щоб відрізнити політику конфіденційності від інших типів матеріалів, у проекті використовувався класифікатор розроблений в 2019 як спільна ініціатива Університету Вісконсіна та Федеральної політехнічної школи Лозанни.

Архітектура класифікатора IS-POLICY. Джерело: https://arxiv.org/pdf/1809.08396.pdf

Хоча класифікатор IS-POLICY навчався на тому ж корпусі з 1,000 документів, що й у вихідній статті, автору довелося отримати нові неполітичні документи для навчання, оскільки оригінальні джерела були недоступні.

Після фільтрації дані були скорочені до 56,416 XNUMX унікальних політик конфіденційності.

* Тут вбудоване цитування статті перетворюється на гіперпосилання, курсив перемикається з статті.

Вперше опубліковано 31 січня 2022 р.

Вгору Далі

Використання відгуків для створення системи рекомендацій, яка працює

Не пропустіть

Нова система спрямована на вирішення проблеми споживання енергії ШІ

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai