Umělá inteligence
Výzkumníci v oblasti AI odhadují, že 97% webových stránek v EU nesplňuje požadavky GDPR na ochranu soukromí – zejména profilování uživatelů

Výzkumníci ve Spojených státech použili techniky strojového učení ke studiu zásad ochrany soukromí GDPR na více než tisícovce reprezentativních webových stránek se sídlem v EU. Zjistili, že 97 % z těchto stránek nesplňovalo alespoň jeden požadavek regulačního rámce Evropské unie z roku 2018 a že nejméně splňovaly regulační požadavky kolem praxe “profilování uživatelů”.
Výzkumná práce uvádí:
‘[Od] doby, kdy je zásada ochrany soukromí základním komunikačním kanálem pro uživatele, aby pochopili a ovládli své soukromí, mnoho společností aktualizovalo své zásady ochrany soukromí po uplatnění GDPR. Nicméně, většina zásad ochrany soukromí je rozsáhlá, plná odborných termínů a vágně popisuje datové postupy společností a práva uživatelů. Proto není jasné, zda splňují GDPR.’
Pokračuje:
‘Naše výsledky ukazují, že i po vstupu GDPR v platnost 97 % webových stránek stále nesplňuje alespoň jeden požadavek GDPR.’
Studie Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning pochází od tří výzkumníků z University of Virginia at Charlottesville.
Ochrana soukromí na posledním místě
Oblast nejnižšího souladu, podle studie, se týká ustanovení GDPR o profilování uživatelů, s tím, že autoři uvádějí, že pouze 15,3 % z vyšetřovaných stránek bylo v plném souladu s tímto konkrétním pravidlem.

Graf souladu mezi zásadami ochrany soukromí webových stránek studovanými pro výzkum. Zdroj: https://arxiv.org/pdf/2111.04224.pdf
Profilování uživatelů (kde je zaznamenávána interakce osoby s webovými stránkami a často se používá k “cílenému” přístupu v jiných online kontextech, jako je reklama) se stalo jedním z nejžhavějších kontroverzí v technologiích od skandálu Cambridge Analytica.
V úterý schválil klíčový výbor Evropského parlamentu první fázi nové legislativy Digitální trhový akt (DMA), která by zakázala behaviorální cílení na nezletilé, s pokutami až do 20 % globálního ročního prodeje pro porušující společnosti.
Ačkoli byl zákon přijat médii jako přímá reakce na rostoucí vliv technologických gigantů, jako jsou Facebook a Google, obrovský rozsah nesouladu reprezentovaný novým výzkumem naznačuje, že většina evropských společností (včetně evropských poboček amerických společností obchodujících v Evropě) je právně vystavena pokutám GDPR.
Kromě toho Itálie tento týden uložila maximální přípustnou pokutu 10 milionů eur (11,2 milionu USD) proti Apple a Google za využívání profilování uživatelů, kromě dalších porušení.
Data
Webové stránky vyšetřované v novém výzkumu byly vybrány z top 10 000 webových stránek uvedených v Quantcast, z nichž byly extrahovány anglické zásady ochrany soukromí prostřednictvím vyhledávání Yandex na UK-based VPN (aby se zajistilo, že zásady nebyly geo-blokované).
Webové stránky v EU jsou povinny poskytovat předepsané zásady ochrany soukromí, které pokrývají 18 centrálních požadavků (viz graf výše), od doby, kdy vstoupil v platnost obecný nařízení o ochraně osobních údajů (GDPR) v květnu 2018.
Výzkumníci omezili extrakci zásad ochrany soukromí na období od srpna 2018, aby poskytli dostatečný čas pro domény, aby zveřejnily požadované zásady (požadavek, o kterém měli předchozí znalosti alespoň rok z dvouleté fáze vývoje GDPR od roku 2016).
Proces filtrování vytvořil sbírku zásad ochrany soukromí o 9 761 politikách, z nichž 1 080 politik bylo náhodně vybráno výzkumníky.
Předzpracování
Tým zaměstnal dva právní odborníky, aby vyškolili čtyři lidské anotátory, aby označili každou z 18 možných zásad ochrany soukromí stanovených GDPR.
Některá z odborné terminologie v zásadách pokrývala více než jeden z 18 požadavků, což vyžadovalo použití Konvoluční neuronové sítě (CNN), aby se detekovaly jazykové funkce spojené s každou politikou.
První pokus o výcvik modelu pro identifikaci souladu na základě jazyka dosáhl 80,5% úspěchu. Pro zlepšení těchto výsledků výzkumníci použili Active Learning, aby posílili výkon modelu pomocí méně označených dat. Díky těmto prostředkům bylo možné vyškolit klasifikátor CNN až do přesnosti 89,2 %, s F1 skóre 0,88 (kde ‘1’ je kompletní úspěch).
Aby se zajistilo, že word embeddings jsou specifické pro zásady ochrany soukromí, výzkumníci vyškolili nesupervised word embedding model pomocí knihovny Facebooku FastText.
Jak je obvyklé, konečné údaje byly rozděleny 80/20 mezi trénovací data a testovací data (tj. náhodně vybraná data, proti kterým bude hodnocena přesnost algoritmu). Do architektury byl přidán měřicí studijní člověk, aby se vyhodnotila kvalita výsledků.

Architektura klasifikátoru.
V průběhu workflow bylo vytvořeno 11 271 lidských anotovaných segmentů zásad ochrany soukromí, z nichž každý byl přezkoumán čtyřmi lidskými anotátory, kteří byli vyškoleni dvěma právními odborníky zapojenými do studie. Pokud došlo k nesouladu, byl vyžadován poměr souhlasu 75 %, aby se data nezamítly.

Lidé v smyčce – nebylo možné zcela automatizovat označení dat zásad, nicméně Active Learning umožnil pool-based workflow, který učinil projekt proveditelným.
Kromě již zmíněných výsledků uživatelé zjistili, že přenositelnost – právo podle GDPR přenést nebo exportovat data držená společností – byla téměř tak špatně obsluhována jako profilování.
Výzkumníci uzavírají:
‘[Požadavky] jako právo uživatelů na přenositelnost a poskytnutí kontaktních informací ochránce údajů (kontakt DPO) jsou pokryty 15,5 % a 16,4 % webových stránek, resp. Další primární požadavky, jako je právo uživatelů podat stížnost, odvolat souhlas, právo vznést námitku a rozhodnutí o dostatečnosti, jsou pokryty 17-20 % webových stránek.’
…a pokračují:
‘Zdá se, že pouze 3 % webových stránek plně splňují 18 požadavků. Tyto výsledky ukazují, že mnoho webových stránek stále nesplňuje požadavky GDPR.’
7pm 26/11/2021 – Upravený první graf. – MA












