Tekoäly

Tekoälytutkijat arvioivat, että 97 % EU:n verkkosivustoista epäonnistuu GDPR:n tietosuojavaatimuksissa – erityisesti käyttäjien profilointi

Päivitetty on Joulukuu 9, 2022

Yhdysvaltalaiset tutkijat ovat käyttäneet koneoppimistekniikoita tutkiessaan GDPR-tietosuojakäytäntöjä yli tuhannella EU:ssa sijaitsevalla verkkosivustolla. He havaitsivat, että 97 prosenttia tutkituista sivustoista ei täyttänyt vähintään yhtä Euroopan unionin vuoden 2018 sääntelykehyksen vaatimusta ja että ne täyttivät vähiten "käyttäjien profilointia" koskevia sääntelyvaatimuksia.

Paperissa todetaan:

"[Koska] tietosuojakäytäntö on keskeinen viestintäkanava, jonka avulla käyttäjät voivat ymmärtää ja hallita yksityisyyttään, monet yritykset ovat päivittäneet tietosuojakäytäntöjään GDPR:n voimaantulon jälkeen. Useimmat tietosuojakäytännöt ovat kuitenkin monisanaisia, täynnä ammattikieltä ja kuvaavat epämääräisesti yritysten tietokäytäntöjä ja käyttäjien oikeuksia. Siksi on epäselvää, noudattavatko ne GDPR:ää.

Se jatkuu:

"Tuloksemme osoittavat, että jopa GDPR:n voimaantulon jälkeen 97 % verkkosivustoista ei edelleenkään täytä vähintään yhtä GDPR:n vaatimusta."

- opiskella on otsikko GDPR-ilmoitusvaatimusten automaattinen havaitseminen tietosuojakäytännöissä Deep Active Learning -ominaisuuden avullaja tulee kolmelta tutkijalta Virginian yliopistosta Charlottesvillessä.

Tietosuoja viimeinen

Vähiten vaatimustenmukaisuus koski tutkimuksen mukaan GDPR:ää määräyksiä käyttäjien profiloinnista, ja kirjoittajien mukaan vain 15.3 % tutkituista sivustoista oli täysin tämän säännön mukaisia.

Kaavio vaatimustenmukaisuudesta 9761 tutkimuksessa tutkitun verkkosivuston kesken. Lähde: https://arxiv.org/pdf/2111.04224.pdf

Kaavio tutkimusta varten tutkittujen verkkosivustojen GDPR-käytäntöjen noudattamisesta. Lähde: https://arxiv.org/pdf/2111.04224.pdf

Käyttäjien profiloinnista (jossa henkilön vuorovaikutus verkkosivustojen kanssa tallennetaan ja sitä käytetään usein heidän "kohdistamiseen" muissa verkkoyhteyksissä, kuten mainonnassa) on tullut yksi kuumimmista kiistoista tekniikassa Cambridge Analytica -skandaalin jälkeen.

Tiistaina Euroopan parlamentin keskeinen valiokunta Hyväksytty uuden digitaalimarkkinalain ensimmäinen vaihe (DMA) lainsäädäntö, joka kieltäisi alaikäisten käyttäytymiseen kohdistuvan kohdistamisen ja määrää sakkoja jopa 20 prosentin maailmanlaajuinen loukkaavien yritysten vuosimyynti.

Vaikka tiedotusvälineet ovat vastaanottaneet lain suorana vastauksena Facebookin ja Googlen kaltaisten teknologiajättien kasvavaan vaikutukseen, uuden tutkimuksen edustaman laiminlyönnin laajuus viittaa siihen, että valtaosa EU:n yrityksistä (mukaan lukien EU- Euroopassa kauppaa käyvien amerikkalaisten yritysten toimistot) ovat laillisesti alttiina GDPR-sakkille.

Lisäksi Italia on tällä viikolla määrännyt suurimman sallitun sakon 10 miljoonalla eurolla (11.2 miljoonaa dollaria) Applea ja Googlea vastaan käyttäjien profiloinnin hyödyntämisestä muiden rikkomusten ohella.

Päiväys

Uudessa tutkimuksessa tutkitut sivustot poimittiin Quantcastin 10,000 XNUMX suosituimmasta verkkosivustosta, joiden englanninkieliset tietosuojakäytännöt poimittiin Yandex-hakujen kautta Isossa-Britanniassa sijaitsevissa VPN-verkoissa (varmistaakseen, että käytäntöjä ei ole estetty maantieteellisesti) .

EU:n verkkosivustot ovat olleet velvollisia tarjoamaan määrätyt tietosuojakäytännöt, jotka kattavat 18 keskeistä vaatimusta (katso kaavio yllä) siitä lähtien, kun yleisen tietosuoja-asetuksen (GDPR) laki tuli täysimääräisesti voimaan toukokuussa 2018.

Tutkijat rajoittivat tietosuojakäytäntöjen poimimisen ajanjaksoon elokuusta 2018 eteenpäin, jotta verkkotunnukset olisivat julkaisseet tarvittavat käytännöt (edellytys, että heillä oli ennakkotietoa vähintään vuoden ajan kahden vuoden kehitysvaiheesta). GDPR vuodesta 2016).

Suodatusprosessi tuotti 9,761 1,080 käytännön tietosuojakorpusen, joista tutkijat valitsivat satunnaisesti XNUMX XNUMX käytäntöä.

Esikäsittely

Tiimi palkkasi kaksi lakiasiantuntijaa kouluttamaan neljä ihmisen annotaattoria merkitsemään kukin 18 mahdollisesta tietosuojakäytännöstä, jotka GDPR määrää.

Jotkut käytäntöjen laillisista säännöistä kattoivat useamman kuin yhden 18 vaatimuksesta, minkä vuoksi oli välttämätöntä käyttää konvoluutiohermoverkkoa (CNN) jokaiseen käytäntöön liittyvien kieliominaisuuksien havaitsemiseen.

Ensimmäinen yritys kouluttaa mallia tunnistamaan vaatimustenmukaisuus kielen perusteella onnistui 80.5 prosentilla. Näiden tulosten parantamiseksi tutkijat sovelsivat Aktiivinen oppiminen parantaa mallin suorituskykyä käyttämällä vähemmän merkittyjä tietoja. Näillä keinoilla CNN-luokittajaa oli mahdollista opettaa 89.2 %:n tarkkuudella. F1 pisteet 0.88 (jossa 1 on täydellinen menestys).

Varmistaakseen, että sanan upottaminen liittyy tietosuojakäytäntöön, tutkijat kouluttivat valvomattoman sanan upotusmallin Facebookin avulla. FastText Python-kirjasto.

Vakiokäytännön mukaisesti lopulliset tiedot jaettiin 80/20 koulutetun datan ja testidatan (eli satunnaisesti valittujen tietojen, joiden perusteella algoritmin tarkkuus arvioidaan) kesken. Arkkitehtuuriin lisättiin human-in-the-loop -mittaustutkimus tulosten laadun arvioimiseksi.

Luokitusjärjestelmän arkkitehtuuri.

Työnkulun aikana tuotettiin 11,271 75 ihmisen kommentoimaa tietosuojakäytäntösegmenttiä, joista jokaisen arvioi neljä ihmisen annotaattoria, jotka tutkimukseen osallistuneet kaksi lakiasiantuntijaa olivat kouluttaneet. Jos erimielisyyttä esiintyi, tarvittiin XNUMX prosentin hyväksymissuhde, jotta tietoja ei hylätty sisällyttämisestä.

Humans-in-the-loop – käytäntötietojen merkitsemistä ei voitu täysin automatisoida, vaikka Active Learning mahdollisti pool-pohjaisen työnkulun, joka teki projektin toteuttamiskelpoisen.

Jo mainittujen tulosten lisäksi käyttäjät havaitsivat sen siirrettävyys – GDPR:n mukainen oikeus siirtää tai viedä yrityksen hallussa olevia tietoja – toimi lähes yhtä huonosti kuin profilointi.

Tutkijat päättelevät:

”[Edellytykset], kuten käyttäjien oikeus siirrettävyyteen ja tietosuojavastaavan yhteystietojen ilmoittaminen (DPO-yhteystiedot), katetaan 15.5 prosentilla ja 16.4 prosentilla verkkosivustoista. Muut ensisijaiset vaatimukset, kuten käyttäjien oikeus tehdä valitus, peruuttaa suostumus, oikeus vastustaa ja riittävyyttä koskeva päätös, katetaan 17–20 prosentin verkkosivustoilla.

…ja jatka:

"Näyttää siltä, että vain 3 prosenttia verkkosivustoista täyttää täysin 18 vaatimusta. Nämä havainnot osoittavat, että monet verkkosivustot eivät edelleenkään noudata GDPR:n vaatimuksia.

7 26 – Selvennetty ensimmäinen kaavion kuvateksti. – MA

Seuraavaksi

Human Brain Project julkaisee uuden kirjan Exascale Computing Powerista

Älä missaa

Hermoston renderöinti: NeRF kävelee raittiissa ilmassa

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai