Intel·ligència Artificial

Els investigadors d'IA estimen que el 97% dels llocs web de la UE no compleixen els requisits de privadesa del GDPR, especialment els perfils d'usuaris

actualitzat on Desembre 9, 2022

Els investigadors dels EUA han utilitzat tècniques d'aprenentatge automàtic per estudiar les polítiques de privadesa del GDPR de més d'un miler de llocs web representatius amb seu a la UE. Van trobar que el 97% dels llocs estudiats no complien almenys un requisit del marc normatiu de 2018 de la Unió Europea i que complien menys amb els requisits reguladors sobre la pràctica del "perfil d'usuari".

El document diu:

"[Atès que] la política de privadesa és el canal de comunicació essencial perquè els usuaris entenguin i controlin la seva privadesa, moltes empreses van actualitzar les seves polítiques de privadesa després de l'aplicació del GDPR. Tanmateix, la majoria de les polítiques de privadesa són detallades, plenes d'argot i descriuen vagament les pràctiques de dades de les empreses i els drets dels usuaris. Per tant, no està clar si compleixen el GDPR.'

Continua:

"Els nostres resultats mostren que fins i tot després de l'entrada en vigor del GDPR, el 97% dels llocs web encara no compleixen almenys un requisit del GDPR".

El estudiar es titula Detecció automatitzada dels requisits de divulgació del GDPR a les polítiques de privadesa mitjançant l'aprenentatge actiu profund, i prové de tres investigadors de la Universitat de Virgínia a Charlottesville.

Privadesa Last

L'àrea de menys compliment, segons l'estudi, es refereix al GDPR estipulacions sobre l'elaboració de perfils d'usuaris, els autors afirmen que només el 15.3% dels llocs estudiats compleixen plenament aquesta norma en particular.

Un gràfic de compliment entre 9761 llocs web estudiats per a la investigació. Font: https://arxiv.org/pdf/2111.04224.pdf

Un gràfic del compliment de les polítiques de GDPR dels llocs web estudiades per a la investigació. Font: https://arxiv.org/pdf/2111.04224.pdf

Els perfils d'usuaris (on es registra la interacció d'una persona amb els llocs web i sovint s'utilitza per "orientar-los" a altres contextos en línia, com ara la publicitat) s'ha convertit en una de les controvèrsies més candides en tecnologia des de l'escàndol de Cambridge Analytica.

Dimarts, una comissió clau del Parlament Europeu PASSED la primera fase de la nova Llei de mercats digitals (DMA), que prohibiria l'orientació conductual a menors, imposant multes de fins al 20% dels global vendes anuals per a empreses infractores.

Tot i que la Llei ha estat rebuda pels mitjans de comunicació com una resposta directa a la creixent influència de gegants tecnològics com Facebook i Google, la gran escala d'incompliment que representa la nova investigació suggereix que la gran majoria de les empreses de la UE (incloent-hi la UE- oficines residents per a empreses nord-americanes que comercialitzen a Europa) estan legalment exposades a multes de GDPR.

A més, Itàlia ha imposat aquesta setmana la multa màxima permesa de 10 milions d'euros (11.2 milions de dòlars) contra Apple i Google per explotar el perfil d'usuaris, entre altres infraccions.

dades

Els llocs examinats a la nova investigació es van mostrejar dels 10,000 llocs web principals enumerats a Quantcast, les polítiques de privadesa en anglès dels quals es van extreure mitjançant cerques de Yandex a VPN basades al Regne Unit (per tal d'assegurar-se que les polítiques no estaven geobloquejades) .

Els llocs web de la UE han estat obligats a proporcionar polítiques de privadesa prescrites, que cobreixen 18 requisits centrals (vegeu el gràfic anterior) des que la llei del Reglament general de protecció de dades (GDPR) va entrar en vigor el maig de 2018.

Els investigadors van limitar la seva extracció de polítiques de privadesa a un període des de l'agost de 2018 en endavant, per permetre un temps raonable perquè els dominis hagin publicat les polítiques requerides (un requisit que tinguessin coneixements previs durant almenys un any de la fase de desenvolupament de dos anys de GDPR des del 2016).

El procés de filtratge va produir un corpus de privadesa de 9,761 polítiques, de les quals 1,080 polítiques van ser seleccionades aleatòriament pels investigadors.

Preprocessament

L'equip va emprar dos experts legals per formar quatre anotadors humans per etiquetar cadascuna de les 18 polítiques de privadesa possibles obligades pel GDPR.

Alguns dels termes legals de les polítiques cobrien més d'un dels 18 requisits, la qual cosa fa necessari utilitzar una xarxa neuronal convolucional (CNN) per detectar les característiques del llenguatge associades a cada política.

Un intent inicial de formar un model per identificar el compliment basat en el llenguatge va aconseguir un èxit del 80.5%. Per millorar aquests resultats, els investigadors van aplicar Aprenentatge actiu per reforçar el rendiment del model utilitzant menys dades etiquetades. Amb aquests mitjans es va poder entrenar el classificador CNN amb una precisió del 89.2%, amb una Puntuació F1 de 0.88 (on "1" és un èxit total).

Per assegurar-se que les incrustacions de paraules fossin específiques per a la política de privadesa, els investigadors van entrenar un model d'inserció de paraules sense supervisar utilitzant el Facebook de FastText Biblioteca Python.

Segons la pràctica estàndard, les dades finals es van dividir 80/20 entre dades entrenades i dades de prova (és a dir, dades seleccionades aleatòriament amb les quals es valorarà la precisió de l'algorisme). Es va afegir a l'arquitectura un estudi de mesurament human-in-the-loop per avaluar la qualitat dels resultats.

L'arquitectura del sistema classificador.

En el transcurs del flux de treball, es van produir 11,271 segments de política de privadesa anotats per humans, cadascun dels quals va ser revisat per quatre anotadors humans que havien estat formats pels dos experts legals implicats en l'estudi. Quan hi hagués desacord, calia una ràtio d'acord del 75% per no rebutjar la inclusió de les dades.

Humans-in-the-loop: no va ser possible automatitzar completament l'etiquetatge de les dades de la política, tot i que Active Learning va permetre un flux de treball basat en grup que va fer factible el projecte.

A més dels resultats ja esmentats, els usuaris ho van trobar portabilitat – el dret d'acord amb el GDPR a transferir o exportar dades en poder d'una empresa – es va servir gairebé tan malament com a perfil.

Els investigadors conclouen:

"[Requisits], com ara el dret a la portabilitat dels usuaris i el subministrament de la informació de contacte del responsable de protecció de dades (contacte DPO), estan coberts pel 15.5% i el 16.4% dels llocs web, respectivament. Altres requisits principals, com ara el dret dels usuaris a presentar una reclamació, retirar el consentiment, el dret d'oposició i la decisió d'adequació, estan coberts per un 17-20% dels llocs web.'

...i continua:

"Sembla que només el 3% dels llocs web compleixen totalment els 18 requisits. Aquestes troballes indiquen que molts llocs web encara no compleixen els requisits del GDPR.

7/26/11 a les 2021:XNUMX: subtítol del primer gràfic aclarit. – MA

Fins a la propera

Human Brain Project publica un nou document sobre la potència informàtica a Exascale

No et perdis

Representació neuronal: NeRF fa un passeig a l'aire fresc

Martin Anderson

Escriptor sobre aprenentatge automàtic, intel·ligència artificial i big data.
Lloc personal: martinanderson.ai
Poseu-vos en contacte amb: [protegit per correu electrònic]
Twitter: @manders_ai