Connect with us

Pesquisadores de IA estimam que 97% dos sites da UE não cumprem os requisitos de privacidade do GDPR – especialmente o perfilamento de usuários

Inteligência artificial

Pesquisadores de IA estimam que 97% dos sites da UE não cumprem os requisitos de privacidade do GDPR – especialmente o perfilamento de usuários

mm

Pesquisadores nos EUA usaram técnicas de aprendizado de máquina para estudar as políticas de privacidade do GDPR de mais de mil sites representativos com base na UE. Eles descobriram que 97% dos sites estudados não cumpriam com pelo menos um requisito do quadro regulatório de 2018 da União Europeia, e que cumpriam menos com os requisitos regulatórios em torno da prática de ‘perfilamento de usuários’.

O artigo afirma:

‘[Desde] a política de privacidade é o canal de comunicação essencial para que os usuários entendam e controlem sua privacidade, muitas empresas atualizaram suas políticas de privacidade após o GDPR ser aplicado. No entanto, a maioria das políticas de privacidade é prolixa, cheia de jargão e descreve vagamente as práticas de dados das empresas e os direitos dos usuários. Portanto, não está claro se elas cumprem com o GDPR.’

Continua:

‘Nossos resultados mostram que, mesmo após o GDPR entrar em vigor, 97% dos sites ainda não cumprem com pelo menos um requisito do GDPR.’

O estudo é intitulado Detecção Automatizada de Requisitos de Divulgação do GDPR em Políticas de Privacidade usando Aprendizado Ativo Profundo, e vem de três pesquisadores da Universidade da Virgínia em Charlottesville.

Privacidade por Último

A área de menor conformidade, de acordo com o estudo, preocupava as estipulações do GDPR sobre perfilamento de usuários, com os autores afirmando que apenas 15,3% dos sites estudados estavam em conformidade total com essa regra particular.

Um gráfico de conformidade entre 9761 sites estudados para a pesquisa. Fonte: https://arxiv.org/pdf/2111.04224.pdf

Um gráfico de conformidade entre as políticas de privacidade dos sites estudados para a pesquisa. Fonte: https://arxiv.org/pdf/2111.04224.pdf

O perfilamento de usuários (onde a interação de uma pessoa com sites é registrada e frequentemente usada para ‘destinar’ a eles em outros contextos online, como publicidade) se tornou uma das controvérsias mais quentes na tecnologia desde o escândalo do Cambridge Analytica.

Na terça-feira, um comitê-chave do Parlamento Europeu aprovou a primeira etapa da nova legislação do Ato de Mercados Digitais (DMA), que proibiria a orientação comportamental de menores, impondo multas de até 20% das vendas anuais globais para empresas infratoras.

Embora o Ato tenha sido recebido pela mídia como uma resposta direta ao crescente influência dos gigantes da tecnologia, como Facebook e Google, a escala de não-conformidade representada pela nova pesquisa sugere que a vasta maioria das empresas da UE (incluindo escritórios da UE para empresas americanas que operam na Europa) estão expostas legalmente a multas do GDPR.

Além disso, a Itália impôs esta semana a multa máxima permitida de 10 milhões de euros ($11,2 milhões USD) contra Apple e Google por explorar o perfilamento de usuários, entre outras infrações.

Dados

Os sites examinados na nova pesquisa foram amostrados dos 10.000 principais sites listados no Quantcast, cujas políticas de privacidade em inglês foram extraídas por meio de buscas no Yandex em VPNs com base no Reino Unido (para garantir que as políticas não fossem bloqueadas geograficamente).

Os sites da UE foram obrigados a fornecer políticas de privacidade prescritas, cobrindo 18 requisitos centrais (veja gráfico acima) desde que o Regulamento Geral de Proteção de Dados (GDPR) entrou em vigor em maio de 2018.

Os pesquisadores limitaram a extração de políticas de privacidade a um período a partir de agosto de 2018, para permitir um tempo razoável para que os domínios publicassem as políticas exigidas (um requisito do qual tinham conhecimento antecipado por pelo menos um ano da fase de desenvolvimento de dois anos do GDPR desde 2016).

O processo de filtragem produziu um corpus de privacidade de 9.761 políticas, das quais 1.080 políticas foram selecionadas aleatoriamente pelos pesquisadores.

Pré-processamento

A equipe empregou dois especialistas em direito para treinar quatro anotadores humanos para rotular cada uma das 18 políticas de privacidade possíveis exigidas pelo GDPR.

Algumas das expressões jurídicas nas políticas abrangiam mais de um dos 18 requisitos, tornando necessário usar uma Rede Neural Convolucional (CNN) para detectar recursos de linguagem associados a cada política.

Uma tentativa inicial de treinar um modelo para identificar a conformidade com base na linguagem alcançou 80,5% de sucesso. Para melhorar esses resultados, os pesquisadores aplicaram Aprendizado Ativo para fortalecer o desempenho do modelo usando menos dados rotulados. Por esses meios, foi possível treinar o classificador CNN até uma precisão de 89,2%, com um escore F1 de 0,88 (onde ‘1’ é sucesso completo).

Para garantir que as incorporações de palavras fossem específicas para as políticas de privacidade, os pesquisadores treinaram um modelo de incorporação de palavras não supervisionado usando a biblioteca FastText do Facebook.

Conforme a prática padrão, os dados finais foram divididos 80/20 entre dados treinados e dados de teste (ou seja, dados selecionados aleatoriamente contra os quais a precisão do algoritmo será julgada). Um estudo de medição com humano no loop foi adicionado à arquitetura para avaliar a qualidade dos resultados.

A arquitetura para o sistema classificador.

A arquitetura para o sistema classificador.

No curso do fluxo de trabalho, 11.271 segmentos de políticas de privacidade anotados por humanos foram produzidos, cada um dos quais foi revisado por quatro anotadores humanos que foram treinados pelos dois especialistas em direito envolvidos no estudo. Onde ocorreu discordância, uma razão de concordância de 75% foi necessária para não rejeitar os dados da inclusão.

Humanos no loop – não foi possível automatizar completamente a rotulagem dos dados de política, embora o Aprendizado Ativo tenha permitido um fluxo de trabalho baseado em pool que tornou o projeto viável.

Humanos no loop – não foi possível automatizar completamente a rotulagem dos dados de política, embora o Aprendizado Ativo tenha permitido um fluxo de trabalho baseado em pool que tornou o projeto viável.

Além dos resultados já mencionados, os usuários descobriram que portabilidade – o direito sob o GDPR de translocar ou exportar dados mantidos por uma empresa – foi quase tão mal atendido quanto o perfilamento.

Os pesquisadores concluem:

‘[Requisitos] como o direito dos usuários à Portabilidade e fornecer as informações de contato do Oficial de Proteção de Dados (contato DPO) são cobertos por 15,5% e 16,4% dos sites, respectivamente. Outros requisitos primários, como o direito dos usuários de apresentar uma reclamação, retirar o consentimento, direito de objeção e decisão de adequação, são cobertos por 17-20% dos sites.’

…e continuam:

‘Parece que apenas 3% dos sites cumprem integralmente com os 18 requisitos. Essas descobertas indicam que muitos sites ainda não seguem os requisitos do GDPR.’

 

 

19h 26/11/2021 – Clarificado a legenda do primeiro gráfico. – MA

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.