Inteligência artificial
Pesquisadores de IA estimam que 97% dos sites da UE falham nos requisitos de privacidade do GDPR, especialmente no perfil do usuário

Pesquisadores nos EUA utilizaram técnicas de aprendizado de máquina para estudar as políticas de privacidade do GDPR de mais de mil sites representativos da UE. Eles descobriram que 97% dos sites estudados não cumpriam pelo menos um requisito do marco regulatório da União Europeia de 2018 e que eram os que menos cumpriam os requisitos regulatórios relacionados à prática de "criação de perfil de usuário".
O artigo afirma:
[Como] a política de privacidade é o canal de comunicação essencial para que os usuários entendam e controlem sua privacidade, muitas empresas atualizaram suas políticas de privacidade após a entrada em vigor do GDPR. No entanto, a maioria das políticas de privacidade é prolixa, repleta de jargões e descreve vagamente as práticas de dados das empresas e os direitos dos usuários. Portanto, não está claro se elas estão em conformidade com o GDPR.
Ele continua:
'Nossos resultados mostram que, mesmo após a entrada em vigor do GDPR, 97% dos sites ainda não cumprem com pelo menos um requisito do GDPR.'
O estudo é intitulado Detecção automatizada de requisitos de divulgação do GDPR em políticas de privacidade usando Deep Active Learning, e vem de três pesquisadores da Universidade da Virgínia em Charlottesville.
Privacidade Último
A área de menor conformidade, segundo o estudo, diz respeito ao RGPD estipulações sobre o perfil do usuário, com os autores afirmando que apenas 15.3% dos sites estudados estavam em total conformidade com essa regra específica.

Um gráfico de conformidade entre as políticas de GDPR dos sites estudados para a pesquisa. Fonte: https://arxiv.org/pdf/2111.04224.pdf
A criação de perfis de usuários (onde a interação de uma pessoa com sites é registrada e frequentemente usada para "segmentá-la" em outros contextos online, como publicidade) se tornou uma das maiores controvérsias na tecnologia desde o escândalo da Cambridge Analytica.
Na terça-feira, uma importante comissão do Parlamento Europeu passou a primeira fase da nova Lei dos Mercados Digitais (DMA), que proibiria o direcionamento comportamental de menores, impondo multas de até 20% do valor global vendas anuais para empresas infratoras.
Embora a Lei tenha sido recebida pela mídia como uma resposta direta à crescente influência de gigantes da tecnologia como Facebook e Google, a escala absoluta de não conformidade representada pela nova pesquisa sugere que a grande maioria das empresas da UE (incluindo escritórios residentes de empresas americanas negociando na Europa) estão legalmente expostos a multas do GDPR.
Além disso, a Itália impôs esta semana a multa máxima permitida de 10 milhões de euros (US$ 11.2 milhões) contra a Apple e o Google por explorar perfis de usuários, entre outras infrações.
Dados
Os sites examinados na nova pesquisa foram amostrados dos 10,000 principais sites listados no Quantcast, cujas políticas de privacidade em inglês foram extraídas por meio de pesquisas Yandex em VPNs baseadas no Reino Unido (para garantir que as políticas não fossem bloqueadas geograficamente) .
Os sites da UE foram obrigados a fornecer políticas de privacidade prescritas, cobrindo 18 requisitos centrais (veja o gráfico acima) desde que a Lei do Regulamento Geral de Proteção de Dados (GDPR) entrou em vigor em maio de 2018.
Os pesquisadores limitaram a extração de políticas de privacidade a um período de agosto de 2018 em diante, para permitir um tempo razoável para os domínios publicarem as políticas necessárias (um requisito do qual eles tinham conhecimento prévio por pelo menos um ano da fase de desenvolvimento de dois anos do RGPD desde 2016).
O processo de filtragem produziu um corpus de privacidade de 9,761 políticas, das quais 1,080 políticas foram selecionadas aleatoriamente pelos pesquisadores.
Pré-processando
A equipe empregou dois especialistas jurídicos para treinar quatro anotadores humanos para rotular cada uma das 18 possíveis políticas de privacidade exigidas pelo GDPR.
Alguns dos termos jurídicos nas políticas cobriam mais de um dos 18 requisitos, tornando necessário o uso de uma Rede Neural Convolucional (CNN) para detectar recursos de linguagem associados a cada política.
Uma tentativa inicial de treinar um modelo para identificar conformidade com base no idioma alcançou 80.5% de sucesso. Para melhorar esses resultados, os pesquisadores aplicaram Aprendizado ativo para reforçar o desempenho do modelo usando dados menos rotulados. Por esses meios, foi possível treinar o classificador CNN até uma precisão de 89.2%, com um Pontuação F1 de 0.88 (onde '1' é sucesso completo).
Para garantir que as incorporações de palavras fossem específicas à política de privacidade, os pesquisadores treinaram um modelo de incorporação de palavras não supervisionado usando o Facebook Texto Rápido Biblioteca Python.
De acordo com a prática padrão, os dados finais foram divididos 80/20 entre dados treinados e dados de teste (ou seja, dados selecionados aleatoriamente contra os quais a precisão do algoritmo será julgada). Um estudo de medição humano-in-the-loop foi adicionado à arquitetura para avaliar a qualidade dos resultados.

A arquitetura do sistema classificador.
No decorrer do fluxo de trabalho, foram produzidos 11,271 segmentos de política de privacidade com anotações humanas, cada um dos quais foi revisado por quatro anotadores humanos treinados pelos dois especialistas jurídicos envolvidos no estudo. Quando houve discordância, foi necessária uma taxa de concordância de 75% para não rejeitar os dados da inclusão.

Humans-in-the-loop – não foi possível automatizar totalmente a rotulagem dos dados da política, embora o Active Learning permitisse um fluxo de trabalho baseado em pool que tornou o projeto viável.
Além dos resultados já citados, os usuários constataram que portabilidade – o direito sob o GDPR de translocar ou exportar dados mantidos por uma empresa – foi quase tão mal atendido quanto a criação de perfis.
Os pesquisadores concluíram:
"[Requisitos] como o Direito à Portabilidade dos usuários e o fornecimento das informações de contato do Encarregado da Proteção de Dados (DPO) são atendidos por 15.5% e 16.4% dos sites, respectivamente. Outros requisitos principais, como o direito dos usuários de Apresentar Reclamação, Retirar Consentimento, Direito de Objeção e Decisão de Adequação, são atendidos por 17% a 20% dos sites."
…E continue:
Parece que apenas 3% dos sites cumprem integralmente os 18 requisitos. Essas descobertas indicam que muitos sites ainda não cumprem os requisitos do GDPR.
7h 26/11/2021 – Esclarecida primeira legenda do gráfico. – MA