Connect with us

Analisando 25 Anos de Políticas de Privacidade com Aprendizado de Máquina

Inteligência artificial

Analisando 25 Anos de Políticas de Privacidade com Aprendizado de Máquina

mm

Um estudo recente utilizou técnicas de análise de aprendizado de máquina para mapear a legibilidade, utilidade, comprimento e complexidade de mais de 50.000 políticas de privacidade em sites populares em um período que abrange 25 anos, de 1996 a 2021. A pesquisa conclui que o leitor médio precisaria dedicar 400 horas de ‘tempo de leitura anual’ (mais de uma hora por dia) para penetrar nos word counts crescentes, linguagem obscurecida e linguagem vaga que caracterizam as políticas de privacidade modernas de alguns dos sites mais frequentados.

O relatório afirma:

‘O comprimento médio da política quase dobrou nos últimos dez anos, com 2159 palavras em março de 2011 e 4191 palavras em março de 2021, e quase quadruplicou desde 2000 (1146 palavras).’

A contagem média de palavras e frases entre o corpus estudado, ao longo de um período de 25 anos.

A contagem média de palavras e frases entre o corpus estudado, ao longo de um período de 25 anos. Fonte: https://arxiv.org/pdf/2201.08739.pdf

Embora a taxa de aumento no comprimento tenha disparado quando as proteções do GDPR e da Lei de Privacidade do Consumidor da Califórnia (CCPA) entraram em vigor, o artigo descarta essas variações como ‘tamanhos de efeito pequenos’ que parecem ser insignificantes contra a tendência de longo prazo mais ampla. No entanto, o GDPR é identificado como uma possível causa do aumento da linguagem ‘vaga’ nas políticas (veja abaixo).

Supondo uma velocidade de leitura de 250 palavras por minuto, o artigo afirma que a política de privacidade média agora leva 17 minutos para ler, enquanto as políticas mais populares (ou seja, políticas associadas a um grande número de usuários) levam 23 minutos para serem concluídas.

A política mais longa no conjunto de dados, da Microsoft, requer 152 minutos para ser consumida, de acordo com a pesquisa, que utilizou uma série de variantes no modelo de linguagem BERT do Google.

Crescimento na taxa de horas anuais necessárias para ler as políticas de privacidade modernas, supondo que o leitor visite 1462 sites únicos por ano.

Crescimento na taxa de horas anuais necessárias para ler as políticas de privacidade modernas, supondo que o leitor visite 1462 sites únicos por ano.

Muito do aumento recente na verbosidade e ambiguidade nas políticas de privacidade é atribuído pelo artigo como uma reação às tentativas nos últimos dois décadas de impor regulamentações, mas também ao uso desonesto dos requisitos de conformidade regulatória como um pretexto para aumentar stealthily o escopo e a opacidade das políticas de privacidade.

‘Em geral, nossos resultados mostram que as regulamentações de privacidade recentes não melhoraram substancialmente a privacidade dos usuários online, mas levaram a políticas de privacidade mais infladas que descrevem práticas de dados mais invasivas e mais.’

O artigo é intitulado Políticas de Privacidade Ao Longo dos Anos: Conteúdo e Legibilidade das Políticas de Privacidade 1996–2021, e vem de Isabel Wagner do Cyber Technology Institute da De Montfort University no Reino Unido.

Linguagem Elíptica

O relatório também sugere que o número médio de ‘palavras obscurecedoras’ (ou seja, aceitável, significativo, principalmente, e outras palavras que não fornecem um significado definitivo) em políticas de privacidade aumentou constantemente até 2018, mas então disparou de uma mediana de 227 em torno de março de 2018 para 304 em junho de 2020.

O autor afirma que esse aumento é atribuível aos efeitos do GDPR, e o artigo descobre que mais de dois terços (72%) das frases nas políticas de privacidade estudadas continham pelo menos uma palavra obscurecedora.

Legibilidade

Em três medidas comuns de dificuldade de leitura, o estudo encontrou que ‘as políticas de privacidade se tornaram cada vez mais difíceis de ler ao longo dos anos’. Os autores estimam que 41% das políticas atuais aplicáveis disponíveis em 2021 tinham uma mediana Flesch Reading Ease (FRE, mais é melhor) de apenas 31,8, com o autor observando ‘Essa pontuação indica um texto muito difícil que é melhor entendido por graduados universitários’.

Ao mesmo tempo, apenas 6,7% das políticas alcançaram uma pontuação FRE acima de 45 (o que, o relatório observa, é o padrão de leitura necessário para políticas de seguros no estado da Flórida).

Conscientização sobre Alterações de Política

O trabalho também aborda a extensão em que as políticas de privacidade incluem detalhes sobre como o possível consentidor será notificado no evento de atualizações subsequentes, o que pode afetar a disposição do usuário de manter o acordo.

O autor observa:

‘Em 2021, 73% das políticas incluem uma declaração sobre alteração de política. Desses, 34% afirmam que as alterações serão anunciadas por um aviso na política de privacidade, 37% publicarão um aviso no site e 22% enviarão um aviso pessoal (as políticas restantes deixam o tipo de notificação não especificado).

‘Como resultado, a maioria dos usuários é improvável que se torne ciente das alterações nas políticas de privacidade. ‘

‘Além disso, os usuários são oferecidos quase nenhuma escolha significativa quando as políticas mudam. Das políticas que notificam o usuário sobre alterações, apenas 12% oferecem um novo opt-in, enquanto 34% não dão escolha e 54% deixam isso não especificado.’

As descobertas do artigo sobre os métodos descritos para notificar os usuários sobre alterações de política.

As descobertas do artigo sobre os métodos descritos para notificar os usuários sobre alterações de política.

Escolha Limitada sobre Rastreamento

De acordo com o estudo, uma gama muito maior de mecanismos é oferecida nas políticas de privacidade para acessar informações de conta de usuário do que para acessar dados de perfil de usuário. Os dados de perfil podem ser criados e atualizados por mecanismos automatizados e não óbvios, enquanto os dados de conta de usuário são não apenas explicitamente concedidos pelo usuário, mas também obrigados a ser editáveis sob as regulamentações de várias jurisdições.

A escolha do consumidor sobre o consentimento de cookie nas políticas de privacidade (um tópico que atraiu debate acalorado desde a adoção do GDPR promulgou centenas de milhares de popups de consentimento de cookie para instâncias da UE de sites internacionais e europeus) é geralmente abordada nas políticas, mas esconde uma camada mais importante de dados menos acessíveis:

‘[As] escolhas sobre cookies são insuficientes para proteger os usuários de todo o rastreamento porque mecanismos de escolha ou controle são raramente oferecidos para informações de computador, identificadores de dispositivo, e identificadores pessoais, que permitem o rastreamento de usuários por meio de impressão digital.’

Um contraste marcante no nível de controle concedido pelas políticas de privacidade entre os dados de perfil (que podem ser obtidos por meios implícitos ou sigilosos) e os dados de conta de usuário (onde alguma medida de controle é frequentemente exigida pelo GDPR, pela Lei de Privacidade do Consumidor da Califórnia (CCPA) e por mecanismos nacionais e regionais semelhantes).

Um contraste marcante no nível de controle concedido pelas políticas de privacidade entre os dados de perfil (que podem ser obtidos por meios implícitos ou sigilosos) e os dados de conta de usuário (onde alguma medida de controle é frequentemente exigida pelo GDPR, pela Lei de Privacidade do Consumidor da Califórnia (CCPA) e por mecanismos nacionais e regionais semelhantes).

Dados

Para obter os dados para o estudo, o autor rastreou sites para links para suas políticas de privacidade, frequentemente encontrando necessário ampliar o escopo além do resultado inicial, devido ao número de políticas não integrais que linkam para políticas adicionais (cada uma das quais tem potencial para mudar seja em conjunto com ou independentemente da política pai ou relacionada).

A Wayback Machine foi usada para obter políticas históricas, embora tenha sido necessário, ao considerar os resultados, levar em conta as políticas que foram bloqueadas de rastreamento ou arquivamento por meio de um arquivo de configuração robots.txt (um pequeno arquivo de texto contendo instruções para agentes de indexação de web-crawling sobre páginas e outras entidades que não devem ser incluídas em um índice público).

Uma captura por mês foi obtida da Wayback Machine por sua CDX API para cada política aplicável identificável e contínua, usando Firefox sob Selenium. Realizar reconhecimento óptico de caracteres em políticas disponíveis apenas em formato PDF não foi considerado para o projeto, que limitou-se ao (muito maior) número de políticas HTML disponíveis.

Um resultado interessante do projeto é que a clareza e legibilidade dos sites pornográficos realmente melhoraram ao longo do intervalo estudado – possivelmente em antecipação às crescentes demandas por regulamentação e clareza. Para reunir esses documentos, foi necessário obtê-los com crawls adicionais de endereços IP residenciais, devido aos protocolos de bloqueio de conteúdo da universidade.

Inicialmente, 1.068.683 documentos foram obtidos, equivalentes a 120.265 documentos únicos contendo uma média de 39,1 artigos ou cláusulas de política e 4,4 textos de política únicos para cada link.

Inglês Somente

Como é comum em estudos recentes semelhantes, o projeto não foi capaz de abordar políticas de privacidade não em inglês, que foram descartadas durante a etapa de limpeza de dados usando o pacote PYCLD2.

Para distinguir as políticas de privacidade de outros tipos de material, o projeto usou um classificador desenvolvido em 2019 como uma iniciativa conjunta da Universidade de Wisconsin e da École Polytechnique Fédérale de Lausanne.

Arquitetura do classificador IS-POLICY. Fonte: https://arxiv.org/pdf/1809.08396.pdf

Arquitetura do classificador IS-POLICY. Fonte: https://arxiv.org/pdf/1809.08396.pdf

Embora o classificador IS-POLICY tenha sido treinado no mesmo corpus de 1.000 documentos que no artigo original, o autor teve que obter novos documentos não políticos para treinamento, desde que as fontes originais não estavam disponíveis.

Após a filtragem, os dados foram reduzidos para 56.416 políticas de privacidade únicas.

 

* A citação inline do artigo é convertida para um hyperlink aqui, a alternância de itálico é do artigo.

Publicado pela primeira vez em 31 de janeiro de 2022.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.