toco Dados sintéticos não protegem a privacidade de forma confiável, afirmam pesquisadores - Unite.AI
Entre em contato

Assistência médica

Dados sintéticos não protegem a privacidade de forma confiável, afirmam pesquisadores

mm

Publicado

 on

Uma nova colaboração de investigação entre a França e o Reino Unido põe em dúvida a crescente confiança da indústria de que os dados sintéticos podem resolver os problemas de privacidade, qualidade e disponibilidade (entre outros problemas) que ameaçam o progresso no sector da aprendizagem automática.

Entre vários pontos-chave abordados, os autores afirmam que os dados sintéticos modelados a partir de dados reais retêm informações genuínas suficientes para não fornecer proteção confiável contra ataques de inferência e associação, que buscam desanonimizar os dados e reassociá-los a pessoas reais.

Além disso, os indivíduos com maior risco de tais ataques, incluindo aqueles com condições médicas críticas ou altas contas hospitalares (no caso de anonimização de prontuários médicos), devido à natureza 'excepcional' de sua condição, têm maior probabilidade de serem reidentificados por essas técnicas.

O jornal observa:

'Com acesso a um conjunto de dados sintético, um adversário estratégico pode inferir, com alta confiança, a presença de um registro alvo nos dados originais.'

O jornal também observa que dados sintéticos diferencialmente privados, que obscurece a assinatura de registros individuais, de fato protege a privacidade dos indivíduos, mas apenas prejudicando significativamente a utilidade dos sistemas de recuperação de informações que o utilizam.

No mínimo, observam os pesquisadores, abordagens diferenciadamente privadas – que usam informações “reais” 'em um remover' via dados sintéticos – faça o cenário de segurança pior do que teria sido de outra forma:

'Conjuntos de dados [sintéticos] não fornecem nenhuma transparência sobre essa compensação. É impossível prever quais características de dados serão preservadas e quais padrões serão suprimidos.'

O novo papel, Com o título Dados Sintéticos – Anonimização Dia da Marmota, vem de dois pesquisadores da École Polytechnique Fédérale de Lausanne (EPFL) em Paris e um pesquisador da University College London (UCL).

Os pesquisadores realizaram testes de algoritmos de treinamento de modelos geradores privados existentes e descobriram que certas decisões de implementação violam as garantias formais de privacidade fornecidas nas estruturas, deixando diversos registros expostos a ataques de inferência.

Os autores oferecem uma versão revisada de cada algoritmo que potencialmente atenua essas exposições e estão tornando o código disponível como uma biblioteca de código aberto. Eles afirmam que isso ajudará os pesquisadores a avaliar os ganhos de privacidade de dados sintéticos e a comparar métodos populares de anonimização. A nova estrutura incorpora dois métodos pertinentes de ataque à privacidade que podem ser aplicados a qualquer algoritmo de treinamento de modelo generativo.

Dados Sintéticos

Os dados sintéticos são usados ​​para treinar modelos de aprendizado de máquina em vários cenários, incluindo casos em que a falta de informações abrangentes pode ser preenchida por dados substitutos. Um exemplo disso é a possibilidade de usar rostos gerados por CGI para fornecer fotos de rosto 'difíceis' ou infrequentes para conjuntos de dados de síntese de imagens, onde imagens de perfil, ângulos agudos ou expressões incomuns raramente são vistos no material de origem.

Outros tipos de imagens CGI foram usados ​​para preencher conjuntos de dados que eventualmente serão executados em dados não sintéticos, como conjuntos de dados que apresentam mãos e mobiliário.

Em termos de proteção de privacidade, dados sintéticos podem ser gerados a partir de dados reais por sistemas Generative Adversarial Network (GAN) que extraem recursos dos dados reais e criam registros fictícios semelhantes que provavelmente serão generalizados para dados posteriores (não vistos, reais), mas destinam-se a ofuscar detalhes de pessoas reais apresentadas nos dados de origem.

Metodologia

Para os propósitos da nova pesquisa, os autores avaliaram os ganhos de privacidade em cinco algoritmos de treinamento de modelo generativo. Três dos modelos não oferecem proteção de privacidade explícita, enquanto os outros dois vêm com garantias de privacidade diferenciadas. Esses modelos tabulares foram escolhidos para representar uma ampla gama de arquiteturas.

As modelos atacadas foram BayNet, PrivBay (uma derivação de PrivBayes/BayNet), CTGAN, pategã e IndHist.

A estrutura de avaliação para os modelos foi implementada como uma biblioteca Python com duas classes principais – Modelos Gerativos e Ataques de Privacidade. O último apresenta duas facetas – um adversário de inferência de associação e um ataque de inferência de associação. A estrutura também é capaz de avaliar os benefícios de privacidade de dados 'sanitizados' (isto é, anonimizados) e dados sintéticos.

Os dois conjuntos de dados usados ​​nos testes foram os Conjunto de dados para adultos do UCI Machine Learning Repository, e o Arquivo de Dados de Uso Público de Dados de Alta Hospitalar do Departamento de Serviços de Saúde do Estado do Texas. A versão do conjunto de dados do Texas usada pelos pesquisadores contém 50,000 registros amostrados de registros de pacientes para o ano de 2013.

Ataques e Descobertas

O objetivo geral da pesquisa é estabelecer a ‘ligabilidade’ (a reassociação de dados reais com dados sintéticos que nele foram inspirados). Os modelos de ataque usados ​​no estudo incluem regressão logística, florestas aleatórias e classificadores K-vizinhos mais próximos.

Os autores selecionaram dois grupos-alvo que consistem em cinco registros selecionados aleatoriamente para categorias 'minoritárias' da população, uma vez que são provavelmente ser suscetível a um ataque de ligação. Eles também selecionaram registros com 'valores de atributos categóricos raros' fora do quantil de 95% dos atributos. Os exemplos incluem registros relacionados a alto risco de mortalidade, altas despesas hospitalares totais e gravidade da doença.

Embora o artigo não descreva esse aspecto, do ponto de vista de prováveis ​​invasores do mundo real, esses são exatamente os tipos de pacientes 'caros' ou de 'alto risco' com maior probabilidade de serem alvo de inferência de associação e outros tipos de abordagens de exfiltração aos prontuários dos pacientes.

Vários modelos de ataque foram treinados com base em informações de referência pública para desenvolver “modelos sombra” em dez alvos. Os resultados de uma série de experiências (conforme descrito anteriormente) indicam que vários registos eram “altamente vulneráveis” a ataques de ligação dirigidos a eles pelos investigadores. Os resultados também descobriram que 20% de todos os alvos nos testes receberam um ganho de privacidade de zero a partir de dados sintéticos produzidos por métodos GAN.

Os pesquisadores observam que os resultados variam, dependendo do método usado para gerar dados sintéticos, o vetor de ataque e os recursos do conjunto de dados de destino. O relatório constata que, em muitos casos, a supressão efetiva de identidade por meio de abordagens de dados sintéticos diminui a utilidade dos sistemas resultantes. Efetivamente, a utilidade e precisão de tais sistemas podem, em muitos casos, ser um índice direto de quão vulneráveis ​​eles são a ataques de reidentificação.

Os pesquisadores concluíram:

'Se um conjunto de dados sintético preserva as características dos dados originais com alta precisão e, portanto, retém a utilidade dos dados para os casos de uso para os quais é anunciado, ele permite simultaneamente que os adversários extraiam informações confidenciais sobre os indivíduos.

'Um grande ganho de privacidade por meio de qualquer um dos mecanismos de anonimato que avaliamos só pode ser alcançado se a versão sintética ou sanitizada publicada dos dados originais não transmitir o sinal de registros individuais nos dados brutos e, de fato, suprimir seu registro.'