Entre em contato

Líderes de pensamento

Três técnicas de aprendizado de máquina para preservação da privacidade que resolvem o problema mais importante desta década

mm

Publicado

 on

Por Amogh Tarcar, pesquisador de aprendizado de máquina e IA, Sistemas Persistentes.

A privacidade dos dados, de acordo com especialistas em uma ampla gama de domínios, será a questão mais importante desta década. Isso é particularmente verdadeiro para o aprendizado de máquina (ML), em que os algoritmos estão sendo alimentados com uma grande quantidade de dados.

Tradicionalmente, as técnicas de modelagem de ML dependem da centralização de dados de várias fontes em um único data center. Afinal, os modelos de ML são mais poderosos quando têm acesso a grandes quantidades de dados. No entanto, há uma série de desafios de privacidade que acompanham essa técnica. Agregar diversos dados de várias fontes é menos viável hoje devido a questões regulatórias como HIPAA, GDPR e CCPA. Além disso, a centralização de dados aumenta o escopo e a escala do uso indevido de dados e das ameaças à segurança na forma de vazamentos de dados.

Para superar esses desafios, vários pilares de aprendizado de máquina de preservação de privacidade (PPML) foram desenvolvidos com técnicas específicas que reduzem o risco de privacidade e garantem que os dados permaneçam razoavelmente seguros. Aqui estão alguns dos mais importantes:

1. Aprendizado federado

Aprendizado Federado é uma técnica de treinamento de ML que inverte o problema de agregação de dados. Em vez de agregar dados para criar um único modelo de ML, o aprendizado federado agrega os próprios modelos de ML. Isso garante que os dados nunca saiam de seu local de origem e permite que várias partes colaborem e criem um modelo de ML comum sem compartilhar dados confidenciais diretamente.

Funciona assim. Você começa com um modelo básico de ML que é compartilhado com cada nó cliente. Esses nós executam o treinamento local nesse modelo usando seus próprios dados. As atualizações do modelo são periodicamente compartilhadas com o nó coordenador, que processa essas atualizações e as funde para obter um novo modelo global. Dessa forma, você obtém insights de diversos conjuntos de dados sem precisar compartilhá-los.

Fonte: Sistemas Persistentes

No contexto da saúde, esta é uma ferramenta incrivelmente poderosa e sensível à privacidade para manter os dados do paciente seguros, ao mesmo tempo em que oferece aos pesquisadores a sabedoria da multidão. Ao não agregar os dados, o aprendizado federado cria uma camada extra de segurança. No entanto, os próprios modelos e atualizações de modelos ainda apresentam um risco de segurança se forem deixados vulneráveis.

2. Privacidade diferencial

Os modelos de ML geralmente são alvos de ataques de inferência de associação. Digamos que você fosse compartilhar seus dados de saúde com um hospital para ajudar a desenvolver uma vacina contra o câncer. O hospital mantém seus dados seguros, mas usa aprendizado federado para treinar um modelo de ML disponível publicamente. Alguns meses depois, os hackers usam um ataque de inferência de associação para determinar se seus dados foram usados ​​no treinamento do modelo ou não. Em seguida, eles passam informações para uma companhia de seguros, que, com base no seu risco de câncer, pode aumentar seus prêmios.

A privacidade diferencial garante que ataques adversários em modelos de ML não sejam capazes de identificar pontos de dados específicos usados ​​durante o treinamento, mitigando assim o risco de expor dados de treinamento confidenciais no aprendizado de máquina. Isso é feito aplicando “ruído estatístico” para perturbar os dados ou os parâmetros do modelo de aprendizado de máquina durante o treinamento de modelos, dificultando a execução de ataques e a determinação se os dados de um determinado indivíduo foram usados ​​para treinar o modelo.

Por exemplo, o Facebook lançou recentemente Opaco, uma biblioteca de alta velocidade para treinar modelos PyTorch usando um algoritmo de treinamento de aprendizado de máquina baseado em privacidade diferencial chamado Differentially Private Stochastic Gradient Descent (DP-SGD). O gif abaixo destaca como ele usa ruído para mascarar dados.

 

Esse ruído é governado por um parâmetro chamado Epsilon. Se o valor de Epsilon for baixo, o modelo terá privacidade de dados perfeita, mas utilidade e precisão insatisfatórias. Inversamente, se você tiver um valor Epsilon alto, sua privacidade de dados diminuirá enquanto sua precisão aumentará. O truque é encontrar um equilíbrio para otimizar para ambos.

3. Criptografia homomórfica

A criptografia padrão é tradicionalmente incompatível com o aprendizado de máquina porque, uma vez que os dados são criptografados, eles não podem mais ser compreendidos pelo algoritmo de ML. No entanto, a criptografia homomórfica é um esquema de criptografia especial que nos permite continuar a fazer certos tipos de cálculos.

Fonte: OpenMined

O poder disso é que o treinamento pode acontecer em um espaço totalmente criptografado. Ele não apenas protege os proprietários de dados, mas também protege os proprietários de modelos. O proprietário do modelo pode executar inferência em dados criptografados sem nunca vê-los ou usá-los indevidamente.

Quando aplicada ao aprendizado federado, a fusão de atualizações de modelo pode ocorrer com segurança porque ocorre em um ambiente totalmente criptografado, reduzindo drasticamente o risco de ataques de inferência de associação.

A Década da Privacidade

À medida que entramos em 2021, o aprendizado de máquina para preservação da privacidade é um campo emergente com pesquisas notavelmente ativas. Se a última década foi sobre unsiloing de dados, esta década será sobre unsiloing de modelos de ML, preservando a privacidade dos dados subjacentes por meio de aprendizado federado, privacidade diferencial e criptografia homomórfica. Estes apresentam uma nova maneira promissora de avançar soluções de aprendizado de máquina de maneira consciente da privacidade.

Amogh é um pesquisador de Machine Learning e parte do AI Research Lab em Sistemas Persistentes. Sua pesquisa atual se concentra em aplicativos de aprendizado federado e na construção de ferramentas de PNL para extração de conhecimento.