Líderes de pensamento
Existe uma Solução Clara para os Riscos de Privacidade Apresentados pela Inteligência Artificial Gerativa?
Os riscos de privacidade apresentados pela inteligência artificial gerativa são muito reais. Desde o aumento da vigilância e da exposição a campanhas de phishing e vishing mais eficazes do que nunca, a inteligência artificial gerativa erode a privacidade em massa, indiscriminadamente, enquanto fornece às pessoas más, seja criminosas, patrocinadas pelo Estado ou governamentais, as ferramentas de que necessitam para alvo indivíduos e grupos.
A solução mais clara para esse problema envolve os consumidores e os usuários coletivamente recusando o hype da IA, exigindo transparência daqueles que desenvolvem ou implementam recursos de IA chamados e regulamentação eficaz dos órgãos governamentais que supervisionam suas operações. Embora valha a pena lutar por isso, isso não é provável que aconteça em breve.
O que resta são abordagens razoáveis, mesmo que necessariamente incompletas, para mitigar os riscos de privacidade da inteligência artificial gerativa. A previsão de longo prazo, segura e entediante é que, quanto mais o público se torna educado sobre a privacidade de dados em geral, menores serão os riscos de privacidade apresentados pela adoção em massa da inteligência artificial gerativa.
Todos Entendem o Conceito de Inteligência Artificial Gerativa Corretamente?
O hype em torno da IA é tão onipresente que uma pesquisa do que as pessoas significam por inteligência artificial gerativa é dificilmente necessária. Claro, nenhuma dessas “recursos de IA”, funcionalidades e produtos realmente representam exemplos de inteligência artificial verdadeira, seja lá o que isso significaria. Em vez disso, são principalmente exemplos de aprendizado de máquina (ML), aprendizado profundo (DL) e grandes modelos de linguagem (LLMs).
A inteligência artificial gerativa, como o nome sugere, pode gerar novo conteúdo – seja texto (incluindo linguagens de programação), áudio (incluindo música e vozes humanas) ou vídeos (com som, diálogo, cortes e mudanças de câmera). Tudo isso é alcançado treinando LLMs para identificar, corresponder e reproduzir padrões em conteúdo gerado por humanos.
Vamos pegar o ChatGPT como exemplo. Como muitos LLMs, ele é treinado em três fases amplas:
- Pré-treinamento: Durante essa fase, o LLM é “alimentado” com material textual da internet, livros, periódicos acadêmicos e qualquer outra coisa que contenha texto potencialmente relevante ou útil.
- Ajuste fino de instruções supervisionadas: Os modelos são treinados para responder de forma mais coerente a instruções usando pares de instrução-resposta de alta qualidade, geralmente provenientes de humanos.
- Aprendizado por reforço com feedback humano (RLHF): LLMs como o ChatGPT frequentemente passam por essa etapa de treinamento adicional, durante a qual as interações com usuários humanos são usadas para refinar o alinhamento do modelo com casos de uso típicos.
As três fases do processo de treinamento envolvem dados, seja armazenamentos massivos de dados pré-coletados (como aqueles usados no pré-treinamento) ou dados coletados e processados quase em tempo real (como aqueles usados no RLHF). São esses dados que carregam a maior parte dos riscos de privacidade decorrentes da inteligência artificial gerativa.
Quais São os Riscos de Privacidade Apresentados pela Inteligência Artificial Gerativa?
A privacidade é comprometida quando informações pessoais concernentes a um indivíduo (o titular dos dados) são tornadas disponíveis a outras pessoas ou entidades sem o consentimento do titular dos dados. LLMs são pré-treinados e ajustados finamente em uma ampla gama de dados que podem e frequentemente incluem dados pessoais. Esses dados são tipicamente coletados de fontes publicamente disponíveis, mas nem sempre.
Mesmo quando esses dados são retirados de fontes publicamente disponíveis, terem sido agregados e processados por um LLM e, em seguida, essencialmente tornado pesquisáveis por meio da interface do LLM pode ser argumentado como uma violação adicional de privacidade.
A etapa de aprendizado por reforço com feedback humano (RLHF) complica as coisas. Nessa etapa de treinamento, interações reais com usuários humanos são usadas para corrigir e refinar iterativamente as respostas do LLM. Isso significa que as interações de um usuário com um LLM podem ser visualizadas, compartilhadas e disseminadas por qualquer pessoa com acesso aos dados de treinamento.
Na maioria dos casos, isso não é uma violação de privacidade, dado que a maioria dos desenvolvedores de LLMs inclui políticas de privacidade e termos de serviço que exigem que os usuários consentam antes de interagir com o LLM. O risco de privacidade aqui reside mais no fato de que muitos usuários não estão cientes de que concordaram com tal coleta e uso de dados. Tais usuários provavelmente revelarão informações privadas e sensíveis durante suas interações com esses sistemas, não percebendo que essas interações não são confidenciais nem privadas.
Dessa forma, chegamos aos três principais modos pelos quais a inteligência artificial gerativa apresenta riscos de privacidade:
- Grandes armazenamentos de dados de pré-treinamento que potencialmente contêm informações pessoais são vulneráveis a comprometimento e extração.
- Informações pessoais incluídas nos dados de pré-treinamento podem ser vazadas para outros usuários do mesmo LLM por meio de suas respostas a consultas e instruções.
- Informações pessoais e confidenciais fornecidas durante interações com LLMs acabam com os funcionários dos LLMs e possivelmente com contratantes terceirizados, de onde podem ser visualizadas ou vazadas.
Esses são todos riscos à privacidade dos usuários, mas as chances de informações de identificação pessoal (PII) acabarem nas mãos erradas ainda parecem relativamente baixas. Isso é, pelo menos, até que os corretores de dados entrem em cena. Essas empresas se especializam em farejar PII e coletar, agregar e disseminar, se não transmitir abertamente, essas informações.
Com PII e outros dados pessoais tendo se tornado uma espécie de commodity e a indústria de corretores de dados surgindo para lucrar com isso, qualquer dado pessoal que “saia” é muito provável que seja coletado por corretores de dados e espalhado longe e amplo.
Os Riscos de Privacidade da Inteligência Artificial Gerativa em Contexto
Antes de olhar para os riscos que a inteligência artificial gerativa apresenta à privacidade dos usuários no contexto de produtos, serviços e parcerias corporativas específicas, vamos dar um passo atrás e olhar de forma mais estruturada para a paleta completa de riscos da inteligência artificial gerativa. Escrevendo para o IAPP, Moraes e Previtali adotaram uma abordagem baseada em dados para refinar a “Taxonomia de Privacidade” de Solove de 2006, reduzindo os 16 riscos de privacidade descritos ali para 12 riscos de privacidade específicos de IA.
Esses são os 12 riscos de privacidade incluídos na taxonomia revisada de Moraes e Previtali:
- Vigilância: A IA exacerbates os riscos de vigilância aumentando a escala e a ubiquidade da coleta de dados pessoais.
- Identificação: As tecnologias de IA permitem o link automático de identidade em várias fontes de dados, aumentando os riscos relacionados à exposição de identidade pessoal.
- Agregação: A IA combina várias peças de dados sobre uma pessoa para fazer inferências, criando riscos de invasão de privacidade.
- Frenologia e fisiognomia: A IA infere personalidade ou atributos sociais a partir de características físicas, uma nova categoria de risco não presente na taxonomia de Solove.
- Uso secundário: A IA exacerbates o uso de dados pessoais para fins outros que não os originalmente pretendidos por meio da reutilização de dados.
- Exclusão: A IA torna a falha em informar ou dar controle aos usuários sobre como seus dados são usados pior por meio de práticas de dados opacas.
- Insegurança: A IA’s requisitos de dados e práticas de armazenamento de dados arriscam vazamentos de dados e acesso impróprio.
- Exposição: A IA pode revelar informações sensíveis, como por meio de técnicas de inteligência artificial gerativa.
- Distorção: A capacidade da IA de gerar conteúdo realista, mas falso, aumenta a disseminação de informações falsas ou enganosas.
- Divulgação: A IA pode causar a partilha imprópria de dados quando infere informações sensíveis adicionais a partir de dados brutos.
- Aumento da Acessibilidade: A IA torna informações sensíveis mais acessíveis a uma audiência mais ampla do que a pretendida.
- Intrusão: As tecnologias de IA invadem o espaço pessoal ou a solidão, frequentemente por meio de medidas de vigilância.
Isso faz uma leitura bastante alarmante. É importante notar que essa taxonomia, a seu crédito, leva em conta a tendência da inteligência artificial gerativa a alucinar – para gerar e apresentar confiantemente informações factualmente imprecisas. Esse fenômeno, embora raramente revele informações reais, também é um risco de privacidade. A disseminação de informações falsas e enganosas afeta a privacidade do sujeito de maneiras mais sutis do que no caso de informações precisas, mas afeta-a nonetheless.
Vamos mergulhar em alguns exemplos concretos de como esses riscos de privacidade entram em jogo no contexto de produtos de IA reais.
Interações Diretas com Sistemas de Inteligência Artificial Gerativa Baseados em Texto
O caso mais simples é aquele que envolve um usuário interagindo diretamente com um sistema de inteligência artificial gerativa, como o ChatGPT, Midjourney ou Gemini. As interações do usuário com muitos desses produtos são registradas, armazenadas e usadas para RLHF (aprendizado por reforço com feedback humano), ajuste fino de instruções supervisionadas e até mesmo o pré-treinamento de outros LLMs.
Uma análise das políticas de privacidade de muitos serviços como esses também revela outras atividades de compartilhamento de dados apoiadas por propósitos muito diferentes, como marketing e corretagem de dados. Isso é um tipo completamente diferente de risco de privacidade apresentado pela inteligência artificial gerativa: esses sistemas podem ser caracterizados como grandes funis de dados, coletando dados fornecidos pelos usuários, bem como aqueles gerados por meio de suas interações com o LLM subjacente.
Interações com Sistemas de Inteligência Artificial Gerativa Incorporados
Alguns usuários podem estar interagindo com interfaces de inteligência artificial gerativa que estão incorporadas em qualquer produto que estejam usando ostensivamente. O usuário pode saber que está usando um recurso “IA”, mas é menos provável que saiba o que isso envolve em termos de riscos de privacidade de dados. O que vem à tona com sistemas incorporados é essa falta de apreciação do fato de que dados pessoais compartilhados com o LLM podem acabar nas mãos dos desenvolvedores e possivelmente corretores de dados.
Há dois graus de falta de conscientização aqui: alguns usuários percebem que estão interagindo com um produto de inteligência artificial gerativa; e alguns acreditam que estão usando qualquer produto que a inteligência artificial gerativa esteja incorporada ou acessada. Em qualquer caso, o usuário pode ter (e provavelmente teve) tecnicamente consentido com os termos e condições associados às suas interações com o sistema incorporado.
Outras Parcerias que Exponem Usuários a Sistemas de Inteligência Artificial Gerativa
Algumas empresas incorporam ou incluem interfaces de inteligência artificial gerativa em seus softwares de maneiras menos óbvias, deixando os usuários interagindo – e compartilhando informações – com terceiros sem perceber. Felizmente, “IA” se tornou um ponto de venda tão eficaz que é improvável que uma empresa mantenha tais implementações em segredo.
Outro fenômeno nesse contexto é o crescente repúdio que tais empresas enfrentaram após tentar compartilhar dados de usuários ou clientes com empresas de inteligência artificial gerativa, como a OpenAI. A empresa de remoção de dados Optery, por exemplo, recentemente reverteu uma decisão de compartilhar dados de usuários com a OpenAI em uma base de opt-out, significando que os usuários foram inscritos no programa por padrão.
Não apenas os clientes foram rápidos em expressar sua insatisfação, mas o serviço de remoção de dados da empresa foi prontamente removido da lista de serviços de remoção de dados recomendados pela Privacy Guides. Para o crédito da Optery, ela reverteu rapidamente sua decisão, mas é o repúdio geral que é significativo aqui: as pessoas estão começando a apreciar os riscos de compartilhar dados com empresas de “IA”.
O caso da Optery serve como um bom exemplo aqui porque seus usuários estão, de certa forma, à vanguarda do crescente ceticismo em torno das implementações de inteligência artificial gerativa. Os tipos de pessoas que optam por um serviço de remoção de dados também são, tipicamente, aquelas que prestarão atenção às alterações nos termos de serviço e políticas de privacidade.
Evidências de um Repúdio em Desenvolvimento Contra o Uso de Dados de Inteligência Artificial Gerativa
Os consumidores conscientes da privacidade não foram os únicos a levantar preocupações sobre sistemas de inteligência artificial gerativa e seus riscos de privacidade de dados associados. No nível legislativo, o Ato de Inteligência Artificial da UE categoriza os riscos de acordo com sua gravidade, com a privacidade de dados sendo o critério explicita ou implicitamente declarado para a atribuição de gravidade na maioria dos casos. O Ato também aborda as questões de consentimento informado que discutimos anteriormente.
Os EUA, notoriamente lentos para adotar legislação de privacidade de dados abrangente e federal, têm pelo menos algumas barreiras em vigor graças à Ordem Executiva 14110. Mais uma vez, as preocupações com a privacidade dos dados estão à frente dos propósitos dados para a Ordem: “o uso irresponsável [das tecnologias de IA] pode exacerbate danos sociais, como fraude, discriminação, viés e desinformação” – todos relacionados à disponibilidade e disseminação de dados pessoais.
Voltando ao nível do consumidor, não são apenas os consumidores particularmente conscientes da privacidade que se recusaram a implementações invasivas de privacidade da inteligência artificial gerativa. O recurso “Recall” “impulsionado por IA” da Microsoft, destinado ao seu sistema operacional Windows 11, é um exemplo primário. Uma vez que a extensão dos riscos de privacidade e segurança foi revelada, o repúdio foi suficiente para causar que o gigante da tecnologia desse marcha à ré. Infelizmente, a Microsoft parece não ter desistido da ideia, mas a reação pública inicial é, no entanto, encorajadora.
Permanecendo com a Microsoft, seu programa Copilot foi amplamente criticado por problemas de privacidade e segurança de dados. À medida que o Copilot foi treinado em dados do GitHub (principalmente código-fonte), surgiram controvérsias em torno das violações alegadas da Microsoft dos acordos de licenciamento de software de programadores e desenvolvedores. São casos como esse que as linhas entre privacidade de dados e direitos de propriedade intelectual começam a se confundir, concedendo à primeira um valor monetário – algo que não é facilmente feito.
Talvez a maior indicação de que a IA está se tornando uma bandeira vermelha aos olhos dos consumidores seja a resposta pública morna, se não abertamente cautelosa, que a Apple recebeu em seu lançamento de IA inicial, especificamente em relação a acordos de compartilhamento de dados com a OpenAI.
As Soluções em Pequena Escala
Há etapas que os legisladores, desenvolvedores e empresas podem tomar para amenizar alguns dos riscos apresentados pela inteligência artificial gerativa. Essas são as soluções especializadas para aspectos específicos do problema abrangente, nenhuma delas é suficiente, mas todas elas, trabalhando juntas, poderiam fazer uma grande diferença.
- Minimização de dados. Minimizar a quantidade de dados coletados e armazenados é um objetivo razoável, mas é diretamente oposto ao desejo dos desenvolvedores de inteligência artificial gerativa por dados de treinamento.
- Transparência. Dada a atualidade da arte em ML, isso pode não ser tecnicamente viável em muitos casos. Visão geral do que os dados são processados e como ao gerar uma saída determinada é uma maneira de garantir a privacidade em interações com a inteligência artificial gerativa.
- Anonimização. Qualquer PII que não possa ser excluído dos dados de treinamento (por meio da minimização de dados) deve ser anonimizado. O problema é que muitas técnicas de anonimização e pseudonimização populares são facilmente derrotadas.
- Consentimento do usuário. Exigir que os usuários consentam com a coleta e compartilhamento de seus dados é essencial, mas muito aberto a abusos e muito propenso à complacência do consumidor para ser eficaz. É o consentimento informado que é necessário aqui e a maioria dos consumidores, devidamente informados, não consentiria com tal compartilhamento de dados, então os incentivos estão desalinhados.
- Proteger os dados em trânsito e em repouso. Outra base da privacidade e segurança de dados, proteger os dados por meio de criptografia e outros meios pode sempre ser feito de forma mais eficaz. No entanto, os sistemas de inteligência artificial gerativa tendem a vazar dados por meio de suas interfaces, tornando isso apenas parte da solução.
- Aplicar a lei de direitos autorais e propriedade intelectual no contexto da chamada IA. O ML pode operar em uma “caixa preta”, tornando difícil, se não impossível, rastrear que material com direitos autorais e propriedade intelectual acaba em qual saída de inteligência artificial gerativa.
- Auditorias. Outra medida de salvaguarda crucial frustrada pela natureza de caixa preta dos LLMs e dos sistemas de inteligência artificial gerativa que eles suportam. Agravando essa limitação inerente é a natureza de código fechado da maioria dos produtos de inteligência artificial gerativa, o que limita as auditorias àquelas realizadas à conveniência do desenvolvedor.
Todas essas abordagens para o problema são válidas e necessárias, mas nenhuma delas é suficiente. Elas todas exigem apoio legislativo para entrar em efeito significativo, o que significa que elas estão condenadas a ficar atrás dos tempos, à medida que esse campo dinâmico continua a evoluir.
A Solução Clara
A solução para os riscos de privacidade apresentados pela inteligência artificial gerativa não é revolucionária nem emocionante, mas levada à sua conclusão lógica, seus resultados poderiam ser ambos. A solução clara envolve os consumidores comuns se tornando conscientes do valor de seus dados para as empresas e do valor inestimável da privacidade de dados para si mesmos.
Os consumidores são as fontes e os motores por trás das informações privadas que alimentam o que é chamado de economia de vigilância moderna. Uma vez que uma massa crítica de consumidores comece a reduzir o fluxo de dados privados para a esfera pública e comece a exigir responsabilidade das empresas que lidam com dados pessoais, o sistema terá que se autocorrigir.
O aspecto encorajador da inteligência artificial gerativa é que, ao contrário dos atuais modelos de publicidade e marketing, ela não precisa envolver informações pessoais em nenhum estágio. Pré-treinamento e dados de ajuste fino não precisam incluir PII ou outros dados pessoais, e os usuários não precisam expor os mesmos durante suas interações com sistemas de inteligência artificial gerativa.
Para remover suas informações pessoais dos dados de treinamento, as pessoas podem ir direto à fonte e remover seus perfis dos vários corretores de dados (incluindo sites de busca de pessoas) que agregam registros públicos, trazendo-os para a circulação no mercado aberto. Serviços de remoção de dados pessoais automatizam o processo, tornando-o rápido e fácil. Claro, remover dados pessoais dos bancos de dados dessas empresas tem muitos outros benefícios e nenhum lado negativo.
As pessoas também geram dados pessoais ao interagir com software, incluindo inteligência artificial gerativa. Para reduzir o fluxo desses dados, os usuários terão que ser mais conscientes de que suas interações estão sendo registradas, revisadas, analisadas e compartilhadas. Suas opções para evitar isso se resumem a restringir o que revelam a sistemas online e usar LLMs de código aberto e em dispositivos sempre que possível. As pessoas, em geral, já fazem um bom trabalho de modular o que discutem em público – precisamos apenas estender esses instintos para o reino da inteligência artificial gerativa.












