Ângulo de Anderson

Proteção de Prompt contra Vazamentos de Dados de LLM

Published February 27, 2025

Updated April 3, 2026

Martin Anderson

ChatGPT-4o: 'Orthographic 1792x1024 view of a SIMs-like police officer holding up his hand to a citizen to stop them going any further'

Opinião Uma interessante submissão da IBM NeurIPS 2024 submissão de fins de 2024 resurfaced on Arxiv last week. Ela propõe um sistema que pode intervir automaticamente para proteger os usuários de submeter informações pessoais ou sensíveis em uma mensagem quando estão tendo uma conversa com um Modelo de Linguagem Grande (LLM) como ChatGPT.

Mock-up examples used in a user study to determine the ways that people would prefer to interact with a prompt-intervention service. Source: https://arxiv.org/pdf/2502.18509

Os mock-ups mostrados acima foram empregados pelos pesquisadores da IBM em um estudo para testar a fricção potencial do usuário com esse tipo de ‘interferência’.

Embora sejam fornecidos poucos detalhes sobre a implementação da GUI, podemos supor que tal funcionalidade poderia ser incorporada a um plugin de navegador comunicando com um framework LLM de “firewall” local; ou que um aplicativo poderia ser criado que possa se conectar diretamente (por exemplo) à API da OpenAI, efetivamente recriando o próprio programa autônomo da OpenAI para ChatGPT, mas com salvaguardas extras.

Isso dito, o ChatGPT em si mesmo censura automaticamente respostas a prompts que ele percebe conter informações críticas, como detalhes bancários:

ChatGPT se recusa a engajar-se com prompts que contêm informações de segurança críticas percebidas, como detalhes bancários (os detalhes no prompt acima são fictícios e não funcionais). Source: https://chatgpt.com/

No entanto, o ChatGPT é muito mais tolerante em relação a diferentes tipos de informações pessoais – mesmo que a disseminação de tais informações de alguma forma não seja do melhor interesse do usuário (neste caso, talvez por várias razões relacionadas ao trabalho e à divulgação):

O exemplo acima é fictício, mas o ChatGPT não hesita em se engajar em uma conversa com o usuário sobre um assunto sensível que constitui um potencial risco de reputação ou ganhos (o exemplo acima é totalmente fictício).

Nesse caso, poderia ter sido melhor escrever: ‘Qual é o significado de um diagnóstico de leucemia na capacidade de uma pessoa de escrever e na sua mobilidade?’

O projeto da IBM identifica e reinterpreta tais solicitações de uma postura ‘pessoal’ para uma postura ‘genérica’.

Esquema para o sistema da IBM, que usa LLMs locais ou heurísticas baseadas em NLP para identificar material sensível em prompts potenciais.

Isso assume que o material coletado por LLMs online, nessa fase nascente da adoção entusiástica do chat de IA pelo público, nunca será alimentado por modelos subsequentes ou por frameworks de publicidade posteriores que possam explorar consultas de pesquisa baseadas em usuário para fornecer publicidade direcionada.

Embora nenhum sistema ou arranjo desse tipo seja conhecido atualmente, tampouco era essa funcionalidade disponível no início da adoção da internet na década de 1990; desde então, compartilhamento de informações entre domínios para alimentar publicidade personalizada levou a diversos escândalos, bem como paranoia.

Portanto, a história sugere que seria melhor sanitizar as entradas de prompt de LLM agora, antes que esses dados se acumulem em volume, e antes que nossas submissões baseadas em LLM terminem em bancos de dados cíclicos permanentes e/ou modelos, ou outras estruturas e esquemas baseados em informações.

Lembre-se de Mim?

Um fator que pesa contra o uso de prompts ‘genéricos’ ou sanitizados de LLM é que, francamente, a capacidade de personalizar uma API de LLM cara, como o ChatGPT, é bastante atraente, pelo menos no estado atual da arte – mas isso pode envolver a exposição a longo prazo de informações privadas.

Eu frequentemente peço ao ChatGPT que me ajude a formular scripts do Windows PowerShell e arquivos BAT para automatizar processos, bem como em outras questões técnicas. Para isso, eu acho útil que o sistema memorize permanentemente detalhes sobre o hardware que tenho disponível; minhas competências técnicas existentes (ou falta delas); e vários outros fatores ambientais e regras personalizadas:

ChatGPT permite que um usuário desenvolva um ‘cache’ de memórias que serão aplicadas quando o sistema considera respostas a prompts futuros.

Inevitavelmente, isso mantém informações sobre mim armazenadas em servidores externos, sujeitas a termos e condições que podem evoluir ao longo do tempo, sem nenhuma garantia de que a OpenAI (embora possa ser qualquer outro grande provedor de LLM) respeitará os termos que estabeleceu.

Em geral, no entanto, a capacidade de construir um cache de memórias no ChatGPT é mais útil devido à janela de atenção limitada dos LLMs em geral; sem embeddings personalizados de longo prazo, o usuário sente, frustrantemente, que está conversando com uma entidade que sofre de amnésia anterógrada.

É difícil dizer se os novos modelos eventualmente se tornarão performáticos o suficiente para fornecer respostas úteis sem a necessidade de cache de memórias, ou para criar GPTs personalizados armazenados online.

Amnésia Temporária

Embora se possa fazer com que as conversas do ChatGPT sejam ‘temporárias’, é útil ter o histórico da conversa como uma referência que pode ser distilada, quando o tempo permitir, em um registro local mais coerente, talvez em uma plataforma de notas; mas, de qualquer forma, não podemos saber exatamente o que acontece com essas ‘conversas descartadas’ (embora a OpenAI afirme que elas não serão usadas para treinamento, não afirma que elas são destruídas), com base na infraestrutura do ChatGPT. Tudo o que sabemos é que as conversas não aparecem mais em nosso histórico quando ‘Conversas temporárias’ está ativado no ChatGPT.

Vários controvérsias recentes indicam que provedores baseados em API, como a OpenAI, não devem necessariamente ser deixados encarregados de proteger a privacidade do usuário, incluindo a descoberta de memorização emergente, significando que LLMs maiores são mais propensos a memorizar alguns exemplos de treinamento em sua totalidade, e aumentando o risco de divulgação de dados de usuário específicos – entre outros incidentes públicos que convenceram uma multidão de grandes empresas, como a Samsung, a proibir LLMs para uso interno.

Pense Diferente

Essa tensão entre a utilidade extrema e o risco potencial manifesto de LLMs precisará de soluções inventivas – e a proposta da IBM parece ser um modelo básico interessante nessa linha.

Três reformulações baseadas na IBM que equilibram utilidade contra privacidade de dados. Na faixa inferior (rosa), vemos um prompt que está além da capacidade do sistema de sanitizar de forma significativa.

A abordagem da IBM intercepta pacotes de saída para um LLM no nível da rede e reescreve-os conforme necessário antes que o original possa ser submetido. As integrações GUI mais elaboradas vistas no início do artigo são apenas ilustrativas de onde essa abordagem poderia ir, se desenvolvida.

É claro, sem agência suficiente, o usuário pode não entender que está recebendo uma resposta a uma reformulação ligeiramente alterada de sua submissão original. Essa falta de transparência é equivalente a um firewall de sistema operacional que bloqueia o acesso a um site ou serviço sem informar o usuário, que pode então erroneamente procurar outras causas para o problema.

Prompts como Liabilities de Segurança

A perspectiva de ‘intervenção de prompt’ se assemelha bem à segurança do Windows OS, que evoluiu de um patchwork de produtos comerciais (opcionalmente instalados) na década de 1990 para um conjunto rígido e não opcional de ferramentas de defesa de rede que vêm como padrão com uma instalação do Windows, e que exigem algum esforço para desativar ou diminuir a intensidade.

Se a sanitização de prompts evoluir como os firewalls de rede fizeram ao longo dos últimos 30 anos, a proposta do papel da IBM poderia servir como um plano para o futuro: implantar um LLM totalmente local na máquina do usuário para filtrar prompts de saída direcionados a APIs de LLM conhecidas. Esse sistema naturalmente precisaria integrar frameworks GUI e notificações, dando aos usuários controle – a menos que políticas administrativas o substituam, como frequentemente ocorre em ambientes de negócios.

Os pesquisadores conduziram uma análise de uma versão de código aberto do conjunto de dados ShareGPT para entender como frequentemente a privacidade contextual é violada em cenários do mundo real.

Llama-3.1-405B-Instruct foi empregado como um ‘modelo juiz’ para detectar violações de integridade contextual. De um grande conjunto de conversas, um subconjunto de conversas de uma única volta foi analisado com base no comprimento. O modelo juiz então avaliou o contexto, informações sensíveis e necessidade de conclusão da tarefa, levando à identificação de conversas que contêm violações potenciais de integridade contextual.

Um subconjunto menor dessas conversas, que demonstrou violações definitivas de privacidade contextual, foi analisado mais a fundo.

O próprio framework foi implementado usando modelos que são menores do que os agentes de chat típicos, como o ChatGPT, para permitir a implantação local via Ollama.

Esquema para o sistema de intervenção de prompt.

Os três LLMs avaliados foram Mixtral-8x7B-Instruct-v0.1; Llama-3.1-8B-Instruct; e DeepSeek-R1-Distill-Llama-8B.

Os prompts do usuário são processados pelo framework em três etapas: identificação de contexto; classificação de informações sensíveis; e reformulação.

Duas abordagens foram implementadas para a classificação de informações sensíveis: dinâmica e estruturada classificação: a classificação dinâmica determina os detalhes essenciais com base em seu uso dentro de uma conversa específica; a classificação estruturada permite a especificação de uma lista pré-definida de atributos sensíveis que são sempre considerados não essenciais. O modelo reformula o prompt se ele detecta detalhes sensíveis não essenciais, removendo-os ou reescrevendo-os para minimizar riscos de privacidade, mantendo a usabilidade.

Regras de Casa

Embora a classificação estruturada como um conceito não seja bem ilustrada no papel da IBM, ela é mais semelhante ao método ‘Definições de Dados Privados’ na iniciativa Private Prompts, que fornece um programa autônomo baixável que pode reescrever prompts – embora sem a capacidade de intervir diretamente no nível da rede, como a abordagem da IBM faz (em vez disso, o usuário deve copiar e colar os prompts modificados).

O executável Private Prompts permite uma lista de substituições alternativas para texto de entrada do usuário.

Na imagem acima, podemos ver que o usuário do Private Prompts pode programar substituições automatizadas para instâncias de informações sensíveis. Em ambos os casos, para Private Prompts e o método da IBM, parece improvável que um usuário com presença de mente e insight pessoal suficientes para curar tal lista realmente precise desse produto – embora possa ser construído ao longo do tempo à medida que incidentes se acumulam.

Em uma função de administrador, a classificação estruturada poderia funcionar como um firewall ou censor-net imposto para funcionários; e em uma rede doméstica, poderia, com alguns ajustes difíceis, se tornar um filtro de rede doméstico para todos os usuários da rede; mas, em última análise, esse método é arguivelmente redundante, pois um usuário que pudesse configurar isso corretamente também poderia censurar-se efetivamente desde o início.

Opinião do ChatGPT

Desde que o ChatGPT lançou recentemente sua ferramenta de pesquisa profunda para usuários pagantes, eu usei essa facilidade para pedir ao ChatGPT que revisasse a literatura relacionada e me desse uma opinião ‘cínica’ sobre o papel da IBM. Eu recebi a resposta mais defensiva e depreciativa que o sistema já deu quando solicitado a avaliar ou analisar uma nova publicação:

ChatGPT-4o tem uma baixa opinião do projeto da IBM.

‘Se os usuários não confiam na OpenAI, Google ou Anthropic para lidar com seus dados de forma responsável,’ o ChatGPT argumenta. ‘por que confiariam em uma camada de software de terceiros que fica entre eles e a IA? O intermediário em si se torna um novo ponto de falha – potencialmente registrando, manipulando ou até mesmo vazando dados antes que eles cheguem ao LLM. Isso não resolve nada se criar apenas outra entidade para explorar os dados do usuário.’

Essa objeção parece ser auto-serviça e não aplicável, dado o histórico de projetos de código aberto que realmente beneficiam os usuários finais por meio dos esforços de longo prazo de desenvolvedores e contribuintes da comunidade; e dado o potencial crescente de dispositivos móveis para executar – e até mesmo treinar – LLMs leves. Certamente, nesse caso, o caso de uso não é terrivelmente exigente.

Em seguida, o ChatGPT confiantemente perde o ponto de ter um LLM leve fornecer supervisão de entrada para um LLM comercial que não poderia ser executado localmente (porque o LLM é muito grande, e permitir acesso local é muito arriscado para a empresa que o faz):

‘A filtragem de privacidade eficaz requer entender a entrada antes de decidir o que remover. Se um intermediário é inteligente o suficiente para reconhecer dados sensíveis (nomes, endereços, detalhes financeiros), então ele já está processando e analisando esses dados – significando que ele tem que armazenar ou examinar exatamente a coisa que ele supostamente deve apagar.

‘Isso introduz um paradoxo: a) Um filtro bobo (substituição de regex básica) será ineficaz e perderá riscos de privacidade sutis. b) Um filtro inteligente (reescrita baseada em LLM) tem que processar a entrada completa, tornando-o tão perigoso quanto o LLM original.

‘Se você confia no intermediário o suficiente para ler e reescrever suas entradas, por que não confia no próprio LLM?’

A resposta para a última pergunta aqui é que o LLM local é destinado a estar inteiramente do lado do usuário e, inevitavelmente, de código aberto, com necessidade mínima ou zero de acesso à rede. Uma versão comercial equivalente, no entanto bem-intencionada no início, eventualmente estaria vulnerável a mudanças corporativas e alterações nos termos de serviço, enquanto uma licença de código aberto adequada impediria esse tipo de ‘corrupção inevitável’.

O ChatGPT argumentou ainda que a proposta da IBM ‘quebra a intenção do usuário’, pois poderia reinterpretar um prompt em uma alternativa que afeta sua utilidade. No entanto, isso é um problema muito mais amplo na sanitização de prompts, e não específico para esse caso de uso.

Ao fechar (ignorando sua sugestão de usar LLMs locais ’em vez’, que é exatamente o que o papel da IBM realmente propõe), o ChatGPT opinou que o método da IBM representa uma barreira à adoção devido à ‘fricção do usuário’ de implementar métodos de edição e aviso em um chat.

Aqui, o ChatGPT pode estar certo; mas se uma pressão significativa vier a ser aplicada devido a incidentes públicos adicionais, ou se os lucros em uma zona geográfica forem ameaçados devido à regulamentação crescente (e a empresa se recusa a simplesmente abandonar a região afetada inteiramente), a história da tecnologia de consumo sugere que salvaguardas eventualmente não serão mais opcionais de qualquer forma.

Conclusão

Não podemos realisticamente esperar que a OpenAI implemente salvaguardas do tipo proposto no papel da IBM, e no conceito central por trás dele; pelo menos, não efetivamente.

E certamente não globalmente; assim como a Apple bloqueia certas funcionalidades do iPhone na Europa, e o LinkedIn tem regras diferentes para explorar os dados de seus usuários em diferentes países, é razoável sugerir que qualquer empresa de IA irá recorrer aos termos e condições mais lucrativos que sejam toleráveis para qualquer nação específica em que opera – em cada caso, às custas do direito do usuário à privacidade de dados, conforme necessário.

Publicado pela primeira vez na quinta-feira, 27 de fevereiro de 2025

Atualizado na quinta-feira, 27 de fevereiro de 2025 15:47:11 devido a um link relacionado à Apple incorreto – MA