Ângulo de Anderson
Avisos de proteção contra vazamentos de dados do LLM

Opinião Um interessante IBM NeurIPS 2024 submissão do final de 2024 ressurgiu no Arxiv na semana passada. Ele propõe um sistema que pode intervir automaticamente para proteger os usuários de enviar informações pessoais ou confidenciais em uma mensagem quando eles estão tendo uma conversa com um Large Language Model (LLM), como ChatGPT.

Exemplos de simulação usados em um estudo de usuário para determinar as maneiras como as pessoas prefeririam interagir com um serviço de intervenção rápida. Fonte: https://arxiv.org/pdf/2502.18509
Os modelos mostrados acima foram empregados por pesquisadores da IBM em um estudo para testar o potencial atrito do usuário a esse tipo de "interferência".
Embora sejam fornecidos poucos detalhes sobre a implementação da GUI, podemos supor que tal funcionalidade poderia ser incorporada a um plug-in do navegador comunicação com uma estrutura LLM de 'firewall' local; ou que um aplicativo poderia ser criado para se conectar diretamente (por exemplo) à API OpenAI, recriando efetivamente o próprio OpenAI para download programa autônomo para ChatGPT, mas com salvaguardas extras.
Dito isso, o próprio ChatGPT autocensura automaticamente as respostas a solicitações que ele percebe conter informações críticas, como dados bancários:

O ChatGPT se recusa a interagir com avisos que contenham informações de segurança consideradas críticas, como dados bancários (os detalhes no aviso acima são fictícios e não funcionais). Fonte: https://chatgpt.com/
No entanto, o ChatGPT é muito mais tolerante em relação a diferentes tipos de informações pessoais – mesmo que a divulgação dessas informações de qualquer forma possa não ser do melhor interesse do usuário (neste caso, talvez por vários motivos relacionados ao trabalho e à divulgação):

O exemplo acima é fictício, mas o ChatGPT não hesita em iniciar uma conversa com o usuário sobre um assunto delicado que constitui um potencial risco à reputação ou aos ganhos (o exemplo acima é totalmente fictício).
No caso acima, talvez fosse melhor escrever: 'Qual é o significado de um diagnóstico de leucemia na capacidade de uma pessoa escrever e na sua mobilidade?'
O projeto da IBM identifica e reinterpreta tais solicitações de uma postura "pessoal" para uma postura "genérica".

Esquema para o sistema IBM, que usa LLMs locais ou heurísticas baseadas em PNL para identificar material sensível em possíveis prompts.
Isto pressupõe que o material recolhido pelos LLMs online, nesta fase inicial de adopção entusiástica do chat de IA pelo público, nunca será transmitido a modelos subsequentes ou a estruturas de publicidade posteriores que possam explorar consultas de pesquisa baseadas no utilizador para fornecer potenciais publicidade direcionada.
Embora não se saiba que tal sistema ou arranjo exista actualmente, tal funcionalidade também não estava disponível no início da adopção da Internet, no início da década de 1990; desde então, compartilhamento de informações entre domínios alimentar publicidade personalizada levou a escândalos diversos, assim como paranóia.
Portanto, a história sugere que seria melhor higienizar as entradas de prompt do LLM agora, antes que esses dados se acumulem em volume e antes que nossos envios baseados no LLM acabem em bancos de dados e/ou modelos cíclicos permanentes ou outras estruturas e esquemas baseados em informações.
Lembre de mim?
Um fator que pesa contra o uso de prompts de LLM "genéricos" ou higienizados é que, francamente, a possibilidade de personalizar um LLM caro somente com API, como o ChatGPT, é bastante atraente, pelo menos no estado atual da arte — mas isso pode envolver a exposição de informações privadas a longo prazo.
Frequentemente peço ao ChatGPT para me ajudar a formular scripts do Windows PowerShell e arquivos BAT para automatizar processos, bem como em outras questões técnicas. Para esse fim, acho útil que o sistema memorize permanentemente detalhes sobre o hardware que tenho disponível; minhas competências de habilidades técnicas existentes (ou falta delas); e vários outros fatores ambientais e regras personalizadas:

O ChatGPT permite que um usuário desenvolva um "cache" de memórias que serão aplicadas quando o sistema considerar respostas a prompts futuros.
Inevitavelmente, isso mantém informações sobre mim armazenadas em servidores externos, sujeitas a termos e condições que podem evoluir ao longo do tempo, sem qualquer garantia de que a OpenAI (embora possa ser qualquer outro grande provedor de LLM) irá respeitar os termos que eles estabelecem.
Em geral, no entanto, a capacidade de construir um cache de memórias no ChatGPT é mais útil por causa da janela de atenção limitada dos LLMs em geral; sem incorporações de longo prazo (personalizadas), o usuário sente, frustrantemente, que está conversando com uma entidade que sofre de A amnésia anterógrada.
É difícil dizer se os modelos mais recentes acabarão por se tornar adequadamente eficientes para fornecer respostas úteis sem a necessidade de armazenar memórias em cache ou criar GPTs personalizados que são armazenados online.
Amnésia Temporária
Embora seja possível tornar as conversas do ChatGPT 'temporárias', é útil ter o histórico do Chat como uma referência que pode ser destilada, quando o tempo permitir, em um registro local mais coerente, talvez em uma plataforma de anotações; mas, em qualquer caso, não podemos saber exatamente o que acontece com esses chats 'descartados' (embora o OpenAI estados eles não serão usados para treinamento, não há nenhuma informação sobre sua destruição), com base na infraestrutura do ChatGPT. Tudo o que sabemos é que os chats não aparecem mais em nosso histórico quando "Chats temporários" está ativado no ChatGPT.
Várias controvérsias recentes indicam que os provedores baseados em API, como o OpenAI, não devem necessariamente ser deixados responsáveis pela proteção da privacidade do usuário, incluindo a descoberta de memorização emergente, o que significa que os LLMs maiores têm maior probabilidade de memorizar alguns exemplos de treinamento na íntegra e aumentar o risco de divulgação de dados específicos do usuário – entre outros incidentes públicos que persuadiram uma multidão de grandes empresas, como a Samsungà proibir LLMs para uso interno da empresa.
Pense diferente
Essa tensão entre a utilidade extrema e o risco potencial manifesto dos LLMs precisará de algumas soluções criativas – e a proposta da IBM parece ser um modelo básico interessante nessa linha.

Três reformulações baseadas na IBM que equilibram utilidade e privacidade de dados. Na faixa mais baixa (rosa), vemos um prompt que está além da capacidade do sistema de sanitizar de forma significativa.
A abordagem da IBM intercepta pacotes de saída para um LLM no nível da rede e os reescreve conforme necessário antes que o original possa ser enviado. As integrações de GUI um pouco mais elaboradas vistas no início do artigo são apenas ilustrativas de onde tal abordagem poderia chegar, se desenvolvida.
É claro que, sem autonomia suficiente, o usuário pode não entender que está recebendo uma resposta a uma reformulação ligeiramente alterada de sua submissão original. Essa falta de transparência equivale ao firewall de um sistema operacional bloqueando o acesso a um site ou serviço sem informar o usuário, que pode então, erroneamente, buscar outras causas para o problema.
Avisos como Passivos de Segurança
A perspectiva de "intervenção imediata" se assemelha bem à segurança do sistema operacional Windows, que evoluiu de uma colcha de retalhos de produtos comerciais (opcionalmente instalados) na década de 1990 para um conjunto não opcional e rigidamente aplicado de ferramentas de defesa de rede que vêm como padrão com uma instalação do Windows e que exigem algum esforço para desativar ou reduzir a intensidade.
Se a sanitização rápida evoluir como os firewalls de rede fizeram nos últimos 30 anos, a proposta do artigo da IBM pode servir como um modelo para o futuro: implementar um LLM totalmente local na máquina do usuário para filtrar prompts de saída direcionados a APIs LLM conhecidas. Esse sistema naturalmente precisaria integrar estruturas de GUI e notificações, dando aos usuários controle – a menos que as políticas administrativas o substituam, como geralmente ocorre em ambientes de negócios.
Os pesquisadores conduziram uma análise de uma versão de código aberto do CompartilharGPT conjunto de dados para entender com que frequência a privacidade contextual é violada em cenários do mundo real.
Lhama-3.1-405B-Instruir foi empregado como um modelo de "juiz" para detectar violações de integridade contextual. A partir de um grande conjunto de conversas, um subconjunto de conversas de turno único foi analisado com base na duração. O modelo de juiz então avaliou o contexto, as informações sensíveis e a necessidade de conclusão da tarefa, levando à identificação de conversas contendo potenciais violações de integridade contextual.
Um subconjunto menor dessas conversas, que demonstraram violações definitivas de privacidade contextual, foi analisado mais detalhadamente.
A estrutura em si foi implementada usando modelos menores do que os agentes de bate-papo típicos, como o ChatGPT, para permitir a implantação local por meio de Ollama.

Esquema para o sistema de intervenção rápida.
Os três LLMs avaliados foram Mixtral-8x7B-Instruct-v0.1; Lhama-3.1-8B-Instruir; e DeepSeek-R1-Distill-Llama-8B.
Os prompts do usuário são processados pela estrutura em três etapas: identificação de contexto; classificação de informações sensíveis; e reformulação.
Duas abordagens foram implementadas para classificação de informações sensíveis: dinâmico e estruturada classificação: a classificação dinâmica determina os detalhes essenciais com base em seu uso dentro de uma conversa específica; a classificação estruturada permite a especificação de uma lista predefinida de atributos sensíveis que são sempre considerados não essenciais. O modelo reformula o prompt se detectar detalhes sensíveis não essenciais, removendo-os ou reformulando-os para minimizar os riscos de privacidade, mantendo a usabilidade.
Regras da casa
Embora a classificação estruturada como conceito não esteja bem ilustrada no artigo da IBM, ela é mais semelhante ao método 'Definições de Dados Privados' no Solicitações privadas iniciativa, que fornece um programa autônomo para download que pode reescrever prompts – embora sem a capacidade de intervir diretamente no nível da rede, como a abordagem da IBM faz (em vez disso, o usuário deve copiar e colar os prompts modificados).

O executável Private Prompts permite uma lista de substituições alternativas para o texto inserido pelo usuário.
Na imagem acima, podemos ver que o usuário do Private Prompts é capaz de programar substituições automatizadas para instâncias de informações sensíveis. Em ambos os casos, para o Private Prompts e o método IBM, parece improvável que um usuário com presença de espírito e insight pessoal suficientes para curar tal lista realmente precisaria deste produto – embora ele pudesse ser construído ao longo do tempo conforme os incidentes se acumulam.
Em uma função de administrador, a classificação estruturada poderia funcionar como um firewall imposto ou uma rede de censura para funcionários; e em uma rede doméstica, ela poderia, com alguns ajustes difíceis, se tornar um filtro de rede doméstica para todos os usuários da rede; mas, em última análise, esse método é indiscutivelmente redundante, já que um usuário que pudesse configurá-lo corretamente também poderia se autocensurar efetivamente em primeiro lugar.
Opinião do ChatGPT
Desde que o ChatGPT lançou recentemente seu ferramenta de pesquisa profunda Para usuários pagos, usei este recurso para pedir ao ChatGPT que revisasse literatura relacionada e me desse uma opinião "cínica" sobre o artigo da IBM. Recebi a resposta mais defensiva e irrisória que o sistema já deu quando solicitado a avaliar ou analisar uma nova publicação:

ChatGPT-4o tem uma opinião negativa sobre o projeto IBM.
'Se os usuários não confiam na OpenAI, Google ou Anthropic para lidar com seus dados de forma responsável,' Posições do ChatGPT. Por que confiariam em uma camada de software de terceiros entre eles e a IA? O próprio intermediário se torna um novo ponto de falha — potencialmente registrando, manipulando incorretamente ou até mesmo vazando dados antes mesmo de chegarem ao LLM. Não resolve nada se apenas criar outra entidade para explorar os dados do usuário.
Essa objeção parece egoísta e não aplicável, dada a história de projetos de código aberto que genuinamente beneficiam os usuários finais por meio de esforços conjuntos de longo prazo de desenvolvedores e colaboradores da comunidade; e dado o potencial crescente de dispositivos móveis para executar – e até mesmo treinar – LLMs leves. Certamente, neste caso, o caso de uso não é terrivelmente exigente.
Em seguida, o ChatGPT ignora com segurança o objetivo de ter um LLM leve fornecendo supervisão de entrada para um LLM comercial que não poderia ser executado em uma máquina local (porque o LLM é muito grande e permitir acesso local é muito arriscado para a empresa que o fabrica):
'A filtragem de privacidade eficaz requer a compreensão da entrada antes de decidir o que remover. Se um intermediário for inteligente o suficiente para reconhecer dados sensíveis (nomes, endereços, detalhes financeiros), então ele já está processando e analisando esses dados — o que significa que ele tem que armazenar ou examinar exatamente aquilo que ele deveria apagar.
'Isso introduz um paradoxo: a) Um filtro burro (substituição básica de regex) será ineficaz e deixará de detectar riscos sutis de privacidade. b) Um filtro inteligente (reescritor com tecnologia LLM) precisa processar a entrada completa, o que o torna tão perigoso quanto o LLM original.
'Se você confia no intermediário o suficiente para ler e reescrever suas entradas, por que não confiar no próprio LLM?'
A resposta para a pergunta final aqui é que o LLM local é destinado a ser inteiramente do lado do usuário, e inevitavelmente de código aberto, com necessidade mínima ou zero de acesso à rede. Uma versão comercial equivalente, por mais bem-intencionada que seja no início, acabaria sendo vulnerável a mudanças corporativas e alterações nos termos de serviço, enquanto uma licença de código aberto adequada evitaria esse tipo de 'corrupção inevitável'.
O ChatGPT argumentou ainda que a proposta da IBM "quebra a intenção do usuário", uma vez que poderia reinterpretar um prompt em uma alternativa que afeta sua utilidade. No entanto, esta é uma problema muito mais amplo na higienização rápida, e não específico para este caso de uso em particular.
Para encerrar (ignorando sua sugestão de usar LLMs locais 'em vez disso', que é exatamente o que o artigo da IBM propõe), o ChatGPT opinou que o método da IBM representa uma barreira à adoção devido ao 'atrito do usuário' de implementar métodos de aviso e edição em um bate-papo.
Aqui, o ChatGPT pode estar certo; mas se uma pressão significativa surgir devido a novos incidentes públicos, ou se os lucros numa zona geográfica forem ameaçados pela regulamentação crescente (e a empresa se recusar a fazê-lo), abandonar completamente a região afetada), a história da tecnologia de consumo sugere que as salvaguardas acabarão por não será mais opcional de qualquer maneira.
Conclusão
Não podemos esperar realisticamente que a OpenAI implemente salvaguardas do tipo proposto no artigo da IBM e no conceito central por trás dele; pelo menos não de forma eficaz.
E certamente não de modo global; assim como a Apple blocos certos recursos do iPhone na Europa, e o LinkedIn tem regras diferentes para explorar os dados de seus usuários em diferentes países, é razoável sugerir que qualquer empresa de IA adotará os termos e condições mais lucrativos que sejam toleráveis para qualquer nação específica na qual ela opere — em cada caso, às custas do direito do usuário à privacidade de dados, conforme necessário.
Primeira publicação quinta-feira, 27 de fevereiro de 2025
Atualizado quinta-feira, 27 de fevereiro de 2025 15:47:11 devido a link incorreto relacionado à Apple – MA